如何使用 parquet file 建立乙個 RDD 的同時讀進 case class 結構?

時間 2021-05-31 19:12:05

1樓:連城

目前並沒有自動將Row對映到case class的方法,只能在map中手工構造case class。不過以下寫法可能更方便些:

case class Record(key: Int, value: Double, comment: String)

df.map

即將發布的Spark 1.3.0中,SchemaRDD被公升級為DataFrame,提供了一系列類似於R和Pandas的DataFrame的API,大大簡化了常見的資料處理任務,大部分情況下不需要再將Row手工轉為case class即可完成需要的資料變換。

DataFrame/SchemaRDD相對於裝著case class的普通RDD的優勢在於帶有schema資訊,所有變換都轉換問關係查詢計畫。查詢優化器可以針對具體的查詢和資料來源型別進行查詢優化。

1.2.0以前SchemaRDD的DSL API尚不完整,使用起來還不是十分方便,不少時候不得不退化到普通RDD進行計算。

1.3.0的DataFrame API已經十分完整,實際上不再推薦直接使用普通RDD API,而是推薦使用DataFrame API以利用Spark SQL的query optimizer。

只有在資料流水線末尾獲取最終結果的時候才需要將DataFrame再轉為裝著case class或其他型別的普通RDD。

參考:Databricks blog: Introducing DataFrames in Spark for Large Scale Data Science

如何使用Spark Streaming Kafka如何實現精確一次語義?

小怪獸 消費端精準一次性只需要保證至少一次 冪等性即可,至少一次比較好保證,比如我們手動維護 offset,先消費資料,再提交或維護 offset,這樣至少可以保證不丟資料.存在的問題就是在消費完畢後,維護 offset 時,消費端掛掉了導致 offset 未更新,下次重複消費.所以關鍵在於如何控制...

如何使用面霜?

我要變富婆 1 取用一些面霜,避免用手指直接挖去面霜,我們的手指上帶有細菌,直接挖取,容易造成面霜變質,然後用點塗法,將面霜點在臉頰 額頭 下巴和鼻尖處,如果是冬天使用,最好先將面霜放置手心捂熱後在使用,便於面霜更好吸收。2 然後將面霜從額頭中間向外抹開,輕輕按摩打圈按壓,幫助面霜吸收。3 額頭按摩...

眼霜如何使用?

變形金剛 亂塗眼霜老十歲!漂亮的小仙女來分享一下眼部除衰老心得嘍!眼睛就是乙個人的面部五官的核心,有一雙好看的眼睛整個人看起來都會精神很多。所以眼部護理真的很重要!特別是女生!大部分人每天都會很遲睡,所以眼袋黑眼圈就會很嚴重,而且眼睛周圍就會開始長皺紋,所以幾乎是每個女生都會必備的眼部抗衰老的眼霜了...