DataFrame是什么意思?與RDD相比有哪些優(yōu)點？

更新時間:2021年03月23日11時56分來源:傳智教育瀏覽次數(shù):

DataFrame被稱為SchemaRDD。DataFrame使Spark具備了處理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)的能力。在Spark中，DataFrame是一種以RDD為基礎(chǔ)的分布式數(shù)據(jù)集，因此DataFrame可以完成RDD的絕大多數(shù)功能，在開發(fā)使用時，也可以調(diào)用方法將RDD和DataFrame進(jìn)行相互轉(zhuǎn)換。DataFrame的結(jié)構(gòu)類似于傳統(tǒng)數(shù)據(jù)庫的二維表格，并且可以從很多數(shù)據(jù)源中創(chuàng)建，例如結(jié)構(gòu)化文件、外部數(shù)據(jù)庫、Hive表等數(shù)據(jù)源。下面，通過圖1來了解DataFrame與RDD在結(jié)構(gòu)上的區(qū)別。

1616470817236_DataFrame與RDD區(qū)別.jpg

DataFrame與RDD區(qū)別

在圖1中，左側(cè)為RDD[Person]數(shù)據(jù)集，右側(cè)是DataFrame數(shù)據(jù)集。DataFrame可以看作是分布式的Row對象的集合，在二維表數(shù)據(jù)集的每一列都帶有名稱和類型，這就是Schema元信息，這使得Spark框架可以獲取更多的數(shù)據(jù)結(jié)構(gòu)信息，從而對在DataFrame背后的數(shù)據(jù)源以及作用于DataFrame之上數(shù)據(jù)變換進(jìn)行了針對性的優(yōu)化，最終達(dá)到大幅提升計算效率；同時，DataFrame與Hive類似，支持嵌套數(shù)據(jù)類型（例如Struct、Array、Map）。

RDD是分布式的Java對象的集合，例如圖4-3中的RDD[Person]數(shù)據(jù)集，雖然它以Person為類型參數(shù)，但是對象內(nèi)部之間的結(jié)構(gòu)相對于Spark框架本身是無法得知的，這樣在轉(zhuǎn)換數(shù)據(jù)形式時效率相對較低。

總的來說，DataFrame除了提供比RDD更豐富的算子以外，更重要的特點是提升Spark框架執(zhí)行效率、減少數(shù)據(jù)讀取時間以及優(yōu)化執(zhí)行計劃。有了DataFrame這個更高層次的抽象后，處理數(shù)據(jù)就更加簡單了，甚至可以直接用SQL來處理數(shù)據(jù)，這對于開發(fā)者來說，易用性有了很大的提升。不僅如此，通過DataFrame API或SQL處理數(shù)據(jù)，Spark 優(yōu)化器（Catalyst）會自動優(yōu)化，即使我們寫的程序或SQL不高效，程序也可以高效的執(zhí)行。

猜你喜歡：

spark筆記之RDD容錯機(jī)制之checkpoint

Scala的方法和函數(shù)介紹【大數(shù)據(jù)文章】

ReduceTask的工作機(jī)制【傳智大數(shù)據(jù)文章】

RDD為什么要進(jìn)行數(shù)據(jù)持久化？持久化詳細(xì)操作步驟示例

傳智教育大數(shù)據(jù)項目開發(fā)培訓(xùn)

上一篇：Spark SQL架構(gòu)的工作原理和工作流程是什么？ 下一篇：多種方法創(chuàng)建DataFrame【大數(shù)據(jù)技術(shù)文章】