更新時(shí)間:2021年01月05日16時(shí)10分 來(lái)源:傳智教育 瀏覽次數(shù):
Spark Streaming提供了一個(gè)高級(jí)抽象的流,即DStream(離散流)。DStream表示連續(xù)的數(shù)據(jù)流,可以通過(guò)Kafka、Flume和Kinesis等數(shù)據(jù)源創(chuàng)建,也可以通過(guò)現(xiàn)有DStream的高級(jí)操作來(lái)創(chuàng)建。DStream的內(nèi)部結(jié)構(gòu)如圖1所示。
圖1 DStream流的內(nèi)部結(jié)構(gòu)
從圖1可以看出,DStream的內(nèi)部結(jié)構(gòu)是由一系列連續(xù)的RDD組成,每個(gè)RDD都是一小段時(shí)間分隔開(kāi)來(lái)的數(shù)據(jù)集。實(shí)際上,對(duì)DStream的任何操作,最終都會(huì)轉(zhuǎn)變成對(duì)底層RDDs的操作。
猜你喜歡:
Spark與Hadoop有哪些區(qū)別?【大數(shù)據(jù)培訓(xùn)】
SparkMllib如何解決回歸問(wèn)題?[大數(shù)據(jù)培訓(xùn)]
RDD有什么特征?
2020-12-22win10下載安裝Scala及環(huán)境變量配置教程【親測(cè)生效】
2020-12-22RDD為什么要進(jìn)行數(shù)據(jù)持久化?持久化操作步驟
2020-12-22如何遠(yuǎn)程登錄Hadoop虛擬機(jī)和開(kāi)啟SSH服務(wù)?
2020-12-22如何使用HBase分布式數(shù)據(jù)庫(kù)?常見(jiàn)的Java API類(lèi)型有幾種?
2020-12-22RDD是如何操作數(shù)據(jù)轉(zhuǎn)換的?RDD轉(zhuǎn)換算子API示例
2020-12-21北京校區(qū)