教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

什么是有界數(shù)據(jù)集?什么是無界數(shù)據(jù)流?

更新時間:2022年11月15日17時47分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓

有界數(shù)據(jù)集指的是有明確的開始和明確的結束的數(shù)據(jù),例如JSON文件、CSV文件、TXT文件、MySQL表格、Excel表格都是有界數(shù)據(jù)集,當你用它的時候,有明確的數(shù)據(jù)開始和明確的數(shù)據(jù)結束。對有界數(shù)據(jù)集的處理,從開始就是明確了范圍的。我們將這種處理稱為批處理,同時數(shù)據(jù)有邊界時(不會再產生新的數(shù)據(jù))的計算,稱之為離線計算。

無界數(shù)據(jù)是有明確的開始,但沒有明確的結束的數(shù)據(jù),有源源不斷的數(shù)據(jù)進來等待被處理。有明確的開始,沒有明確的結束,這樣的數(shù)據(jù)我們稱為數(shù)據(jù)流,那有哪些無界數(shù)據(jù)流呢?

- Kafka

Kafka中的topic的某個分區(qū)可以算是無界數(shù)據(jù)流。

- 數(shù)據(jù)有明確的開始:offset從0開始

- 沒有明確的結束:offset最大是多少?不知道,來一條數(shù)據(jù)加一個

對消費者來說:

- 數(shù)據(jù)的開始起于:消費者啟動的那一刻

- 數(shù)據(jù)的結束起于:不確定啥時候結束,有數(shù)據(jù)就繼續(xù)干活,沒數(shù)據(jù)就等待數(shù)據(jù)

> 無界數(shù)據(jù)流的處理,由于沒有明確的結束點,一般稱之為:流(源源不斷)計算

> 又是因為數(shù)據(jù)會源源不斷的到來的特性,所以不能斷網,不能叫離線計算,也稱之為:在線計算、實時計算

> 批處理:從運行的那一刻開始,就一定會結束(正常情況)

> 流計算:從運行的那一刻開始,就沒想過結束(正常情況、報錯宕機不考慮)

0 分享到:
和我們在線交談!