更新時間:2022年11月15日17時47分 來源:傳智教育 瀏覽次數(shù):
有界數(shù)據(jù)集指的是有明確的開始和明確的結束的數(shù)據(jù),例如JSON文件、CSV文件、TXT文件、MySQL表格、Excel表格都是有界數(shù)據(jù)集,當你用它的時候,有明確的數(shù)據(jù)開始和明確的數(shù)據(jù)結束。對有界數(shù)據(jù)集的處理,從開始就是明確了范圍的。我們將這種處理稱為批處理,同時數(shù)據(jù)有邊界時(不會再產生新的數(shù)據(jù))的計算,稱之為離線計算。
無界數(shù)據(jù)是有明確的開始,但沒有明確的結束的數(shù)據(jù),有源源不斷的數(shù)據(jù)進來等待被處理。有明確的開始,沒有明確的結束,這樣的數(shù)據(jù)我們稱為數(shù)據(jù)流,那有哪些無界數(shù)據(jù)流呢?
- Kafka
Kafka中的topic的某個分區(qū)可以算是無界數(shù)據(jù)流。
- 數(shù)據(jù)有明確的開始:offset從0開始
- 沒有明確的結束:offset最大是多少?不知道,來一條數(shù)據(jù)加一個
對消費者來說:
- 數(shù)據(jù)的開始起于:消費者啟動的那一刻
- 數(shù)據(jù)的結束起于:不確定啥時候結束,有數(shù)據(jù)就繼續(xù)干活,沒數(shù)據(jù)就等待數(shù)據(jù)
> 無界數(shù)據(jù)流的處理,由于沒有明確的結束點,一般稱之為:流(源源不斷)計算
> 又是因為數(shù)據(jù)會源源不斷的到來的特性,所以不能斷網(wǎng),不能叫離線計算,也稱之為:在線計算、實時計算
> 批處理:從運行的那一刻開始,就一定會結束(正常情況)
> 流計算:從運行的那一刻開始,就沒想過結束(正常情況、報錯宕機不考慮)