Python大數(shù)據(jù)培訓：MapTask工作原理

更新時間:2022年05月26日10時15分來源:傳智教育瀏覽次數(shù):

好口碑IT培訓

　　今天的Python大數(shù)據(jù)培訓課程我們講一下MapTask工作原理，MapTask作為MapReduce工作流程的前半部分，它主要經(jīng)歷了5個階段，分別是Read階段、Map階段、Collect階段、Spill階段和Combine階段，如圖4-7所示。

1653530756411_MapTask工作原理.jpg

　　圖4-7MapTask工作原理

　　關(guān)于MapTask這5個階段的相關(guān)介紹如下：

　?。?）Read階段：MapTask通過用戶編寫的RecordReader，從輸入的InputSplit中解析出一個個key/value。

　?。?）Map階段：將解析出的key/value交給用戶編寫的map()函數(shù)處理，并產(chǎn)生一系列新的key/value。

　?。?）Collect階段：在用戶編寫的map()函數(shù)中，數(shù)據(jù)處理完成后，一般會調(diào)用outputCollector.collect()輸出結(jié)果，在該函數(shù)內(nèi)部，它會將生成的key/value分片（通過調(diào)用partitioner），并寫入一個環(huán)形內(nèi)存緩沖區(qū)中。

　?。?）Spill階段：即“溢寫”，當環(huán)形緩沖區(qū)滿后，MapReduce會將數(shù)據(jù)寫到本地磁盤上，生成一個臨時文件。需要注意的是，將數(shù)據(jù)寫入本地磁盤前，先要對數(shù)據(jù)進行一次本地排序，并在必要時對數(shù)據(jù)進行合并、壓縮等操作。

　?。?）Combine階段：當所有數(shù)據(jù)處理完成以后，MapTask會對所有臨時文件進行一次合并，以確保最終只會生成一個數(shù)據(jù)文件。

上一篇：數(shù)據(jù)庫中數(shù)據(jù)的儲存結(jié)構(gòu)和方式是什么？ 下一篇：數(shù)據(jù)分析常見的誤區(qū)有哪些？