簡單舉例，MapReduce是如何進行計算的

更新時間:2020年10月16日15時02分來源:傳智播客瀏覽次數(shù):

　　MapReduce的核心思想是“分而治之”。所謂“分而治之”就是把一個復雜的問題，按照一定的“分解”方法分為等價的規(guī)模較小的若干部分，然后逐個解決，分別找出各部分的結(jié)果，把各部分的結(jié)果組成整個問題的結(jié)果，這種思想來源于日常生活與工作時的經(jīng)驗，同樣也完全適合技術(shù)領域。

　　為了更好地理解“分而治之”思想，我們先來舉一個生活的例子。例如，某大型公司在全國設立了分公司，假設現(xiàn)在要統(tǒng)計公司今年的營收情況制作年報，有兩種統(tǒng)計方式，第1種方式是全國分公司將自己的賬單數(shù)據(jù)發(fā)送至總部，由總部統(tǒng)一計算公司今年的營收報表;第2種方式是采用分而治之的思想，也就是說，先要求分公司各自統(tǒng)計營收情況，再將統(tǒng)計結(jié)果發(fā)給總部進行統(tǒng)一匯總計算。這兩種方式相比，顯然第2種方式的策略更好，工作效率更高效。

　　MapReduce作為一種分布式計算模型，它主要用于解決海量數(shù)據(jù)的計算問題。使用MapReduce操作海量數(shù)據(jù)時，每個MapReduce程序被初始化為一個工作任務，每個工作任務可以分為Map和Reduce兩個階段，具體介紹如下：

　　· Map階段：負責將任務分解，即把復雜的任務分解成若干個“簡單的任務”來并行處理，但前提是這些任務沒有必然的依賴關系，可以單獨執(zhí)行任務。

　　· Reduce階段：負責將任務合并，即把Map階段的結(jié)果進行全局匯總。

　　下面通過一個圖來描述上述MapReduce的核心思想，具體如圖1所示。