Hadoop如何實現二次排序？【大數據面試題】

更新時間:2021年05月26日14時28分來源:傳智教育瀏覽次數:

問題分析

即對key和value雙排序。默認情況下，Map輸出的結果會對Key進行默認的排序，但是有時候需要對Key排序的同時還需要對Value進行排序，這時候就要用到二次排序了。

核心答案講解

有兩種方法進行二次排序，分別為：buffer and in memory sort和 value-to-key conversion。
buffer and in memory sort
主要思想是：在reduce()函數中，將某個key對應的所有value保存到內存中，然后進行排序。這種方法最大的缺點是：可能會造成out of memory。

value-to-key conversion
主要思想是：將key和部分value拼接成一個組合key（實現WritableComparable接口或者調用 setSortComparatorClass函數），這樣reduce獲取的結果便是先按key排序，后按value排序的結果，需要注意的是，用戶需要自己實現Paritioner，以便只按照key進行數據劃分。Hadoop顯式的支持二次排序，在Configuration類中有個 setGroupingComparatorClass()方法，可用于設置排序被group的key值。

問題擴展

MapReduce：寫Mapreduce進行數據處理，需要利用java、python等語言進行開發(fā)調試，如果沒有一項技術（如 Java）基礎，幾乎不可能學會 MapReduce。

Hive：Hive 構建于傳統(tǒng)的數據庫和數據倉庫理念之上。它對待數據的方式就像是它有一個基于 SQL 或基于架構的結構。Apache Hive提供了一種更具體和更高級的語言，通過運行Hadoop作業(yè)來查詢數據，而不是直接編寫腳本來逐步操作Hadoop上的幾個MapReduce作業(yè)。Hive的初步設計思路在于提供與SQL類似的使用體驗，開發(fā)人員只需要掌握Sql相關的知識就可以使用。

項目應用

在大數據的復雜統(tǒng)計分析中，可以使用Hive的SQL功能來實現排序等不同的算法，降低入門難度，提高研發(fā)效率。

猜你喜歡：

Hadoop集群有幾種部署模式？各種模式有什么特點？

Hadoop安裝教程，8大安裝目錄的內容和作用分別是什么？

hadoop大數據開發(fā)培訓機構推薦

Hadoop實現join的有幾種方法？【大數據面試題】

傳智教育Python+大數據開發(fā)培訓

上一篇：寫爬蟲是用多進程好?還是多線程好? 下一篇：MySQL的隔離級別包含哪些內容？