教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

大數(shù)據(jù)知識(shí)培訓(xùn):Hadoop的生態(tài)系統(tǒng)分別是什么?(上)

更新時(shí)間:2022年07月15日10時(shí)11分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

  隨著Hadoop的不斷發(fā)展,Hadoop生態(tài)系統(tǒng)越來越完善,現(xiàn)如今已經(jīng)發(fā)展成一個(gè)龐大的生態(tài)體系,如圖1-3所示。

  從圖1-3中可以看出,Hadoop生態(tài)系統(tǒng)包含了很多子系統(tǒng),下面介紹一些常見的子系統(tǒng),具體如下。

Hadoop生態(tài)圈圖

  圖1-3 Hadoop生態(tài)圈

  1.分布式存儲(chǔ)系統(tǒng)(HDFS)

  HDFS是Hadoop分布式文件系統(tǒng)的簡稱,它是Hadoop生態(tài)系統(tǒng)中的核心項(xiàng)目之一,是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理基礎(chǔ)。HDFS具有高容錯(cuò)性的數(shù)據(jù)備份機(jī)制,它能檢測(cè)和應(yīng)對(duì)硬件故障,并在低成本的通用硬件上運(yùn)行。另外,HDFS具備流式的數(shù)據(jù)訪問特點(diǎn),提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應(yīng)用程序。

  2.MapReduce分布式計(jì)算框架

  MapReduce是一種計(jì)算模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。“Map”對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵值對(duì)形式中間結(jié)果;“Reduce”則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。MapReduce這種“分而治之”的思想,極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。

  3.YARN資源管理平臺(tái)

  YARN資源管理平臺(tái)(Yet Another Resource Negotiator)是Hadoop2.0中的資源管理器,它可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。

  4.Sqoop數(shù)據(jù)遷移工具

  Sqoop是一款開源的數(shù)據(jù)導(dǎo)入導(dǎo)出工具,主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的轉(zhuǎn)換,它可以將一個(gè)關(guān)系數(shù)據(jù)庫(例如,MySQL、Oracle等)中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)出到關(guān)系數(shù)據(jù)庫中,使數(shù)據(jù)遷移變得非常方便。

  5.Mahout數(shù)據(jù)挖掘算法庫

  Mahout數(shù)據(jù)挖掘算法庫是Apache旗下的一個(gè)開源項(xiàng)目,它提供了一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘。此外,通過使用Apache Hadoop庫,Mahout可以有效地?cái)U(kuò)展到云中。

0 分享到:
和我們?cè)诰€交談!