教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

HDFS存儲架構中主從節(jié)點關系?工作原理是什么?

更新時間:2020年12月30日11時44分 來源:傳智教育 瀏覽次數:

好口碑IT培訓

  HDFS是一個分布式的文件系統(tǒng),相比普通的文件系統(tǒng)來說更加復雜,因此在學習HDFS的操作之前有必要先來學習一下HDFS的存儲架構。如圖1所示。

圖1 HDFS存儲架構圖

  從圖1可以看出,HDFS采用主從架構(Master/Slave架構)。HDFS集群分別是由一個NameNode和多個的 DataNode組成。其中,NameNode是HDFS集群的主節(jié)點,負責管理文件系統(tǒng)的命名空間以及客戶端對文件的訪問;DataNode是集群的從節(jié)點,負責管理它所在節(jié)點上的數據存儲。HDFS分布式文件系統(tǒng)中的NameNode和DataNode兩種角色各司其職,共同協(xié)調完成分布式的文件存儲服務。

  那么,NameNode是如何管理分布式文件系統(tǒng)的命名空間呢?其實,在NameNode內部是以元數據的形式,維護著兩個文件,分別是FsImage鏡像文件和EditLog日志文件。其中,FsImage鏡像文件用于存儲整個文件系統(tǒng)命名空間的信息,EditLog日志文件用于持久化記錄文件系統(tǒng)元數據發(fā)生的變化。當NameNode啟動的時候,FsImage鏡像文件就會被加載到內存中,然后對內存里的數據執(zhí)行記錄的操作,以確保內存所保留的數據處于最新的狀態(tài),這樣就加快了元數據的讀取和更新操作。

  隨著集群運行時間長,NameNode中存儲的元數據信息越來越多,這樣就會導致EditLog日志文件越來越大。當集群重啟時,NameNode需要恢復元數據信息,首先加載上一次的FsImage鏡像文件,然后在重復EditLog日志文件的操作記錄,一旦EditLog日志文件很大,在合并的過程中就會花費很長時間,而且如果NameNode宕機就會丟失數據。為了解決這個問題,HDFS中提供了Secondary NameNode(輔助名稱節(jié)點),它并不是要取代掉NameNode也不是NameNode的備份, 它的職責主要是是周期性的把NameNode中的EditLog日志文件合并到FsImage鏡像文件中,從而減小EditLog日志文件的大小,縮短集群重啟時間,并且也保證了HDFS系統(tǒng)的完整性。

  Namenode存儲的是元數據信息,元數據信息并不是真正的數據,真正的數據是存儲在DataNode中。DataNode是負責管理它所在節(jié)點上的數據存儲。DataNode中的數據塊是以文件的類型存儲在磁盤中,其中包含兩個文件,一是數據本身(僅數據),二是每個數據塊對應的一個元數據文件(包括數據長度,塊數據校驗和,以及時間戳)。



猜你喜歡:

怎樣使用Spark Shell來讀取HDFS文件?

HDFS是什么?HDFS的演變過程?

HDFS的高可用架構是怎樣工作的?

傳智教育大數據培訓課程

0 分享到:
和我們在線交談!