首頁Python+大數(shù)據(jù)學(xué)習(xí)常見問題正文

什么是HDFS？HDFS的起源發(fā)展與應(yīng)用場景

更新時間:2023年07月04日16時53分來源:傳智教育瀏覽次數(shù):

HDFS是什么

HDFS(Hadoop Distributed File System )，意為：Hadoop分布式文件系統(tǒng)。是Apache Hadoop核心組件之一，HDFS是一種能夠在普通硬件上運行的分布式文件系統(tǒng)，它是高度容錯的，適應(yīng)于具有大數(shù)據(jù)集的應(yīng)用程序，它非常適于存儲大型數(shù)據(jù) (比如 TB 和 PB)。 HDFS使用多臺計算機存儲文件, 并且提供統(tǒng)一的訪問接口, 像是訪問一個普通文件系統(tǒng)一樣使用分布式文件系統(tǒng)。

2003年的時候, Google 發(fā)表的論文為該問題提供了可行的解決方案?！斗植际轿募到y(tǒng)(GFS)，可用于處理海量網(wǎng)頁的存儲》。Nutch的開發(fā)人員完成了相應(yīng)的開源實現(xiàn)HDFS，并從Nutch中剝離和MapReduce成為獨立項目HADOOP。

中文版

HDFS設(shè)計目標(biāo)

硬件故障(Hardware Failure)是常態(tài)， HDFS可能有成百上千的服務(wù)器組成，每一個組件都有可能出現(xiàn)故障。因此故障檢測和自動快速恢復(fù)是HDFS的核心架構(gòu)目標(biāo)。HDFS上的應(yīng)用主要是以流式讀取數(shù)據(jù)(Streaming Data Access)。HDFS被設(shè)計成用于批處理，而不是用戶交互式的。相較于數(shù)據(jù)訪問的反應(yīng)時間，更注重數(shù)據(jù)訪問的高吞吐量。

典型的HDFS文件大小是GB到TB的級別。所以，HDFS被調(diào)整成支持大文件(Large Data Sets)。它應(yīng)該提供很高的聚合數(shù)據(jù)帶寬，一個集群中支持?jǐn)?shù)百個節(jié)點，一個集群中還應(yīng)該支持千萬級別的文件。

大部分HDFS應(yīng)用對文件要求的是write-one-read-many訪問模型。一個文件一旦創(chuàng)建、寫入、關(guān)閉之后就不需要修改了。這一假設(shè)簡化了數(shù)據(jù)一致性問題，使高吞吐量的數(shù)據(jù)訪問成為可能。

移動計算的代價比之移動數(shù)據(jù)的代價低。一個應(yīng)用請求的計算，離它操作的數(shù)據(jù)越近就越高效。將計算移動到數(shù)據(jù)附近，比之將數(shù)據(jù)移動到應(yīng)用所在顯然更好。

HDFS被設(shè)計為可從一個平臺輕松移植到另一個平臺。這有助于將HDFS廣泛用作大量應(yīng)用程序的首選平臺。

HDFS存儲非常大的文件，比如成百上千MB、GB，甚至TB級別的文件，一次寫入多次讀取，可以做到低成本部署，可以運行在廉價PC設(shè)備上，不需要特別高的配置。