教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

什么是HDFS?HDFS的起源發(fā)展與應用場景

更新時間:2023年07月04日16時53分 來源:傳智教育 瀏覽次數:

HDFS是什么

HDFS(Hadoop Distributed File System ),意為:Hadoop分布式文件系統(tǒng)。 是Apache Hadoop核心組件之一,HDFS是一種能夠在普通硬件上運行的分布式文件系統(tǒng),它是高度容錯的,適應于具有大數據集的應用程序,它非常適于存儲大型數據 (比如 TB 和 PB)。 HDFS使用多臺計算機存儲文件, 并且提供統(tǒng)一的訪問接口, 像是訪問一個普通文件系統(tǒng)一樣使用分布式文件系統(tǒng)。

HDFS分布式儲存系統(tǒng)

2003年的時候, Google 發(fā)表的論文為該問題提供了可行的解決方案?!斗植际轿募到y(tǒng)(GFS),可用于處理海量網頁的存儲》。Nutch的開發(fā)人員完成了相應的開源實現HDFS,并從Nutch中剝離和MapReduce成為獨立項目HADOOP。

中文版

HDFS設計目標

硬件故障(Hardware Failure)是常態(tài), HDFS可能有成百上千的服務器組成,每一個組件都有可能出現故障。因此故障檢測和自動快速恢復是HDFS的核心架構目標。HDFS上的應用主要是以流式讀取數據(Streaming Data Access)。HDFS被設計成用于批處理,而不是用戶交互式的。相較于數據訪問的反應時間,更注重數據訪問的高吞吐量。

典型的HDFS文件大小是GB到TB的級別。所以,HDFS被調整成支持大文件(Large Data Sets)。它應該提供很高的聚合數據帶寬,一個集群中支持數百個節(jié)點,一個集群中還應該支持千萬級別的文件。

大部分HDFS應用對文件要求的是write-one-read-many訪問模型。一個文件一旦創(chuàng)建、寫入、關閉之后就不需要修改了。這一假設簡化了數據一致性問題,使高吞吐量的數據訪問成為可能。

移動計算的代價比之移動數據的代價低。一個應用請求的計算,離它操作的數據越近就越高效。將計算移動到數據附近,比之將數據移動到應用所在顯然更好。

HDFS被設計為可從一個平臺輕松移植到另一個平臺。這有助于將HDFS廣泛用作大量應用程序的首選平臺。

HDFS存儲非常大的文件,比如成百上千MB、GB,甚至TB級別的文件, 一次寫入多次讀取,可以做到低成本部署,可以運行在廉價PC設備上,不需要特別高的配置。

HDFS應用場景

HDFS存儲非常大的文件,比如成百上千MB、GB,甚至TB級別的文件, 一次寫入多次讀取,可以做到低成本部署,可以運行在廉價PC設備上,不需要特別高的配置。

但不適合大量小文件,不支持頻繁任意修改。延時要求在毫秒級別的應用,不適合采用 HDFS,HDFS是為高吞吐數據傳輸設計的,延時較高。

HDFS應用場景

0 分享到:
和我們在線交談!