更新時間:2022年07月15日10時50分 來源:傳智教育 瀏覽次數(shù):
基于Hadoop的可擴(kuò)展性,它能夠便捷地單一服務(wù)器向上千臺服務(wù)器進(jìn)行擴(kuò)展,上節(jié)內(nèi)容我們講到了Hadoop的生態(tài)系統(tǒng)組件,本節(jié)我們將把剩余的生態(tài)組件介紹完畢。
1.HBase分布式數(shù)據(jù)庫
HBase是Google Bigtable克隆版,它是一個針對結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動態(tài)模式數(shù)據(jù)庫。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同,HBase采用了BigTable的數(shù)據(jù)模型:增強(qiáng)的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時間戳構(gòu)成。HBase提供了對大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時讀寫訪問,同時,HBase中保存的數(shù)據(jù)可以使用MapReduce來處理,它將數(shù)據(jù)存儲和并行計算完美地結(jié)合在一起。
2.Zookeeper分布式協(xié)調(diào)服務(wù)
Zookeeper是一個分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個開源的實(shí)現(xiàn),是Hadoop和HBase的重要組件。它是一個為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括配置維護(hù)、域名維護(hù)、分布式同步、組服務(wù)等用于構(gòu)建分布式應(yīng)用,減少分布式應(yīng)用程序所承擔(dān)的協(xié)調(diào)任務(wù)。
3.Hive基于Hadoop的數(shù)據(jù)倉庫
Hive是基于Hadoop的一個分布式數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是操作簡單,降低學(xué)習(xí)成本,可以通過類SQL語句快速實(shí)現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
9.Flume日志收集工具
Flume是Cloudera提供的一個高可用,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)文件中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方(可定制)的能力。