Cloudera Manager是用于管理CDH群集的端到端應用程序。Cloudera Manager通過對CDH集群的每個部分提供細粒度的可視性和控制來設置企業(yè)部署的標準,使運營商能夠提高性能,提高服務質量,提高合規(guī)性并降低管理成本... 查看全文>>
Python+大數據技術文章2021-12-08 |傳智教育 |ClouderaManager
ReduceTask的工作過程主要經歷了5個階段,分別是Copy階段、Merge階段、Sort階段、Reduce階段和Write階段,如下圖所示。 查看全文>>
Python+大數據技術文章2021-12-06 |傳智教育 |ReduceTask工作機制
什么是冪等性?用http舉例來說,一次或多次請求,得到地響應是一致的(網絡超時等問題除外)就是冪等性,換句話說,就是執(zhí)行多次操作與執(zhí)行一次操作的影響是一樣的。 查看全文>>
Python+大數據技術文章2021-12-06 |傳智教育 |Kafka怎樣實現生產者冪等性
MapReduce是一種編程模型,用于處理大規(guī)模數據集的并行運算。使用MapReduce執(zhí)行計算任務的時候,每個任務的執(zhí)行過程都會被分為兩個階段,分別是Map和Reduce,其中Map階段用于對原始數據進行處理,Reduce階段用于對Map階段的結果進行匯總,得到最終結果,這兩個階段的模型如下圖所示。 查看全文>>
Python+大數據技術文章2021-12-06 |傳智教育 |MapReduce編程模型
Flume的核心角色是Agent,通過Agent可以從其他服務中采集數據,并通過內部event流的形式傳輸到Sink,并根據需求最終向下一個Agent傳輸或者進行集中式存儲。 查看全文>>
Python+大數據技術文章2021-12-01 |傳智教育 |Flume日志采集系統(tǒng)結構圖
爬取網頁其實就是通過URL獲取網頁信息,網頁信息的實質是一段添加了JavaScript和CSS的HTML代碼。Python提供了一個抓取網頁信息的第三方模塊requests,requests模塊自稱“HTTP for Humans”,直譯過來的意思是專門為人類而設計的HTTP模塊,該模塊支持發(fā)送請求,也支持獲取響應。 查看全文>>
Python+大數據技術文章2021-11-19 |傳智教育 |使用requests模塊抓取網頁
利用json模塊的dumps()函數和loads()函數可以實現Python對象和JSON數據之間的轉換,下面來分別演示兩種函數的用法 查看全文>>
Python+大數據技術文章2021-11-18 |傳智教育 |利用函數實現Pytho對象和JSON數據的相互轉換
程序中與數據相關的操作分為數據的存儲與讀寫。下面將對如何存儲與讀寫不同維度的數據進行講解。1.數據存儲數據通常存儲在文件之中,為了方便后續(xù)的讀寫操作,數據通常需要按照約定的組織方式進行存儲。一維數據呈線性排列,一般用特殊字符分隔,具體示例如下。 查看全文>>
Python+大數據技術文章2021-11-18 |黑馬程序員 |存儲與讀寫不同維度的數據