Zookeeper 是在 Java 中客戶端主類,負責(zé)建立與 zookeeper 集群的會話, 并提供方法進行操作。 org.apache.zookeeper.Watcher 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-11-16 |傳智播客 |Zookeeper,大數(shù)據(jù)
整個Map階段流程大體如上圖所示。簡單概述:input File通過split被邏輯切分為多個split文件,通過Record按行讀取內(nèi)容給map(用戶自己實現(xiàn)的)進行處理,數(shù)據(jù)被map處理結(jié)束之后交給OutputCollector收集器,對其結(jié)果key進行分區(qū)(默認使用hash分區(qū)),然后寫入buffer,每個map task都有一個內(nèi)存緩沖區(qū),存儲著map的輸出結(jié)果,當(dāng)緩沖區(qū)快滿的時候需要將緩沖區(qū)的數(shù)據(jù)以一個臨時文件的方式存放到磁盤,當(dāng)整個map task結(jié)束后再對磁盤中這個map task產(chǎn)生的所有臨時文件做合并,生成最終的正式輸出文件,然后等待reduce task來拉數(shù)據(jù)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-10-24 |傳智播客 |傳智播客,大數(shù)據(jù)
首先map task會從本地文件系統(tǒng)讀取數(shù)據(jù),轉(zhuǎn)換成key-value形式的鍵值對集合 使用的是hadoop內(nèi)置的數(shù)據(jù)類型,比如longwritable、text等 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-10-24 |傳智播客 |傳智播客,大數(shù)據(jù),hadoop
1.1. 安裝JDK 因為Scala是運行在JVM平臺上的,所以安裝Scala之前要安裝JDK。 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-09-30 |傳智播客 |大數(shù)據(jù),Scala
構(gòu)建Spark Application的運行環(huán)境(啟動SparkContext),SparkContext向資源管理器(可以是Standalone、Mesos或YARN)注冊并申請運行Executor資源 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-09-11 |傳智播客 |傳智播客,Spark運行架構(gòu)
Spark 在生產(chǎn)環(huán)境下經(jīng)常會面臨transformation的RDD非常多(例如一個Job中包含1萬個RDD)或者具體transformation的RDD本身計算特別復(fù)雜或者耗時(例如計算時長超過1個小時),這個時候就要考慮對計算結(jié)果數(shù)據(jù)持久化保存 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-09-11 |傳智播客 |傳智播客,spark