大多數(shù)情況下,我們完成的數(shù)據(jù)體系卻是依賴復(fù)雜、層級混亂的,因此,我們需要一套行之有效的數(shù)據(jù)組織和管理方法來讓我們的數(shù)據(jù)體系更有序,這就是談到的數(shù)據(jù)分層。數(shù)據(jù)分層并不能解決所有的數(shù)據(jù)問題,但是,數(shù)據(jù)分層卻可以給我們帶來如下的好處: 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-23 |傳智教育 |Hive數(shù)據(jù)倉庫,Hive安裝
線程由線程ID、當前指令指針(PC)、寄存器集合和堆棧組成,它不能獨立擁有系統(tǒng)資源,但它可與同屬一個進程的其它線程共享該進程所擁有的全部資源。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-20 |傳智教育 |什么是線程,線程的分類
map階段處理的數(shù)據(jù)如何傳遞給reduce階段,是MapReduce框架中關(guān)鍵的一個流程,這個流程就叫shuffle。本章節(jié)內(nèi)容來看一下shuffle的工作流程和工作機制。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-20 |傳智教育 |Shuffle的工作機制
combiner其實屬于優(yōu)化方案,由于帶寬限制,應(yīng)該盡量map和reduce之間的數(shù)據(jù)傳輸數(shù)量。它在Map 端把同一個key的鍵值對合并在一起并計算,計算規(guī)則與reduce一致,所以combiner也可以看作特殊的Reducer。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-20 |傳智教育 |Combiner的作用,partition的作用
在Unix/Linux操作系統(tǒng)中,通過Python的os模塊中封裝的fork()函數(shù)可以輕松地創(chuàng)建一個進程。fork()函數(shù)的聲明如下: 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-20 |傳智教育 |python創(chuàng)建進程
?在Scala中,不能用類名直接訪問類中的方法和字段,而是創(chuàng)建類的實例對象去訪問類中的方法和字段。Scala中提供了object這個關(guān)鍵字用來實現(xiàn)單例模式,若單例對象名與類名相同,則把這個單例對象稱作伴生對象,下面具通過體用代碼演示單例對象和伴生對象的創(chuàng)建方法。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-16 |傳智教育 |創(chuàng)建單例和半生對象
服務(wù)器每天會產(chǎn)生大量日志數(shù)據(jù),并且日志文件可能存在于每個應(yīng)用程序指定的data目錄中,在不使用其它工具的情況下,將服務(wù)器中的日志文件規(guī)范的存放在HDFS中。通過編寫簡單的shell腳本,用于每天自動采集服務(wù)器上的日志文件,并將海量的日志上傳至HDFS中。由于文件上傳時會消耗大量的服務(wù)器資源,為了減輕服務(wù)器的壓力,可以避開高峰期,通常會在凌晨進行上傳文件的操作。下面按照步驟實現(xiàn)Shell定時日志采集功能 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-16 |傳智教育 |定時日志數(shù)據(jù)采集,Shel定時日志上傳
異常處理的主要目的是防止因外部環(huán)境的變化導(dǎo)致程序產(chǎn)生無法控制的錯誤,而不是處理程序的設(shè)計錯誤。因此,將所有的代碼都用try語句包含起來的做法是不推薦的,try語句應(yīng)盡量只包含可能產(chǎn)生異常的代碼。Python中try-except語句還可以與else子句聯(lián)合使用,該子句放在except語句之后,表示當try子句沒有出現(xiàn)錯誤時應(yīng)執(zhí)行的代碼。其格式如下: 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-16 |傳智教育 |else子句聯(lián)合使用處理可能出現(xiàn)的程序異常