在數(shù)據(jù)倉庫環(huán)境中,數(shù)據(jù)清洗可以在不同階段實(shí)現(xiàn),并且存在不同的清洗策略,目前數(shù)據(jù)清洗的策略主要分為一般的數(shù)據(jù)清洗策略和混合的數(shù)據(jù)清洗策略。下面針對數(shù)據(jù)清洗的兩種策略進(jìn)行講解... 查看全文>>
Python+大數(shù)據(jù)學(xué)習(xí)常見問題2022-09-02 |傳智教育 |數(shù)據(jù)清洗策略,大數(shù)據(jù)培訓(xùn)
有時(shí)候我們會(huì)碰到這樣的需求,例如,將有關(guān)年齡的數(shù)據(jù)進(jìn)行離散化(分桶)或拆分為“面元”,直白來說,就是將年齡分成幾個(gè)區(qū)間。Pandas的cut()函數(shù)能夠?qū)崿F(xiàn)離散化操作,該函數(shù)的語法格式如下... 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-09-01 |傳智教育 |離散化連續(xù)數(shù)據(jù),數(shù)據(jù)預(yù)處理
數(shù)據(jù)清洗的基本流程一共分為5個(gè)步驟,分別是數(shù)據(jù)分析、定義數(shù)據(jù)清洗的策略和規(guī)則、搜尋并確定錯(cuò)誤實(shí)例、糾正發(fā)現(xiàn)的錯(cuò)誤以及干凈數(shù)據(jù)回流。下面通過一張圖描述數(shù)據(jù)清洗的基本流程,具體如圖所示。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-08-30 |傳智教育 |數(shù)據(jù)清洗的基本流程
在項(xiàng)目的正常開發(fā)過程中,之前發(fā)布過的版本可能很會(huì)出bug,這時(shí)就需要停下來現(xiàn)在的開發(fā)任務(wù),先去修改bug,完成后再回來繼續(xù)開發(fā)任務(wù)Git中stash提供了保存現(xiàn)場的功能,可以把當(dāng)前工作區(qū)、暫存區(qū)中的內(nèi)容不需要提交而保存下來,轉(zhuǎn)而去做bug修復(fù),完成后再恢復(fù)現(xiàn)場,繼續(xù)開發(fā)工作。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-08-30 |傳智教育 |創(chuàng)建Debug分支
由于缺乏或者不準(zhǔn)確的數(shù)據(jù)統(tǒng)計(jì)信息(元數(shù)據(jù))和對成本的錯(cuò)誤估算(執(zhí)行計(jì)劃調(diào)度)導(dǎo)致生成的初始執(zhí)行計(jì)劃不理想在Spark3.x版本提供Adaptive Query Execution自適應(yīng)查詢技術(shù)通過在”運(yùn)行時(shí)”對查詢執(zhí)行計(jì)劃進(jìn)行優(yōu)化, 允許Planner在運(yùn)行時(shí)執(zhí)行可選計(jì)劃,這些可選計(jì)劃將會(huì)基于運(yùn)行時(shí)數(shù)據(jù)統(tǒng)計(jì)進(jìn)行動(dòng)態(tài)優(yōu)化, 從而提高性能。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-08-30 |傳智教育 |自適應(yīng)查詢技術(shù),Spark3.x版本新特性
isnull()函數(shù)與notnull()函數(shù)的功能是一樣的,都是判斷數(shù)據(jù)中是否存在空值和缺失值,不同之處在于,isnull()函數(shù)發(fā)現(xiàn)數(shù)據(jù)中有空值或缺失值的時(shí)候返回True... 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-08-29 |傳智教育 |isnull函數(shù),notnull函數(shù),Python大數(shù)據(jù)培訓(xùn)
本課程無縫銜接數(shù)據(jù)開發(fā)、人工智能、數(shù)據(jù)分析,后續(xù)挑戰(zhàn)30w年薪。從零基礎(chǔ)開始入門學(xué)習(xí)Python,開發(fā)環(huán)境使用新版python3.10,從軟件下載,IDE使用,全篇10章110節(jié),讓學(xué)生一步步了解Python,掌握Python基礎(chǔ)語法,掌握代碼編寫的規(guī)范和技巧,Bug調(diào)試能力,用Python第三方庫做出可視化圖表。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-08-25 |傳智教育 |2022新版Python零基礎(chǔ)入門教程
Robots協(xié)議又稱爬蟲協(xié)議,它是國際互聯(lián)網(wǎng)界通行的道德規(guī)范,用于保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息,確保網(wǎng)站用戶的個(gè)人信息和隱私不受侵犯。為了讓網(wǎng)絡(luò)爬蟲了解網(wǎng)站的訪問范圍,網(wǎng)站管理員通常會(huì)在網(wǎng)站的根目錄下放置一個(gè)符合Robots協(xié)議的robots.txt文件,通過這個(gè)文件告知網(wǎng)絡(luò)爬蟲在抓取該網(wǎng)站時(shí)存在哪些限制,哪些網(wǎng)頁是允許被抓取的,哪些網(wǎng)頁是禁止被抓取的。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-08-25 |傳智教育 |Robots協(xié)議,Robots文件中每個(gè)選項(xiàng)的含義
北京校區(qū)