更新時(shí)間:2022年09月02日09時(shí)30分 來源:傳智教育 瀏覽次數(shù):
在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,數(shù)據(jù)清洗可以在不同階段實(shí)現(xiàn),并且存在不同的清洗策略,目前數(shù)據(jù)清洗的策略主要分為一般的數(shù)據(jù)清洗策略和混合的數(shù)據(jù)清洗策略。下面針對(duì)數(shù)據(jù)清洗的兩種策略進(jìn)行講解。
按照數(shù)據(jù)清洗的實(shí)現(xiàn)方式與范圍劃分,一般分為手工清洗策略、自動(dòng)清洗策略、特定應(yīng)用領(lǐng)域的清洗策略以及與特定應(yīng)用領(lǐng)域無(wú)關(guān)的清洗策略,這4種清洗策略的具體介紹如下。
·手工清洗策略,即通過人工直接修改“臟”數(shù)據(jù)。
·自動(dòng)清洗策略,即通過編寫專門的應(yīng)用程序檢測(cè)并修改“臟”數(shù)據(jù)。
·特定應(yīng)用領(lǐng)域的清洗策略,即根據(jù)概率統(tǒng)計(jì)學(xué)原理檢測(cè)并修改數(shù)值異常的記錄。
·與特定應(yīng)用領(lǐng)域無(wú)關(guān)的清洗策略,即根據(jù)相關(guān)算法檢測(cè)并刪除重復(fù)記錄。
混合的數(shù)據(jù)清洗策略主要以自動(dòng)清洗為主。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)初次裝載階段和增量裝載階段,可以通過編寫應(yīng)用程序?qū)崿F(xiàn)批量數(shù)據(jù)的自動(dòng)清洗,但該清洗策略并不能完全涵蓋所有的錯(cuò)誤類型。若無(wú)法按照已有策略識(shí)別某些錯(cuò)誤類型,修改數(shù)據(jù)的工作就需要人工監(jiān)督和確認(rèn),這時(shí)系統(tǒng)會(huì)設(shè)定異常報(bào)警功能,通過用戶自身對(duì)錯(cuò)誤的識(shí)別、理解和確認(rèn),最終實(shí)現(xiàn)數(shù)據(jù)清洗。
Robots協(xié)議是什么?Robots文件中選項(xiàng)的含義
2022-08-25為什么臟數(shù)據(jù)要提前進(jìn)行數(shù)據(jù)預(yù)處理?
2022-08-25大數(shù)據(jù)開發(fā)崗會(huì)被淘汰嗎?大數(shù)據(jù)崗位已經(jīng)飽和了嗎?
2022-08-22用Python做數(shù)據(jù)分析的好處
2022-08-19什么是增量式爬蟲?什么是深層網(wǎng)絡(luò)爬蟲?
2022-08-18Python學(xué)習(xí)之IDE集成開發(fā)環(huán)境相關(guān)介紹
2022-08-16北京校區(qū)