教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

大數(shù)據(jù)培訓(xùn):數(shù)據(jù)清洗的策略是什么?

更新時間:2022年09月02日09時30分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

  在數(shù)據(jù)倉庫環(huán)境中,數(shù)據(jù)清洗可以在不同階段實現(xiàn),并且存在不同的清洗策略,目前數(shù)據(jù)清洗的策略主要分為一般的數(shù)據(jù)清洗策略和混合的數(shù)據(jù)清洗策略。下面針對數(shù)據(jù)清洗的兩種策略進(jìn)行講解。

  1.一般的數(shù)據(jù)清洗策略

  按照數(shù)據(jù)清洗的實現(xiàn)方式與范圍劃分,一般分為手工清洗策略、自動清洗策略、特定應(yīng)用領(lǐng)域的清洗策略以及與特定應(yīng)用領(lǐng)域無關(guān)的清洗策略,這4種清洗策略的具體介紹如下。

  ·手工清洗策略,即通過人工直接修改“臟”數(shù)據(jù)。

  ·自動清洗策略,即通過編寫專門的應(yīng)用程序檢測并修改“臟”數(shù)據(jù)。

  ·特定應(yīng)用領(lǐng)域的清洗策略,即根據(jù)概率統(tǒng)計學(xué)原理檢測并修改數(shù)值異常的記錄。

  ·與特定應(yīng)用領(lǐng)域無關(guān)的清洗策略,即根據(jù)相關(guān)算法檢測并刪除重復(fù)記錄。

  2.混合的數(shù)據(jù)清洗策略

  混合的數(shù)據(jù)清洗策略主要以自動清洗為主。在數(shù)據(jù)倉庫的數(shù)據(jù)初次裝載階段和增量裝載階段,可以通過編寫應(yīng)用程序?qū)崿F(xiàn)批量數(shù)據(jù)的自動清洗,但該清洗策略并不能完全涵蓋所有的錯誤類型。若無法按照已有策略識別某些錯誤類型,修改數(shù)據(jù)的工作就需要人工監(jiān)督和確認(rèn),這時系統(tǒng)會設(shè)定異常報警功能,通過用戶自身對錯誤的識別、理解和確認(rèn),最終實現(xiàn)數(shù)據(jù)清洗。

0 分享到:
和我們在線交談!