更新時間:2022年09月02日09時30分 來源:傳智教育 瀏覽次數(shù):
在數(shù)據(jù)倉庫環(huán)境中,數(shù)據(jù)清洗可以在不同階段實現(xiàn),并且存在不同的清洗策略,目前數(shù)據(jù)清洗的策略主要分為一般的數(shù)據(jù)清洗策略和混合的數(shù)據(jù)清洗策略。下面針對數(shù)據(jù)清洗的兩種策略進行講解。
按照數(shù)據(jù)清洗的實現(xiàn)方式與范圍劃分,一般分為手工清洗策略、自動清洗策略、特定應(yīng)用領(lǐng)域的清洗策略以及與特定應(yīng)用領(lǐng)域無關(guān)的清洗策略,這4種清洗策略的具體介紹如下。
·手工清洗策略,即通過人工直接修改“臟”數(shù)據(jù)。
·自動清洗策略,即通過編寫專門的應(yīng)用程序檢測并修改“臟”數(shù)據(jù)。
·特定應(yīng)用領(lǐng)域的清洗策略,即根據(jù)概率統(tǒng)計學(xué)原理檢測并修改數(shù)值異常的記錄。
·與特定應(yīng)用領(lǐng)域無關(guān)的清洗策略,即根據(jù)相關(guān)算法檢測并刪除重復(fù)記錄。
混合的數(shù)據(jù)清洗策略主要以自動清洗為主。在數(shù)據(jù)倉庫的數(shù)據(jù)初次裝載階段和增量裝載階段,可以通過編寫應(yīng)用程序?qū)崿F(xiàn)批量數(shù)據(jù)的自動清洗,但該清洗策略并不能完全涵蓋所有的錯誤類型。若無法按照已有策略識別某些錯誤類型,修改數(shù)據(jù)的工作就需要人工監(jiān)督和確認(rèn),這時系統(tǒng)會設(shè)定異常報警功能,通過用戶自身對錯誤的識別、理解和確認(rèn),最終實現(xiàn)數(shù)據(jù)清洗。