教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

基于數(shù)據(jù)源的“臟”數(shù)據(jù)分類

更新時間:2022年07月07日18時34分 來源:傳智教育 瀏覽次數(shù):

通常情況下,將數(shù)據(jù)源中不完整、重復以及錯誤等有問題的數(shù)據(jù)稱為“臟”數(shù)據(jù)。由于數(shù)據(jù)倉庫的數(shù)據(jù)來自底層數(shù)據(jù)源,因此“臟”數(shù)據(jù)出現(xiàn)的原因與數(shù)據(jù)源有密切的關系?;跀?shù)據(jù)源的“臟”數(shù)據(jù)分類如圖所示。

臟數(shù)據(jù)分類
圖1基于數(shù)據(jù)源的“臟”數(shù)據(jù)分類

從圖1中可以看出,基于數(shù)據(jù)源的“臟”數(shù)據(jù)質量問題可以分為兩類,即單數(shù)據(jù)源問題和多數(shù)據(jù)源問題。單數(shù)據(jù)源問題和多數(shù)據(jù)源問題的具體介紹如下。

1)單數(shù)據(jù)源問題

單數(shù)據(jù)源的數(shù)據(jù)質量主要取決于它的模式對數(shù)據(jù)完整性約束的控制程度。由于數(shù)據(jù)模式和完整性約束控制了數(shù)據(jù)的范圍,如果單數(shù)據(jù)源沒有數(shù)據(jù)模式,就會對進入和存儲的數(shù)據(jù)。

缺乏相應的限制,此時很有可能出現(xiàn)拼寫錯誤的數(shù)據(jù)和不一致的數(shù)據(jù)。

單數(shù)據(jù)源的實例層問題是由于數(shù)據(jù)在模式層無法預防的錯誤和不一致引起的。典型的單數(shù)據(jù)源實例層問題包括缺失值(即一些記錄在某些屬性上沒有值)、拼寫錯誤(即在數(shù)據(jù)輸入時容易出現(xiàn))、屬性依賴沖突(即不滿足屬性間的依賴關系,如城市名與郵政編碼不滿足對應關系等)以及相似重復記錄(即由于數(shù)據(jù)輸入錯誤等原因導致有多條記錄表示現(xiàn)實世界中的同一個實體)。

對于不同范圍的數(shù)據(jù)質量問題,相應的數(shù)據(jù)清洗方式也會有所不同,清楚地了解目標數(shù)據(jù)存在的質量問題是提供完善的數(shù)據(jù)清洗方式的基礎。

2)多數(shù)據(jù)源問題

單數(shù)據(jù)源情況下出現(xiàn)的問題在多數(shù)據(jù)源情況下變得更加嚴重。每個數(shù)據(jù)源中都有可能包含“臟”數(shù)據(jù),而且每個數(shù)據(jù)源中的數(shù)據(jù)表示方法都各自不同,還有可能出現(xiàn)數(shù)據(jù)重復或矛盾沖突。因為在很多情況下,各個數(shù)據(jù)源都是為了滿足某一個特定需要而單獨設計、配置和維護,這很大程度上導致數(shù)據(jù)庫管理系統(tǒng)、數(shù)據(jù)模型、模式設計和實際數(shù)據(jù)的異構性。多數(shù)據(jù)源中存在的與模式相關的質量問題主要是名字沖突和結構沖突。名字沖突表現(xiàn)在同一個名字表示不同的對象,或不同的名字表示同一個對象;結構沖突的典型表現(xiàn)是不同的數(shù)據(jù)源中同一對象用不同的方式表示。

除模式相關的質量問題外,許多質量問題只出現(xiàn)在實例層次上。單數(shù)據(jù)源中出現(xiàn)的各種問題都將以不同方式出現(xiàn)在不同的數(shù)據(jù)源中,如重復記錄、矛盾記錄等。即使在具有相同屬性名稱和數(shù)據(jù)類型的情況下,各異構數(shù)據(jù)源中的數(shù)據(jù)也可能有不同的表示方式,或不同的解釋在不同的數(shù)據(jù)源中信息的聚集程度以及代表的時間點都有可能不同。

0 分享到:
和我們在線交談!