教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

基于清洗方式的“臟”數(shù)據分類【大數(shù)據技術文章】

更新時間:2022年06月28日14時00分 來源:傳智教育 瀏覽次數(shù):

基于數(shù)據源的“臟”數(shù)據分類方法需要為每種類型的“臟”數(shù)據設計單獨的清洗方式。從數(shù)據清洗方式的設計者角度看,可以將“臟”數(shù)據分為“獨立型“臟”數(shù)據”和“依賴型“臟”數(shù)據”兩類?;谇逑捶绞降?ldquo;臟”數(shù)據分類如圖下所示。

臟數(shù)據分類
基于清洗方式的“臟”數(shù)據分類

從圖1-2中可以看出,獨立型“臟”數(shù)據包括單數(shù)據源和多數(shù)據源所有模式層及大多數(shù)實例層的數(shù)據質量問題;依賴型“臟”數(shù)據包括缺失數(shù)據和重復數(shù)據等“臟”數(shù)據。下面對獨立型“臟”數(shù)據和依賴型“臟”數(shù)據進行詳細講解。

1)獨立型“臟”數(shù)據

獨立型“臟”數(shù)據可通過記錄或本身屬性檢驗出是否包含“臟”數(shù)據,不需要依賴其他記錄或屬性檢測。獨立型“臟”數(shù)據使用“數(shù)據合法性檢驗規(guī)則”檢測數(shù)據字段的實際內容,若屬性值不符合規(guī)則,則視為“臟”數(shù)據,此時可調用已定義的相關清洗方式,將其變?yōu)闈M足規(guī)則的數(shù)據,從而可以保證數(shù)據的合法性。

合法性檢驗是判斷數(shù)據是否符合給定標準的過程,判斷標準是用戶根據業(yè)務需要定義的一些檢驗規(guī)則,該規(guī)則主要檢驗的是數(shù)據的格式、數(shù)據的范圍、數(shù)據的枚舉清單以及數(shù)據的相關性等方面,具體介紹如下。

·數(shù)據的格式主要是檢驗記錄的某個字段或字段組中的數(shù)據是否符合規(guī)范格式,這是針對模式層的“臟”數(shù)據進行檢驗。

·數(shù)據的范圍主要是檢查記錄的字段數(shù)據是否在預期的范圍內,常用于檢驗數(shù)字和有效值。

·數(shù)據的枚舉清單主要是參照某個已定義的清單檢驗字段的值。

·數(shù)據的相關性主要通過主鍵和外鍵的關系實現(xiàn)。


綜上所述,數(shù)據的合法性檢驗是一個非常耗時的環(huán)節(jié),但也是一個必不可少的環(huán)節(jié),因此,該環(huán)節(jié)應高度自動化。在設計清洗程序時,應該內置較多的檢驗函數(shù)和環(huán)節(jié),這樣可以減少用戶定制數(shù)據合法性檢驗規(guī)則的工作量。

數(shù)據轉換是將“臟”數(shù)據進行清洗的過程,包括模式轉換和實例轉換。其中,模式轉換用來解決模式層“臟”數(shù)據的問題,通過在元數(shù)據庫中定義表字段的映射規(guī)則、字段拆分規(guī)則以及字段值合并規(guī)則等協(xié)調數(shù)據模式之間的差異,從而實現(xiàn)數(shù)據的清洗;實例轉換是根據源數(shù)據字段的實際內容,結合一定的領域知識解決拼寫錯誤、輸人錯誤、不同的計量單位及過時的編碼等實例層“臟”數(shù)據問題。    

2)依賴型“臟”數(shù)據

依賴型“臟”數(shù)據主要包括缺失數(shù)據和重復數(shù)據等“臟”數(shù)據。由于需要綜合考慮與其他記錄間的關聯(lián),依賴型“臟”數(shù)據的處理很難有通用的方法。一般地,針對特定類型的“臟”數(shù)據設計特定的清洗方式。

(1)缺失數(shù)據

缺失數(shù)據主要包括數(shù)據空值和數(shù)據異常,具體介紹如下。

數(shù)據空值一共有兩種情況,即缺失值和空值。其中,缺失值是指值實際存在,但沒有存入值所屬字段中,如成年人都有身份證,若某個成年人的身份證號屬性值為空,就屬于缺失值;空值是指因實際并不存在而空缺的值,如動物沒有身份證,因此它們的身份證號屬性為空。

數(shù)據異常指的是用統(tǒng)計分析的方法識別出異常值。計算某個字段的平均值、眾數(shù)、中位數(shù)以及最大值、最小值等,可根據這些統(tǒng)計的值和相關的規(guī)則發(fā)現(xiàn)數(shù)據中的異常。

(2)重復數(shù)據

重復數(shù)據是指一個現(xiàn)實實體在數(shù)據集合中以多個不完全相同的記錄表示。檢測重復數(shù)據的方法有很多,例如基本的字段匹配、遞歸的字段匹配、Smith-Waterman算法以及基于編輯距離的字段匹配等方法。



0 分享到:
和我們在線交談!