常見的數(shù)據(jù)清洗方法有哪些?

更新時間:2022年08月12日09時53分來源:傳智教育瀏覽次數(shù):

好口碑IT培訓

　　常見的數(shù)據(jù)質(zhì)量問題主要包括缺失值、重復值以及錯誤值等問題。下面針對缺失值的清洗、重復值的清洗以及錯誤值的清洗進行講解。

　　1.缺失值的清洗

　　缺失值的清洗方法主要分為兩類，即忽略缺失值數(shù)據(jù)和填充缺失值數(shù)據(jù)。

　　(1)忽略缺失值數(shù)據(jù)方法是直接通過刪除屬性或實例忽略缺失值數(shù)據(jù)。

　　(2)填充缺失值數(shù)據(jù)方法是使用最接近缺失值的值替代缺失的值，包括人工填寫缺失值，使用一個全局常量填充空缺值(即將缺失的值用同一個常量Unknow替換)以及使用屬性的平均值、中間值、最大(小)值填充缺失值，或使用最可能的值(即通過回歸、貝葉斯形式化方法的工具或決策樹歸納確定的值)填充缺失值。

　　2.重復值的清洗

　　目前清洗重復值的基本思想是“排序和合并”。清洗重復值的方法主要有相似度計算和基于基本近鄰排序算法等方法。

　　(1)相似度計算是通過計算記錄的個別屬性的相似度，然后考慮每個屬性的不同權重值，進行加權平均后得到記錄的相似度，若兩個記錄相似度超過某一個閾值，則認為兩條記錄匹配，否則認為這兩條記錄指向不同的實體。

　　(2)基于基本近鄰排序算法的核心思想是為了減少記錄的比較次數(shù)，在按關鍵字排序后的數(shù)據(jù)集上移動一個大小固定的窗口，通過檢測窗口內(nèi)的記錄判定它們是否相似，從而確定并處理重復記錄。

　　3.錯誤值的清洗

　　錯誤值的清洗方法主要包括使用統(tǒng)計分析的方法識別可能的錯誤值(如偏差分析、識別不遵守分布或回歸方程的值)、使用簡單規(guī)則庫(即常識性規(guī)則、業(yè)務特定規(guī)則等)檢測出錯誤值、使用不同屬性間的約束以及使用外部的數(shù)據(jù)等方法檢測和處理錯誤值。

上一篇：大數(shù)據(jù)培訓：HDFS的高可用框架 下一篇：Sqoop工作原理是什么?