教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

數(shù)據(jù)清洗的原理是什么?

更新時(shí)間:2022年11月14日10時(shí)09分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

  數(shù)據(jù)清洗是利用相關(guān)技術(shù)將“臟”數(shù)據(jù)轉(zhuǎn)換為滿足質(zhì)量要求的數(shù)據(jù)。下面通過一張圖描述數(shù)據(jù)清洗的原理,具體如圖1-3所示。

數(shù)據(jù)清洗的原理

  圖1-3 數(shù)據(jù)清洗的原理

  從圖1-3中可以看出,同一值的不同表示、拼寫錯(cuò)誤、不同的命名習(xí)慣、不合法的值以及空值都會導(dǎo)致“臟”數(shù)據(jù)出現(xiàn),通過定義好的數(shù)據(jù)清洗策略和清洗規(guī)則(即數(shù)理統(tǒng)計(jì)技術(shù)、數(shù)據(jù)挖掘技術(shù)等清洗策略)對“臟”數(shù)據(jù)進(jìn)行清洗,得到滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。

  需要注意的是,數(shù)據(jù)清洗的目的是解決“臟”數(shù)據(jù)問題,即不是將“臟”數(shù)據(jù)洗掉,而是將“臟”數(shù)據(jù)洗干凈。干凈的數(shù)據(jù)指的是滿足質(zhì)量要求的數(shù)據(jù)。

0 分享到:
和我們在線交談!