教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

數(shù)據(jù)預(yù)處理的流程和步驟是怎樣的?

更新時(shí)間:2023年03月16日17時(shí)39分 來源:傳智教育 瀏覽次數(shù):

數(shù)據(jù)預(yù)處理針對各種數(shù)據(jù)問題提供了相應(yīng)的解決方法,并將這些方法按照不同的功能劃分到處理過程中的每個(gè)步驟,以逐步實(shí)現(xiàn)提高數(shù)據(jù)質(zhì)量、整合多源數(shù)據(jù)、調(diào)整數(shù)據(jù)形式、保留重要數(shù)據(jù)的目標(biāo)。數(shù)據(jù)預(yù)處理的一般流程如下所示。

數(shù)據(jù)處理的一般流程

上圖所示的一般流程中各步驟的具體說明如下。

1.數(shù)據(jù)獲取

數(shù)據(jù)獲取是預(yù)處理的第一步,該步驟主要負(fù)責(zé)從文件、數(shù)據(jù)庫、網(wǎng)頁等眾多渠道中獲取數(shù)據(jù),以得到預(yù)處理的初始數(shù)據(jù),為后續(xù)的處理工作做好數(shù)據(jù)準(zhǔn)備。

2.數(shù)據(jù)清理

數(shù)據(jù)清理主要是將“臟”數(shù)據(jù)變成“干凈”數(shù)據(jù)的步驟。該步驟會通過一系列的方法對“臟”數(shù)據(jù)進(jìn)行處理,包括刪除重復(fù)數(shù)據(jù)、填充缺失數(shù)據(jù)、檢測異常數(shù)據(jù)等,以達(dá)到清除冗余數(shù)據(jù)、規(guī)范數(shù)據(jù)、糾正錯(cuò)誤數(shù)據(jù)的目的。數(shù)據(jù)清理的示意圖如下。

數(shù)據(jù)清理示意圖

3.數(shù)據(jù)集成

數(shù)據(jù)集成主要負(fù)責(zé)把多個(gè)數(shù)據(jù)源合并成一個(gè)數(shù)據(jù)源,以達(dá)到增大數(shù)據(jù)量的目的數(shù)據(jù)集成的示意圖如下

數(shù)據(jù)集成示意圖

值得一提的是,在合并多個(gè)數(shù)據(jù)源時(shí),因?yàn)閿?shù)據(jù)源對應(yīng)的現(xiàn)實(shí)實(shí)體的表達(dá)形式不同,所以要考慮實(shí)體識別、屬性冗余、數(shù)據(jù)值沖突等問題。

4.數(shù)據(jù)變換

數(shù)據(jù)變換主要負(fù)貴將數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问?,以降低?shù)據(jù)的復(fù)雜度。數(shù)據(jù)變換的示意圖如下 所示。

數(shù)據(jù)變換

5.數(shù)據(jù)規(guī)約

數(shù)據(jù)規(guī)約主要負(fù)責(zé)在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量,其方法包括降低數(shù)據(jù)的維度、刪除與數(shù)據(jù)分析或數(shù)據(jù)挖掘主題無關(guān)的數(shù)據(jù)等。數(shù)據(jù)規(guī)約的示意圖如下。

數(shù)據(jù)約規(guī)

需要說明的是,數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約都是數(shù)據(jù)預(yù)處理的主要步驟,它們沒有嚴(yán)格意義上的先后順序,在實(shí)際應(yīng)用時(shí)并非全部會被使用,具體要視業(yè)務(wù)需求而定。本節(jié)只簡單地介紹了每個(gè)步驟的目的,每個(gè)步驟中涉及的處理方法會在后文展開介紹。

0 分享到:
和我們在線交談!