更新時(shí)間:2022年08月25日09時(shí)20分 來源:傳智教育 瀏覽次數(shù):
隨著大數(shù)據(jù)技術(shù)掀起的計(jì)算機(jī)領(lǐng)域的新浪潮,無論是數(shù)據(jù)分析、數(shù)據(jù)挖掘還是機(jī)器學(xué)習(xí)、人工智能,都離不開數(shù)據(jù)這一主題。
在實(shí)際應(yīng)用中,初始數(shù)據(jù)一般是多數(shù)據(jù)源且格式多樣化的數(shù)據(jù),這些數(shù)據(jù)的質(zhì)量通常是良莠不齊的,或多或少存在問題,不能直接被使用到數(shù)據(jù)分析或數(shù)據(jù)挖掘工作中,直接使用會(huì)造成低質(zhì)量的分析或挖掘結(jié)果。
初始數(shù)據(jù)在進(jìn)行分析或挖掘之前需要經(jīng)過一定的處理,調(diào)整成符合分析或挖掘需求的數(shù)據(jù)。而從初始數(shù)據(jù)到得出分析或挖掘結(jié)果的整個(gè)過程中對(duì)數(shù)據(jù)經(jīng)過的一系列操作稱為數(shù)據(jù)預(yù)處理。
數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析或數(shù)據(jù)挖掘前的準(zhǔn)備工作,也是數(shù)據(jù)分析或數(shù)據(jù)挖掘中必不可少的一環(huán),它主要通過一系列的方法來處理“臟”數(shù)據(jù)、精準(zhǔn)地抽取數(shù)據(jù)、調(diào)整數(shù)據(jù)的格式,從而得到一組符合準(zhǔn)確、完整、簡(jiǎn)潔等標(biāo)準(zhǔn)的高質(zhì)量數(shù)據(jù),保證該數(shù)據(jù)能更好地服務(wù)于數(shù)據(jù)分析或數(shù)據(jù)挖掘工作。
據(jù)統(tǒng)計(jì)發(fā)現(xiàn),數(shù)據(jù)預(yù)處理的工作量占據(jù)整個(gè)數(shù)據(jù)挖掘工作的60%,由此可見,數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中扮演著舉足輕重的角色。
舉一個(gè)簡(jiǎn)單的例子,摩拜單車在經(jīng)過數(shù)據(jù)預(yù)處理前。戶編號(hào)、單車編號(hào)、單車類型是一些冗余的屬性,對(duì)分析目標(biāo)而言沒有任何意義;騎行時(shí)長(zhǎng)是對(duì)分析目標(biāo)起關(guān)鍵作用的屬性,但該列中有若干個(gè)空缺。
經(jīng)過預(yù)處理后,城市和騎行時(shí)長(zhǎng)列的數(shù)據(jù)比較完整,也根據(jù)城市名稱進(jìn)行了歸類,方便用戶快速地得出各城市用戶的平均騎行時(shí)長(zhǎng)。
顯而易見若使用預(yù)處理前的摩拜單車數(shù)據(jù)對(duì)各城市用戶的平均騎行時(shí)長(zhǎng)進(jìn)行分析,會(huì)導(dǎo)致分析結(jié)果存在一些偏差,相反地,使用預(yù)處理后的摩拜單車數(shù)據(jù)進(jìn)行分析,會(huì)得到一個(gè)較為準(zhǔn)確的分析結(jié)果。
北京校區(qū)