教育行業(yè)A股IPO第一股(股票代碼 003032)

全國(guó)咨詢/投訴熱線:400-618-4000

大數(shù)據(jù)培訓(xùn):抽樣的必要性有哪些?

更新時(shí)間:2022年11月15日14時(shí)12分 來(lái)源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

  抽樣工作到底是不是必需的呢?其實(shí)不是。一般我們?cè)跀?shù)據(jù)獲取量很少或者不容易處理海量數(shù)據(jù)的時(shí)候,抽樣工作就會(huì)經(jīng)常派上用場(chǎng),抽樣工作主要有以下幾個(gè)方面的背景來(lái)源。

  (1)數(shù)據(jù)計(jì)算資源不足,不抽樣往往不能計(jì)算海量數(shù)據(jù)。

  (2)數(shù)據(jù)采集限制。比方說(shuō),做社會(huì)調(diào)查必須采用抽樣方法,因?yàn)槲覀儾荒茚槍?duì)所有人群做調(diào)研分析。

  (3)時(shí)效性要求以極小的數(shù)據(jù)計(jì)算量來(lái)實(shí)現(xiàn)對(duì)整體數(shù)據(jù)的統(tǒng)計(jì)分析,在時(shí)效性方面大大增強(qiáng)。

  如果存在上述條件限制或有類似強(qiáng)制性要求,那么抽樣工作仍然必不可少。即使在數(shù)據(jù)計(jì)算資源充足、數(shù)據(jù)采集端可以采集更多的數(shù)據(jù)并且可以通過(guò)多種方式滿足時(shí)效性要求的前提下,抽樣工作在很多時(shí)候也是必要的。

  大數(shù)據(jù)分析師平時(shí)會(huì)接觸很多數(shù)據(jù)預(yù)處理工作,那么是不是每次做數(shù)據(jù)分析都要做一遍呢?答案當(dāng)然不是,數(shù)據(jù)預(yù)處理是為后續(xù)的分析和建模服務(wù)的,如果后續(xù)的分析和建模不依賴于特定的數(shù)據(jù)問(wèn)題,那么特定的預(yù)處理工作可以不做。例如:

  (1)CART(分類回歸樹(shù))對(duì)異常值不敏感,因此無(wú)須處理異常值;

  (2)DBSCAN(基于密度的帶有噪聲的空間聚類)模型使用的是基于密度的方法而非距離相似度的方法,因此不需做數(shù)據(jù)的標(biāo)準(zhǔn)化和唯一化。

  因此,所有的預(yù)處理工作都基于用戶對(duì)整個(gè)數(shù)據(jù)工作流程的理解,尤其是理解模型、算法對(duì)于特定問(wèn)題的依賴和受影響程度。

0 分享到:
和我們?cè)诰€交談!