教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

InputFormat接口的定義代碼怎么設(shè)置?

更新時間:2020年11月03日17時38分 來源:傳智播客 瀏覽次數(shù):

      Hadoop中有五個編程組件,分別是:InputFormat、Mapper、Reducer、Parttioner、OutputFromat和Canbiner,其中Canbiner的作用是對Map階段的輸出的重復數(shù)據(jù)先做一次合并計算,所以不屬于必屬件。本節(jié)課就來對MapReducer的這5個必備組件的代碼操作步驟做一個簡單介紹:

  InputFormat主要用于描述輸入數(shù)據(jù)的格式,它提供以下兩個功能:

  數(shù)據(jù)切分:按照某個策略將輸入數(shù)據(jù)切分成若干個分片(split),以便確定MapTask個數(shù)以及對應(yīng)的分片(split)。

  ·為Mapper提供輸入數(shù)據(jù):給定某個分片(split),將其解析成一個一個的key/value鍵值對。

  · Hadoop自帶了一個 InputFormat接口,該接口的定義代碼如下所示:

public abstract class InputFormat {

     public abstract List getSplits(JobContext context

               ) throws IOException, InterruptedException;

     public abstract RecordReadercreateRecordReader(InputSplit split,

                     TaskAttemptContext context

               ) throws IOException, InterruptedException;

  }

  從上述代碼可以看出,InputFormat接口定義了getSplits()和createRecordReader()兩個方法,其中,getSplits()方法負責將文件切分為多個分片(split),createRecordReader()方法負責創(chuàng)建RecordReader對象,用來從分片中讀取數(shù)據(jù)。下面,我們主要對getSplits()方法進行介紹。
      getSplits()方法主要實現(xiàn)了邏輯切片機制。其中,切片的大小splitSize是由3個值確定的,即minSize、maxSize和blockSize。
     minSize:splitSize的最小值,由參數(shù)mapred.min.split.size確定,可在mapred-site.xml中進行配置,默認為1MB。
     maxSize:splitSize的最大值,由參數(shù)mapreduce.jobtracker.split.metainfo.maxsize確定,可在mapred-site.xml中進行設(shè)置,默認值為10MB。
     blockSize:HDFS中文件存儲塊的大小,由參數(shù)dfs.block,size確定,可在hdf-site.xml中進行修改,默認為128MB。

    猜你喜歡:

 Znode儲存結(jié)構(gòu)是怎樣的?節(jié)點類型有幾種?

 Spark的集群安裝與配置簡介

 傳智播客大數(shù)據(jù)培訓課程

0 分享到:
和我們在線交談!