Home > 一般 > Hadoop で忘れがちな点

Hadoop で忘れがちな点

ひとつのファイルは HDFS 上に物理的にチャンクに区切られて置かれる.FileSplit はひとつのファイルを論理的に区切ったもの.ひとつの FileSplit に対して Map のジョブひとつが対応して実行される.細かくは,ひとつの FileSplit がひとつの RecordReader を生成し,その RecordReader がその Map ジョブへと Key/Valueペアのリストを提供する.このとき,その RecordReader はその FileSplit で指定された論理的な領域を越えて(HDFS上にあるだろう)元のファイルを読み込むことが出来る.

一般に,HDFSのチャンクはFileSplitではないし,FileSplitとMapジョブに提供される仕事とは完全に一致はしない.

実際,デフォルトのTextInputFormatが作るRecordReaderは,与えられたFileSplitの最終行を完成させるため,次のFileSplitの境域へと境界を越えて最後の行を読みに行く.例えば,改行なしの大きなファイルを入力とすれば,最初のFileSplitから作られたRecoardReaderは改行を求めてファイル全部を読んでしまう.結果として,先頭のMapジョブはファイル全体を入力として受け取る.

★下記に2つの英単語をスペースで区切って入力してください

Home > 一般 > Hadoop で忘れがちな点

Search
Feeds

Page Top