Hadoop で忘れがちな点

2011-02-15 (Tue) 14:16
一般プログラミング

ひとつのファイルは HDFS 上に物理的にチャンクに区切られて置かれる．FileSplit はひとつのファイルを論理的に区切ったもの．ひとつの FileSplit に対して Map のジョブひとつが対応して実行される．細かくは，ひとつの FileSplit がひとつの RecordReader を生成し，その RecordReader がその Map ジョブへと Key/Valueペアのリストを提供する．このとき，その RecordReader はその FileSplit で指定された論理的な領域を越えて（HDFS上にあるだろう）元のファイルを読み込むことが出来る．

一般に，HDFSのチャンクはFileSplitではないし，FileSplitとMapジョブに提供される仕事とは完全に一致はしない．

実際，デフォルトのTextInputFormatが作るRecordReaderは，与えられたFileSplitの最終行を完成させるため，次のFileSplitの境域へと境界を越えて最後の行を読みに行く．例えば，改行なしの大きなファイルを入力とすれば，最初のFileSplitから作られたRecoardReaderは改行を求めてファイル全部を読んでしまう．結果として，先頭のMapジョブはファイル全体を入力として受け取る．

Newer: ことはじめ

Home > 一般 > Hadoop で忘れがちな点

Calendar

Categories

< 2026-07 >
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

アカデミック？(78)
ソフトウェア(363)
- Linux/coLinux(123)
- Meadow/Emacs(26)
- TeX(37)
- Windows(67)
ハードウェア(76)
- PC関係(37)
- マイコン(16)
プログラミング(352)
- C/C++/C#(80)
- Haskell(26)
- Java(33)
- sed/wake/awk(40)
一般(7521)
- カメラ／写真(656)
遊び(79)

Archives

Search

Feeds

Page Top