Hadoop に言うことを聞かせるまでのメモ

2011-02-15 (Tue) 14:07
一般プログラミング

大体にしてインストールというかセッティングが面倒なので手順のメモ．

ダウンロードして展開．クラスタの場合，本体の置き場所は NFS 上にしとくとインストールが楽（ログのディレクトリに注意）．さもなければ全マシンの同じパスに置いておくべし（パスをマシンごとに変えていいのかどうか分からん）．
```
wget http://ftp.kddilabs.jp/infosystems/apache//hadoop/core/hadoop-0.21.0/hadoop-0.21.0.tar.gz
tar xfvz hadoop-0.21.0.tar.gz
cd hadoop-0.21.0
```

環境ファイル conf/hadoop-env.sh の編集：JAVA_HOME と HADOOP_HEAPSIZE と HADOOP_LOG_DIR．

ログの出力先はデフォルトで hadoop の置いてあるディレクトリ(HADOOP_HOME)の下の logs ディレクトリなので，これが NFS 上だったりすると酷いことになる．なので，ローカル上に取るように指定を入れておく．
```
export JAVA_HOME=/usr/lib/jvm/java-6-sun/
export HADOOP_HEAPSIZE=2048
export HADOOP_LOG_DIR=/tmp/user/node000/logs
```

設定ファイル conf/slaves：計算に使うノード名を列挙．
```
node000
node001
node002
node003
...
```

設定ファイル conf/core-site.xml の編集．

namenode として使う計算機の名前（URI）を書いておく．マルチコア計算機１台なら localhost で十分．クラスタの場合には localhost ではまずいので，ちゃんとした計算機名前を書いておく．
```
<configuration>
     <property>
         <name>fs.default.name</name>
         <value>hdfs://node000:9000/</value>
     </property>
</configuration>
```

設定ファイル conf/hdfs-site.xml の編集．

dfs.name.dir と dfs.data.dir に /tmp とかローカルなディスクのパスを書いておく（設定書かなくてもデフォルトで /tmp に適当なディレクトリを作って使ってくれるけど）．NFS上のパスを指定するのは何考えているか分からない．あとは dfs.blocksize （HDFS上のチャンクのサイズ）を適当に変えてもいいかも知れない．Mapper への一仕事の最大値はこのサイズ．
```
<configuration>
     <property>
         <name>dfs.name.dir</name>
         <value>/tmp/user/node000/name-dir/</value>
     </property>
     <property>
         <name>dfs.data.dir</name>
         <value>/tmp/user/node000/data-dir/</value>
     </property>
     <property>
         <name>dfs.blocksize</name>
         <value>4194304</value>
     </property>
</configuration>
```

設定ファイル conf/mapred-site.xml の編集．

とりあえず，mapred.job.tracker に JobTracker のいる計算機の名前を書いておく．マルチコア１台なら localhost で十分．クラスタなら計算機名をちゃんとかく．あと，計算が軽い時には JVM を使い回さないと遅くて困るので mapred.job.reuse.jvm.num.tasks に無限回の使い回しを意味する -1 を入れておく．ノード一つ当たりのジョブの数は mapred.tasktracker.map.tasks.maximum と mapred.tasktracker.reduce.tasks.maximum で指定しておく．マルチコアならコア数以上のジョブが同時にあって構わないので，コア数以上の数字を書いておく（2コアマシンしか無いのに200とか書くとプロセスが多すぎて死ぬ）．また，Hadoop ではひとつのファイルを複数の FileSplit に分割し，その FileSplit １つに対して Mapper が１つ呼ばれて動く（間に RecordReader が挟まって「FileSplit→KVペアの集合」という変換が入るけど）．その FileSplit のサイズ指定が mpreduce.input.fileinputformat.split.maxsize でできる．実際には，これで指定したサイズと HDFS のチャンクサイズとの小さいほうが実際の FileSplit のサイズになる（全タスク数の指定を入れたときには，さらにそこから導かれるサイズとの小さいほうかね）．
```
<configuration>
     <property>
         <name>mapred.job.reuse.jvm.num.tasks</name>
         <value>-1</value>
     </property>
     <property>
         <name>mapred.job.tracker</name>
         <value>node000:9001</value>
     </property>
     <property>
         <name>mapred.tasktracker.map.tasks.maximum</name>
         <value>2</value>
     </property>
     <property>
         <name>mapred.tasktracker.reduce.tasks.maximum</name>
         <value>2</value>
     </property>
     <property>
         <name>mapreduce.input.fileinputformat.split.maxsize</name>
         <value>4194304</value>
     </property>
</configuration>
```

テスト．

namenode を初期化して，他のノードを起動して，最初にディレクトリ作って，そこにファイルを転送して，サンプル動かして，出力確認して，邪魔な出力消して，そしてノード停止．

bin/hadoop namenode -format
bin/start-all.sh
bin/hadoop fs -mkdir input
bin/hadoop fs -put conf/* input
bin/hadoop jar hadoop-mapred-examples-0.21.0.jar grep input output 'dfs[a-z.]+'
bin/hadoop fs -cat output/*
bin/hadoop fs -rmr output
bin/stop-all.sh

これで言う事聞くようになった．

その他無茶な設定 in conf/mapred-site.xml：なるべくディスクつかなわいように無理をする．

     <property>
         <name>io.sort.record.percent</name>
         <value>1.0</value>
     </property>
     <property>
         <name>io.sort.spill.percent</name>
         <value>1.0</value>
     </property>
     <property>
         <name>io.sort.mb</name>
         <value>4</value>
     </property>
     <property>
         <name>mapred.inmem.merge.threshold</name>
         <value>2048</value>
     </property>
     <property>
         <name>mapred.job.reduce.input.buffer.percent</name>
         <value>1.0</value>
     </property>
     <property>
         <name>mapred.job.shuffle.input.buffer.percent</name>
         <value>1.0</value>
     </property>
     <property>
         <name>mapred.job.shuffle.merge.percent</name>
         <value>1.0</value>
     </property>

Newer: ことはじめ

Home > 一般 > Hadoop に言うことを聞かせるまでのメモ

Calendar

Categories

< 2025-11 >
日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

アカデミック？(78)
ソフトウェア(362)
- Linux/coLinux(122)
- Meadow/Emacs(26)
- TeX(37)
- Windows(67)
ハードウェア(76)
- PC関係(37)
- マイコン(16)
プログラミング(352)
- C/C++/C#(80)
- Haskell(26)
- Java(33)
- sed/wake/awk(40)
一般(7237)
- カメラ／写真(622)
遊び(79)

Archives

Search

Feeds

Page Top