- 2010-07-16 (Fri) 21:04
- 一般
というか,まんまな論文があったので読んでみた.
結論:GroupByKey演算いらない問題しか扱っていない.バッグ上の準同型(リダクション演算子は加算限定)でしかない.だけど"the summation form"とか名前をつけてしまっている.
この分野でよく扱われている計算10個の並列化の仕方をコメントして(つまりは彼らのいうsummation formがあるよねと言って),実験結果を示しているのだけど,実際にやられていることは非常に単純.データ量が大量にありすぎるだけなので,それを分散して map と sum を並列化したらバンザイ.残りの部分は興味のある特徴量の次元数(データ量に比べて非常に小さい)にしか依存しないから並列化しなくていいよね,と.
著者らも,別に新しい速い並列プログラム(アルゴリズム)つくったわけでなくて簡単に書ける枠組みを考えたんだよ,という言い方をしている.その枠組が新しいか否かはなんともいえないが…
とはいえ,この単純なパタンで書けちゃうけど良く使われる計算10個,というものをまとめたことには大きな価値があるかなと.我々の得意とする並列計算パタンで計算できる重要な計算問題のサーベイの手間が省けるから.
どうでもいいけど K-means に hard と soft があったとは知らんかった.
さて,次はどの辺を調べようか? できればGBK演算が本質である例を見つけたいのだけど…
- Newer: ことはじめ