MapReduceフレームワークは何から構成されていますか？

2年 ago

蓮, 翼

1 minute

MapReduceフレームワークは、次のコンポーネントで構成されています：

Map関数：入力データを小さなデータチャンクに分割し、それぞれのデータチャンクにマップ関数を適用して、キーと値のペアのシーケンスを生成します。
Reduce関数は、マッピング関数によって生成されたキーと値のペアをまとめて処理し、最終的な結果を得る。
HDFS（分散ファイルシステム）：入力データと出力結果を保存するためのもの。
ジョブトラッカーは、全体のジョブの実行を管理する役割を担います。利用可能なノードにタスクを割り当て、タスクの実行状況を追跡します。
タスクトラッカー（TaskTracker）は、具体的なタスクを実行する役割を担当しています。JobTrackerからのタスク割り当てを受け取り、タスクを実行し、実行状況をJobTrackerに報告します。
Masterノード: MapReduceジョブの実行フローを管理し、タスクのスケジュールとモニタリングを担当します。
ワーカーノードは、具体的なMapperおよびReducerタスクを実行する責任があります。
シャッフルプロセス：マップ段階終了後、マッパーの出力結果をキーでソートし、同じキーの結果を同じリデューサーに分配します。
Combiner関数：Mapステージの出力結果をローカルに縮小するためのオプションの中間縮小関数、データ転送量を削減します。
Partitioner関数：マッパーの出力結果をキーのハッシュ値に基づいて対応するリデューサーに配布する。

これらのコンポーネントは、MapReduceフレームワークを構築し、大規模データセットの並列処理能力を実現しています。