Hadoop クラスタ構築方法と送信手順
Hadoopクラスタの構築とジョブ実行を行うには、次の手順に従う必要があります。
- Hadoopのインストール:まず各マシンにHadoopをインストールする必要があります。あなたの手順書に沿って公式ドキュメントからHadoopのバイナリーパッケージをダウンロードしてインストールできます。
- Hadoopクラスターの設定:Hadoopのインストールが完了したら、Hadoopクラスターを設定する必要があります。重要な設定ファイルはcore-site.xml、hdfs-site.xml、mapred-site.xmlです。core-site.xmlでは、Hadoopクラスターの名前とHDFSの既定のファイルシステムURIを指定する必要があります。hdfs-site.xmlでは、HDFSのレプリカ数やデータブロックのサイズなどのパラメータを指定する必要があります。mapred-site.xmlでは、MapReduceフレームワークの設定パラメータを指定する必要があります。必要に応じて、他の設定を行うことができます。
- Hadoopクラスタの起動:すべてのマシン上で、HDFSとMapReduceを含むHadoopクラスタの各コンポーネントを起動する。以下のコマンドを実行して、NameNode、DataNode、SecondaryNameNodeを起動する必要がある。
- $ start-dfs.sh
- JobTrackerとTaskTrackerの起動:
- $ start-mapred.sh
- 以下のコマンドを実行してクラスタの情報を表示させることができます。
- 現在実行中の Java プロセスを表示します。
- 全てのコンポーネントの起動が成功したら、ネームノード、データノード、セカンダリネームノード、ジョブトラッカー、タスクトラッカーを確認することができます。
- アーカイブ作業:作業のソースコードまたは実行ファイルを 1 つの JAR ファイルにアーカイブします。Java の jar コマンドを使用してアーカイブできます。JAR ファイルにすべて必要な依存関係が含まれていることを確認してください。
- hadoop jar jobs.jar hadoop.examples.WordCount /input /output
- hadoop jar <jarファイルへのパス> <メインクラス> <入力パス> <出力パス>
- は、作成したJARファイルへのパス、はmainメソッドを含むクラスの完全修飾名、は入力データのパス、は出力結果のパスです。必要に応じて、これらの引数を調整できます。
- 進捗状況の確認: 以下のコマンドを使用してジョブの進捗状況を確認できます。
- hadoop ジョブ -list
- 現在実行中のすべてのジョブを一覧表示します。詳細については、以下のコマンドを実行してください:
- hadoop job -status <ジョブID>
- ここで、 は、見たいジョブの ID です。
Hadoopクラスタの構築とジョブの送信については以上ですが、状況によっては、追加の構成や操作が必要になる場合があります。