LinuxでHadoopクラスタをどのように設定するか
HadoopクラスタをLinuxに設定するには、次の手順に従う必要があります。
- Java のインストール: Hadoop を実行するには Java が必要です。すべてのノードに適切なバージョンの Java がインストールされていることを確認してください。
- Hadoopオフィシャルサイトから、ご自身のオペレーティングシステムに適したHadoopソフトウェアパッケージをダウンロードしましょう。ダウンロードしたファイルを展開し、任意のディレクトリに移動してください。
- HadoopのbinディレクトリとsbinディレクトリをPATH変数に追加するには、各ノードの.bashrcファイルまたは.bash_profileファイルを編集します。
- SSHの設定:全てのノードがSSH経由で通信できるようにします。これには、各ノードでSSHキーを生成し、公開鍵を他の全てのノードにコピーする必要があります。
- Hadoopクラスタの設定:Hadoop 設定ディレクトリの中に core-site.xml というファイルがあります。そのファイルの中で、次のように Hadoop コア設定(例:ファイルシステム URI)の設定をする必要があります。
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode:9000</value>
</property>
</configuration>
Hadoopの設定ディレクトリには、hdfs-site.xmlというファイルもあります。このファイル内に、副本数などのHDFS(分散ファイルシステム)の設定を行います。
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
YARN(リソースマネージャ)の設定やMapReduceの設定など、必要に応じて、その他の設定を行うことができます。
- 主ノード上で、次のコマンドを実行して Hadoop クラスタを起動します。
$ start-dfs.sh
$ start-yarn.sh
それにより、HDFSとYARNが起動します。
- Hadoopクラスタの確認:Hadoopクラスタが正しく構成され、実行されているかを確認するには、次のコマンドを実行します。
- hdfs dfs -mkdir /test: HDFSディレクトリを作成します。
- HDFSにローカルファイルをアップロードする
- yarn jar <サンプルJar> <サンプルクラス>:Hadoop のサンプルアプリケーションを実行します。
HadoopクラスタをLinuxに設定するための一般的な手順は以上です。ニーズや環境によっては、追加の設定や調整が必要になる場合があります。