LinuxでHadoopクラスタをどのように設定するか

2年 ago

優斗, 朝陽

1 minute

HadoopクラスタをLinuxに設定するには、次の手順に従う必要があります。

Java のインストール: Hadoop を実行するには Java が必要です。すべてのノードに適切なバージョンの Java がインストールされていることを確認してください。
Hadoopオフィシャルサイトから、ご自身のオペレーティングシステムに適したHadoopソフトウェアパッケージをダウンロードしましょう。ダウンロードしたファイルを展開し、任意のディレクトリに移動してください。
HadoopのbinディレクトリとsbinディレクトリをPATH変数に追加するには、各ノードの.bashrcファイルまたは.bash_profileファイルを編集します。
SSHの設定：全てのノードがSSH経由で通信できるようにします。これには、各ノードでSSHキーを生成し、公開鍵を他の全てのノードにコピーする必要があります。
Hadoopクラスタの設定：Hadoop 設定ディレクトリの中に core-site.xml というファイルがあります。そのファイルの中で、次のように Hadoop コア設定（例：ファイルシステム URI）の設定をする必要があります。

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://namenode:9000</value>
  </property>
</configuration>

Hadoopの設定ディレクトリには、hdfs-site.xmlというファイルもあります。このファイル内に、副本数などのHDFS（分散ファイルシステム）の設定を行います。

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
</configuration>

YARN（リソースマネージャ）の設定やMapReduceの設定など、必要に応じて、その他の設定を行うことができます。

$ start-dfs.sh
$ start-yarn.sh

それにより、HDFSとYARNが起動します。

HadoopクラスタをLinuxに設定するための一般的な手順は以上です。ニーズや環境によっては、追加の設定や調整が必要になる場合があります。