Hadoop環境をLinuxに設定する方法
LinuxでHadoop環境を構築するには、以下の手順に従います。
- HadoopはJavaで書かれているので、最初にJDKをインストールする必要があります。OpenJDKをインストールするには次のコマンドを使用できます。
- sudo apt-get update && sudo apt-get install openjdk-8-jdk
- HadoopのバイナリアーカイブはHadoop公式サイト(https://hadoop.apache.org/)からダウンロードでき、適切なディレクトリに展開します。
- tar -xf hadoop-x.x.x.tar.gz
- 環境変数の設定:.bashrc ファイルを開いて以下の行を追加する:
- export HADOOP_HOME=/hadoopのパス
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin - 続いて以下のコマンドを実行して設定を有効にする:
- source ~/.bashrc
- Hadoopの設定:Hadoopのインストールディレクトリで、etc/hadoopディレクトリを見つけ、mapred-site.xml.templateファイルをコピーしてmapred-site.xmlと名前を変更し、その後ファイルを編集して以下のプロパティを設定します。
-
mapreduce.framework.name
yarn - 「etc/hadoop/hadoop-env.sh」ファイルを見つけて次のプロパティを設定します。
- JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64を設定
- 具体的な状況に応じて上記のルートは修正が必要になる可能性があります。
- Hadoopクラスタの設定: Hadoopクラスタの設定が必要な場合、etc/hadoopディレクトリにあるhdfs-site.xmlファイルで以下のプロパティを設定できます。
-
dfs.replication
3
dfs.namenode.name.dir
/path/to/hadoop/data/dfs/namenode
dfs.datanode.data.dir
/path/to/hadoop/data/dfs/datanode - 同様、道筋は実情にあわせた変更が必要になる。
- Hadoopファイルシステムをフォーマットする: 以下のコマンドを実行してHadoopファイルシステムをフォーマットします。
- hdfs namenode フォーマット
- Hadoopクラスタの起動:以下のコマンドを実行してHadoopクラスタを起動します。
- start-dfs.sh
start-yarn.sh - Hadoopクラスターが正常に動作しているかどうかを確認するためには、以下コマンドを使用できます。
- 身分詐称
- このコマンドを実行すると、NameNode、DataNode、ResourceManager、NodeManagerなどのHadoopコンポーネントを含む、実行中のJavaプロセスがリストされます。
Hadoop環境が正しく構成されました。HadoopのコマンドラインツールまたはMapReduceプログラムを使用して、データ処理と分析を実行できます。