Hadoop環境をLinuxに設定する方法

LinuxでHadoop環境を構築するには、以下の手順に従います。

  1. HadoopはJavaで書かれているので、最初にJDKをインストールする必要があります。OpenJDKをインストールするには次のコマンドを使用できます。
  2. sudo apt-get update && sudo apt-get install openjdk-8-jdk
  3. HadoopのバイナリアーカイブはHadoop公式サイト(https://hadoop.apache.org/)からダウンロードでき、適切なディレクトリに展開します。
  4. tar -xf hadoop-x.x.x.tar.gz
  5. 環境変数の設定:.bashrc ファイルを開いて以下の行を追加する:
  6. export HADOOP_HOME=/hadoopのパス
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  7. 続いて以下のコマンドを実行して設定を有効にする:
  8. source ~/.bashrc
  9. Hadoopの設定:Hadoopのインストールディレクトリで、etc/hadoopディレクトリを見つけ、mapred-site.xml.templateファイルをコピーしてmapred-site.xmlと名前を変更し、その後ファイルを編集して以下のプロパティを設定します。
  10. mapreduce.framework.name
    yarn
  11. 「etc/hadoop/hadoop-env.sh」ファイルを見つけて次のプロパティを設定します。
  12. JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64を設定
  13. 具体的な状況に応じて上記のルートは修正が必要になる可能性があります。
  14. Hadoopクラスタの設定: Hadoopクラスタの設定が必要な場合、etc/hadoopディレクトリにあるhdfs-site.xmlファイルで以下のプロパティを設定できます。
  15. dfs.replication
    3
    dfs.namenode.name.dir
    /path/to/hadoop/data/dfs/namenode
    dfs.datanode.data.dir
    /path/to/hadoop/data/dfs/datanode
  16. 同様、道筋は実情にあわせた変更が必要になる。
  17. Hadoopファイルシステムをフォーマットする: 以下のコマンドを実行してHadoopファイルシステムをフォーマットします。
  18. hdfs namenode フォーマット
  19. Hadoopクラスタの起動:以下のコマンドを実行してHadoopクラスタを起動します。
  20. start-dfs.sh
    start-yarn.sh
  21. Hadoopクラスターが正常に動作しているかどうかを確認するためには、以下コマンドを使用できます。
  22. 身分詐称
  23. このコマンドを実行すると、NameNode、DataNode、ResourceManager、NodeManagerなどのHadoopコンポーネントを含む、実行中のJavaプロセスがリストされます。

Hadoop環境が正しく構成されました。HadoopのコマンドラインツールまたはMapReduceプログラムを使用して、データ処理と分析を実行できます。

bannerAds