Hadoop環境設定と使用法
Hadoop環境を設定して使用する方法を以下に示します。
- Hadoopのインストールパッケージをダウンロードする: Apacheの公式サイトから、利用しているOSに適したHadoopのインストールパッケージをダウンロードする。
- ダウンロードしたHadoopインストールパッケージをインストール先のディレクトリに展開する。
- Hadoop環境変数を設定する:環境変数ファイル(.bashrc、.bash_profileなど)を開き、Hadoopのパスを設定する次の内容を追加します:
- export HADOOP_HOME=/path/to/hadoop && export PATH=$PATH:$HADOOP_HOME/bin
- インストールパスを実際のHadoopインストールパスに置き換えます。
- Hadoopのホストファイル(core-site.xml)を設定する:Hadoopインストールディレクトリのetc/hadoopフォルダでcore-site.xmlを見つけ、そのファイルを編集して、以下の内容を追加する
-
fs.defaultFS
hdfs://localhost:9000 - これにより、HadoopのデフォルトのファイルシステムがHDFSに設定され、ローカルホストのポート9000が使用されます。
- HadoopのHDFS設定ファイル(hdfs-site.xml)の編集:/etc/hadoopディレクトリ内のhdfs-site.xmlを開き、以下の内容を追記します。
- dfs.replication1
- Hadoop分散ファイルシステムのレプリカ数を1に設定します。これはスタンドアロン環境で適しています。
- Hadoopクラスタの起動: コマンドラインで次のコマンドを実行してHadoopクラスタを起動します。
- $ start-dfs.sh
$ start-yarn.sh - それによって、HDFSとYARNが開始されます。
- Hadoopが正しくインストールされているか検証する: ブラウザからhttp://localhost:50070を開きHadoopクラスタのWeb UIを確認します。
- Hadoopを利用する:HDFS内のファイルの管理にはhadoop fsコマンド、Hadoopジョブの実行にはhadoop jarコマンドなど、Hadoopが備える様々なコマンドやAPIを使ってデータ処理タスクを実行できます。
Hadoop 環境を構成・利用する基本的な方法であり、必要に応じて修正・拡張することもできます。