ubuntu に Nutch 2.x をインストールする
UbuntuでNutch 2.xをインストールする場合は、以下の手順に従います。
- Java Development Kit(JDK)のインストール:
ターミナルを開き、下記のコマンドラインでJDKをインストールします:
sudo apt update
sudo apt install openjdk-8-jdk
- Nutchをダウンロードしてください。
ターミナルで、次のコマンドを実行してNutchをダウンロードして解凍します。
wget https://www.apache.org/dyn/closer.cgi/nutch/2.3.1/apache-nutch-2.3.1-src.tar.gz
tar -xf apache-nutch-2.3.1-src.tar.gz
- 環境変数を設定する:
ターミナルを開いて、次のコマンドを実行して .bashrc ファイルを編集します。
nano ~/.bashrc
ファイルの末尾に次の行を追加してください:
export NUTCH_HOME=/path/to/apache-nutch-2.3.1
export PATH=$PATH:$NUTCH_HOME/bin
ファイルを保存して閉じたら、以下のコマンドを入力して環境変数を有効にしてください。
source ~/.bashrc
- Nutchを構成する:
Nutchディレクトリ内に移動し、以下のコマンドでnutch-site.xmlファイル編集を実施します。
cd apache-nutch-2.3.1
cp conf/nutch-site.xml.template conf/nutch-site.xml
nano conf/nutch-site.xml
ファイル上で次の設定を変更します。
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
<property>
<name>http.robots.agents</name>
<value>My Nutch Spider,*</value>
</property>
ファイルを保存して閉じる
- Nutchを開始する:
ターミナルで以下のコマンドを実行して Nutch を起動します:
nutch inject URLs
nutch generate
nutch fetch
nutch parse
nutch updatedb
nutch index
また、URLsはクローラーの起動時に設定する開始URLです。
上記のステップを完了すると、Ubuntu 上に Nutch 2.x をインストールできます。Nutch は必要に応じて、クロール戦略の設定やプラグインの追加など、さらに構成できます。