ubuntu に Nutch 2.x をインストールする

UbuntuでNutch 2.xをインストールする場合は、以下の手順に従います。

  1. Java Development Kit(JDK)のインストール:

ターミナルを開き、下記のコマンドラインでJDKをインストールします:

sudo apt update
sudo apt install openjdk-8-jdk
  1. Nutchをダウンロードしてください。

ターミナルで、次のコマンドを実行してNutchをダウンロードして解凍します。

wget https://www.apache.org/dyn/closer.cgi/nutch/2.3.1/apache-nutch-2.3.1-src.tar.gz
tar -xf apache-nutch-2.3.1-src.tar.gz
  1. 環境変数を設定する:

ターミナルを開いて、次のコマンドを実行して .bashrc ファイルを編集します。

nano ~/.bashrc

ファイルの末尾に次の行を追加してください:

export NUTCH_HOME=/path/to/apache-nutch-2.3.1
export PATH=$PATH:$NUTCH_HOME/bin

ファイルを保存して閉じたら、以下のコマンドを入力して環境変数を有効にしてください。

source ~/.bashrc
  1. Nutchを構成する:

Nutchディレクトリ内に移動し、以下のコマンドでnutch-site.xmlファイル編集を実施します。

cd apache-nutch-2.3.1
cp conf/nutch-site.xml.template conf/nutch-site.xml
nano conf/nutch-site.xml

ファイル上で次の設定を変更します。

<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
<property>
<name>http.robots.agents</name>
<value>My Nutch Spider,*</value>
</property>

ファイルを保存して閉じる

  1. Nutchを開始する:

ターミナルで以下のコマンドを実行して Nutch を起動します:

nutch inject URLs
nutch generate
nutch fetch
nutch parse
nutch updatedb
nutch index

また、URLsはクローラーの起動時に設定する開始URLです。

上記のステップを完了すると、Ubuntu 上に Nutch 2.x をインストールできます。Nutch は必要に応じて、クロール戦略の設定やプラグインの追加など、さらに構成できます。

bannerAds