Heritrix1.14.4のインストールと使い方
Heritrixは、インターネット上の情報を収集・アーカイビングするためのオープンソースのWebクローラーフレームワークです。以下はHeritrix 1.14.4のインストールおよび使用方法の手順です。
- Heritrix1.14.4をダウンロードする:Heritrixの公式ウェブサイト(https://github.com/internetarchive/heritrix3)でHeritrix1.14.4のリリース版を見つけることができます。ファイルをダウンロードして解凍してください。
- Java環境を準備: HeritrixはJavaで書かれているので、事前にJava開発環境をインストールする必要があります。お使いのコンピュータにJavaがインストールされており、JAVA_HOME環境変数が適切に設定されていることを確認してください。
- Heritrixの展開ディレクトリでcrawler-beans.cxml(Heritrixのコンフィグファイル)を開きましょう。必要に応じた変更を行います。たとえば、開始URLの指定、クロールの深さの指定、クロール間隔の調整などです。
- Heritrixの起動: コマンドラインで、Heritrixのディレクトリに移動し、Heritrixを起動する次のコマンドを実行します:
- ./heritrix.sh
- Heritrixの実行:Heritrixを起動させたら、ブラウザに次のURLを入力してHeritrixのWebインタフェースにアクセスできる。
- http://localhost:8443/
- ウェブインターフェースより、新タスクの追加、クロールの進捗状況の監視、クロールのログの確認などを行えます。
以上はHeritrix 1.14.4のインストールと使いかたの手順です。参考になれば幸いです。