Heritrix1.14.4のインストールと使い方

Heritrixは、インターネット上の情報を収集・アーカイビングするためのオープンソースのWebクローラーフレームワークです。以下はHeritrix 1.14.4のインストールおよび使用方法の手順です。

  1. Heritrix1.14.4をダウンロードする:Heritrixの公式ウェブサイト(https://github.com/internetarchive/heritrix3)でHeritrix1.14.4のリリース版を見つけることができます。ファイルをダウンロードして解凍してください。
  2. Java環境を準備: HeritrixはJavaで書かれているので、事前にJava開発環境をインストールする必要があります。お使いのコンピュータにJavaがインストールされており、JAVA_HOME環境変数が適切に設定されていることを確認してください。
  3. Heritrixの展開ディレクトリでcrawler-beans.cxml(Heritrixのコンフィグファイル)を開きましょう。必要に応じた変更を行います。たとえば、開始URLの指定、クロールの深さの指定、クロール間隔の調整などです。
  4. Heritrixの起動: コマンドラインで、Heritrixのディレクトリに移動し、Heritrixを起動する次のコマンドを実行します:
  5. ./heritrix.sh
  6. Heritrixの実行:Heritrixを起動させたら、ブラウザに次のURLを入力してHeritrixのWebインタフェースにアクセスできる。
  7. http://localhost:8443/
  8. ウェブインターフェースより、新タスクの追加、クロールの進捗状況の監視、クロールのログの確認などを行えます。

以上はHeritrix 1.14.4のインストールと使いかたの手順です。参考になれば幸いです。

bannerAds