heritrixのJavaの使い方は?
Heritrixを使用するには、以下の手順に従う必要があります。
- Heritrixのダウンロードとインストール:Heritrixの最新バージョンをHeritrixの公式ウェブサイト(http://crawler.archive.org/)からダウンロードし、インストール手順に従ってインストールできます。
- Heritrixの設定: Heritrixのインストールディレクトリには、「crawler-beans.cxml」という構成ファイルがあります。このファイルで、Heritrixの動作を設定します(例えば、クロールする開始URLの設定やクロール深度の設定など)。
- Heritrixインストールディレクトリで以下のコマンドを実行してHeritrixコンソールを起動する:
./heritrix.sh
- Heritrixのコンソールを使用する: ブラウザから「http://localhost:8443」にアクセスするとHeritrixのコンソール画面が表示されます。コンソールでは、クロールジョブの作成と管理、クロール作業のモニタリング、クロール結果の閲覧などが可能です。
- コンソール画面の「Job」で「New Job」ボタンを押して、新しいクローラータスクを作成できます。タスク作成時には、タスク名、開始URL、クローラー深度などのパラメータを設定する必要があります。
- ジョブで作成したタスクを選択し、「起動」ボタンを押してタスクを開始します。
- ジョブの画面で実行中のジョブを選択し、「インスペクト」ボタンで、クロールしたURLやクロール速度など、ジョブの詳細情報を確認できます。
- レポートの確認:コンソール画面の「レポート」から、完了したタスクのレポート(クロールしたURL、クロールしたページ内容など)を確認することができます。
Heritrix の基本的な使用方法を上記に示しました。ニーズに合わせて、さらに構成やカスタマイズを行うことができます。