heritrixのJavaの使い方は？

2年 ago

海斗, 葵

1 minute

Heritrixを使用するには、以下の手順に従う必要があります。

Heritrixのダウンロードとインストール：Heritrixの最新バージョンをHeritrixの公式ウェブサイト（http://crawler.archive.org/）からダウンロードし、インストール手順に従ってインストールできます。
Heritrixの設定: Heritrixのインストールディレクトリには、「crawler-beans.cxml」という構成ファイルがあります。このファイルで、Heritrixの動作を設定します(例えば、クロールする開始URLの設定やクロール深度の設定など)。
Heritrixインストールディレクトリで以下のコマンドを実行してHeritrixコンソールを起動する：

./heritrix.sh

Heritrixのコンソールを使用する: ブラウザから「http://localhost:8443」にアクセスするとHeritrixのコンソール画面が表示されます。コンソールでは、クロールジョブの作成と管理、クロール作業のモニタリング、クロール結果の閲覧などが可能です。
コンソール画面の「Job」で「New Job」ボタンを押して、新しいクローラータスクを作成できます。タスク作成時には、タスク名、開始URL、クローラー深度などのパラメータを設定する必要があります。
ジョブで作成したタスクを選択し、「起動」ボタンを押してタスクを開始します。
ジョブの画面で実行中のジョブを選択し、「インスペクト」ボタンで、クロールしたURLやクロール速度など、ジョブの詳細情報を確認できます。
レポートの確認：コンソール画面の「レポート」から、完了したタスクのレポート（クロールしたURL、クロールしたページ内容など）を確認することができます。

Heritrix の基本的な使用方法を上記に示しました。ニーズに合わせて、さらに構成やカスタマイズを行うことができます。