Pythonウェブスクレイピングで使用するライブラリ
Python クローラの一般的なライブラリ:
- HTTPリクエストを送信し、Webページのコンテンツを取得するのに使用される
- BeautifulSoup:HTMLやXMLの解析に役立ち、必要な情報を取得します。
- スクレイピー:ロジックやエクストラクルールをわかりやすく定義できる強力なクロールフレームワーク。
- ブラウザ操作の自動化に使用し、動的ロードの問題を解決。
- PyQuery:jQueryに似たライブラリーで、CSSセレクタを用いてHTMLコンテンツを抽出できます。
- Pythonの正規表現モジュールは、文字列内でのパターンを照合し、抽出するために使用されます。
- データ処理、解析に用いられ、Webスクレイピングで取得したデータを容易に格納、処理できる。
- MongoDB:大量のクローラーデータを格納するのに適した、非リレーショナルデータベース。
- Redis:キーバリュー型データベースで、クローラーの一時データを保存するのに適しています。
- Pillow:Python の画像処理ライブラリで、クローリングで得た画像の処理に使用できます。
- tesseractは、画像内の文字を抽出するためのOCR(光学的文字認識)エンジンです。
- ヘッドレス Chrome ブラウザを活用した、動的ロード解決のためのライブラリ
- Twisted:非同期ネットワークフレームワークで、クローラの効率が向上します。
- asyncio: Pythonで非同期プログラミングを実現するライブラリ。効率的な非同期スクレイピングを可能にする。
- ユーザーエージェントをランダム生成して、クローラーの身元を隠すライブラリ
- IPProxyPool:クローラのプロキシ設定に使用できるIPプロキシプール。
- scrapy-redis:スクレイピング用のScrapy拡張機能で、複数のマシンで同時にスクレイピングを実行できます。
- Selenium-Wire:HTTPリクエストとレスポンスをインターセプトして改変可能なライブラリーで、クローラーのリクエストフィルタリングと改変に使用できる。
- Fiddlerは、クローラーのネットリクエストを分析、シミュレーションするのに使えるデバック、パケットキャプチャツールです。
- PySocks:プロキシを利用するためのライブラリ。これを使えばネットスクレイピングでプロキシの設定が可能になります。