Python マルチスレッドクローラが実行しているうちに遅くなることの解決策

2年 ago

光, 明

1 minute

Pythonでのマルチスレッドスクレイピングが次第に遅くなるという問題は、次の原因が考えられます。

GIL（グローバルインタープリタロック）：PythonのGILは、同時に1つのスレッドだけがPythonコードを実行することを制限し、マルチスレッドがCPU密集タスクで真の並列性能を発揮できなくなります。マルチプロセスをマルチスレッドの代わりに使用してみることができます。なぜなら、各プロセスはそれぞれ独自のインタープリタとGILを持っているからです。
IO操作のブロック: クローラが主にIO操作(ネットワークリクエストなど)を行っている場合、ネットワークの遅延の影響を受け、IOの完了を待機している間、スレッドがブロックされ、全体的な速度が低下する可能性があります。非同期プログラミングフレームワーク(asyncio、aiohttpなど)を使用してIO操作の並行処理性を向上させることを試みることができます。
頻繁にスレッドを切り替えると、スレッドの切り替えにオーバーヘッドが発生します。スレッドの切り替えが頻繁すぎると、全体的なパフォーマンスが低下する可能性があります。スレッドの数を減らしたり、スレッドプールを使用してスレッドを再利用したりして、スレッドの切り替えのオーバーヘッドを減らすことができます。
サイト制限：アクセス頻度制限やIPブロックなど、一部のサイトではクローラーを対象に制限をかける場合があります。このような場合には、クロール速度を遅く設定したり、ランダムなリクエスト間隔を設定したり、プロキシIPを使用するなど、制限を回避する手段を試すことができます。
メモリー使用量：クローリングプログラムは、特に大量のデータをクロールしたり多数の並行スレッドを使用したりする場合に、大量のメモリーを消費する可能性があります。メモリー使用量の最適化を試みてください。たとえば、不要になったオブジェクトをタイムリーに解放したり、ジェネレータを使用したりします。

上記を踏まえると、状況に応じて適切な最適化施策を講じることで、マルチスレッド化によるクロールの低速化を解決できます。