Pythonで動的ウェブページからデータをスクレイピングする方法

2年 ago

蓮, 翼

1 minute

動的ページのデータをスクレイピングするには、Python の Selenium ライブラリを利用できます。Selenium は、動的なコンテンツの読み込みを含む、ブラウザの操作をシミュレートできます。まず、Selenium ライブラリをインストールする必要があります。pip コマンドを使用してインストールできます。

pip install selenium

次に、適合するブラウザのドライバをダウンロードする必要があります。例えば、ChromeブラウザにはChromeDriverをダウンロードする必要があります。Seleniumと適合するブラウザドライバをインストールしたら、動的ページデータをスクレイピングするコードの作成を開始できます。以下に簡単なサンプルを示します。

from selenium import webdriver
# 创建一个浏览器对象，指定浏览器驱动的路径
driver = webdriver.Chrome('path_to_chromedriver')
# 打开一个网页
driver.get('https://example.com')
# 等待一段时间，让动态内容加载完成
driver.implicitly_wait(10)
# 获取页面源代码
html = driver.page_source
# 关闭浏览器
driver.quit()
# 处理获取到的页面源代码，提取需要的数据
# ...

上記のコードでは、まずChromeブラウザオブジェクトを作成し、ChromeDriverのパスを指定します。次に、`get`メソッドを使用してターゲットWebページを開き、`implicitly_wait`メソッドでしばらく待って動的コンテンツを完全に読み込みます。そして、`page_source`プロパティを使用してページのソースコードを取得します。最後に、取得したページのソースコードを必要に応じて処理し、必要なデータを抽出できます。Seleniumによるブラウザ操作は、Webサイトからクローラーとみなされ、IPがブロックされたり、CAPTCHA検証が必要になる場合があります。これを回避するために、人の操作行動をシミュレートするために遅延時間を設定するか、プロキシIPを使用してアクセスできます。