Python で Web ページからデータをスクレイピングする
Webページのデータをスクレイピングするには、様々なライブラリをPythonで使用できますが、最も一般的に使用されているのはrequestsとBeautifulSoupライブラリです。
- requestsライブラリを使用してWebページのデータをHTTPリクエストを取得します。
import requests
url = "http://example.com"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 打印网页内容
print(response.text)
- BeautifulSoupライブラリを使ってWebのデータをパースする:
from bs4 import BeautifulSoup
# 假设已经使用requests库获取了网页内容,存储在response变量中
soup = BeautifulSoup(response.text, "html.parser")
# 使用BeautifulSoup提供的方法来提取数据
# 例如,提取所有<a>标签中的链接
links = soup.find_all("a")
for link in links:
print(link.get("href"))
ウェブサイトの構造やデータの所在地によって具体的なスクレイピング方法は異なりますので、ご注意下さい。ウェブページのレンダリングまたは動的ロードの処理が必要な場合は、Seleniumライブラリを使用してブラウザの動作をシミュレートできます。