Pythonでデータをクロールするためのコードの書き方
requestsライブラリでWebリクエストを実行し、BeautifulSoupライブラリでWebページを解析することができます。Pythonでデータをクローリングする方法を説明する簡単なサンプルコードを以下に示します。
import requests
from bs4 import BeautifulSoup
# 发送网络请求
url = 'http://example.com' # 设置要爬取的网页链接
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找需要的数据
data = soup.find('div', class_='content').text
# 输出结果
print(data)
リクエストライブラリでネットワークリクエストを発行してWeb ページのコンテンツを取得し、BeautifulSoup ライブラリで解析します。 find メソッドを使用して div 要素などを特定し、 class_ パラメータで要素のクラス名を指定します。最後に、 text プロパティを使用して要素のテキスト コンテンツを取得します。
データ取得時に必ずウェブサイトのクローラーのルールを守り、過度にリクエストしまないようにして、ウェブサイトに負荷をかけることや反クローラー対策を起動しないように注意してください。