Pythonでデータをクロールするためのコードの書き方

requestsライブラリでWebリクエストを実行し、BeautifulSoupライブラリでWebページを解析することができます。Pythonでデータをクローリングする方法を説明する簡単なサンプルコードを以下に示します。

import requests
from bs4 import BeautifulSoup

# 发送网络请求
url = 'http://example.com'  # 设置要爬取的网页链接
response = requests.get(url)

# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 查找需要的数据
data = soup.find('div', class_='content').text

# 输出结果
print(data)

リクエストライブラリでネットワークリクエストを発行してWeb ページのコンテンツを取得し、BeautifulSoup ライブラリで解析します。 find メソッドを使用して div 要素などを特定し、 class_ パラメータで要素のクラス名を指定します。最後に、 text プロパティを使用して要素のテキスト コンテンツを取得します。

データ取得時に必ずウェブサイトのクローラーのルールを守り、過度にリクエストしまないようにして、ウェブサイトに負荷をかけることや反クローラー対策を起動しないように注意してください。

bannerAds