Pythonを使ってウェブページからテキストをスクレイピングする方法

2年 ago

結衣, 春花

1 minute

Pythonでリクエストとビューティフルスープを使用してウェブサイトのテキストコンテンツをスクレイピングできます。

最初に、ライブラリrequestsとbeautifulsoupをインストールしてください。

pip install requests
pip install beautifulsoup4

次に、Pythonコードを記述します：

import requests
from bs4 import BeautifulSoup
# 发送GET请求，获取网页内容
url = "http://example.com"  # 要抓取的网页URL
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html, 'html.parser')
# 提取网页文本
text = soup.get_text()
print(text)

まず、`requests`ライブラリを使用してGETリクエストを送り、ウェブページのコンテンツを取得し、変数`html`に保存します。次に、`BeautifulSoup`ライブラリを使用してウェブページのコンテンツを解析し、`BeautifulSoup`オブジェクトの`soup`を生成します。最後に、`soup`の`get_text()`メソッドを使用してウェブページのプレーンテキストコンテンツを抽出します。

ウェブページのテキストをクローラでクロールする際は、サイトの利用規約を遵守し、サイトのrobots.txtファイルを尊重し、悪意のあるクロールは行わないことに注意してください。さらに、User-Agentの設置、リクエストの遅延など、アンチクロールメカニズムの処理が必要になる場合があります。