PythonでWebページのコンテンツを取得する方法

2年 ago

結衣, 春花

1 minute

Webページの内容を取得するには、Pythonのrequestsライブラリを使用できます。以下に簡単なサンプルコードを示します。

import requests

# 发起GET请求获取网页内容
url = 'https://www.example.com'
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 输出网页内容
    print(response.text)
else:
    print('请求失败')

このコードでは、requestsライブラリのgetメソッドを使用してGETリクエストを送信しています。そして、返されたresponseオブジェクトを使用して、ウェブページのコンテンツにアクセスできます。そしてそのウェブページのテキストコンテンツは、response.text属性を使用して取得できます。

パラメータまたはヘッダーの受け渡しが必要な場合は、getメソッドで対応するパラメータを渡します。例：

import requests

url = 'https://www.example.com'
params = {'key1': 'value1', 'key2': 'value2'}
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, params=params, headers=headers)

paramsパラメーターを経由してクエリパラメーターを引き渡し、headersパラメーターを経由してリクエストヘッダー情報を引き渡す。

Requestsライブラリ以外にもBeautifulSoupやScrapyなどの外部ライブラリを使用してウェブページのコンテンツをさらに処理し、必要なデータを抽出できます。