Pythonでウェブサイトに自動的にログインしてデータを収集する方法

2年 ago

優斗, 朝陽

1 minute

PythonのリクエストライブラリーでHTTPリクエストを送信してWebページコンテンツを処理し、BeautifulSoupライブラリーでHTMLを解析することで、Webサイトへ自動的にログインして情報を収集できます。

以下に、Pythonを使用してGitHubウェブサイトに自動的にログインし、ユーザーのリポジトリ一覧をクロールする方法の簡単なサンプルを示します。

必要なライブラリ、requests と BeautifulSoup をインストールします。
pip install requests
pip install beautifulsoup4
必要なライブラリをインポートします。
import requests
from bs4 import BeautifulSoup
セッションオブジェクトを作成し、ログインリクエストを送信する。
セッション = requests.セッション()ログインURL = ‘https://github.com/login’ # ログインページURL
ユーザー名 = ‘your_username’ # 自分のGitHubユーザー名に置き換える
パスワード = ‘your_password’ # 自分のGithubパスワードに置き換える

# ログインページのHTMLコンテンツを取得
ログインページ = セッション.get(ログインURL)
スープ = BeautifulSoup(ログインページ.コンテンツ, ‘html.parser’)

# ログインに必要なフォームデータの抽出
authenticity_token = スープ.find(‘input’, attrs={‘name’: ‘authenticity_token’})[‘value’]
timestamp = スープ.find(‘input’, attrs={‘name’: ‘timestamp’})[‘value’]

# ログインリクエストデータを構築する
ログインデータ = {
‘authenticity_token’: authenticity_token,
‘login’: ユーザー名,
‘password’: パスワード,
‘timestamp’: timestamp
}

# ログインリクエストを送信する
セッション.post(ログインURL, data=ログインデータ)
ログインが成功すると、会話オブジェクトを使用して他のリクエストを送信してデータを収集することができます。
ログインできた場合は、ログインしないと見れないページにアクセスする

これは単なる基本的な例であり、実際の状況では、Web サイトの具体的なログイン方法や HTML 構造に応じて適切な調整が必要になる場合があります。