Pythonウェブスクレイピングで住宅情報を取得する方法

2年 ago

夏樹, 風

1 minute

Pythonを使ってクローラーを使用すると、住宅情報を簡単に収集できます。以下に簡単なサンプルコードを示します。

import requests
from bs4 import BeautifulSoup
# 定义爬取房屋信息的函数
def get_house_info(url):
# 发送HTTP请求获取网页内容
response = requests.get(url)
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.content, 'html.parser')
# 使用CSS选择器定位房屋信息的元素
house_list = soup.select('.house-list li')
# 遍历每个房屋信息元素，提取房屋标题和价格
for house in house_list:
title = house.select_one('.title').text.strip()
price = house.select_one('.price').text.strip()
print(f'房屋标题：{title}，价格：{price}')
# 获取下一页的链接
next_page = soup.select_one('.next')
if next_page:
next_url = next_page['href']
# 递归调用自身爬取下一页的房屋信息
get_house_info(next_url)
# 调用函数开始爬取
get_house_info('http://example.com/house-list')

このコードでは、requestsライブラリを使ってHTTPリクエストを発行し、ウェブページの内容を取得しています。BeautifulSoupライブラリを使用して、ウェブページの内容を解析しています。CSSセレクタを使用して、住宅情報の要素を特定し、住宅のタイトルと価格を抽出しています。次ページへのリンクがある場合は、そのリンクをたどって次ページの住宅情報を再帰的に取得します。

サイト構造はさまざまであることに注意し、ターゲットサイトの状況に合わせてセレクターやパーサーロジックを調整してください。また、法令やプライバシー保護等も遵守した上で行ってください。