xpathでウェブサイトのすべての内容を取得する方法は？

1年 ago

綾乃, 一希

1 minute

XPathを使用してウェブページのすべてのコンテンツをスクレイピングするには、まずPythonのリクエストライブラリを使ってHTTPリクエストを送信してウェブページのソースコードを取得し、次にlxmlライブラリを使ってウェブページのソースコードを解析し、XPath式を使って必要なコンテンツを抽出する必要があります。

以下は、ウェブページのすべてのコンテンツを抽出するためのXPathを使用したサンプルコードです。

import requests
from lxml import etree

# 发送HTTP请求获取网页源代码
url = 'http://example.com'
response = requests.get(url)
html = response.text

# 解析网页源代码
tree = etree.HTML(html)

# 使用XPath表达式提取网页全部内容
content = tree.xpath('//*')  # 通过"*"匹配网页的全部标签

# 打印提取的内容
for tag in content:
    print(etree.tostring(tag, encoding='utf-8').decode('utf-8'))

上記のコードを実行すると、ウェブページのすべての内容を取得し、行ごとに印刷することができます。ただし、この例ではページ内のタグ内容のみを印刷しており、属性などの他の情報は取得されません。ページの具体的な構造に応じて、必要なコンテンツを抽出するためにより複雑なXPath式を記述する必要があるかもしれません。

#プログラミング #技術記事