Pythonでのxpathの基本的な構文は何ですか?
PythonでXPathを使用する基本的な文法は次の通りです:
- 関連モジュールをインポートします。
from lxml import etree
- Elementオブジェクトを作成する:
html = etree.HTML(text)
テキストはHTMLテキストまたはファイルのいずれかです。
- XPath式を使用してデータを抽出する。
- 要素の選択:要素を選択するために、タグ名、属性名、または属性値を使用する。
elements = html.xpath('//tag') # 根据标签名选取元素
elements = html.xpath('//*[@attribute]') # 根据属性名选取元素
elements = html.xpath('//tag[@attribute="value"]') # 根据属性值选取元素
tagとはラベルの名前であり、attributeとは属性の名前、valueとは属性の値を表します。
- 日本語で自然に言い換えると、次のようになります:
文を洗い出す。
text = element.text # 提取单个元素的文本
texts = [element.text for element in elements] # 提取多个元素的文本
- 属性値を取り出す:
attribute = element.get('attribute') # 提取单个元素的属性值
attributes = [element.get('attribute') for element in elements] # 提取多个元素的属性值
- 一般的XPath语法包括:
- 要素を選択するためにインデックスを使用します。
element = elements[index] # 根据索引选取元素,索引从0开始
- 要素を選択するためにワイルドカードを使用する。
elements = html.xpath('//*') # 选取所有元素
- 要素を選択するために論理演算子を使用します。
elements = html.xpath('//tag1 | //tag2') # 选取多个标签的元素
これはXPathの基本構文ですが、実際の使用ではさらに高度な構文や方法があり、実際の要求に応じて学習と利用が可能です。