PHPでウェブサイトの全テキストを取得する方法

2年 ago

蓮, 翼

1 minute

PHPのDOMDocument とXPathライブラリを使ってHTMLページを解析してテキストコンテンツを抽出することで、PHPでWebページ内のすべてのテキストを抽出できます。

以下にサンプルコードを示します。

<?php
// 网页地址
$url = 'http://example.com';
// 创建DOMDocument对象
$dom = new DOMDocument();
// 加载网页
$dom->loadHTMLFile($url);
// 创建XPath对象
$xpath = new DOMXPath($dom);
// 使用XPath查询所有文本节点
$textNodes = $xpath->query('//text()');
// 遍历文本节点并提取文本内容
foreach ($textNodes as $textNode) {
$text = trim($textNode->nodeValue);
// 输出文本内容
echo $text . "\n";
}
?>

指定したウェブページをDOMDocumentオブジェクトでロードし、DOMXPathオブジェクトでその全テキストノードを取得します。次に、foreachループでテキストノードを繰り返し処理し、nodeValueプロパティからテキストコンテンツを取得します。

抽出されたテキスト内容は、最後にコンソールや、ファイルに出力して必要に応じて処理できます。