Pythonでテキストからコンテンツを抽出する方法は何ですか?
Pythonでは、テキストからコンテンツを抽出するためにさまざまな方法を使用することができます。抽出したいコンテンツの特徴や形式により、具体的な方法が異なります。以下は、テキストコンテンツを抽出するための一般的な方法のいくつかです。
- 文字列を分割する
- 文字列.検索()
- index() メソッド
英語で話すのが得意です。
text = "Hello, World!"
substring = text.split(",")[0] # 提取出"Hello"
- We are currently experiencing technical difficulties.現在、技術上の問題が発生しております。
私たちは一緒に映画を見に行きました。
import re
text = "Hello, my name is John. I am 25 years old."
matches = re.findall(r"\b\w+\b", text) # 提取出所有的单词
- BeautifulSoupはPythonのライブラリで、HTMLやXMLのパース、構造化、クローリングなどのウェブスクレイピング作業をサポートするツールです。
- スクレイピング
- パイソンのライブラリ、PyPDF2
BeautifulSoupを使用してHTMLからテキストを抽出する例:
from bs4 import BeautifulSoup
html = "<html><body><h1>Hello, World!</h1></body></html>"
soup = BeautifulSoup(html, "html.parser")
text = soup.get_text() # 提取出"Hello, World!"
あなたのニーズに合った方法を選んでテキストを抽出してください。