PythonでWordの特定のコンテンツをまとめて抽出する方法は?
指定した内容をワードから一括抽出するには、Python-docxライブラリでワード文書を処理できます。以下にワード文書から指定した内容を抽出するサンプルコードを示します。
from docx import Document
def extract_content_from_word(file_path, target_text):
doc = Document(file_path)
extracted_content = []
for paragraph in doc.paragraphs:
if target_text in paragraph.text:
extracted_content.append(paragraph.text)
return extracted_content
# 调用示例
file_path = 'path_to_your_word_document.docx' # 替换为你的Word文档路径
target_text = '指定内容' # 替换为你要提取的指定内容
extracted_content = extract_content_from_word(file_path, target_text)
for content in extracted_content:
print(content)
Python-docxライブラリを利用して指定されたパスにあるWordドキュメントを開き、ドキュメントの各段落を走査します。段落にターゲットテキストが含まれている場合、段落の内容をextracted_contentリストに追加します。最後に、抽出された内容を出力します。
file_path変数を実際のWordドキュメントのパスに置き換え、target_text変数を抽出した特定のコンテンツに置き換えてください。