PythonでWordの特定のコンテンツをまとめて抽出する方法は？

2年 ago

綾乃, 一希

1 minute

指定した内容をワードから一括抽出するには、Python-docxライブラリでワード文書を処理できます。以下にワード文書から指定した内容を抽出するサンプルコードを示します。

from docx import Document

def extract_content_from_word(file_path, target_text):
    doc = Document(file_path)
    extracted_content = []

    for paragraph in doc.paragraphs:
        if target_text in paragraph.text:
            extracted_content.append(paragraph.text)

    return extracted_content

# 调用示例
file_path = 'path_to_your_word_document.docx'  # 替换为你的Word文档路径
target_text = '指定内容'  # 替换为你要提取的指定内容

extracted_content = extract_content_from_word(file_path, target_text)
for content in extracted_content:
    print(content)

Python-docxライブラリを利用して指定されたパスにあるWordドキュメントを開き、ドキュメントの各段落を走査します。段落にターゲットテキストが含まれている場合、段落の内容をextracted_contentリストに追加します。最後に、抽出された内容を出力します。

file_path変数を実際のWordドキュメントのパスに置き換え、target_text変数を抽出した特定のコンテンツに置き換えてください。