PythonでWordの特定の内容を一括して抽出する方法は何ですか?
Pythonのpython-docxライブラリを使用して、Word文書から特定のコンテンツを一括で抽出することができます。以下は簡単なサンプルコードです:
from docx import Document
def extract_content_from_docx(file_path, keyword):
doc = Document(file_path)
extracted_content = []
for paragraph in doc.paragraphs:
if keyword in paragraph.text:
extracted_content.append(paragraph.text)
return extracted_content
# 示例用法
file_path = "path/to/your/document.docx"
keyword = "指定内容"
content = extract_content_from_docx(file_path, keyword)
for paragraph in content:
print(paragraph)
上記のサンプルコードでは、まずDocumentクラスとextract_content_from_docx関数をインポートしています。その後、file_path(Word文書ファイルのパス)とkeyword(抽出するコンテンツのキーワード)の2つのパラメータを受け入れるextract_content_from_docx関数を定義しています。
関数内では、指定されたパスのWord文書をロードするためにDocumentクラスを使用し、抽出された内容を保存する空のリストextracted_contentを作成します。
その後、各段落を文書内で繰り返し処理し、段落のテキストにキーワードが含まれているかどうかをチェックします。もし含まれていれば、その段落のテキストを抽出された内容リストに追加します。
最後に、抽出されたコンテンツのリストを結果として返します。
例文では、処理するWord文書のパスと抽出するコンテンツのキーワードを示しています。その後、extract_content_from_docx関数を呼び出し、抽出した内容を反復処理して表示します。
上記のコードは、基本的な例を示しています。実際の適用では、抽出内容のロジックをさらに調整して最適化する必要があるかもしれません。