PythonでPDFファイルの内容を抽出する方法は何ですか？

2年 ago

優斗, 朝陽

1 minute

PDFファイルの内容を抽出するには、PythonのPyPDF2ライブラリを使用することができます。まず、このライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます：

pip install PyPDF2

インストールが完了したら、以下のコードを使用してPDFファイルからテキスト内容を抽出できます。

import PyPDF2

def extract_text_from_pdf(file_path):
    with open(file_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfFileReader(file)
        text = ''
        for page_num in range(pdf_reader.numPages):
            page = pdf_reader.getPage(page_num)
            text += page.extractText()
        return text

pdf_file = 'example.pdf'
text = extract_text_from_pdf(pdf_file)
print(text)

この方法で抽出されたテキストは正確でない場合がありますので、注意してください。なぜなら、PDFファイルには画像やテキスト以外のコンテンツが含まれている場合があるからです。