PythonでPDFからテキストを抽出する方法は何ですか。

2年 ago

芽依, 雨夜

1 minute

PDF内のテキストを抽出するために、PythonのPyPDF2ライブラリまたはpdfminerライブラリを使用することができます。

最初に、必要なライブラリをインストールする必要があります。PyPDF2ライブラリをインストールするには、次のコマンドをコマンドラインで実行してください。

pip install PyPDF2

もしくは、PDFMinerライブラリをインストールするために以下のコマンドを実行してください。

pip install pdfminer.six

次に、選択したライブラリを使用して、以下のサンプルコードを使ってPDFからテキストを抽出することができます。

PyPDF2ライブラリを使用したサンプルコード：

import PyPDF2

def extract_text_from_pdf(file_path):
    text = ""
    with open(file_path, "rb") as file:
        pdf = PyPDF2.PdfFileReader(file)
        num_pages = pdf.numPages
        for page in range(num_pages):
            page_obj = pdf.getPage(page)
            text += page_obj.extract_text()
    return text

file_path = "path_to_your_pdf_file"
text = extract_text_from_pdf(file_path)
print(text)

pdfminerライブラリを使用したサンプルコード：

import io
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage

def extract_text_from_pdf(file_path):
    text = ""
    with open(file_path, "rb") as file:
        resource_manager = PDFResourceManager()
        string_io = io.StringIO()
        converter = TextConverter(resource_manager, string_io)
        page_interpreter = PDFPageInterpreter(resource_manager, converter)
        for page in PDFPage.get_pages(file):
            page_interpreter.process_page(page)
        text = string_io.getvalue()
        converter.close()
        string_io.close()
    return text

file_path = "path_to_your_pdf_file"
text = extract_text_from_pdf(file_path)
print(text)

これらのコード例は、PDFファイルのパスが変数file_pathに保存されていると仮定しています。実際のPDFファイルのパスに置き換える必要があります。