PythonでPDFから情報を一括取得する方法

2年 ago

結衣, 春花

1 minute

PyPDF2というPythonのライブラリを使用することで、Pythonから簡単にPDF情報のバッチ抽出が可能です。以下に、PDFからテキスト情報を得る方法を示します。

まず、PyPDF2ライブラリをインストールする必要があります。ターミナルもしくはコマンドプロンプトで以下のコマンドを使用してライブラリのインストールが可能です。

pip install PyPDF2

PDF のテキスト情報を抽出するには、以下のコードを使用できます。

import PyPDF2

def extract_text_from_pdf(pdf_path):
    with open(pdf_path, 'rb') as file:
        pdf = PyPDF2.PdfFileReader(file)
        text = ""
        for page_number in range(pdf.getNumPages()):
            page = pdf.getPage(page_number)
            text += page.extractText()
        return text

# 批量提取PDF中的文本信息
pdf_folder = "pdf文件夹路径"
output_folder = "输出文件夹路径"

import os

for filename in os.listdir(pdf_folder):
    if filename.endswith(".pdf"):
        pdf_path = os.path.join(pdf_folder, filename)
        text = extract_text_from_pdf(pdf_path)
        
        output_path = os.path.join(output_folder, f"{filename}.txt")
        with open(output_path, 'w', encoding='utf-8') as file:
            file.write(text)

上記のコードでは、pdf_folderはPDFファイルを含むフォルダのパス、output_folderはテキストファイルを出力するフォルダのパスです。コードは、フォルダ内のすべてのPDFファイルに対して次を実行します。各ファイルのテキストコンテンツを抽出、抽出されたテキストを対応するテキストファイルに保存します。

なお、本コードではPDF内のプレーンテキスト情報のみを抽出するため、PDFに画像や表などの非テキスト情報が含まれている場合、抽出できない、正しく抽出できない可能性があります。