PDFデータをPythonでスクレイピングする方法

2年 ago

蓮, 翼

1 minute

PDFデータを取得するには、Pythonでpdfminerライブラリを使用します。これは、pdfminerを使用してPDFファイルを解析し、テキストデータを抽出する方法を示す簡単なサンプルコードです。

まず、pdfminerライブラリがインストールされていることを確認してください。以下のコマンドでインストールできます。

pip install pdfminer.six

その後、以下のコードで PDF データを取得します：

from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from io import StringIO
def extract_text_from_pdf(pdf_path):
resource_manager = PDFResourceManager()
return_string = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(resource_manager, return_string, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(resource_manager, device)
with open(pdf_path, 'rb') as file:
for page in PDFPage.get_pages(file, check_extractable=True):
interpreter.process_page(page)
text = return_string.getvalue()
device.close()
return_string.close()
return text
pdf_path = 'example.pdf'
text = extract_text_from_pdf(pdf_path)
print(text)

上のコードサンプルで、私たちはextract_text_from_pdfという関数を定義しました。この関数はPDFファイルのパスを引数としてとって、抽出されたテキストデータを返します。

まず、抽出されたテキストデータを保持するためにPDFResourceManagerオブジェクトとStringIOオブジェクトを作成します。次に、PDFページをテキストデータに変換するためのTextConverterオブジェクトとPDFPageInterpreterオブジェクトを作成します。

続いて、open関数でPDFファイルを開き、PDFPage.get_pages関数でPDFファイルの各ページを順に処理します。各ページを処理するときは、interpreter.process_page関数でページをTextConverterオブジェクトに引き渡して処理を行います。

最後に、return_string.getvalue()で抽出したテキストデータを取得し、closeメソッドで関連オブジェクトをクローズして、抽出したテキストデータを返す。

コードの末尾に PDF ファイルのパスを設定し、extract_text_from_pdf 関数で PDF のデータを抜き出します。最後に、抜き出したテキストデータをプリントアウトしています。

なお、pdfminerライブラリは他にも画像やテーブルなどのPDF内コンテンツを抽出する機能を備えておりますので、必要に応じてさらに探索・活用いただけます。