PythonでPDFからテキストを取得する方法

2年 ago

結衣, 春花

1 minute

PyPDF2ライブラリを使用して、PythonからPDF内のテキストを抽出できます。以下では、PDFファイルを開いてそのテキスト内容を抽出する方法を示すサンプルコードを紹介します。

import PyPDF2
def extract_text_from_pdf(file_path):
with open(file_path, 'rb') as file:
pdf_reader = PyPDF2.PdfFileReader(file)
num_pages = pdf_reader.numPages
text = ''
for page_num in range(num_pages):
page = pdf_reader.getPage(page_num)
text += page.extractText()
return text
# 调用函数并传入要提取文本的PDF文件路径
pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)

PDF文書特有の制限や書式により、PDFテキストの抽出精度は影響を受ける可能性があることにご注意ください。一部のPDF文書は完全には抽出できず、抽出されたテキストにはいくつかの乱れや書式の問題が含まれている場合があります。