PythonでPDFファイルの内容を抽出する方法は何ですか?
PDFファイルの内容を抽出するには、PythonのPyPDF2ライブラリを使用することができます。まず、このライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます:
pip install PyPDF2
インストールが完了したら、以下のコードを使用してPDFファイルからテキスト内容を抽出できます。
import PyPDF2
def extract_text_from_pdf(file_path):
with open(file_path, 'rb') as file:
pdf_reader = PyPDF2.PdfFileReader(file)
text = ''
for page_num in range(pdf_reader.numPages):
page = pdf_reader.getPage(page_num)
text += page.extractText()
return text
pdf_file = 'example.pdf'
text = extract_text_from_pdf(pdf_file)
print(text)
この方法で抽出されたテキストは正確でない場合がありますので、注意してください。なぜなら、PDFファイルには画像やテキスト以外のコンテンツが含まれている場合があるからです。