PythonでPDFファイルの内容を抽出する方法は何ですか?
Pythonで、PDFファイルの内容を抽出するには、PyPDF2ライブラリを使用することができます。最初に、PyPDF2ライブラリをインストールする必要があります。以下のコマンドを使用してインストールすることができます:
pip install PyPDF2
その後、PDFファイルの内容を抽出するために以下のコードを使用することができます。
import PyPDF2
# 打开PDF文件
with open('example.pdf', 'rb') as file:
# 创建一个PDF读取器对象
pdf = PyPDF2.PdfFileReader(file)
# 获取PDF文件的总页数
num_pages = pdf.numPages
# 循环遍历每一页
for page in range(num_pages):
# 获取当前页的内容
page_content = pdf.getPage(page).extract_text()
# 打印当前页的内容
print(page_content)
注意,上記のコード内のexample.pdfはコンテンツを抽出したいPDFファイルのパスです。コードではPdfFileReaderクラスを使用してPDFファイルを読み取り、numPages属性を使用して総ページ数を取得します。次に、指定されたページの内容を取得するgetPage()メソッドを使用し、extract_text()メソッドを使用してテキスト内容を抽出します。最後に、print()関数を使用して抽出した内容を出力できます。
頼りにしています!