PythonでPDFから特定のコンテンツを取得する方法は何ですか？

2年 ago

芽依, 雨夜

1 minute

PDFドキュメントから指定されたコンテンツを抽出するには、Pythonのいくつかのライブラリを使用することでできます。以下は、PyPDF2ライブラリを利用したサンプルコードです。これを使ってPDF内の指定されたコンテンツのクロールを始めることができます。

import PyPDF2

# 打开PDF文件
pdf_file = open('example.pdf', 'rb')

# 创建PDF阅读器对象
pdf_reader = PyPDF2.PdfReader(pdf_file)

# 获取PDF的页数
num_pages = pdf_reader.numPages

# 遍历每一页
for page_num in range(num_pages):
    # 获取当前页的内容
    page = pdf_reader.getPage(page_num)
    page_text = page.extractText()

    # 在当前页中查找指定内容
    if '指定内容' in page_text:
        # 打印页码和内容
        print('Page:', page_num+1)
        print(page_text)

# 关闭PDF文件
pdf_file.close()

上記のコードでは、まずPDFファイルを開き、PythonのPyPDF2ライブラリを使用してPDFリーダーオブジェクトを作成しました。その後、各ページを反復処理し、extractText()メソッドを使用して各ページのテキスト内容を抽出しました。次に、各ページのテキスト内容から特定の内容を検索し、見つかった場合はページ番号と内容をプリントしました。最後に、PDFファイルを閉じました。

これは基本的な例であり、実際の状況はより複雑かもしれません。PDFファイルの構造や内容によって、具体的なクロール方法は異なる可能性があります。必要な指定内容を取得するために、抽出したテキストをさらに処理や解析する必要があるかもしれません。