PythonでPDFからテキストを抽出する方法は何ですか。
PDF内のテキストを抽出するために、PythonのPyPDF2ライブラリまたはpdfminerライブラリを使用することができます。
最初に、必要なライブラリをインストールする必要があります。PyPDF2ライブラリをインストールするには、次のコマンドをコマンドラインで実行してください。
pip install PyPDF2
もしくは、PDFMinerライブラリをインストールするために以下のコマンドを実行してください。
pip install pdfminer.six
次に、選択したライブラリを使用して、以下のサンプルコードを使ってPDFからテキストを抽出することができます。
PyPDF2ライブラリを使用したサンプルコード:
import PyPDF2
def extract_text_from_pdf(file_path):
text = ""
with open(file_path, "rb") as file:
pdf = PyPDF2.PdfFileReader(file)
num_pages = pdf.numPages
for page in range(num_pages):
page_obj = pdf.getPage(page)
text += page_obj.extract_text()
return text
file_path = "path_to_your_pdf_file"
text = extract_text_from_pdf(file_path)
print(text)
pdfminerライブラリを使用したサンプルコード:
import io
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage
def extract_text_from_pdf(file_path):
text = ""
with open(file_path, "rb") as file:
resource_manager = PDFResourceManager()
string_io = io.StringIO()
converter = TextConverter(resource_manager, string_io)
page_interpreter = PDFPageInterpreter(resource_manager, converter)
for page in PDFPage.get_pages(file):
page_interpreter.process_page(page)
text = string_io.getvalue()
converter.close()
string_io.close()
return text
file_path = "path_to_your_pdf_file"
text = extract_text_from_pdf(file_path)
print(text)
これらのコード例は、PDFファイルのパスが変数file_pathに保存されていると仮定しています。実際のPDFファイルのパスに置き換える必要があります。