PythonでPDFをWord文書に変換する方法は何ですか?
PythonのサードパーティーライブラリであるPyPDF2とpython-docxを使用して、PDFファイルをWord文書に変換することができます。
最初、これらの2つのライブラリをインストールする必要があります。pip コマンドを使用してインストールできます。
pip install PyPDF2
pip install python-docx
その後、PDFをWordドキュメントに変換するために次のコードを使用することができます:
import PyPDF2
from docx import Document
def convert_pdf_to_docx(pdf_file, docx_file):
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
docx = Document()
for page_num in range(pdf_reader.numPages):
page = pdf_reader.getPage(page_num)
text = page.extract_text()
docx.add_paragraph(text)
docx.save(docx_file)
# 示例使用:
pdf_file = 'input.pdf'
docx_file = 'output.docx'
convert_pdf_to_docx(pdf_file, docx_file)
input.pdfを変換したいPDFファイルのパスに置き換えて、output.docxを保存したいWord文書のパスに置き換えてください。
このコードは、PDFファイルを開き、ページごとにテキストを抽出し、新しいWord文書に追加します。最後に、Word文書を指定されたファイル名で保存します。
この変換方法は、PDF内の一部の形式やレイアウトを失う可能性がありますので、より正確な変換が必要な場合は、商用のPDFをWordに変換するソフトウェアやライブラリを検討してください。