どのように Python で PDF テキストを修正しますか?
PythonのPyPDF2ライブラリを利用すると、PDF内のテキストを変更できます。以下は、Pythonを使用してPDF内のテキストを変更する方法の例です。
import PyPDF2
# 打开原始PDF文件
with open('original.pdf', 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
writer = PyPDF2.PdfFileWriter()
# 遍历每一页
for page_num in range(reader.numPages):
page = reader.getPage(page_num)
text_data = page.extractText()
# 替换文字
modified_text = text_data.replace('原始文字', '修改后的文字')
# 创建一个新的页面,并将修改后的文字添加到新页面中
new_page = PyPDF2.pdf.PageObject.createBlankPage(None, page.mediaBox.getWidth(), page.mediaBox.getHeight())
new_page.mergeScaledTranslatedPage(page, 1, 0, 0, expand=False)
new_page.mergeTranslatedPage(PyPDF2.pdf.PageObject.createTextObject(modified_text), 0, 0)
# 将新页面添加到PDF写入器中
writer.addPage(new_page)
# 保存修改后的PDF文件
with open('modified.pdf', 'wb') as output_file:
writer.write(output_file)
コード中のoriginal.pdfを修正対象のPDFファイルのパスに、’元の文字’を置換したい文字に、’修正後の文字’を置換後の新しい文字にそれぞれ置き換えれば、修正された文字列を含むmodified.pdfという新しいPDFファイルが生成されます。
PyPDF2ライブラリは編集可能なテキストを含むPDFファイルのみを処理できますので、注意してください。スキャン文書やイメージPDFファイルの場合、文字コンテンツを抽出しようとするには、他のライブラリやツールを使用してOCR(光学式文字認識)を実行する必要があります。