Python3を使用して、DOCXドキュメントを一括でTXTファイルに変換する方法は?
Python3を使用して、複数のDOCX文書をTXTに一括変換するには、python-docxライブラリを使うことができます。以下に簡単なサンプルコードを示します。
from docx import Document
def convert_docx_to_txt(docx_file, txt_file):
doc = Document(docx_file)
with open(txt_file, 'w', encoding='utf-8') as f:
for paragraph in doc.paragraphs:
f.write(paragraph.text + '\n')
# 批量转换
docx_files = ['file1.docx', 'file2.docx', 'file3.docx']
for docx_file in docx_files:
# 构建输出文件名
txt_file = docx_file.replace('.docx', '.txt')
convert_docx_to_txt(docx_file, txt_file)
上記のコードでは、convert_docx_to_txt関数がDOCXファイルのパスとTXTファイルのパスを入力として受け取り、DOCX文書の内容をTXTファイルに1行ずつ書き込みます。そして、docx_filesリストに変換する必要があるDOCXファイル名を格納し、リスト内の各ファイルをループして、convert_docx_to_txt関数を呼び出して変換を行います。
python-docxライブラリを使用しているため、事前にこのライブラリをインストールする必要があります。インストールするには、以下のコマンドを使用できます。
pip install python-docx
Python 3とpipがインストールされていることを確認し、DOCXファイルをコードファイルと同じディレクトリに保存してください。