JavaでPDFからテキスト内容を抽出する方法は何ですか？

2年 ago

綾乃, 一希

1 minute

JavaでPDFのテキスト内容を取得するには、Apache PDFBoxライブラリを使用することができます。PDFBoxはオープンソースのライブラリであり、PDFファイルを操作するための一連のAPIを提供しています。

最初に、JavaプロジェクトにPDFBoxの関連依存関係をインポートする必要があります。 MavenやGradleを使用して依存関係を管理し、以下の依存関係を追加することができます。

メーヴェン：

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.26</version>
</dependency>

Gradle: グラードル

implementation 'org.apache.pdfbox:pdfbox:2.0.26'

その後、PDFのテキスト内容を抽出するために以下のコードを使用できます：

import org.apache.pdfbox.Loader;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFTextExtractor {

    public static void main(String[] args) {
        try {
            // 加载PDF文档
            PDDocument document = Loader.loadPDF(new File("your_file_path.pdf"));
            
            // 创建PDFTextStripper对象
            PDFTextStripper stripper = new PDFTextStripper();

            // 获取PDF文档的文字内容
            String text = stripper.getText(document);

            // 打印文字内容
            System.out.println(text);

            // 关闭文档
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

上記のコードでは、LoaderクラスのloadPDFメソッドを使用してPDFドキュメントを読み込みます。次に、PDFのテキストコンテンツを抽出するためにPDFTextStripperオブジェクトを作成します。最後に、PDFTextStripperのgetTextメソッドを呼び出すことで、PDFの全文を取得できます。

注意：この方法で抽出されたテキストには、改行や空白などのフォーマットされた文字が含まれる可能性があります。テキストの内容をさらに処理する場合は、自分の要件に合わせて文字列操作を行ってください。