ネイティブな日本語で画像から文字を抽出するJava機能を実装する方法

2年 ago

桜, 春樹

1 minute

OCR（光学式文字识别）技術を使えば、Java で画像からテキストを抽出し、編集可能なテキストに変換することが可能です。

以下、Tesseract-OCRライブラリを使用した、画像からテキストを抽出するシンプルなJavaコード例です。

まず、Tesseract-OCR をインストールして、システム環境変数にそのパスを追加してください。
Tesseract-OCRライブラリの依存関係をインポートします。例えば、Mavenプロジェクトでは、pom.xmlファイルに以下のような依存関係を追加できます。

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.1</version>
</dependency>

Javaクラスを作成し、必要なライブラリをインポートします。

import net.sourceforge.tess4j.*;

import java.io.File;

Javaコードで画像の文字抽出を行うためのコードスニペット：

public class ImageTextExtractor {
    public static void main(String[] args) {
        File imageFile = new File("path/to/image.jpg"); // 请替换为实际图片路径

        ITesseract tess = new Tesseract();
        tess.setDatapath("path/to/tessdata"); // 请替换为实际tessdata目录路径

        try {
            String result = tess.doOCR(imageFile);
            System.out.println(result);
        } catch (TesseractException e) {
            System.err.println(e.getMessage());
        }
    }
}

上のコードでは、まず文字を抽出し対象とする画像ファイルを表現するFileオブジェクトを作成します。次に、Tesseractオブジェクトを作成し、datapath属性にtessdataディレクトリの実在するパスを設定します。そして、doOCRメソッドを使って画像に対してOCR処理を行い、結果を制御台に出力します。

上記のコードのパスは、実際のものに置き換えてください。また、言語設定、画像の前処理など、必要に応じてその他設定を行います。

このコードサンプルがあなたのお役に立てば幸いです