将tesseract-ocr安装到Ubuntu上

我們要安裝下列的套件。

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libicu-dev      
sudo apt-get install libpango1.0-dev 
sudo apt-get install libcairo2-dev   
sudo apt-get install libleptonica-dev

接下来,下载tesseract-ocr。

sudo apt-get install tesseract-ocr

下一步,在下载列表中,
https://code.google.com/p/tesseract-ocr/downloads/list

我们来下载日语和英语的训练数据。

tesseract-ocr-3.02.eng.tar.gz
tesseract-ocr-3.02.jpn.tar.gz

解压下载的文件,并将jpn.traineddata和eng.traineddata移动到/usr/local/share/tessdata/tessdata。

然后,设置TESSDATA_PREFIX变量。

export TESSDATA_PREFIX=/usr/local/share/tessdata

最后,让我们执行吧。

tesseract t.png out -l jpn

使用上述命令将t.png文件加载并以-l选项处理为日语,最终输出为out.txt。