tesseract初探

http://code.google.com/p/tesseract-ocr/downloads/list

下载tesseract-2.04.tar.gz 和tesseract-2.04.exe.tar.gz ，分别解压。其中前者是源代码，里面有两张图片phototest.tif和eurotext.tif，后者是编译好的程序，可以直接使用的。

1。识别测试选取phototest.tif进行识别，需要tessdata，下载tesseract-2.00.eng.tar.gz复制到tesseract-2.04.exe目录下新建批处理：tesseract.exe phototest.tif output，并运行会输出文件output.txt，据说文本内容的识别率是100%，不过我没有一一核实。

2。训练假设图片样本为scan.tif（图片要二值化，就是非黑即白的，且tif文件不能是压缩的）新建tessdata目录，可以将tesseract-2.00.eng.tar.gz解压的tessdata文件下的内容复制一份。新建批处理：tesseract.exe scan.tif scan batch.nochop makebox，运行会输出文件scan.txt，修改识别错误的文字，并改名为scan.box.

新建批处理： tesseract scan.tif junk nobatch box.train training\mftraining scan.tr training\cnTraining scan.tr training\unicharset_extractor scan.box

运行后会输出若干个文件，把它们复制到tessdata目录替换原来的文件即可。生成出来的文件就是训练出来的数据，下次就可以用这些数据进行识别了。

文档信息

本文作者：zhupite
本文链接：https://zhupite.com/program/tesseract%E5%88%9D%E6%8E%A2.html
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

朱皮特的烂笔头

tesseract初探

文档信息

Search

Table of Contents