安装过程可以看这篇
【转】Tesseract-OCR 字符识别_code bean的博客-CSDN博客
Tesseract-OCR 4.0之后貌似识别精度上了一个台阶,有个软件jTessBoxEditorFX可以提高Tesseract-OCR 识别精度,但是我目前发现,在没有训练的情况下,Tesseract-OCR 4.0识别的数字的准确率已经很的高了。
然后github上提供的最新tessdata也只支持4.0以上的版本。
tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine (github.com)https://github.com/tesseract-ocr/tessdata
?
这次试试,识别汉字,其实在安装的时候,你就可以选择很多语言的识别,但是安装的是我这边报错,说下载chi_sim失败 ,这个就是识别中文的tessdata,我们可以去github下载 tessdata。
然后拷贝到安装路径:Tesseract-OCR\tessdata 下面:
?然后输入命令:
tesseract? ?E:\test\汉字4.png ? ?E:\test\hz.txt? ? -l? ? chi_sim
第一个参数是图片,第二参数是输出到文本? ? ?-l 指定语言 (chi_sim)? ?及简体中文。
(如果是识别数字和字符,就不用 -l 指定语言)
?最后测试发现,如果中文是挨着的,它基本就都识别错了,但是如果汉字是隔开的,识别就都是对的。
资源下载:
tesseract-ocr-setup-4.00.00dev+tessdata+jTessBoxEditorFX-2.2-图像识别文档类资源-CSDN文库https://download.csdn.net/download/songhuangong123/85219836
|