IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Java知识库 -> tesseract-ocr+java实现图片文字识别 -> 正文阅读

[Java知识库]tesseract-ocr+java实现图片文字识别

? ? ocr是Optical Character Recognition的简写,就是光学字符识别技术。主要是对包含文本资料的图片进行识别,获取文本信息的技术。

? ? 目前tesseract-ocr这个工具可以很方便的在Windows、Linux、Mac下安装。

? ? windows下的安装链接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.1.20220118.exe

? ? 这个工具安装之后,需要设置环境变量TESSDATA_PREFIX,这个变量是设置tesseract安装目录下tessdata的目录位置。?

? ? 为了在命令行下使用tesseract可执行程序,最好把tesseract-ocr安装路径加入Path环境变量中。

? ? 这样,我们在命令行下就可以使用tesseract命令了,如下是检验tesseract安装是否正确:?

?

? ? 我们可以使用一个带字符的图片做验证:

? ? 该图片就是hello.png,上面有“hello.tesseract”字样。

?

? ? 命令行下,通过tesseract images\hello.png hello,可以把images目录下的hello.png图片识别,提取的文字保存在hello.txt文件中。

?

/

? ? 以上是通过tesseract-ocr工具直接提取图片中的字符,下面通过程序来提取,这里以java程序为例,加入net.sourceforge.tess4j依赖。

<dependency>
      <groupId>net.sourceforge.tess4j</groupId>
      <artifactId>tess4j</artifactId>
      <version>4.6.0</version>
</dependency>

? ? Java代码也是极其简单:

package ocr;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;
public class TestOCR {
    public static void main(String[] args) {
        Tesseract instance = new Tesseract();
        //instance.setDatapath("D:\\Program Files\\Tesseract-OCR\\tessdata");
        File imageFile = new File("D:\\yofc\\python\\images\\hello.png");
        try {
            String result = instance.doOCR(imageFile);
            System.out.println(result);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

? ? 运行程序,打印信息如下:

?

? ? ?这段代码,就是新建了一个Tesseract实例,然后就开始识别图片文件,仅仅四行代码就完成了识别和打印识别结果在内的功能。其实有的地方提到需要设置训练文件位置,如果我们前面的安装设置了TESSDATA_PREFIX,这里就不用设置了,本例就注释了这行代码:

instance.setDatapath("D:\\Program Files\\Tesseract-OCR\\tessdata");

? ? 同样可以运行成功,因为在Tesseract实例化的时候,会读取系统变量TESSDATA_PREFIX的值,并进行设置:

public Tesseract() {
        try {
            this.datapath = System.getenv("TESSDATA_PREFIX");
        } catch (Exception var5) {
        } finally {
            if (this.datapath == null) {
                this.datapath = "./";
            }

        }

    }

? ? ?至此,OCR示例就已经说完了,对于java开发而言,代码极其简单。有的地方,采用执行命令的方式,通过模拟命令行调用tesseract识别图片,其实没必要,那种代码如果移植,又需要设置linux环境下的安装路劲,非常麻烦。

  Java知识库 最新文章
计算距离春节还有多长时间
系统开发系列 之WebService(spring框架+ma
springBoot+Cache(自定义有效时间配置)
SpringBoot整合mybatis实现增删改查、分页查
spring教程
SpringBoot+Vue实现美食交流网站的设计与实
虚拟机内存结构以及虚拟机中销毁和新建对象
SpringMVC---原理
小李同学: Java如何按多个字段分组
打印票据--java
上一篇文章      下一篇文章      查看所有文章
加:2022-05-12 16:20:27  更:2022-05-12 16:21:33 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 22:40:41-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码