IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Java知识库 -> Maven项目中使用Tess4J(OCR识别--图片文字识别) -> 正文阅读

[Java知识库]Maven项目中使用Tess4J(OCR识别--图片文字识别)

Tess4J介绍

Tess4J官网
Tesseract-OCR支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选。而Tess4j则是Tesseract在Java PC上的应用。在英文和数字识别中性能还是不错的,但是在中文识别中,无论速度还是识别率还是较弱,建议有条件的话,针对场景进行训练,会获得较好结果。

Tess4J的使用

Maven依赖导入

Tess4J Tesseract For Java >>4.5.4

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.4</version>
</dependency>

添加Tessdata语言库

github下:语言库下载地址
百度云盘下 :

链接:https://pan.baidu.com/s/1BTMTbCb_y2fAnrFGf740zg 
提取码:crz5

在任意地方创建一个文件夹tessdata,将下载的chi_sim.traineddata(中文语言库)和 eng.traineddata(英文语言库)语言包存放在该目录下,也可以直接存放到自己项目的resources/tessdata目录下。
我是放在了项目根目录下,将所有的语言库都放了进去。
在这里插入图片描述

新建环境变量

也可以新建一个环境变量TESSDATA_PREFIX,变量值为语言库解压的文件夹路径。
可以在项目中通过System.getenv(key)获取到环境变量的值。
新建环境变量

编写demo代码

package com.chen;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;
public class TesseractExample {
    public static void main(String[] args) {
        File imageFile = new File("C:\\Users\\Administrator\\Desktop\\111.jpg");
        ITesseract instance = new Tesseract();  // JNA Interface Mapping
        // 语言库的路径
        // instance.setDatapath("D:\\TessData\\tessdata\\tessdata-master");
        // 通过环境变量获取
        instance.setDatapath(System.getenv("TESSDATA_PREFIX"));
        // 设置语言为中文, eng为英文
        instance.setLanguage("chi_sim");
        try {
            long startTime = System.currentTimeMillis();
            // 执行OCR操作
            String result = instance.doOCR(imageFile);
            System.out.println(result);

            long endTime = System.currentTimeMillis();
            System.out.println("Time is:" + (endTime - startTime) + " 毫秒");
        } catch (TesseractException e) {
            System.err.println(e.getMessage());
        }
    }
}

其中111图片为:
在这里插入图片描述
输出结果为:
在这里插入图片描述

官方提供实例代码示例代码链接

package net.sourceforge.tess4j.example;

import java.io.File;
import net.sourceforge.tess4j.*;

public class TesseractExample {

    public static void main(String[] args) {
        File imageFile = new File("eurotext.tif");
        ITesseract instance = new Tesseract();  // JNA Interface Mapping
        // ITesseract instance = new Tesseract1(); // JNA Direct Mapping
        instance.setDatapath("tessdata"); // path to tessdata directory

        try {
            String result = instance.doOCR(imageFile);
            System.out.println(result);
        } catch (TesseractException e) {
            System.err.println(e.getMessage());
        }
    }
}

在这里插入图片描述


如有错误,欢迎指出。
  Java知识库 最新文章
计算距离春节还有多长时间
系统开发系列 之WebService(spring框架+ma
springBoot+Cache(自定义有效时间配置)
SpringBoot整合mybatis实现增删改查、分页查
spring教程
SpringBoot+Vue实现美食交流网站的设计与实
虚拟机内存结构以及虚拟机中销毁和新建对象
SpringMVC---原理
小李同学: Java如何按多个字段分组
打印票据--java
上一篇文章      下一篇文章      查看所有文章
加:2022-02-16 12:56:41  更:2022-02-16 12:58:43 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 12:24:56-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码