IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 基于PaddleOCR无法准确识别小图、长图的问题 -> 正文阅读

[人工智能]基于PaddleOCR无法准确识别小图、长图的问题

目的

????????飞浆开源的PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地,但是经过我的测试,在小图和长图上,PaddleOCR文本检测模型的效果就大大降低,如果没有大量的数据集就很难解决这个问题,这篇文章将好好讲解下如何解决这个棘手的问题。

问题展现

以下面几个图进行测试,在不修改任何代码的情况下执行命令,看下实际效果

python tools/infer/predict_det.py --det_algorithm="DB" --det_model_dir="./inference/ch_PP-OCRv3_det_infer/" --image_dir="./test/"

测试的小图

????

前三张,没有任何检测框,最后一张检测出了两个框,如下图:

?测试的长图

前一张,没有任何检测框,下两张效果很差,如下图:

解决方式

?1、增加小图数据集然后进行检测训练

????????优点:无需修改代码

? ? ? ? 缺点:耗时

2、对图片进行预处理,增加图片的大小,给图片加一定大小的边框

? ? ? ? 优点:提高了图片的检测效果

? ? ? ? 缺点:降低检测速度

下面我们看看如何实现第二种方式,代码如下

if __name__ == "__main__":
    ...

    image_names = os.listdir(args.image_dir)
    index = 0

    for image_file in image_file_list:
        index += 1
        img, flag = check_and_read_gif(image_file)
        if not flag:
            img = cv2.imread(image_file)
        if img is None:
            logger.info("error in loading image:{}".format(image_file))
            continue
        st = time.time()

        # *******************开始*********************
        h, w = img.shape[0], img.shape[1]
        border = [0, 0]
        transform_size = 320  # 图片增加边框到320大小
        if w < transform_size or h < transform_size:
            if h < transform_size:
                border[0] = (transform_size - h) / 2.0
            if w < transform_size:
                border[1] = (transform_size - w) / 2.0
            # top,buttom,left,right 对应边界的像素数目(分别为图像上面, 下面, 左面,右面填充边界的长度)
            img = cv2.copyMakeBorder(img, int(border[0]), int(border[0]), int(border[1]), int(border[1]),
                                     cv2.BORDER_CONSTANT,
                                     value=[215, 215, 215])
        # 保存图片
        image_file = "inference_results/test/" + image_names[index-1]
        cv2.imwrite(image_file, img)
        # *******************结束***********************

        dt_boxes, _ = text_detector(img)

我将图片增加边框到320大小,下面我们来看看实际效果,如下图:

?

可以看到,上面无法检测的小图都检测到了,两个长图效果也大大增加。?

上面是为了观察流程,现在看如何把边框去掉,接上上面的代码,如下:

        # 删除这两行代码
        # image_file = "inference_results/test/" + image_names[index-1]
        # cv2.imwrite(image_file, img)
        # *******************结束***********************

        dt_boxes, _ = text_detector(img)
        
        for bno in range(len(dt_boxes)):
            tmp_box = copy.deepcopy(dt_boxes[bno])
            if transform:
                if border[0] > 0 or border[1] > 0:
                    for i in range(len(tmp_box)):
                        pos = [0, 0]

                        if 0 <= tmp_box[i][0] - border[1] <= w:
                            pos[0] = tmp_box[i][0] - border[1]
                        elif tmp_box[i][0] - border[1] < 0:
                            pos[0] = 0
                        else:
                            pos[0] = w
                        if 0 <= tmp_box[i][1] - border[0] <= h:
                            pos[1] = tmp_box[i][1] - border[0]
                        elif tmp_box[i][1] - border[0] < 0:
                            pos[1] = 0
                        else:
                            pos[1] = h
                        dt_boxes[bno][i] = pos

结果如下:

????

?

总结

? ? ? ? 经过上面方式2的调整,基本上小图和长图文字检测有个质的飞跃,如还有其他方式能够提高图片的检测,希望在评论区提供出来,共同进步。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-06-01 15:13:42  更:2022-06-01 15:14:36 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/1 23:24:17-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码