| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 软件工程应用与实践(十):PP-OCRv2的简单介绍 -> 正文阅读 |
|
[人工智能]软件工程应用与实践(十):PP-OCRv2的简单介绍 |
2021SC@SDUSC 目录 一、前情回顾和背景介绍1.1 PP-OCR文字识别策略回顾? ? ? ? 策略的选用主要是用来增强模型能力和减少模型大小。下面是PP-OCR文字识别器所采用的九种策略:
1.2 PP-OCRv2的背景
? ? ? ? 在之前的工作中,我们提出了一种实用的超轻量级OCR系统(PP-OCR)来平衡精度和效率。为了提高PP- OCR的准确性并保持高效率,在本文中将介绍,根据Paddle Paddle官方文档提出的一种更鲁棒的OCR系统,即PP -OCRv2。 ? ? ? ? PP -OCRv2引入了一系列技巧来训练更好的文本检测器和更好的文本识别器,其中包括协作互学习(CML)、 CopyPaste, 轻量级CPU 网络(PP-LCNet)、统一深度互学习(U-DML) 和增强CTCLoss 。 1.3??PP-OCRv2的简介
? ? ? ? 在之前,我们提出了-种实用的超轻量级0CR系统(PP-OCR) (Du et al. 2020) 来平衡精度和效率。它由文本检测、检测框校正和文本识别三部分组成。可微二值化(DB) (Liao et al. 2020a) 用于文本检测,CRNN (Shi, Bai, and Yao 2016) 用于文本识别。系统采用19种有效策略对模型进行优化和瘦身。为了提高PP-0CR的准确性并保持效率,在本文中,我们介绍一种更强大的OCR系统,即PP- -0CRv2。它引入了一系列技巧来训练更好的文本检测器和更好的文本识别器。图2说明了PP-0CRv2 的框架,大多数策略遵循PP-0CR,如绿框所示。这橙色框中的策略是PP- 0CRv2中的附加策略。 ? ? ? ? ? ? 二、PP-OCRv2策略介绍2.1? 新增策略简介2.1.1? 文本检测器新增策略? ? ? ? 在文本检测中,引入了协作互学习(CML) 和CopyPaste。CML.利用两个学生网络和一个教师网络来学习更强大的文本检测器。CopyPaste 是一种新颖的数据增强技巧,已被证明可有效提高对象检测和实例分割任务的性能(Ghiasi 等人,2021 年)。我们表明它也适用于文本检测任务。 2.1.2? 文本识别器新增策略? ? ? ? 在文本识别方面,引入了轻量级CPU网络(PP-LCNet)(Cui et al. 2021)、 Unified-Deep Mutual Learning (U-DML) 和CenterLoss。PP-LCNet是-种新设计的基于Intel CPU的轻量级主干网,它是从MobileNetV1 (Howard et al. 2017)修改而来的。U-DML利用两个学生网络来学习更准确的文本识别器。CenterLoss 的作用是放松相似人物的失误。我们进行了一系列消融实验来验证上述策略的有效性。此外,图2中灰色框中的策略被证明在PP-OCR 中是有效的。但这些都没有在本文中得到验证。将来,我们将采用它们来加快PP- OCRv2 - tiny中的推理速度。 2.2? 新增策略详解2.2.1? 文本检测器Col laborative Mutual Learning (CML) ? ? ? ??PP-OCRv2提出了CML方法(Zhang et al. 2017) 来解决文本检测蒸馏的问题。 ? ? ? ? 蒸馏有两个问题: 1. 如果teacher model的准确率接近student model,一般蒸馏方法带来的改进是有限的。2.如果teacher model的结构和student model的结构有很大的不同,一般的蒸馏方法带来的改进也很有限。
? ? ? ??CopyPaste是一种新颖的数据增强技巧,已被证明可有效提高对象检测和实例分割任务的性能(Ghiasi 等人,2021 年)。它可以合成文本实例来平衡训练集中正负样本的比例,这是传统的图像旋转、随机翻转和随机裁剪无法实现的。由于前景中的所有文本都是独立的,CopyPaste 将文本粘贴在随机选择的背景图像上而不会重叠。图4是CopyPaste的示例 ? ? 2.2.2? 文本识别器Lightweight CPU Network (PP-LCNet)
? ? ? ? 通过这四项更改,模型在ImageNet上表现良好。 Unified-Deep Mutual Learning (U-DML) ? ? ? ? 统一深度互学习(U-DML) 深度互学习(Zhang et al.2017)是一种方法,其中两个student网络相互学习,知识提炼不需要具有预训练权重的更大的教师网络。 ? ? ? ? ? 在DML 中,对于图像分类任务,损失函数包含两部分: (1) 学生网络和groundtruth之间的损失函数。(2) 学生网络输出软标签之间的Kullback-Leibler散度(KL-Div) 损失。
?
?
? ?
? ? ? ??中文识别任务中存在很多相似的字符。它们在外观上的差异非常小,经常被误认。在PP- ? ? ? ? 增强型CTCLoss 定义如下:
三、PP-OCRv2的实验测试及结果? ? ? ? 下次补充,这次先讲这么多。 总结? ? ? ? 本篇文章介绍的大多是策略实现理论知识。不太容易理解,下篇文章讲一下PP-OCRv2利用上述增强算法的效率测试结果,利用表格更加直观感受。另外稍带一下代码讲解。因为PP-OCRv2本体还是PP-OCR所以只讲一下PP-OCRv2在文本识别模型中使用的策略部分。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 2:32:31- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |