[人工智能] 【OCR】场景文本识别(SCR)中各模块性能比较

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【OCR】场景文本识别(SCR)中各模块性能比较 -> 正文阅读

[人工智能]【OCR】场景文本识别(SCR)中各模块性能比较

论文链接：https://arxiv.org/abs/1904.01906
github代码：https://github.com/clovaai/deep-text-recognition-benchmark.

PS：文章主要对别TPS(矫正)、特征提取、BiLSTM、Attention这四个模块对文本识别的精度、耗时、内存的影响。

一、摘要：

提出现有论文中使用的各个数据集的不一致。
针对OCR识别提出了一个统一的框架，将模型分成4个连续的部分：矫正转换（Trans），特征提取（Feat），序列模块（Seq），预测（Pred）。

二、统一训练集与测试集

作者提到之前的论文中使用的数据集都不一致，不好评判对比模型之间的性能。因此给出统一的数据集。

2.1统一的训练集

MJSynth（MJ）：含有8.9百万的croped文本图片，主要特点如下：不同的字体渲染、边框和阴影渲染、背景着色、字体，边框和背景的合成、应用投影失真、与现实世界的图像混合、添加噪音。
SynthText（ST）：是另外一个人工合成的图片，其本来是用于文本定位的。但是其中可以crop出5.5百万的文字图片。

数据集样例图：

2.2 统一的测试集

主要有7个现实测试数据集，分为常规数据集和非常规数据集：

常规数据集：IIIT、SVT(谷歌街景图像，257张训练，647张测试，有很强的噪音，模糊和低分辨率)、IC03、IC13。
非常规数据集：IC15、SP(是从谷歌街景中收集的，包含645幅图像用于评估。由于非正面视角的流行，许多图像包含了透视投影)、CT(主要为弯曲的文本)。

2.3 不同网络在相同测试集下的性能比较

三. STR(Scene Text Recognition)框架分析

现有的STR(Scene Text Recognition)框架主要分为以下4部分:

1. 矫正转换模块 transformation(Trans.) ：使用空间转换器网络 (STN网络) 对输入文本图像进行归一化，将曲线、倾斜的文本矫正为水平的矩形文本。简化后面的识别流程。
2. 特征提取模块（Feat.）：将输入图像映射到一个表示，重点关注与字符识别相关的属性，同时抑制字体、颜色、大小和背景等不相关的特征。使用VGG、ResNet等网络，其实就是将输入图像通过CNN网络提取为抽象的特征信息。
3. 序列建模模块（Seq.）：捕捉上一步CNN提取特征的字符序列中的上下文信息，使我们能够更好的预测整个文本字符，而不是独立识别单个字符。使用BiLSTM等，也有的网络不要RNN结构直接ResNet + CTC，不过准确率想对低一些。
4. 预测模块(Pred.)：根据前面提取的图像特征预测输出字符序列结果。有两种方法：1）使用CTC输出识别结果，不要进行标签对齐操作。2）使用attention结构自动捕捉输入序列内的信息流来预测输出序列。它使网络能够学习到表示输出类依赖关系的字符级语言模型。

四、实验结果分析

作者对实验细节、训练数据等进行了丰富的实验分析，这里没有详细列出。给出文中的部分结论。

4.1 训练样本的多样性比训练样本的数量更重要;

4.2 不同结构组合的性能(精度、耗时、内存)分析

作者对比了不同模块组合的准确度-速度和准确度内存权衡。

1）权衡准确率-耗时：Rosetta 和 STAR-net 处于前沿。从上面2.3表格中可以看出Rosetta与crnn的耗时差不多(都为4点几ms)，但精度比CRNN高2%左右。而STAR-net精度要高更多，但耗时要10ms。PS：有空可以研究下Rosetta这个网络。
2）权衡准确率-内存：R2AM参数量最小(但耗时的20几ms!);

下表按模块组合的精度升序进行比较(T1 到 T5 表示精度时间，P1 到 P5 表示精度内存）。

4.3 ☆权衡精度与速度的结论(分析下表(a))：

T1花费的时间最短，不包括任何矫正和时序模块。从T1到 T5，依次引入以下模块ResNet、BiLSTM、TPS 和 Attn。从T1到T5，一次只更改单个模块。逐步增加STR模型的复杂性，以计算效率为代价提高了性能。

ResNet、BiLSTM和TPS对时间影响相对较平滑：引入ResNet、BiLSTM和TPS对速度影响相对平滑(1.3ms→10.9ms)，同时大大提高了准确性(69.5%→82.9%)。
Attention很耗时：另一方面，引入Attn只将准确率提高了1.1%，但对效率的影响巨大(耗时增加到27.6 毫秒)；
个人观点：T3、T4(ResNet + BiLSTM + CTC)的综合性价比相对高一些，TPS矫正模块根据实际使用场景考虑要不要使用(识别普通OCR文本感觉其实没必要使用TPS)。

???????????????????????????????????????????????????????????????? 这个表很重要

4.4 权衡精度-内存的结论(上表(b))：

P1 是内存消耗最少的模型，从P1到P5，内存和精度之间权衡。P1-P5每一步只修改一个单元模块，分别是Attn(注意力预测)、TPS(矫正)、BiLSTM(时序) 和 ResNet(特征提取)。这些模块以内存为代价依次提高准确性。

RCNN比VGG、resnet要更轻量化(参数量少)：与T1中使用的VGG相比，我们观察到P1-P4中的RCNN更轻(参数量更少)，并提供了良好的准确性-内存权衡。 RCNN需要少量重复应用的独特CNN层。
TPS、BiLSTM和attention对内存消耗不大：另外发现，矫正、时序和预测模块对内存消耗没有显著影响(1.9M→7.2M参数)。虽然模型总体上是轻量级的，但这些模块对精度提升效果很大(75.4%→82.3%)。
ResNet参数量很大：另一方面，最终的变化 ResNet 将精度提高了 1.7%，代价是内存消耗从 7.2M 增加到 49.6M 浮点参数。因此，如果对内存比较关注的话，可以使用TPS(矫正)、BiLSTM(时序)和attention(预测)模块，但应避免使用ResNets这种参数量很大的特征提取器。

小结：

attention对时间性能影响较大，ResNet对内存影响较大，实际使用时根据需求选用不同的单元模块进行组合。
每个模块在所有组合下对性能的贡献都相似，应该不存在某种模块单元搭配起来更好。

4.5 四个模块各自的长处

1）TPS转换将弯曲和透视文本标准化为标准化视图。预测结果显示了显着的改进，特别是对于圆圈品牌标志中的“POLICE”和店面标志透视图中的“AIRWAYS”。

2）高级特征提取器ResNet具有更好的表示能力，改善了背景杂乱“YMCA”、“CITYARTS”）和不可见字体（“NEUMOS”）的情况。

3）BiLSTM 通过调整感受野可以更好的对上下文建模；它可以忽略不相关的裁剪字符（“EXIT”末尾的“I”，“G20”末尾的“C”）。

4）Attention注意力机制会发现缺失或被遮挡的字符，例如“Hard”中的“a”、“to”中的“t”和“HOUSE”中的“S”。

????????所有 24 种 STR 组合的完整实验结果。每个基准的最高准确率以粗体显示。对于每个 STR 组合，我们使用不同的初始化随机种子运行了五次试验，并对它们的准确度求平均值。

五、文章的用意

????????虽然在新颖的场景文本识别 (STR) 模型上取得了巨大进步，但它们在不一致的基准上进行了比较，导致难以确定论文作者提出的模块是否以及如何改进 STR 基线模型。本文分析了之前在不一致的实验设置下受到阻碍的现有 STR 模型的贡献。为了实现这一目标，我们在关键的 STR 方法以及一致的数据集之间引入了一个通用框架：七个基准评估数据集和两个训练数据集（MJ 和 ST）。我们对所比较的关键 STR 方法进行了公平比较，并分析了哪些模块带来了最大的准确性、速度和尺寸增益。我们还对模块对 STR 中典型挑战的贡献以及剩余的故障案例提供了广泛的分析。

附录，文章附录中有对这四个模块的详细介绍。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的