Motivation

在两阶段的OCR算法中，文字识别算法的效果通常收到文字检测的效果限制。作者提出了 Implicit Feature Alignment，IFA模块，能够让普通的文字检测模块在无需text detector下进行多行文字识别(识别篇章）。

通过将IFA整合到文字识别的两种主流方法 attention-based和CTC-based，分别对应attention-guided prediction(ADP)和Extended CTC(ExCTC)；并且为了抑制negative prediction，改进 Aggregation Cross-Entropy，提出Wassetein-based Hollow Aggreation Cross-Entropy(WH-ACE )

方法

在这里插入图片描述

模型在推理过程如图所示，输入图像 $x$ （单行文本或者多行文本），首先采用CNN的特征提取器 $\mathfrak{F}$ 提取得到特征F
在这里插入图片描述
得到的特征 $F$ 直接经过分类器 $\mathfrak{C}$ 得到分类的结果图Y,其中K表示字符类别数+空字符

通过后处理就可以得到最终的预测序列。

IFA隐式位置对齐，从而特征F直接接分类器，能够在对应位置预测出正确的字符。下面详细介绍各个部分组件。

Attention-guided Dense Prediction(ADP)

模型在训练时图片用的单行文本。在通常的带注意力机制Encoder decoder中， attention decoder $\mathfrak{A}$ 采用RNN，GRU,LSTM等序列化输出文本，从而保证输出的序列关系，即
$P(y|x)=P(y1_|x)P(y_2|x,y_1)*...*P(y_t|x,y_1,...,y_{t-1})$
将attention map在t步记作 $\alpha_t$ ,
在这里插入图片描述
其中 $e_{t,h,w}$ 是用来计算attention map的energy map或者score map。上下文向量 $c_t$ ,

$c_t$ 作为分类器的输入，得到t时刻的预测 $y_t$

损失函数为交叉熵损失函数，

softmax会鼓励预测接近one hot分布（感觉这部分是，t步预测时attenion map通常只在对应的字符附件有响应，从而才有下面的公式）
在这里插入图片描述
所以这里是认为attention map的机制实现了对齐的，从而网络也学习到像素对应的位置特征。

Extended CTC(ExCTC)

这里的ExCTC是利用squeezeNet channel-wise做attention的思想，将得到的 $N ? C ? H ? W$ 的feature map沿着 $H$ 维度做attention，这样通过softmax后每一列只有一个响应，在沿着 $H$ 方向求和，得到 $N ? C ? 1 ? W$ ，最后直接过分类器都得到预测结果，预测结果是1维的，接下来就是传统的CTC loss。
在这里插入图片描述

Wassertein-based Hollow ACE(WH-ACE)

后处理

通过分类器，最终得到对应的二维的字符预测结果，接下来就需要后处理。这里的后处理类似于DFS求解连通域
按照从左到右，从上到下的顺序，寻找每一个非blank预测结果，将所有联通的结果合并算作一个，最后得到最后的结果。

总结

本文在训练用单行文本训练，通过设计的attention模块和exCTC保证网络在不需要字符级的标注下，能够在多行文本inference在不同位置预测对应字符。但是感觉从原理上attention 部分在多行能够起作用，SE部分多行文本应该一列只有一个响应啊，虽然在inference的时候将SE的去掉，也许是通过训练时后只用单行文本，用SE来引导网络在对应位置和字符建立implicit的约束吧。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-08-05 17:21:26 更:2021-08-05 17:21:42

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/27 21:56:04-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码