困难的原因:目前对场景图像中文字检测与识别技术的研究多以中英文为主,对于维语文字的相关研究较少。
维语文本检测识别的难点:(1) 单词级的维语文字检测。维语单词内与维语单词间均有字符空隙,在场景图像中会引起维语的分词歧义影响单词级的维语文字检测精度;(2) 鲁棒的文字区域特征提取。一方面,维语文字的纹理特征较为简单,场景图像中的背景噪声易与文字混淆而引起假阳性检测。另一方面,场景图像中维语文字的尺度变化大,小尺度文字区域易被漏检;(3) 维语文字的书写粘连性。维语字符间常出现粘连现象,这为主流的文字识别方法在维语文字上的应用带来挑战;(4) 维语形近字符较多。这种字符类间的相似性会大大影响识别器性能。
检测的F-score:?(F 值96.7%)。为了增强特征提取能力,提出了区域增强模块和注意力融合模块。前者用于捕获全局上下文信息,从而抑制假阳性检测。。注意力融合模块利用注意力机制自适应地聚合多级文字语义特征,有利于多尺度文字区域的检测。分别提升了检测的1.2%和0.8%。
维语基本字符32 个,但每个维语字母在书写时有多种书写方式,每个字符可能有2到8种不同的书写形式,32 个基本字母共有128 种书写形式。同一字母的不同书写形式之间的视觉差异可能很大,而不同字母的不同书写形式在视觉上可能很相似。字母类间的相似性会大大影响识别器性 能。单词内的字母常粘连在一起,导致传统的识别算法效果不好。从右到左书写,写在基线上,并使用标点来区分语义类别,标点容易被当作噪声。维语单词内与维语单词间均有字符空隙,影响检测精度。文字矫正网络较大的计算开销以及空间采样所导致的信息丢失。注意力机制中的普遍存在的视觉特征不对齐问题。解决attention-based 的encoder-decoder的注意力不对齐的一种方法是解耦合编码器-解码器,仅在编码阶段进行特征对齐。陈阳改进了CRNN 算法的解码顺序,使之适应于维语文字从右向左的书写顺序???????看看n-gram语言模型。
维语单词间与单词内均有字符间隙,在无语言先验的情况下易引起单词检测歧义。FP是上下文的原因,通过提取全局上下文信息来解决。多尺度文本可以通过多尺度特征来缓解,但是直接融合多尺度特征不仅没有考虑到不同尺度信息的差异性而且还会引入噪声,本文使用注意力融合模块以自适应地融合多尺度文字区域特征,较少了噪声的引入。普通的并行解耦合的编码器-解码器结构对于模糊、粘连的文本会出现注意力不对齐的问题,因此文本提出了一个并行上下文建模模块以修正并行位置注意力模块所引起的注意力偏差。维语中有许多形近字符,只依赖视觉特征进行识别会导致出错。因此提出了一个双向语言模型来建模维语的双向语言学表征。注意力不对齐、视觉特征不对齐或注意力漂移是由传统的编码器解码器自身的特性所致,即编码器与解码器耦合和顺序解码。为此,作者提出一种并行的编码器解码器框架,其中注意力机制不再与解码器相连,避免了由于解码器顺序解码所引起的错误累积。基于注意力机制的文字识别方法对于维语识别的效果更好。
单词识别正确率(Word Recognition Accuracy, WRA) 即识别正确的单词比上所有标注的单词。单词错误率(Word Error Rate,WER) 是两种常用的文字识别评价指标。
维语单词内与单词间均存在字符间隙,模型需要更精细化的局部描述以区分词间间隙和词内间隙这两种模式。提出了区域增强模块和多尺度注意融合模块以提高主干网络的特征提取能力,分别解决FP和多尺度文本检测的问题。
基于注意力机制的文字识别方法不仅可以对文字的语言表征进行建模,而且可以自适应地关注图像中的字符区域以进行准确解码,其算法框架大致分为两种:传统的编码器解码器和并行的编码器 解码器。传统的编码器解码器结构中,注意力机制充当编码器和解码器之间的连接,顺序解码,低效,不适合长文本。并行的编码器解码器框架消除了编码器和解码器之间的耦合。在编码器中使用并行的注意力机制以一次输出所有关注的区域,并且该类框架可以实现并行的字符解码。传统的编码器解码器框架由于其顺序解码和耦合注意力计算的特性,视觉特征不对齐问题难以避免。并行编码器解码器框架在编码器中使用并行位置注意力模块(PPAM),避免了由于顺序解码和模块耦合所导致的错误积累和错误传播,缓解了视觉特征不对齐问题。但是对于一些难样本如模糊的维语文字,长维语文字及低质量维语文字图像的识别,仍存在字符区域关注不准的情况。本文认为这种情况是由于PPAM 中参与注意力计算的查询(queries) 和键(keys) 信息含量不一致导致的。在普通的注意机制中,queries 和keys 具有相同信息含量,即均包含位置信息和上下文信息。位置信息为注意机制提供了字符定位指导,上下文信息提供了特定于单词的知识,有助于注意力机制准确地关注单词中某个特定的字符区域。相比之下,PPAM 仅使用位置嵌入向量作为queries。这些位置嵌入向量对整个训练集中字符位置的统计信息进行编码,并在推理过程中保持固定且与具体的输入无关。第二个挑战是维语形近字符的识别,需要借助语言模型进行分辨。基于注意力机制的方法中通常将编码器作为视觉模型以提取图像中的视觉特征,将解码器作为语言模型以建模语言学信息。语言模型形式,有的方法使用RNN或GRU 以建模单向的语言学语义,有的方法利用Transformer 的网络以建模全局的语言语义信息。这些方法大多将语言模型同视觉模型一起进行端到端训练,这不仅会影响语言模型的学习,还会导致严重的单词依赖问题,大大影响语言模型的效果。因此本文在并行编码器解码器框架的基础上引入了一种并行上下文注意力机制,以实现鲁棒的场景维语文字识别。它由语言建模部分和注意力部分组成。对于语言建模部分,本文提出了一种双向语言模型以从视觉特征中建模全局的维语语言学语义。。对于注意力部分,本文取BLM 输出的具有语言学上下文的向量作为查询(queries),取主干网络中的卷积特征作为键值,进行注意力计算以进行准确的视觉特征对齐。
视觉特征提取器:在CNN 的顶部堆叠了Transformer 编码器单元,以捕获像素的远距离依赖。然后使用平行注意力模块来选择视觉模型要关注的N个特定局部区域。
平行位置注意力模块的query只包含位置信息,而没有包含语义信息,生成的注意力G1不准,为此提出了平行上下文注意力模块对G1进一步修正,即先让这个模块的query和key均含有上下文信息和位置信息。
|