| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 论文详解:Attention-based Extraction of Structured Information from Street View Imagery(基于注意力机制的街景图像信息提取) -> 正文阅读 |
|
[人工智能]论文详解:Attention-based Extraction of Structured Information from Street View Imagery(基于注意力机制的街景图像信息提取) |
0. 摘要? (1)该论文基于CNN、RNN和提出新颖的Attention建立的神经网络模型,在FSNS数据集上准确率达到84.2%,而之前最先进的方法的准确率为72.46%;另外,在Google的Street View 数据集上也表现良好。 1. 引言1.1 现状分析? (1)传统OCR侧重于从扫描文档中提取文本 ? (2)自然场景中提取文本更具有挑战性,其原因在于:自然场景容易产生视觉伪影、图片失真等情况 1.2 本文模型与之前模型的效果对比? 本文模型在FSNS上实现了84.2%的准确率,显著优于之前最优的72.46%。 1.3 CNN特征提取器? 本文研究了3种基于CNN的特征提取器: inception-V2, inception-V3, inception-resent-V2,将这三个的输出,作为注意力机制的输入。 1.4 此文贡献? (1)提出了一种新颖的基于注意力的文本识别架构,以端到端的方式进行训练 2. 方法? 该文使用CNN特征提取器处理图像,然后通过新颖的注意力机制进行加权,再将加权后的数据传递给RNN.模型结构如图: 2.1 基于CNN的特征提取器? 考虑了Inception-V2、Inception-V3和Inception-resent-V2三种特征提取器,后两种性能相当,且都由于第一种。记: 2.2 RNN? 文本识别的主要挑战是将特征图转换为单个文本字符串。RNN所做如下: ? Step4: 然后计算RNN的输出和下一个状态,计算如下: ? Step5: 给定时间
t
t
t时,字符的最终预测分布为 ? Step6: 计算可能的字母 2.3 空间注意力? 大多数使用空间注意力进行OCR的先前工作是根据当前的RNN状态预测掩码,如下: a t = s o f t m a x i , j ( a t ) a_t = softmax_{i,j}(a_t) at?=softmaxi,j?(at?) 其中,
V
a
V_a
Va?是一个向量,本文将
t
a
n
h
tanh
tanh中的内容替换成了: 2.4 处理多个视图? 在FSNS数据集中,每个符号有4个视图,每个视图的大小为150 x 150。通过相同的基于CNN的特征提取器(共享参数)独立处理每一个视图,然后将他们水平的连接起来。 2.5 训练? Step1: 使用(惩罚)最大似然估计训练模型,即我们需要最大化: 3.数据集介绍? 记录本文使用的数据集。 3.1 FSNS数据集? train: 965917 张 3.2 Street View Business Names Dataset? 约100万张商业方面的单视图图像,图片大小352 x 352,单张图片最多有33个符号,全部图片的字符类别共128个字符。 4. 实验结果4.1 FSNS的准确性? 图中的Standard Attention表示传统的注意力机制,Location Attention表示本文提出的空间注意力机制。 4.2 CNN提取器的深度对FSNS的影响? 精度可能会随着CNN深度的增加而增加而下降。 ? (1)字符识别不能从图像分类的高级功能中收益; ? (2)每次最大池化后的图像像素的空间分辨率会降低,这限制了特定字符注意力掩码的精度。 4.3 FSNS在注意力机制上的可视化? 使用该文文献[25]提出的
v
i
?
s
u
a
l
i
z
a
t
i
o
n
vi-sualization
vi?sualization 过程: 4.4 FSNS数据集的错误分析? 分析了100个随机抽样的错误预测,以更好地理解我们的模型的弱点。 5. 结论与展望? 在未来,我们希望研究更复杂的RNN训练方法,如计划抽样[26]或混合ML/RL方法[27]。我们还希望将该系统扩展到从店面中完全结构化地提取业务信息。 6. 论文和代码以及数据
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/1 23:44:59- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |