IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> CRAFT -> 正文阅读

[人工智能]CRAFT

论文地址:Character Region Awareness for Text Detection


在处理具有挑战性的文本时,字符级意识有许多优势,可以通过自下而上的方式链接连续的字符。但目前大多数存在的文本数据集并没有提供字符级别的标注,因为这个工作代价非常大。

方法总述

由卷积神经网络产生字符region score和affinity score。region score用于定位图片中的单个字符,affinity score用于将单个字符分类到相应的实例。为了弥补缺少字符级标注的问题,作者提出了一个weakly-supervised学习框架,从现存的单词级的数据集中估计字符级的ground truth。

在这里插入图片描述

训练

产生ground truth

也就是产生ground truth的region score和affinity score,前者表示每个pixel是字符的中心的概率,后者表示每个pixel是相邻的字符中间的空间的中心的概率。

这里的两个score map并不是以0 1作为值,而是使用Gaussian heatmap来编码。

在这里插入图片描述
上面这个图解释了如何生成ground truth的两个map。
region score的生成:

  • 对于每个字符box,提前准备一个2维的各向同性的Gaussian map;
  • 计算Gaussian map和每个字符box之间的透视变换;
  • 将Gaussian map对应到字符box区域。

affinity score的生成:

  • 对于相邻的两个字符box,分别有四个顶点;
  • 将每个box的两个顶点相连,每个box产生两个三角形;
  • 取每个三角形的中心,会得到四个坐标,分别作为corner构成一个新的四边形;
  • 这个四边形同样和上述的说法一样,用一个Gaussian map通过透视变换对应。

弱监督学习

上面提到了如何根据字符box生成两个map,但字符box本身在数据集中就是没有被标注的,所以我们需要先以弱监督学习的方式,从每个单词级别的标注中生成字符级别的标注。

在这里插入图片描述
上面这个图表示是整个训练的过程。
synthetic image是具有字符级标注的数据集中的某个图片,而real image只有单词级标注。
首先进行的是蓝色的线,也就是synthetic image,这部分图像是打了标签的,当用该数据集训练,模型趋于稳定后,再使用real image进行弱监督。
弱监督的具体的流程是:

  • 将real image按照单词级的标注crop成多个文本区域;
  • 通过网络预测得到region score;
  • 使用watershed algorithm;
  • 得到字符级的bounding box;
  • 对应到原来的图片上,得到字符级的标注的图片。

由于real image的字符级的标注并不一定准确,所以这里用字符个数作为监督信息,因为字符个数一般在数据集中会提供,而且这也很容易通过预测后的字符级标注得到。对于字符个数预测准确的real image,由它产生的pseudo GT的置信度也会更高,因而模型预测出的结果和这个pseudo GT之间的loss更能影响模型的参数调整。

置信度的定义:
S c o n f = l ( w ) ? m i n ( l ( w ) , ∣ l ( w ) ? l c ( w ) ∣ ) l ( w ) S_{conf}=\frac{l(w)-min(l(w),|l(w)-l^c(w)|)}{l(w)} Sconf?=l(w)l(w)?min(l(w),l(w)?lc(w))?其中, l ( w ) l(w) l(w)是real image中的单词级标注 w w w包含的真实的字符个数, l c ( w ) l^c(w) lc(w)是预测得到的字符个数,置信度的值显然在0-1之间,且当预测个数和真实个数相等时,达到了1。

最终的目标损失函数计算为:
L = ∑ p S c ( p ) ? ( ∣ ∣ S r ( p ) ? S r ? ( p ) ∣ ∣ 2 2 + ∣ ∣ S a ( p ) ? S a ? ( p ) ∣ ∣ 2 2 ) L=\sum_p S_c(p)\sdot (||S_r(p)-S_r^*(p)||^2_2+||S_a(p)-S_a^*(p)||^2_2) L=p?Sc?(p)?(Sr?(p)?Sr??(p)22?+Sa?(p)?Sa??(p)22?)带星号的是pseudo GT,不带星号的是预测的,将region score 和affinity score的差值都以L2损失计算,并且乘上置信度。 p ∈ R ( w ) p\in R(w) pR(w),是 w w w中的一个像素。

Inference

直接上https://www.jianshu.com/p/9ff19ea4bfe9的描述。
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-13 12:01:20  更:2021-08-13 12:03:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 21:04:30-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码