IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> ???????深度学习在场景文字识别技术中的应用综述 -> 正文阅读

[人工智能]???????深度学习在场景文字识别技术中的应用综述

目前的场景文本检测大致可以分为:基于回归检测和基于分割的方法,以及将两者结合的方法。

基于回归检测

通常基于卷积神经网络(CNN)的检测方法是将多个预测得到的候选区域输入到 CNN进行特征提取,并通过分类确定候选区域是否包含目标实例。
文献 Synthetic data for text localisation in natural images[C] 基于全卷积网络(FCN)和 YOLO的思想,提出了一种霍夫投票的变体,利用平移不变性将局部预测器作为 CNN 的最后一层,模型同时密集地预测各像素的类别标签以及基于该像素的预测边界框的参数,显著提高了检测性能。但是整个网络结构仍然过于复杂,严重影响了训练时间,且不能很好地检测旋转文本。

文献 [Deep matching prior network:toward tighter multi-oriented text detection[C]] 中的深度匹配先验网络(DMPNet)首次提出用四边形检测旋转文本。该模型首先利用四边形滑动窗口粗略地召回文本。然而利用滑动窗口定位文本的方法,通常无法避免不必要的滑动窗口与文本实例之间的区域重叠甚至信息丢失。为此提出了一种共享蒙特卡罗方法,使得在计算重叠区域面积时更加高速和精准。该模型摒弃了传统的矩形检测框,有效解决了检测旋转文字时的背景冗余和信息缺失等问题。但是 DMPNet 所使用的滑动窗口是人工设定的,在检测某些极端角度的文字时不够灵活。模型直接预测矩形框的顶点坐标,这样会出现坐标的顺序混淆问题。Liu等人进一步将预测边框离散化为关键边缘,然后利用一个多分类器学习得到正确的文本匹配。但是这种基于参数回归的方式检测旋转文本存在边界间断的问题。

文献 TextBoxes:a fast text detector with a single deep neural network 提出的 TextBoxes是一种基于单例多框检测器( single shot multibox detector ,SSD)的全卷积网络模型。由于文字往往有较大的长宽比,SSD在检测横纵比较大的单词时会出现失误。为此文中设计了多个不同比例的默认框,并且为每个默认框设置了垂直偏移量,以避免各框之间竖直方向过于稀疏而导致检测性能变差。而且 TextBoxes 只能检测水平方向的文字,在不规则场景文本的检测上,如处理弯曲、旋转程度较大等问题时,成比例的单一矩形框已经不能满足需求。为 此, TextBoxes++: A Single-Shot Oriented Scene Text Detector对 TextBoxes进一步地优化,不再使用传统的单一矩形框作为检测文本的预测边框,而是通过回归文本多边形的端点坐标来检测多向文本,使用四边形或旋转的矩形有效解决了旋转文字的检测问题。在测试阶段使用非最大值抑制来合并所有文本框层的结果。但是整个网络步骤繁杂,训练时间较长。Zhou等人[14]优化了检测流程,仅包括两个阶段:FCN 阶段对输入图像进行特征提取,提取出不同水平的特征映射,其结构如图1所示;非最大值抑制阶段则对特征进行自顶向下的合并。模型可以对旋转文本进行检测,预测边框可以是任意四边形。该模型减少了候选框建议、单词划分等中间步骤和组件,有效提高了处理效率和性能。但是EAST(efficient and accurate scene text detector)模型的感受野受到网络接收域大小的限制,在检测长文本时性能不佳。为此,R- Net:a relationship
network for efficient and accurate scene text detection
通过在特征金字塔上构造双向卷积来将多尺度特征映射到尺度不变的空间,使得模型对多尺度文本的检测更加鲁棒,对长文本或小文本的检测性能也更好。但是模型并没用舍弃后处理步骤,在训练时间上不如EAST。请添加图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-01 23:22:47  更:2022-04-01 23:26:10 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 12:51:34-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码