[系统运维] 淡谈自然场景下小样本OCR文字识别

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 系统运维 -> 淡谈自然场景下小样本OCR文字识别 -> 正文阅读

[系统运维]淡谈自然场景下小样本OCR文字识别

淡谈自然场景下小样本OCR文字识别

1. 环境准备

实验中使用了centos7.6，intel core i4710，gtx980M（老机器重装）
安装的时候要注意，linux内核版本和实际版本要一致，不然会报错

Linux下Nvidia驱动的安装参见（kernel版本不一致先升级内核）：
https://blog.csdn.net/qq_44961869/article/details/115954258

cuda切换参见：
https://www.cnblogs.com/jyroy/p/14378146.html

其他
linux安装宝塔一键安装命令如下：
yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh

内网穿透推荐：
https://frp.fujuage.com/

2.anaconda

linux安装anaconda教程参见：
https://blog.csdn.net/ychgyyn/article/details/82258136

conda更换源（推荐中科大源–清华源是个坑）参见：
https://ask.hellobi.com/blog/safa/36820

conda删除源方法
conda config --remove-key channels

3.pytorch版本

不同的版本要有不同的pytorch版本要对应不同的cuda版本，参见官网：
https://pytorch.org/get-started/previous-versions/

4.OCR文字识别现有成熟架构

图像预处理->目标检测->ctcloss->softmax分类器
完整参见项目：https://blog.csdn.net/qq_24819773/article/details/104605994?utm_medium=distribute.pc_relevant.none-task-blog-2_defaultbaidujs_title~default-0.no_search_link&spm=1001.2101.3001.4242

5.小样本OCR文字处理的困境

由于小样本需要不断对神经网络得到的特征向量做torcat函数（简单的讲特征向量做差），然后再放入网络之中所以无法直接使用ctcloss做文字的识别所以打算采用的架构如下：
图像预处理->目标检测（文字块）->文字块切割->小样本分类网络

6.图像预处理

1.图像去雾算法
参见：https://github.com/xiaominghero/ImageDehazing

2.图片文字褶皱恢复
参见：https://github.com/tommyMessi/waveCorrection

3.图片大小变换
参见：https://www.cnblogs.com/zhuxiangru/p/10620814.html

4.图片旋转
参见：https://www.cnblogs.com/bob-jianfeng/p/11237806.html

5.图片去噪（四种滤波器）
参见：https://blog.csdn.net/qq_27261889/article/details/80822270

7.目标检测

这一块算法比较多，一般来讲会使用RCNN用来识别，这里推荐几个开源更好的顶级会议算法：
1.TextFuseNet
参见：https://github.com/ying09/TextFuseNet

2.ABCNet
参见：https://zhuanlan.zhihu.com/p/126255677

3.MaskTextSpotterV3
参见：https://github.com/MhLiao/MaskTextSpotterV3

得到目标之后对的到图片求最小外接矩阵并且拉直
参见：https://www.jianshu.com/p/90572b07e48f

8.文字切割

这一块比较难，由于现有成熟的架构下都用了ctcloss这一类函数来避免由于粘连而导致的种种问题，而传统的基于水平方向，垂直方向投影的自然场景下文字分割效果实在是太差，实验中推荐使用MSER+NMS 文本检测，由于MSER+NMS的最大问题是识别的杂信息过多，但是其文本还是能基本识别出的，通过神经网络对其文字块进行分割之后再利用其算法得到的效果还是蛮好的。
算法参见：https://blog.csdn.net/javastart/article/details/111587778

9.小样本学习算法

关于小样本学习的基本算法可以参见这篇综述：https://zhuanlan.zhihu.com/p/61215293

通过研究顶会发现近两年流行图学习：传统的小样本学习、机器学习算法，在网络之中仅仅学习了网络节点的信息而忽视了网络节点之间边和边之间的联系。

这里推荐两个算法：
1.成熟的小样本学习算法：关系网络算法（Few shot learning）
参见：
https://github.com/gitabcworld/FewShotLearning
https://github.com/floodsung/LearningToCompare_FSL
2.DPGN：图网络
参见：
https://github.com/megvii-research/DPGN

系统运维最新文章

配置小型公司网络WLAN基本业务（AC通过三层

如何用DWDM射频光纤技术实现200公里外的站点

国内顺畅下载k8s.gcr.io的镜像

自动化测试appium

ctfshow ssrf

Linux操作系统学习之实用指令（Centos7/8均

加:2021-09-13 09:39:24 更:2021-09-13 09:42:05

360图书馆购物三丰科技阅读网日历万年历 2025年8日历

-2025/8/23 4:07:12-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码