前言：

光学字符识别（OCR）指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。目前OCR主要落地应用场景包括：自然场景文本检测识别、文档类印刷体文本检测识别、手写体文本检测识别。自然场景应用例如汽车车牌、汽车VIN码、街景等文本检测识别，证件（身份证，户口本等）、银行卡、票据（发票，收据，小票等）文本检测识别等等；文档类印刷体文本检测识别应用例如学生试卷转录，合同、法律判决书、论文电子书文本检测识别等等；手写体文本检测识别应用例如手写快递单文本检测识别，手写签名文本检测识别，学生考试作答试卷文本检测识别等等。虽然不同场景不同任务技术实现略有差别，但是主要核心技术包含：文本检测，文本识别；相关技术包含：文本图像矫正，图像文本版面分析，文本识别结果矫正，关键信息抽取等。

文本检测算法：

一：基于?Anchor Boxes 自上而下 + 自下而上的检测方法：???????

Faster-RCNN：基于通用物体检测实现文本检测。
TextBoxes：基于SSD更改卷积核尺寸，特殊设置 anchor，解决单词级别文本检测。
TextBoxes ++：解决单词级别，多方向文本检测。
R2CNN：解决旋转文本检测。
RRPN
YOLO系列
SegLink：解决任意长短，形状文本检测。
CTPN：解决水平或竖直任意长短文本检测。

二：基于?Anchor Free 的分割方法：

EAST/EAST++：解决任意形状文本检测。
Pixel Link
PSENet：解决相邻文本实例分割困难问题。
PAN
DBNet

总结：基于Anchor方法准确率较高，但是对于弯曲文本和畸变文本并不能够很好的处理，文本召回与Anchor预先设置的尺度息息相关。基于分割的方法能够克服弯曲和畸变，但是后处理相对麻烦，无法解决文本中包含文本的情况。目前通用OCR检测工程落地DBNet会应用更多。

文本识别算法：

???????CRNN + CTC
CRNN + ACE
CRNN + attention
CNN + Transformer
Transformer

总结：目前通用OCR识别无特殊要求情况下，工程落地CTC会应用更多些。当识别文本序列位置敏感或者隐藏含有结构信息时，例如弯曲畸变文本识别或者数学公式识别，会应用attention（Seq2Seq）和Transformer更多一些。近一年由于vision transformer的热潮，也催生文本识别更多基于Transformer范式的出现，例如结合图像和文本信息的多模态识别方法；基于大规模自监督图像预训练等等。

工程部署：

在实际项目中，训练一般都会使用python语言基于pytorch、tensorflow等开发框架实验算法，而在应用中大多会使用C++进行模型推理，同时加速模型推理速度，降低模型占用资源，方便集成到项目系统之中，无论是服务器还是端侧设备。基于框架优化，CPU环境下会将模型转化成onnx格式，利用onnxruntime框架加速推理；GPU环境下将模型转化成trt格式，利用tensorrt框架加速推理，同时tensorrt支持模型量化，降低存储内存。基于模型优化，一般会选用小模型预训练，以大模型为教师网络蒸馏小模型，并以一定策略剪枝模型，加速推理速度。

常用资源：

一：论文学习资源

顶会：ICDAR、CVPR、ECCV、ICCV等
Arxiv搜索引擎：http://www.arxiv-sanity.com/
论文速读CVer ：CVer计算机视觉 - 知乎

二：工程学习资源

三：部分常用公开数据集

SVT（Street View Text）
SVTP （Street View Text Perspective）
IIIT5K
ICDAR 2003 （IC03）
ICDAR 2013 （IC13）
ICDAR 2015 （IC15）
CUTE80 （Curve Text）
ICDAR2019-LSVT
ICDAR2017-RCTW-17
ICDAR2019-ArT

后续：

本人菜鸟程序员一枚，致力于深度学习OCR方向，工作过程中得到过很多前辈的指导，内心充满感激，希望把工作中得到的经验与使用的方法带给想入门OCR方向的同学，能力有限，内容比较浅显，希望能够对想入门OCR技术开发的同学有一点点的帮助就很开心。后续也会把工作中使用的工程算法、调优细节、部署方案以及前沿方法实验与大家分享。

???