1、照片OCR
\qquad
照片OCR(Optical Character Recognition)也称照片光学字符识别,照片OCR的流程包含以下三步:第一步是文本检测;第二步是字符分割;最后一步是字符分类;如下图所示:
\qquad
像上述这种系统,称之为机器学习流水线,指一个系统中包含许多阶段和组成部分,其中某些组成部分之中需要用到机器学习的内容。
1.1 滑动窗口分类器(Sliding Windows Classifier)
\qquad
对于一幅图片,首先选择一个矩形框作为image patch,之后选定一个步长e.g., 4 pixels,然后让矩形框按照步长向前移动,直到搜索完整幅图片的所有像素。
1.2 获取大量训练数据-人工合成数据
\qquad
人工合成数据有两种方式,一种是从无到有合成数据,另外一种是通过对已有的训练数据进行一定的变换进行数据集扩大。
\qquad
注意事项: 首先确保模型有比较小的bias值,这样扩大训练集数据才有意义;增加特征数量和神经网络中隐藏层的数量都可以增大bias值。
1.3 上限分析-ceiling analysis
\qquad
上限分析是用来判断在机器学习的整个框架之中,哪一个部分最值得花时间取提升效能。上限分析的基本思想是,手动将机器学习流水线中的每一部分设置为完全准确的分类效果,之后沿着流水线向下依次调整,调整一次之后记录调整之后的分类准确率的变化,最终将分类准确率变化最大的那个模块挑出来,即为最值得改进的模块。
THE END
|