1、照片OCR

$\qquad$ 照片OCR(Optical Character Recognition)也称照片光学字符识别，照片OCR的流程包含以下三步：第一步是文本检测；第二步是字符分割；最后一步是字符分类；如下图所示：
在这里插入图片描述
$\qquad$ 像上述这种系统，称之为机器学习流水线，指一个系统中包含许多阶段和组成部分，其中某些组成部分之中需要用到机器学习的内容。

1.1 滑动窗口分类器(Sliding Windows Classifier)

$\qquad$ 对于一幅图片，首先选择一个矩形框作为image patch，之后选定一个步长e.g., 4 pixels，然后让矩形框按照步长向前移动，直到搜索完整幅图片的所有像素。
在这里插入图片描述

1.2 获取大量训练数据-人工合成数据

$\qquad$ 人工合成数据有两种方式，一种是从无到有合成数据，另外一种是通过对已有的训练数据进行一定的变换进行数据集扩大。
在这里插入图片描述
$\qquad$ 注意事项： 首先确保模型有比较小的bias值，这样扩大训练集数据才有意义；增加特征数量和神经网络中隐藏层的数量都可以增大bias值。

1.3 上限分析-ceiling analysis

$\qquad$ 上限分析是用来判断在机器学习的整个框架之中，哪一个部分最值得花时间取提升效能。上限分析的基本思想是，手动将机器学习流水线中的每一部分设置为完全准确的分类效果，之后沿着流水线向下依次调整，调整一次之后记录调整之后的分类准确率的变化，最终将分类准确率变化最大的那个模块挑出来，即为最值得改进的模块。
在这里插入图片描述