学习知识点概要:
1.数据内容
2.数据标签
3.读取数据
4.解题思路
1.数据内容
主要为各种数字的图片,任务目标为识别这些数字。为了达到任务目标,首先我们需要确定图中数字的位置,即途中的蓝色框。
?2.数据标签
数据标签为确定数字位置的蓝色框提供了参考位置:
上图为数据标签的具体位置。?
?
3.读取数据
准备工作:先安装opencv
读取数据:
?
然后定义一个数据标签标注函数:
完成上述准备后就可以打印出数据图片了:
?
?
?
?
4.解题思路
从图片上可以看出每张图片所含的单个数字个数并不一样,我们可以先确定一个最大数字长度。然后不及最大长度的数字我们采用填充X的方法来让其可以被识别。
这张做的目的是让图片中所有长度的数字都可以被识别到,其中X识别目标判断为空。
对于非数字的图片,例如识别中文文字,常见的解决方案为crnn,bert等深度学习网络架构。
对测试集中的字符进行识别。我们也可以参考物体检测模型SSD或者YOLO来完成。
学习小结:
对于不同图片的目标检测和识别首先考虑到的是要确定目标范围。然后是目标长度,确定一个最大的长度,对于其它不足最大长度的字符串采用填补机制。对于不同类型的检测目标如数字或者英文字母,汉字,我们也有不同的使用解决方案。?
|