计算机视觉是当前人工智能最热门的领域之一,在其快速发展中,物体检测发展发挥了关键作用。本文旨在详解物体检测基本概念、衍生技术及其社会化应用,揭开计算机视觉的神秘面纱,深刻理解人工智能的独特魅力。
什么是物体检测?
简单来说,在图像中锁定目标便是物体检测。
物体检测是一种图像分类技术,该技术不仅能对图像内物体进行分类,也可以从自然图像中的大量类别中识别出目标实例的位置,即目标定位。
物体检测通过对目标周围绘制边界框,帮助机器在给定场景中识别分类。
物体检测与图像识别:同为计算机视觉技术的典型,物体检测与图像识别都在围绕图像中的目标识别展开。
值得注意的是,图像识别通过分类器提取重要特征,排除多余信息来完成图像分类,该技术无法完成目标定位。
图像识别技术的过程包括以下几步:信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。
物体检测与图像分割:如果按难易度排名——图像识别<物体检测<图像分割。
图像分割是从像素级别理解图像,完成目标识别。与物体检测不同,图像分割并没有单独分类功能,但会沿着目标轮廓精准标注出来,这一点物体检测的矩形框无法达成。
物体检测局限性
目标种类与数量的局限性。以道路图像为例,目标检测需要对道路上的行人、车辆(机动车与非机动车)、红绿灯、绿化带、路标等各种物体进行识别。而检测种类过多,会增加机器识别复杂度。
目标尺度的问题。同一张图像会出现目标非常大与非常小的现象,遇到非常小的目标如密集的极小人脸识别时,会存在漏检或误检现象,降低检测准确度。
外在环境的影响。计算机视觉易受外界环境影响,如光照变化、遮挡物、图片清晰度以及动态物体都会加大目标检测的难度。
物体检测工作原理
现阶段物体检测算法主要分为两大类:One-Stage与Two-Stage。
原理简述:One-Stage利用卷积神经网络提取特征,预测目标的分类与定位。Two-Stage需先生成候选区域(Region Proposal),再通过卷积神经网络预测目标的分类与定位。
特点分析:One-Stage速度快于Two-Stage,精度较低,小物体的检测效果不好。Two-Stage精度高,但速度慢,训练时间长且误报相对高。
主要算法:One-Stage主要应用YOLO系列(v1-v5),SSD系列(R-SSD、DSSD、FSSD等),Retina-Net,DetectNet,SqueezeDet。
Two-Stage主要应用R-CNN系列(Fast-RCNN、Faster-RCNN、Mask-RCNN),SPPNet,R-FCN等。
物体检测社会化应用
物体检测能够搜索特定目标种类,目前该技术已被应用至社会方方面面,常见场景如下:
人脸识别:基于面部特征进行身份识别的生物技术,人脸识别可对情绪或表情进行分类,并将生成的矩形框提供给图像检索系统,以识别群体中的特定人。
自动驾驶:自动驾驶汽车使用物体检测识别道路上的行人、其他汽车与障碍物,以便安全出行。配备激光雷达的自动驾驶汽车也会使用3D对象检测。
医疗手术:在手术过程中从窥镜内获取的视频数据非常嘈杂,物体检测可帮助医生发现难以看到的部位,如需要外科医生立即关注的息肉或器官病变,此外它还可以检测手术的状态,及时提醒医生。
OCR文本识别:文本识别是指通过输入文字图片,然后解码文字的方法。准确来说,文字识别由物体检测与分割相结合,是目前应用最广泛的视觉技术,如二维码、车牌识别、物品包装质检等。
行人检测:作为机器人、视频监控与车辆辅助驾驶系统最重要的计算机视觉任务之一,行人检测利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。该技术可与行人跟踪,行人重识别等技术结合。
|