论文名称
BlazePose: On-device Real-time Body Pose tracking 用于轻量设备的实时人体姿态估计 CVPR2020 CV4ARVR_workshop
实验室/研究机构/项目地址/代码开源地址
https://ai.googleblog.com/2020/08/on-device-real-time-body-pose-tracking.html https://google.github.io/mediapipe/solutions/pose_classification.html
一、摘要
? BlazePose,一种用于人体姿态估计的轻量级卷积神经网络架构,专门用于移动设备上的实时推理而开发的。在推断过程中,每人产生33个身体关节点,在pixel2手机上测试能达到每秒30帧。
? 这个框架特别适合用于运动健身和手语识别的场景。 ? 本论文的主要贡献包括一个新的人体姿态跟踪解决方案和一个轻量级的人体姿态估计网络,同时使用了热图方式和回归方式得到关节点坐标。
翻译解读
二、论文Introduction部分
? 人体姿态估计可以用于运动健身动作识别,手语识别,手势控制。 ? 人体姿态估计的难点包括:
- 姿态众多又复杂
- 人体各个关节点有很大的自由度
- 遮挡
常用方法:
- 为每个关节生成热图,并为每个坐标细化偏移量
优点:
? 热图方法能以较小的算力开销拓展到多人姿态识别,但相对地让模型更大了,不适合移动手机。
? 本文,作者提供了一个解决方案,模型速度提高,而且几乎没有精度的下降。
? 与基于热图的方法相比,基于回归的方法虽然对计算的要求较少,而且拓展性更强,但此法试图预测平均值,也不能解决潜在的多义性。 ? 沙漏网络能够显著提高预测的质量,即使参数量更少了。我们在工作中拓展了这个思想,并使用编码器-解码器网络架构来预测所有关节的热图。同时后面跟着另一个编码器,直接回归到所有关节的坐标。我们工作背后的关键想法是,热图分支可以在推理过程中被丢弃,使得模型足够轻量级,可以在手机上运行。
三、模型结构流程设计
? 在推断过程中,我们采用了detector-tracker设计,这种设计在手势预测和密集面部坐标预测展示了优异的性能。我们的流程包括一个轻量级的人体姿态估计检测器,紧跟着的是一个姿态跟踪网络。跟踪网络预测关键点坐标,当前帧上任务的存在。当跟踪器表明没有人在场时,我们会在下一帧重新运行检测器网络。 ? 大多数的流行的目标检测方案都依赖于非最大值抑制(NMS)算法来进行最后的后处理步骤。这很适用于具有低自由度的刚性物体。然而最大值抑制算法不适用于关节复杂度高的姿势场景,比如人们在招手或者拥抱。这是因为有大量的,模糊的候选框都满足非最大值抑制的交并比阈值。 ? 为了克服这个局限,我们专注于检测一个相对刚性的身体部分的边界框,如人脸或躯干。我们观察到,在许多情况下,神经网络的关于躯干位置的最强信号是人的脸(因为它具有高对比度的特征,在外观上的变化更少)。 ? 为了使人体检测器更快和更轻量,我们做了一个很大的假设,假设人的头应该对我们的单人的例子下始终是可见的。 ? 因此,我们使用了一个轻量级的,能够在移动设备上使用的人脸检测器,作为人体检测器的代理。这个面部检测器预测了额外的参数,分别是:人的臀部的中点,包围整个人的圆圈的大小,以及倾斜角(连接肩部中间和中臀点的线之间的角度)。
四、人体拓扑结构
? 我们我们利用BlazeFace[2]、BlazePalma[3]和Coco[8]使用的数据集的并集,提出了一种利用人体上33个点的新的拓扑结构。这允许我们与各自的数据集和推理网络保持一致。与OpenPose[4]和Kinect[1]拓扑相比,我们只在脸、手和脚上使用最少数量的关键点来估计后续模型感兴趣区域的旋转、大小和位置。我们使用的拓扑结构如图3所示。
五、数据库
? 与大多数现有的使用热图检测关键点的姿态估计解决方案相比,我们基于跟踪方法的解决方案需要一个初始的姿态校准。我们将数据集限制在整个人都可见的情况下,或者臀部和肩膀的关键点可以被明显地标注。为了确保模型支持数据集中不存在的规模很大的遮挡,我们使用了大量的遮挡模拟数据增强。我们的训练数据集包括60K图像,包括一个或少数人在同一个场景下做常规的动作,其中有25K张图片是一个人在做健身动作。所有图片都是人工标注的。
六、神经网络结构
? 我们系统中的姿态估计组件预测了所有33人关键点的位置,同时使用了pipeline第一阶段提供的人员校正提议。 ? 我们采用了一种组合的热图,偏移量和回归方法,如图所示,我们只在训练阶段使用了热图和偏移量损失,并且在运行推理阶段之前从模型中删除相应的输出层。因此,我们能有效地利用热图来监督轻量级的嵌入,这被回归编码器网络利用了。这种方法的部分灵感来自于Newell等人的堆叠沙漏方法的启发。在我们的情况下,我们堆叠了一个微小的基于热图的编码器-解码器网络。以及随后的回归编码器网络。
? 我们高效地利用网络所有阶段的跳接来实现高阶段和低阶段特征的平衡。然而,来自回归编码器的梯度不会传播回热图训练的网络(如图的梯度停止连接)。我们发现,这不仅提高了热图的预测精度,而且大大提高了坐标回归的精度。
七、姿态校准和遮挡增强
? 相关的姿态先验是所提出的解决方案的重要组成部分。在数据增强和训练时的数据准备期间,我们故意限制了角度、尺度和平移的支持范围。这允许我们降低网络容量,使网络更快,同时需要更少的计算量,能节省便携设备的电量。 ? 基于检测阶段或前一帧关键点时,我们需要校正人物,使臀部中间的点位于作为神经网络输入传递的正方形图像的中心。
? 我们估计旋转中髋关节和肩部中间点之间的线L,并旋转图像,使L平行于Y轴。根据比例的估计,我们的身体关键点都适应于身体周围的一个正方形边界框中,如图所示,最重要的是,最重要的是,我们应用10%的比例和位移增强,以确保跟踪器处理帧之间的身体运动和扭曲的对齐。 ? 为了使模型支持被遮挡关节点的预测,我们再训练过程中模拟了遮挡(填充各种颜色的随机矩形),并引入每个点可见性的分类器,该分类器指示特定点是否被遮挡,位置预测是否准确。这允许模型不断地跟踪一个人,即使是在严重遮挡的情况下,比如只有上半身或当大多数人的身体不在场景之外时。
八、应用
? 由于其33个关键点拓扑与BlazeFace[2]和BlazePalm[3]一致,它可以成为后续手势姿态[3]和面部几何估计[6]模型的主干。我们的方法可以扩展到更多的关键点、3D支持和额外的关键点属性,因为它不基于热图/偏移图,因此不需要每个新特性类型都具备一个额外的全分辨率层。
|