这篇论文的思想也挺简单的:目标检测网络+box attention input
对于上面这幅图来说,如果attention map是空的,那么模型会检测出图像中所有的主语,如果attention map注意到右边的人,那么模型会找出与这个attention map所表示的主语产生交互的宾语(bbox和类别),和谓语(类别)。如果attention map注意左边的人同理。
那么,attention map又是什么呢? attention map是与原图像大小相同,channel为3的二值图,第一维channel表示的是图像上的主语bbox。如果第一维是empty,第二维就是全1,第三维就是全0。如果第一维不是empty就倒过来。
把attention map加到目标检测网络也很简单:
训练时: 如果一张图片里有k个主语,那么首先把这张图片复制k份,每一份附上主语的attention map,同时与这个主语相关的宾语及谓语作为gt,这是k个训练样本。再把这张图片复制一份,附上empty attention map,同时全部主语作为gt,这是第k+1个训练样本。
测试时: 先输入图片和empty attention map到模型中,输出主语bbox和主语类别。再从主语bbox中提取attention map,再输入一次模型,就得到与主语相关的宾语的bbox、宾语和谓语类别。然后将主谓宾三者的置信度相乘,分数最高就是最终的结果了。
------------------------------------一些碎碎念--------------------------------------- 今天大师兄已经回实验室了QAQ 我不想那么早回去 我还想再苟苟嘤。
后天去看这个杀手不太冷静 这总不能踩雷了吧。
|