[人工智能] 论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation(CVPR2021)

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation(CVPR2021) -> 正文阅读

[人工智能]论文阅读：Spatial-Temporal Transformer for Dynamic Scene Graph Generation(CVPR2021)

前些日子作业多，就没看论文。组会上老师问我有没有用transformer做场景图的。我说没吧老师。然后师姐给我发了这篇。今天把这篇文章梳理完了，做个记录。

这篇文章是做动态场景图的，就是由视频生成场景图。我之前看的都是基于静态图片的，也就是静态场景图。论文作者设计了一个Transformer，捕捉到了单个帧内各谓语表示的空间信息和相邻帧的时序信息。为什么要利用好时序信息呢？对于视频而言，前一帧对后一帧是有启发作用的，作者认为如果前一帧是人-holding-杯子这样的关系，那么很容易就能猜到后一帧是人-drinking from-杯子这样的关系。

老规矩先上pipeline。
在这里插入图片描述
（1）目标检测网络，作者用的是FasterRCNN，backbone使用了ResNet101

（2）生成谓语表示
在这里插入图片描述
t：第t帧，k：第k个谓词
i ,j：谓词关联到的两个物体，第i个和第j个
v：目标检测网络提取的视觉特征
uij：i，j两个物体的union box经过ROIAlign的特征
fbox：把物体i的bbox和物体j的bbox转换成特征，并且和uij维度相同
φ：展平
s：物体类别的语义嵌入信息
在这里插入图片描述
也就是说谓语表示融合了视觉特征、存在联系的主宾对的空间信息，和主宾对所属物体类别的语义信息。