[人工智能] 论文阅读【Discriminative Latent Semantic Graph for Video Captioning】

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文阅读【Discriminative Latent Semantic Graph for Video Captioning】 -> 正文阅读

[人工智能]论文阅读【Discriminative Latent Semantic Graph for Video Captioning】

Discriminative Latent Semantic Graph for Video Captioning

文章目录

- Discriminative Latent Semantic Graph for Video Captioning

概要

发表：ACM MultiMedia 2021
代码：D-LSG
idea：为了加强object-level interactions和frame-level information（其实是为了常用的处理后的特征：2D-CNN、3D-CNN、R-CNN），作者主要分为三部分主要工作：Enhanced Object Proposal：使用Graph将时空上的特征融合到 latent object中；Visual Knowledge：聚合上述特征于 latent nodes 中并用来预测 semantic words；Sentence Validation：使用GAN模型对重构的视觉特征进行判别。

详细设计

核心设计：特征融合/聚合方式（在图中）

ps：感觉有点attention的味道

1. Multiple Feature Extraction

常规处理，一般都会用2D-CNN提取appearance（frame-level）特征 $V^a$ ，3D-CNN提取motion特征 $V^m$ ，R-CNN提取region（object）特征 $R$

2. Enhanced Object Proposal

将 region feature 分别聚合到 motion feature 和 appearance feature 中。使用GNN将每个region feature都视为一个node。

根据公式强行解释： $v^a$ 与所有region feature都有边相连，所以聚合了所有region feature的特征

这里 $Ψ$ 和 $Φ$ 都是Linear function之后跟了一个Tanh激活。 $\hat v_t^m$ 的计算类似

3. Visual Knowledge

主要是在Graph引入了一些新的节点（latent nodes），聚合上述信息分别生成K个候选object visual words和K个motion visual words（计算类似）

4. Discriminative Language Validation

为了让生成的caption具有更好的语义方面的信息（semantic concepts）。作者通过从生成的captions重构 $P^o$ 和 $P^m$ ，然后通过一个判别器进行判别重构的视觉特征 $\hat P^o，\hat P^m$ 和真实的征 $P^o， P^m$ 。
具体实现是将生成的caption通过一些1D CNN+残差的层得到sentence feature $S$ ，然后让 $P^o$ “聚合” $S$ 的特征
给生成的视觉特征 $\hat P^o$ 和真实的视觉特征 $P^o$ 打分，将其视为一个pair，类似于计算他们的相似性
判别式模型的输出分数（学习给生成特征低分，真实特征高分）
判别式模型Loss（后者是正则化项）
生成式模型的损失

代码

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-07-03 10:48:33 更:2022-07-03 10:50:03

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/13 4:20:21-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码