| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> [CVPR‘22 Oral2] TAN: Temporal Alignment Networks for Long-term Video -> 正文阅读 |
|
[人工智能][CVPR‘22 Oral2] TAN: Temporal Alignment Networks for Long-term Video |
Title: Temporal Alignment Networks for Long-term Video 作者:Tengda Han,?Weidi Xie, and?Andrew Zisserman 发表单位:Visual Geometry Group, University of Oxford and Shanghai Jiao Tong University 关键词:clip、video 论文:https://arxiv.org/pdf/2204.02968.pdf 首先我并不是做视频的方向,如有错误,欢迎指正。 摘要
预备知识?视频对齐如下图所示,就是希望文字和图片能够相对应,蓝色代表的是可对齐文本,橙色代表的是这个文本不可对齐(因为这句话描述的可能是实物的味道,时间等)。 ? 任务描述给定一个未修剪的视频X={I,S},其中I={I1,I2, ..., IT},T 代表有T个帧。S={S1,...,Sk},K代表K个句子(按时间排序)。对于第k个句子,我们有对应的时间戳([t_k^start, t_k^end])。我们的目标是通过一个非线性函数得到{y_hat, A_hat}. 其中,y_hat是所有句子的一个二分类数,所以维度是K*2.这个二分类数代表这个句子是否是一个可对齐文本。A_hat是一个图片与文本的对齐矩阵。 TANTAN的结构如上图左所示。图片通过S3D-G backbone提取特征,得到vision token,文本通过word2vec embedding+ 2 linear 得到text token,两者进通过一个multimodal transformer得到具有交互信息的和?。这两者在通过cosine similarity计算得到一个对齐矩阵。同时,?用1个linear layer来输出y_hat.公式总结如下: ? ? ?Training用对比学习的方式学习。InfoNCE。公式如图。(这块部分有点不太明白) ?Co-trainingco-training是核心,作者首先提出了一个dual encoder,如图2的右所示,dual encoder是没有信息交互的,只有在最后计算矩阵的时候有信息交互。作者认为这样可以让模型更加敏感。 如图3(a)与图3(b)所示,这是TAN和dual encoder的相似度矩阵,联合TAN和Dual encoder的输出,将TAN的输出与Dual-Encoder的输出计算IoU,如果超过某个阈值,那就将2者的输出结果做一个并为pseudo-labels。如果没有超过阈值,那就保留之前的标签。 ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 2:27:55- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |