IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> SIGIR2021的5篇论文 -> 正文阅读

[人工智能]SIGIR2021的5篇论文

SIGIR2021

Paper-1: Hierarchical Cross-Modal Graph Consistency Learning for Video-Text Retrieval 视频文本检索的层次交叉模态图结构一致性学习

论文首先展示说明了两种图文检索策略,然后提出了论文里面的方案。最常规的图文检索是下图a中直接根据视频文本的特征向量的相似度进行匹配,b中是一个常规的多水平结构特征匹配策略。而c就是本论文提出的层次交叉模态图一致性学习策略。
在这里插入图片描述

它的图结构主要分为三个部分,图间并行一致性、图间交叉一致性和图内交叉一致性。
整个模型架构如下:
在这里插入图片描述

对于文本模态,在三个层次抽取embedding:全局事件级别,动作级别,实体级别。每一个对应的embedding代表一个节点
对于视频模态,也是抽取三个层次的embedding:全局视频层、剪辑层和对象层。
最后对每一个节点进行交叉计算相似度然后计算loss

从结果上看:
在这里插入图片描述

相比之前方法有较大的提升。实际效果有待验证。

Dynamic Modality Interaction Modeling for Image-Text Retrieval 图像-文本检索的动态模态交互建模

其框架如下:
在这里插入图片描述

主要来说是它吸取的集成学习的思想,在特征融合阶段,用了很多个并行的attention单元。

图像经过一个目标检测网络,对预测出来的R个anchor提取d纬图像特征。文本模态特征直接用bert提取。四个attention单元基于不同的attention方式和目的组成,第一个是不同对象的特征之间的se-attention,注重通道选择,忽略掉不重要的对象。第二个是不同对象之间的multihead-attention。第三个是加上了全局图像特征的se-attention,第四个是加上了文本模态的交叉模态单元。
实验结果如下:
在这里插入图片描述

消融实验部分可以看到每一个细胞单元所起的作用:
在这里插入图片描述

可以看到四个细胞单元的结果确实是最高的,而se-attention单元的影响最小,有图像模态的attention单元影响最大。

Heterogeneous Attention Network for Effective and Efficient Cross-modal Retrieval

模型的整体架构比较简单:

在这里插入图片描述

文本方面用Bi-GRU提取每一个单词的特征,图像方面用faster r-cnn提取每一个置信度高的预测box的特征。然后进行跨模态跨通道的attention计算。attention方式是transformer的self-attention。loss计算是通用的hinge-based triplet loss:
在这里插入图片描述

结果如下:
在这里插入图片描述

可以与本文档之前介绍的论文结果比较,看起来效果不是很好。

Improving Video Retrieval by Adaptive Margin

这篇论文的思路比较直接,在视频文本检索领域,常用的是hinge-based triplet loss。
在这里插入图片描述

主要的目的是想让随机采样得到的负样本与正样本的距离要大于一个固定的margin,这样对margin这个超参的设定要求较高。而且不同的正负样本可能不应该设定一样的margin,比如有些视频尽管是负样本但是可能他们的视觉特征本来就应该是比较符合文本特征的。
在这里插入图片描述

所以本论文提出了一种可以自适应变化超参margin的loss。主要思路是将原来的网络视为一个静态监督expert,然后设置一个动态expert来得到最合适的margin,用来得到对应的loss。
在这里插入图片描述

获取自适应margin的过程首先假设负样本的分布遵从正态分布:
在这里插入图片描述

对于i和j的margin,先计算i和j在视觉文本模态上的相似度,然后基于正态分布的假设归一化到对应的margin。
从实验结果上看带来了一定的提升

在这里插入图片描述

Path-based Deep Network for Candidate Item Matching in Recommenders

本文提出了一种新的基于路径的深度网络(PDN)匹配体系结构,通过融合个性化和多样性来提高匹配性能。具体来说,PDN由两个模块组成:触发网(Trigger Net)和相似网(Similarity Net)。PDN利用触发器网来捕获用户对他/她的每个交互项目的兴趣。相似度网络是基于每个交互物品的外形特征和CF信息来评价它们与目标物品之间的相似度。
网络结构如下:主要由不同的特征经过几个不同的交互网络构成
在这里插入图片描述

直接网络,直接计算用户和目标商品的特征相似度的网络
触发网络concat用户特征,用户行为,物品特征进行MLP
相似度网络concat目标物品特征,物品特征,物品共现概率空明显哦美好mlp
相似度网络用到了上下文特征,主要是为了消除点击目标的上下文的影响。
实验结果如下:

在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-25 11:39:27  更:2021-07-25 11:44:24 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/6 19:41:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码