IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 基于自然语言的多尺度二维时间相邻网络时刻定位论文阅读 -> 正文阅读

[人工智能]基于自然语言的多尺度二维时间相邻网络时刻定位论文阅读

本文任务

检索由查询指定的视频最佳匹配时段。

符号说明

V:未修剪的视频
在这里插入图片描述
xi代表视频中的帧
lV代表视频的帧的总数

S:查询序列
在这里插入图片描述
si 代表单个单词
ls代表单词的总数目
M:最佳匹配时段 使用xi xj分别表示开始和结束帧

对序列嵌入的语言表示

  1. 提取查询语句的特征
    对于输入句子S中的每个单词Si通过word2vec模型输入其嵌入矢量
    在这里插入图片描述
    dS是向量的长度
    2. 将单词嵌入在这里插入图片描述
    输入三层双向LSTM网络
    3. 使用平均输出作为输入句子的特征表示。在这里插入图片描述
    4. 提取的特征对查询语句的语言结构进行编码,从而描述感兴趣的时刻。

基于二维时间特征map的视频表示

从输入视频流中提取时刻特征(moment features),并构建二维时间特征图

  1. 对于一个输入视频,我们首先将其分割成小的非重叠的视频片段,每个片段由T个连续的帧组成
  2. 对于每个视频片段,我们使用预先训练的CNN模型提取其特征
  3. 为了在通道维度上生成更多的压缩视频片段表示,我们将视频片段特征输入一个具有dV输出通道的全连接层
  4. 最终压缩的视频片段被表示为在这里插入图片描述
    N是视频片段的总数
  5. N个视频是时刻候选结构的基础元素,因此使用视频片段特征创建候选时刻的map。
  6. 使用stacked CNN输出为具有相同特征,但不从同一时间开始的时刻特征。
  7. 使用稀疏抽样策略。
    在这里插入图片描述
    通过这种方法,我们对短持续时间的时刻进行了密集采样,当矩持续时刻变长时,逐渐增加采样间隔。
    在这里插入图片描述
    这种采样策略可以大大减少候选矩的数量,同时降低计算量。
  8. 将整个采样的时刻重构为一个2维的时间特征map
    在这里插入图片描述
    FM有三个维度:前两个N分别表示开始和结束索引,dV表示特征维度。
    而一个从va这个片段开始持续b个片段在特征map里表示为在这里插入图片描述
    将第j层卷积层的第i个输出表示为在这里插入图片描述
    它对应于特征映射上的(a,b)的位置:
    在这里插入图片描述

多尺度二维时间相邻网络

  1. 首先将二维时间映射FM与句子特征FS融合:通过全连接层将两个跨域特征投影到同一子空间
  2. 融合在这里插入图片描述
    wS和WM代表全连接层的学习参数
    1T代表全1向量的转置
    在这里插入图片描述
    哈达玛积:若A=(aij)和B=(bij)是两个同阶矩阵,若cij=aij×bij,则称矩阵C=(cij)为A和B的哈达玛积,或称基本积
    矩阵A的Frobenius范数定义为矩阵A各项元素的绝对值平方的总和,也就是
    在这里插入图片描述
  3. 将单尺度mapFF重构为K多尺度的maps
  4. 从区间为2k的融合特征map中取样第k个稀疏map,具体来说:
    在这里插入图片描述

在这里插入图片描述
多尺度map

  1. 从多尺度二维特征maps上建造时间临近网络。每一个map对应于L个gated convolutional 层
    在这里插入图片描述
    L个层的输出和输入形状是相同的(通过补零)–这种设计当学习候选时刻的不同时,能更好地理解上下文
  2. 通过网络给出视频片段和查询语句的匹配分数。将输出的特征map分别输入全连通层和sigmoid函数,生成多尺度二维分数图。
    在这里插入图片描述
    Ck是指第k个图里有效候选时段的总数

stacked CNN 深度卷积网络

参考:https://blog.csdn.net/ljhjiayou/article/details/38380293
针对大图片进行recognition时,需要用到无监督学习的方法去pre-training(预训练)stacked CNN的每层网络,然后用BP算法对整个网络进行fine-tuning(微调),并且上一层的输出作为下一层的输入。
首先我们知道,convolution和pooling的优势为使网络结构中所需学习到的参数个数变少,并且学习到的特征具有一些不变性,比如说平移,旋转不变性。以二维图像提取为例,学习的参数个数变少是因为不需要用整张图片的像素来输入到网络,而只需学习其中一部分patch。而不变的特性则是由于采用了mean-pooling或者max-pooling等方法。
在这里插入图片描述
每输入一张3232大小的图片,就输出一个84维的向量,这个向量即我们提取出的特征向量。
网络的C1层是由6张28
28大小的特征图构成,其来源是我们用6个55大小的patch对3232大小的输入图进行convolution得到,28=32-5+1,其中每次移动步伐为1个像素。 而到了s2层则变成了6张1414大小的特征图,原因是每次对4个像素(即22的)进行pooling得到1个值。
将S2的特征图用1个输入层为150(=556,不是5*5)个节点,输出层为16个节点的网络进行convolution。

多尺度

在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-07 22:41:41  更:2022-04-07 22:43:53 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/8 4:32:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码