IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Weakly-supervised Temporal Action Localization by Uncertainty Modeling 阅读 -> 正文阅读

[人工智能]Weakly-supervised Temporal Action Localization by Uncertainty Modeling 阅读

1.简介

在本文中,对背景帧提出了一种新的观点,背景帧被建模为分布外样本。然后,可以通过估计每个帧来自外分布的概率(称为不确定性)来检测背景帧。
具体而言,从每个未裁剪的视频,选择top-k和bottom-k特征量,并分别考虑它们作为伪动作和背景帧。此后,我们设计了一个不确定性建模损失来分离它们的大小,通过该模型,能够在没有帧级标签的情况下间接建模不确定性,并在动作帧和背景帧之间提供更好的分离。还引入了背景熵损失,迫使伪背景帧在动作类上具有一致的概率分布,防止他们倾向于某个动作类,并通过最大化它们的动作类分布熵来实现这一点。
本文有以下三点贡献:

  1. 将背景帧描述为分布外样本,克服了由于背景不一致而难以建模的困难。
  2. 设计了一个新的弱监督动作定位框架,通过多示例学习,仅使用视频级别的标签对不确定性进行建模和学习。
  3. 用一个损失进一步鼓励在动作和背景之间进行分离,该损失使背景帧的动作概率分布熵最大化。

2.方法

在这里插入图片描述

2.1 主线

此部分介绍了时间动作定位任务,从特征提取到视频动作得分的完整过程,包含四个部分
特征提取: 将每个视频分割为包含多帧的片段,vn ={sn,l}l=1Ln ,n为视频的序号,Ln为每个视频的片段数量,由于每个视频长度都不一致,将Ln统一取T,由每个视频的T个片段进行特征提取,得到xn,t∈ R2D ,Xn = [xn,1, …, xn,T ] ∈ R2D×T
特征嵌入: 对于特征Xn ,进行1D 卷积和Relu,Fn = gembed(Xn; φembed) ,得到Fn = [fn,1, …, fn,T ] ∈ R2D×T
片段级分类: 对于嵌入特征Fn ,得到CAS序列,, An = gcls(Fn; φcls) ,An∈ RC×T
动作得分: 对于An, 由以下公式计算,得到视频级得分
在这里插入图片描述
就是对于每个类别,都取时间轴上最大的kact 个,计算平均值,之后进行softmax,得到最终结果
在这里插入图片描述

2.2 不确定性建模

从主流程中,可以获得每个片段的动作类别概率,但没有考虑背景。由于背景帧的无约束性和不一致性,将背景视为分布外的数据,然后建模不确定性。
考虑段 s ^ \hat{s} s^n,t 属于第c个动作的概率,可以分解为两部分,即分布内动作概率和不确定性。设d∈{0,1}表示背景识别的变量,如果该段属于任何动作类,则d=1,否则d=0(属于背景)。 s ^ \hat{s} s^n,t 的c类的后验概率为:
在这里插入图片描述
s ^ \hat{s} s^n,t 是c动作类的概率可以分解为两个部分,是分布内的动作概率 * 已知是分布内的动作且是c类动作的概率,前半部分就是文中所说的分布内动作概率,后半部分就是不确定性。

不确定性公式
对一个片段属于任何动作类的概率进行建模,即P(d=1| s ^ \hat{s} s^n,t ),以解决背景区分问题。观察到动作帧通常比背景帧具有更大的特征,通过使用特征向量的大小来表示不确定性。具体来说,背景特征的值小,接近于0,而动作特征的值很大。那么第n个视频中的第t段( s ^ \hat{s} s^n,t )是一个动作段的概率定义为:
在这里插入图片描述
fn,t是对应的特征向量,||·||是一个范数函数(这里使用L2范数),m是预定义的最大特征量。

多实例学习
为了只用视频级标签来学习不确定性,借用了多实例学习的概念。考虑到每个未修剪的视频同时包含动作帧和背景帧,选择代表视频的伪动作/背景片段。具体地说,特征大小的前kact个动作段被视为伪动作段{|i∈Sact},其中Sact表示伪动作集合。同时,将后kbkg段看作是伪背景段{|j∈Sbkg},其中Sbkg表示伪背景集合。kact和kbkg分别表示为动作和背景的片段数。

2.3 损失函数设计

本节介绍三种损失,

  1. 视频级分类损失Lcls,用于每个输入视频的动作分类
  2. 不确定性建模损失Lum ,用于分离动作和背景特征向量的大小
  3. 背景熵损失Lb,迫使背景片段对动作类具有统一的概率分布
    在这里插入图片描述

视频级分类损失
在这里插入图片描述
pc(vn)表示第n个视频的第c类的视频级softmax分数,yn;c是第n个视频的第c类的视频级标签。

不确定性建模损失
在这里插入图片描述
在这里插入图片描述
这会使得伪动作片段的嵌入特征逐渐逼近预定义的数值m,使得伪背景片段的嵌入特征趋向于0,使得背景和动作特征大小产生区分。

背景熵损失
在这里插入图片描述
在这里插入图片描述
Pc( s ^ \hat{s} s^n bkg)是第c类伪背景片段的平均动作概率
为了防止背景片段对任何一个动作类具有较高的softmax分数,定义了一个损失函数,使背景片段的动作概率熵最大化,背景片段被鼓励对动作类具有均匀的概率分布。

3.消融实验

3.1 损失函数的影响和分类得分计算方式

在这里插入图片描述

3.2 最大特征值m

在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-24 20:57:15  更:2022-09-24 21:01:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 21:22:19-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码