| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 阅读文献记录四(跨模态数据增广) -> 正文阅读 |
|
[人工智能]阅读文献记录四(跨模态数据增广) |
基于跨模态数据增广的视频连续手语识别
解决方法:提出了一种基于跨模态增强的框架,首先通过模拟误字率的计算过程来增强跨模态数据,即对句子和其对应视频采取替换、删除和插入操作。 创新点:为了最小化真实手语视频与其对应真实标签之间的距离,同时最大化真实手语视频与伪标签之间的距离,本章提出了一项真伪辨别损失函数。 本章提出了多项损失函数,旨在缩小视频与对应文本之间的跨模态距离。 真伪辨别损失函数:1.最大化真实手语视频与其对应真实标签之间的距离;2.最大化真实手语视频与伪标签间的距离。 CTC 损失函数:真实与伪标签对齐; 跨模态语义一致性损失函数:最小化真实手语视频与文本之间的跨模态距离。 最终的优化损失函数由CTC损失函数、真伪辨别损失函数、跨模态语义损失函数相加而成; 框架示意图: ?增广文本序列的方法包括同义词替换、随机交换、随机删除等。生成伪视频-文本对。 序列模型:使用BLSTM,它能够抓住以前向和反向的方式捕获时间依赖性; 文本编码器:为了约束视觉特征与文本序列之间的语义一致性; 使用三元组损失函数最小化锚点与正样本之间的距离,同时最大化锚点与负样本之间的距离; 将特征分为两组, 分别表示真实视频,真实文本,伪文本,伪视频。真实视频与真实样本之间的特征距离理应比真实视频与伪文本之间的距离更近。 真实视频为锚点的真伪辨别损失函数如下定义: ?真实文本锚点的真伪分辨损失函数如下定义: ?真伪辨别损失为上述两个部分的相加。 真伪辨别损失聚焦于视频与文本之间的相对距离。 ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/17 15:19:46- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |