IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读 -> 正文阅读

[人工智能]TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读

前言

好吧我又来更新sota 论文了 这个是多模态情感分析的sota 而且和第二名相差很大。

摘要

多模态语言分析是NLP的一个新兴领域,旨在同时建模说话人的单词语义、语音和面部表情。在这方面,语义通常优于其他模态,因为它们是通过基于Transformer的模型在大型语料库上预先训练的。
尽管他们的表现很好,但由于数据不足,在任何模型上训练一个新的自监督学习(SSL)Transformer通常是不可能实现的,这在多模态语言学习中就是如此。
这项工作提出了一个基于Transformer的语音前缀语言模型,称为TRASTEL,以在不训练完整Transformer的情况下接近上述约束。
与传统的语言模型相比,TEASEL模型除了文本模态之外,还包括作为动态前缀的语音模态。
该方法利用传统的预训练语言模型作为跨模态Transformer模型。我们评估了由CMU-MOSI数据集定义的多模态情绪分析任务的TRANSEL。大量的实验表明,我们的模型在F1分数上优于单模态基线语言模型4%,优于当前的多模态最新(SoTA)模型1%。此外,我们提出的方法比SoTA模型小72%。

模型结构

在这里插入图片描述

文本模态

  • 使用RoBERTa 作为文本特征提取器

    在这里插入图片描述

语音模态

  • 使用 wav2vec 2.0 来提取声音特征
    在这里插入图片描述
  • 使用Lightweight Attentive Aggregation 增强上下文表示
    在这里插入图片描述
    因为wav2vec 是预训练的模型, 对于特征提取可能还是提取一个偏通用的特征, 所以 在上层再加入一个 轻量级的特征提取器进行更狭义的提取。

Lightweight Attentive Aggregation

主要包括以下几步

  • 进行layer norm
    在这里插入图片描述
  • 通过双向GRU 获取特征双向表示
    在这里插入图片描述- 对双向语义进行Attention 合并
    在这里插入图片描述
    Ca 表示 前向特征的加权特征 和 后向特征的加权特征

训练过程

阶段1: 预训练

模型的输入是
在这里插入图片描述
声音作为前缀输入, 然后直接放到Roberta 的 encoder中 进行预训练
其中Ca 表示的 是 两个输入 一个前向输入, 一个后向输入

阶段2: 下游finetune

在预训练完之后,固定权重, 用 CLS的结果用于上游finetune

效果

效果有点过于好了
在这里插入图片描述

预训练细节

  • 100 hours of LIBRISPEECH in 8,000 cumulative steps (9 epochs)
  • fine-tuned TEASEL on CMU-MOSI with 3 epochs.

超参选择
learning rates in range of {1e- 0.10, 0.2, 0.3, 0.4, 0.5}
batch sizes in the range of {8, 16,32}
warm-up steps using {0%, 10%, 20%, 30%, 40%}

总结

  • 大道至简, 没有繁琐的预训练输入, 非常的朴素的输入
  • 有点像prompt里面的一种 , 前缀prompt
  • 看起来单用robert 的情感分析效果已经很不错了
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-09 19:29:17  更:2021-11-09 19:30:09 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 6:37:43-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码