IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【(强推)李宏毅2021/2022春机器学习课程】2022-语音与影像上的神奇自监督学习模型【精】 -> 正文阅读

[人工智能]【(强推)李宏毅2021/2022春机器学习课程】2022-语音与影像上的神奇自监督学习模型【精】


在这里插入图片描述
pdf | 视频

Review:Self-supervised Learning for Text

在这里插入图片描述

Self-supervised Learning for Speech

少量有标注的数据用来训练:Downstream Model(例如简单的Linear模型),如果有需要,也可以微调整个模型(不是必要的)

在这里插入图片描述

语音版的BERT

在这里插入图片描述

Self-supervised Learning for Image

在这里插入图片描述

self-supervised 超过 supervised,非常有潜力的
在这里插入图片描述

1. Generative Approaches

语音上

在这里插入图片描述
在这里插入图片描述

照搬不行,语音和文字还是有性质上的差异,还是要针对语音的特性做一些设计。
举例来说:声音相邻向量往往内容非常接近,假设只是把某个向量盖起来,机器学不到什么东西,因为声音相邻向量往往内容非常接近,机器只要用两边的向量再做个内插,就预测得八九不离十,那self-supervised就学到内插而已。

所以,语音上,要mask一长串的feature,不要一次只mask一个feature,迫使机器去解比较难的问题
在这里插入图片描述

在语音上,你可以做一个不一样的尝试:mask 向量的某几个dimension,这样方法会让机器学到 语者(?语义?)的资讯
在这里插入图片描述

GPT系列用在语音上,
不同点:预测 够远时间的 向量(因为相邻太简单了)
在这里插入图片描述

image上

在这里插入图片描述

2. Predictive Approach(分析Generator的缺点:语音和影响包含很多细节,直接生成很困难)

在这里插入图片描述

这种制造简单的任务让机器去解,借此来学到一些东西的方法有各式各样,千变万化,论文数不胜数
在这里插入图片描述
在这里插入图片描述

问题:到底是什么样的小任务可以激发机器的潜能? 还没有特别好的答案。需要你需要对声音,影像 特性有更多的了解,才能设计出比较好的小游戏给机器来玩。

接下来比较通用的做法:简化生成,让它变成比较简单的东西,再预测
比如Clustering,把复杂向量先变成token,再预测 这些符号,比较容易一点
在这里插入图片描述

3. Contrastive Learning(不产生任何东西就做self-supervise learning)

在这里插入图片描述

在这里插入图片描述
怎么知道positive还是negative?(Data Augmentation)

在这里插入图片描述

那问题就变成了怎么做 Data Augmentation? 太简单,机器学不到东西,太难, 也是不行的。怎么控制Augmentation的程度?看原始论文SimCLR,尝试了各式各样Augmentation的组合,告诉你说怎么做Augmentation最好的。文献上说,random cropping是最有效的

语音上的 SimCLR:Speech SimCLR

另一类:MoCo(多了memory bank 和 momentum encoder),增加了训练的小技巧,让训练可以成功,具体自己看文献
在这里插入图片描述

语音上的Contrastive Learning

在这里插入图片描述

输出的token 是 Discrete(离散的),为什么:1.利用BERT;2.去除了其它杂讯
在这里插入图片描述

在这里插入图片描述

2.0: 一起训练(Continuous vs dicrete ?)

在这里插入图片描述
另一个角度理解:Classification vs Contrastive(解释Contrastive为什么可行,其实也是在做分类?Contrastive 的Negative 只是sample出来,并不是全部,而Classification 的Negative 是全部,这也就理解了MoCo为什么要做memory bank? 存储更多的负类?)

对于计算资源不够的话,显然Contrastive更好。
Classification 的token如果是10w的话,资源就不够了,尤其早年的时候
在这里插入图片描述

根本原因:Infinite negative examples?(存不下搞不了,所以先做个聚类)
在这里插入图片描述
BERT套用到 语音上

在这里插入图片描述

又存在问题:Negative Examples 怎么选?

比如猫跟天空,可能只学到 抽 “颜色"的资讯
所以要有“够难的examples”,比如猫跟狗,老虎
一个问题:如果两张都是猫的图片呢?我们并不知道两张都是猫啊,把两张猫的图片视为negative example,那不就是应该视为同类的东西拉远了吗?

在这里插入图片描述

4. Bootstrapping Approaches (接下来讲两招:避开negative example的选择)

这是什么妖术?

右边要有predictor 和 copy,才能 不Collapse

关键点:左右 架构不同
在这里插入图片描述

另外观点 理解:Bootstrapping
在这里插入图片描述
在这里插入图片描述

5. Simply Extra Regularizaion

在这里插入图片描述
最关键的是:Variance

在这里插入图片描述

Concluding Remarks(还有非常非常多的方法…)

在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-26 11:41:49  更:2022-04-26 11:46:11 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 10:31:44-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码