IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 李宏毅机器学习(12) -> 正文阅读

[人工智能]李宏毅机器学习(12)

Semi-supervised

简介

在这里插入图片描述
比如在图像识别中。

  • 监督学习:每个图像都有标签。
  • 半监督学习:部分数据没有标签,只有输入x;通常,无标签的数据量远大于有标签的。

半监督学习可以分为两种情况:

  • Transductive Learning:unlabeled data is the testing data。把testing data当做无标签的training data使用(这个是没有问题的,因为在比赛中,所有已有的数据都可以使用,当然包括测试数据的特征值);
  • Inductive Learning:unlabeled data is not the testing data。事先无法获取testing data,并且无法使用。

为什么使用半监督学习?

  • 我们不缺数据,但是缺有标签的数据;
  • 人类一直在做“半监督学习”。

通过对未标记的数据做出假设,我们可以获得很多有用的信息。

Semi-supervised Generative Model

监督学习的Generative Model之前已经学过了。我们假设了数据服从高斯分布,并且依次做了许多拓展。
在这里插入图片描述
半监督学习的做法是这样的:

  1. 猜测出需要的参数,当做初始模型
  2. 计算每个数据点在 C l a s s ? 1 Class\ 1 Class?1中的概率
  3. 更新模型

在这里插入图片描述
原因在于:
在这里插入图片描述

Low-density Separation Assumption

认为在数据密度低的地方,其有一条绝对的分界线。
在这里插入图片描述

Self-training

low-density separation最经典简单的方法是self training

  1. 先用labeled data set去训练一个model f ? f^* f?
  2. 然后用 f ? f^* f?unlabeled data set打标记,叫做Pseudo-label
  3. 根据自己算法,从unlabeled data set选出一部分移动到labeled data set
  4. 重复1即可

Tips:

这一招在 Regression 上没有用。
并且,这个用的是Hard label,之前的Semi-supervised Generative Model用的是Soft label。在NN中,一定要用Hard label
在这里插入图片描述

Entropy-based Regularization

是Self-training的进阶版。
我们希望 y u y_u yu?的分布越集中越好,因此使用 E n t r o p y Entropy Entropy(信息熵)来计算,并且希望这个值越小越好。
这样就可以重新设计Loss Function:第一部分是labeled data离正确答案的距离,第二部分是unlabeled data E n t r o p y Entropy Entropy
在这里插入图片描述

Semi-supervised SVM

Semi-supervised SVM穷举了所有的可能性,然后去用 SVM 拟合,最后找出让 margin 最大又有error最小的方案。
但不可能真的全都枚举,因此他提出了一种方法,基本精神:一开始给出一些label,然后每次改一笔unlabeled data,看看能不能接近function变大,变大了就改变。
在这里插入图片描述

Smoothness Assumption

基本精神:近朱者赤,近墨者黑。
两个数据 x x x是接近的,并且都在一个密度很好的区域,那可以假设他们的 y y y是一样的。
在这里插入图片描述
例如:下面都是2,却是最左最右虽然很不一样,但可以过渡到。
此外,这招在文件分类上也是有用的。
在这里插入图片描述
在这里插入图片描述

cluster and then label

有一种方法是,先进行聚类,接着打标签。
在这里插入图片描述

Graph-based Approach

还有一招,对数据建图。
在这里插入图片描述
基本流程:

  1. 算距离:定义两个数据间的相似度 s ( x i , x j ) s(x_i,x_j) s(xi?,xj?)
  2. 连边:设定一个条件,符合条件的两点连一条边
  3. 给权重:边权一般与相似度成正比。

相似度:一种方法如下:
在这里插入图片描述

smoothness

定量的给出smooth。
在这里插入图片描述
上面的式子还可以展开(W是邻接矩阵,D是W每一行的和):
在这里插入图片描述
这样,就可以在Loss Function里加上惩罚项。
在这里插入图片描述

Better Representation

Better Representation 的精神:去芜存菁,化繁为简。
我们观察到的世界很复杂,但是背后蕴含的规律很简单——因此我们需要看破真相。
将在 Supervised Learning 中介绍。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-06 09:37:50  更:2021-08-06 09:38:02 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 22:15:16-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码