Semi-supervised

简介

在这里插入图片描述
比如在图像识别中。

监督学习：每个图像都有标签。
半监督学习：部分数据没有标签，只有输入x；通常，无标签的数据量远大于有标签的。

半监督学习可以分为两种情况：

Transductive Learning：unlabeled data is the testing data。把testing data当做无标签的training data使用（这个是没有问题的，因为在比赛中，所有已有的数据都可以使用，当然包括测试数据的特征值）；
Inductive Learning：unlabeled data is not the testing data。事先无法获取testing data，并且无法使用。

为什么使用半监督学习？

我们不缺数据，但是缺有标签的数据；
人类一直在做“半监督学习”。

通过对未标记的数据做出假设，我们可以获得很多有用的信息。

Semi-supervised Generative Model

监督学习的Generative Model之前已经学过了。我们假设了数据服从高斯分布，并且依次做了许多拓展。
在这里插入图片描述
半监督学习的做法是这样的：

猜测出需要的参数，当做初始模型
计算每个数据点在 $Class\ 1$ 中的概率
更新模型

在这里插入图片描述
原因在于：

Low-density Separation Assumption

认为在数据密度低的地方，其有一条绝对的分界线。
在这里插入图片描述

Self-training

low-density separation最经典简单的方法是self training：

先用labeled data set去训练一个model $f^*$
然后用 $f^*$ 对unlabeled data set打标记，叫做Pseudo-label；
根据自己算法，从unlabeled data set选出一部分移动到labeled data set中
重复1即可

Tips：

这一招在 Regression 上没有用。
并且，这个用的是Hard label，之前的Semi-supervised Generative Model用的是Soft label。在NN中，一定要用Hard label。
在这里插入图片描述

Entropy-based Regularization

是Self-training的进阶版。
我们希望 $y_u$ 的分布越集中越好，因此使用 $E n t r o p y$ （信息熵）来计算，并且希望这个值越小越好。
这样就可以重新设计Loss Function：第一部分是labeled data离正确答案的距离，第二部分是unlabeled data的 $E n t r o p y$ 。
在这里插入图片描述

Semi-supervised SVM

Semi-supervised SVM穷举了所有的可能性，然后去用 SVM 拟合，最后找出让 margin 最大又有error最小的方案。
但不可能真的全都枚举，因此他提出了一种方法，基本精神：一开始给出一些label，然后每次改一笔unlabeled data，看看能不能接近function变大，变大了就改变。
在这里插入图片描述