开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> [半监督学习] Tri-Training: Exploiting Unlabeled Data Using Three Classifiers -> 正文阅读

[人工智能][半监督学习] Tri-Training: Exploiting Unlabeled Data Using Three Classifiers

标准的协同训练算法需要两个充分且冗余的视图, 每组都足以用于学习, 并且在给定类标签的情况下条件独立. 不过这并不容易实现, 在论文中, 提出了一种新的协同训练风格算法, 称为 Tri-Training. 其不需要冗余的视图, 也不需要使用不同的监督学习算法. 与最开始使用两个分类器的算法相比, Tri-Training 使用三个分类器.

论文地址: Tri-Training: Exploiting Unlabeled Data Using Three Classifiers
代码地址: http://www.lamda.nju.edu.cn/code_TriTrain.ashx
期刊: IEEE Transactions on Knowledge and Data Engineering (2005)
任务: 分类

假设除了分类器 $h_1$ 和 $h_2$ 之外, 利用标记数据再训练了一个分类器 $h_3$ . 那么, 对于任何分类器, 只要其他两个分类器同意这个示例的标签, 则可以将其标记起来, 而分类器标记的置信度不需要明确测量. 例如, 如果 $h_2$ 和 $h_3$ 同意示例 $x$ 的标记结果, 则可以将标记 $x$ 加入到 $h_1$ 中.

Tri-Training 算法

Tri-Training 算法如下:
在这里插入图片描述
首先利用 Bootstrap 重采样, 从有标签数据集 $L$ 里采样三个子数据集 $S_i$ , $S_j$ , $S_k$ . 利用三个子数据集训练三个基分类器 $h_i$ , $h_j$ , $h_k$ . 并初始化 $e_i'=0.5$ , $l_i'=0$ . 这里 $e_i'$ 表示 $h_j \& h_k$ 的分类错误率的上界, 即 $h_j$ 和 $h_k$ 组合得出的假设的错误率. $l_i'$ 用作与挑选的未标记示例集 $L_i$ 的大小做比较.

接着迭代每个分类器, 首先, 初始化挑选数据集 $L_i=\empty$ ; 使用 MeasureError 函数计算 $e_i$ ; 初始化分类器 $h_i$ 的更新标志 $update_i=FALSE$ .

当满足 $e_i < e_i'$ 时, 对于分类器 $h_i$ , 使用另外两个分类器预测所有未标注数据集, 挑选出其中预测结果相同的样本, 作为新的有标签数据 $x,h_j(x))$ , 并加入到分类器 $h_i$ 的训练集 $L_i$ 中. 当 $l_i'=0$ 时(即刚初始化, $h_i$ 还没经过训练进行更新), 通过下式计算 $l_i'$ :
$l_i'=\lfloor\frac{e_i}{e_i'-e_i}+1\rfloor$
当 $l_i' < \vert L_i\vert$ 时, 如果 $e_i\vert L_i\vert < e_i'l_i'$ , 则表示分类器 $h_i$ 已更新: $update_i=True$ , 如果 $l_i'>\frac{e_i}{e_i'-e_i}$ , 则通过函数 Subsample 从 $L_i$ 中随机选择 $\vert L_i\vert-\lceil \frac{e_i}{e_i'-e_i}+1\rceil$ 个示例删除, 同时更新 $update_i=True$ .

迭代完成后, 检查每个分类器的更像状态, 如果分类器 $i$ 已更新, 则将与之对应的 $L_i$ 加入到 $L$ 中, 利用扩增的数据集 $L$ 更新分类器 $i$ , 同时用 $e_i$ 更新 $e_i'$ , $\vert L\vert$ 更新 $l_i'$ .

重复上述分类器迭代过程, 直到每个分类器不在变化为止. 最终得到三个训练完成的分类器, 通过 $\argmax_{y\in label} \sum_{h_i(x)=y}1$ 来预测结果, 即投票原则.

补充

生成伪标签的过程中, 可能会选择到错误的伪标签, 这会在数据集中增加噪声. 这也是 Pseudo-Label 方法的主要缺陷. 不过论文中证明, 当新增加的数据足够多时, 噪声带来的影响可以被抵消.
算法中 MeasureError 函数试图估计由 $h_j$ 和 $h_k$ 组合得到的分类错误率. 由于难以估计未标记示例的分类误差, 所以通过将 $h_j$ 和 $h_k$ 都做出错误分类的标记示例的数量除以 $h_j$ 做出的分类与 $h_k$ 做出的分类相同的标记示例的数量来近似.
初始分类器只有在它们具有多样化的情况下才有效. 在标准的协同训练算法中, 充分和冗余视图的使用使得分类器是不同的. 如果属性之间有足够的冗余, 那么一个合理的属性划分也可使协同训练表现出优势. 由于 Tri-Training 算法没有假设足够多的视图和不同的监督学习算法, 因此必须从其他渠道寻求分类器的多样性. 实际上, 这里的多样性是通过操纵原始标记的示例集来获得的, 即初始分类器是从原始标记示例集中通过 BootStrap 采样得到的数据集训练的. 初始分类器的生成比较像集成学习算法(即 Bagging).

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-02-19 01:09:21 更:2022-02-19 01:11:52

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/30 11:52:59-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码