IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> [半监督学习] Tri-Training: Exploiting Unlabeled Data Using Three Classifiers -> 正文阅读

[人工智能][半监督学习] Tri-Training: Exploiting Unlabeled Data Using Three Classifiers

标准的协同训练算法需要两个充分且冗余的视图, 每组都足以用于学习, 并且在给定类标签的情况下条件独立. 不过这并不容易实现, 在论文中, 提出了一种新的协同训练风格算法, 称为 Tri-Training. 其不需要冗余的视图, 也不需要使用不同的监督学习算法. 与最开始使用两个分类器的算法相比, Tri-Training 使用三个分类器.

论文地址: Tri-Training: Exploiting Unlabeled Data Using Three Classifiers
代码地址: http://www.lamda.nju.edu.cn/code_TriTrain.ashx
期刊: IEEE Transactions on Knowledge and Data Engineering (2005)
任务: 分类

假设除了分类器 h 1 h_1 h1? h 2 h_2 h2? 之外, 利用标记数据再训练了一个分类器 h 3 h_3 h3?. 那么, 对于任何分类器, 只要其他两个分类器同意这个示例的标签, 则可以将其标记起来, 而分类器标记的置信度不需要明确测量. 例如, 如果 h 2 h_2 h2? h 3 h_3 h3? 同意示例 x x x 的标记结果, 则可以将标记 x x x 加入到 h 1 h_1 h1? 中.

Tri-Training 算法

Tri-Training 算法如下:
在这里插入图片描述
首先利用 Bootstrap 重采样, 从有标签数据集 L L L 里采样三个子数据集 S i S_i Si?, S j S_j Sj?, S k S_k Sk?. 利用三个子数据集训练三个基分类器 h i h_i hi?, h j h_j hj?, h k h_k hk?. 并初始化 e i ′ = 0.5 e_i'=0.5 ei?=0.5, l i ′ = 0 l_i'=0 li?=0. 这里 e i ′ e_i' ei? 表示 h j & h k h_j \& h_k hj?&hk? 的分类错误率的上界, 即 h j h_j hj? h k h_k hk? 组合得出的假设的错误率. l i ′ l_i' li? 用作与挑选的未标记示例集 L i L_i Li? 的大小做比较.

接着迭代每个分类器, 首先, 初始化挑选数据集 L i = ? L_i=\empty Li?=?; 使用 MeasureError 函数计算 e i e_i ei?; 初始化分类器 h i h_i hi? 的更新标志 u p d a t e i = F A L S E update_i=FALSE updatei?=FALSE.

当满足 e i < e i ′ e_i < e_i' ei?<ei? 时, 对于分类器 h i h_i hi?, 使用另外两个分类器预测所有未标注数据集, 挑选出其中预测结果相同的样本, 作为新的有标签数据 ( x , h j ( x ) ) (x,h_j(x)) (x,hj?(x)), 并加入到分类器 h i h_i hi? 的训练集 L i L_i Li? 中. 当 l i ′ = 0 l_i'=0 li?=0 时(即刚初始化, h i h_i hi? 还没经过训练进行更新), 通过下式计算 l i ′ l_i' li?:
l i ′ = ? e i e i ′ ? e i + 1 ? l_i'=\lfloor\frac{e_i}{e_i'-e_i}+1\rfloor li?=?ei??ei?ei??+1?
l i ′ < ∣ L i ∣ l_i' < \vert L_i\vert li?<Li? 时, 如果 e i ∣ L i ∣ < e i ′ l i ′ e_i\vert L_i\vert < e_i'l_i' ei?Li?<ei?li?, 则表示分类器 h i h_i hi? 已更新: u p d a t e i = T r u e update_i=True updatei?=True, 如果 l i ′ > e i e i ′ ? e i l_i'>\frac{e_i}{e_i'-e_i} li?>ei??ei?ei??, 则通过函数 Subsample 从 L i L_i Li? 中随机选择 ∣ L i ∣ ? ? e i e i ′ ? e i + 1 ? \vert L_i\vert-\lceil \frac{e_i}{e_i'-e_i}+1\rceil Li???ei??ei?ei??+1? 个示例删除, 同时更新 u p d a t e i = T r u e update_i=True updatei?=True.

迭代完成后, 检查每个分类器的更像状态, 如果分类器 i i i 已更新, 则将与之对应的 L i L_i Li? 加入到 L L L 中, 利用扩增的数据集 L L L 更新分类器 i i i, 同时用 e i e_i ei? 更新 e i ′ e_i' ei?, ∣ L ∣ \vert L\vert L 更新 l i ′ l_i' li?.

重复上述分类器迭代过程, 直到每个分类器不在变化为止. 最终得到三个训练完成的分类器, 通过 arg?max ? y ∈ l a b e l ∑ h i ( x ) = y 1 \argmax_{y\in label} \sum_{h_i(x)=y}1 ylabelargmax?hi?(x)=y?1 来预测结果, 即投票原则.

补充

  1. 生成伪标签的过程中, 可能会选择到错误的伪标签, 这会在数据集中增加噪声. 这也是 Pseudo-Label 方法的主要缺陷. 不过论文中证明, 当新增加的数据足够多时, 噪声带来的影响可以被抵消.

  2. 算法中 MeasureError 函数试图估计由 h j h_j hj? h k h_k hk? 组合得到的分类错误率. 由于难以估计未标记示例的分类误差, 所以通过将 h j h_j hj? h k h_k hk? 都做出错误分类的标记示例的数量除以 h j h_j hj? 做出的分类与 h k h_k hk? 做出的分类相同的标记示例的数量来近似.

  3. 初始分类器只有在它们具有多样化的情况下才有效. 在标准的协同训练算法中, 充分和冗余视图的使用使得分类器是不同的. 如果属性之间有足够的冗余, 那么一个合理的属性划分也可使协同训练表现出优势. 由于 Tri-Training 算法没有假设足够多的视图和不同的监督学习算法, 因此必须从其他渠道寻求分类器的多样性. 实际上, 这里的多样性是通过操纵原始标记的示例集来获得的, 即初始分类器是从原始标记示例集中通过 BootStrap 采样得到的数据集训练的. 初始分类器的生成比较像集成学习算法(即 Bagging).

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-02-19 01:09:21  更:2022-02-19 01:11:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 11:00:45-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码