IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 主动学习和半监督学习 - 调研总结 -> 正文阅读

[人工智能]主动学习和半监督学习 - 调研总结

作者声明

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:凤?尘 》》https://www.cnblogs.com/phoenixash/p/16762278.html

前言

我的第一篇半监督论文(投了篇ccf b的trans),因为第二次小修没改好,第三次小修审稿人在最后一条意见中问了一个personal question:

A personal question: What is the difference between your approach and active learning? Can it be applied to the active learning strategy?

所以有了这么一篇关于主动学习的调研,如有问题,欢迎交流、批评、指正!

什么是主动学习?

在2009年的这篇综述 Active learning literature survey(2022年引用6000+)中有这一一段解释:

	The key idea behind active learning is that a machine learning algorithm can achieve greater accuracy with fewer labeled training instances if it is allowed to choose the data from which is learns. An active learner may ask queries in the form of unlabeled instances to be labeled by an oracle (e.g., a human annotator).

主动学习(Active Learning)的大致思路就是:通过机器学习的方法获取到那些比较**“难”分类的样本数据,让人工再次确认和审核**,然后将人工标注得到的数据再次使用有监督学习模型或者半监督学习模型进行训练,逐步提升模型的效果,将人工经验融入机器学习的模型中。

可以看到主动学习侧重于:挖掘难例样本和人工标注或再次标注(注意这里的数据可以是标注的和未标注的)

形象地例子:

用一个例子来比喻,一个高中生通过做高考的模拟试题以希望提升自己的考试成绩,那么在做题的过程中就有几种选择。一种是随机地从历年高考和模拟试卷中随机选择一批题目来做,以此来提升考试成绩。(常规有监督学习)但是这样做的话所需要的时间也比较长,针对性也不够强;另一种方法是每个学生建立自己的错题本,用来记录自己容易做错的习题(难例挖掘),反复地巩固自己做错的题目,通过多次复习自己做错的题目来巩固自己的易错知识点,逐步提升自己的考试成绩。其主动学习的思路就是选择一批容易被错分的样本数据,让人工进行标注,再让机器学习模型训练的过程。

和半监督学习的异同

**半监督学习:**属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。半监督学习主要考虑使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。

主动学习和半监督学习的相同之处:

二者都利用了有标注数据和无标注数据来提高模型的学习能力。

主动学习和半监督学习的差异之处:

主动学习侧重于寻找尽可能少的难例,在利用未标注数据的时候,是从未标注数据中找到最容易判断错误的样例来交由专家进行标注,这个过程是一个筛选差数据的过程,也是一个互动交互的过程,引入了额外的专家的知识。

半监督学习侧重于寻找尽可能多的好样本,尤其是对于自学习模型,对于未标注数据而言,是选择最不容易判断错误的样例来加入到已标注数据中,这个过程,是一个自动的过程,是筛选最好的数据的过程,然后不需要互动,不需要人工干预,基于自身对于未标记数据加以利用,来提高学习模型的泛化性能。

展望

主动学习和半监督学习存在一定的相似之处,但他们本质上是两种不同的探索和利用样本的方法。近些年也出现很多将两者结合的工作如 BoostMIS,因此基于两者的共通之处进行探索和改进仍然具备一定的潜力。

参考:

Settles B. Active learning literature survey[J]. 2009.

Zhang, Wenqiao, et al. "BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active Annotation."arXiv preprint arXiv:2203.02533(2022).

https://zhuanlan.zhihu.com/p/239756522

https://blog.csdn.net/angela2016/article/details/84290703

https://baike.baidu.com/item/%E5%8D%8A%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/9075473

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-10-08 20:42:06  更:2022-10-08 20:44:15 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 20:47:43-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码