| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 无标签学习的知识蒸馏——Learning Student Networks in the Wild -> 正文阅读 |
|
[人工智能]无标签学习的知识蒸馏——Learning Student Networks in the Wild |
网上看到一篇关于这个论文的博客,居然还要花钱订阅,这就不能忍了,中国人不能欺负中国人。所以自己写博客,论文其实很好懂 论文地址Learning Student Networks in the Wild (thecvf.com) 代码地址GitHub - huawei-noah/Efficient-Computing: Efficient-Computing 整体流程? 主要问题使用未标记的数据完成知识蒸馏,解决teacher 网络中训练集不可用的问题。 创新点1、Noisy adaptation matrix Q 2、提出DFND模型 主要方法预备知识——知识蒸馏中学生网络的损失函数
等号右边的第二项是最小化老师和学生网络的距离,可以看作是为了帮助训练学生网络而做的强正则化器 传统的知识蒸馏需要原始的数据集去训练老师网络,但是这些数据集有时是不可用的,虽然有一些利用老师网络产生图像的data-free compression 方法,但是现有的方法的性能受限于视觉质量和计算成本。为解决以上问题,最直接的方法是使用公开的无标签数据进行知识蒸馏
然而和公式(1)相比公式(2)?有两个缺点:第一,公式(2)的目标是在无标签数据集 1、数据收集目的是在巨大的无标签数据中收集有用的数据,以保证训练出来的学生网络在原始数据集上也有良好的性能,目标可以被公式化为 以下公式?
为了替代公式(3)中的KL距离,将会分析老师和学生网络输出的MSE loss(L2距离)去收集有用数据 借助公式(4),在命题1中提出了选择样本的替代原则? ?命题1: 给定一个预训练的教师网络 ? 证明:(有时间在补上) 根据命题1,老师网络中具有高置信度的样本更有可能被选为训练数据。数据收集方法背后的直觉很简单。首先,使用原始数据集训练的老师网络,置信分数较低的样本在原始分布中有较低的概率值。因此,命题1可以防止选择大部分分布外的样本。更重要的是,老师提供的关于置信度较高的样本的信息不太可能是错误的。因此,命题1中选择值比较大的样本。应该注意的是,尽管在半监督学习中有时会使用低熵伪标签选择未标记数据[19,35],但我们是第一个应用的该技术适用于无数据知识提取环境。此外,我们还进行了深入的分析,从理论上保证了这种数据采集方法的有效性。 ?2、无标签数据的噪声蒸馏使用老师网络中产生的伪标签作为one-hot labels 根据公式(1)来生成标签。知识蒸馏中的损失函数被定义为 ? ?k是y类别数, 实际上,Q的真实值是不知道的,我们根据老师网络的先验知识来初始化Q,定义老师网络在原始数据集上第i类的准确率为 因此Q被初始化为 ? 算法流程? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年4日历 | -2025/4/12 19:40:47- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |