| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 通过提高测试性能来促进主动学习(AAAI2022--论文解析) -> 正文阅读 |
|
[人工智能]通过提高测试性能来促进主动学习(AAAI2022--论文解析) |
文章目录摘要 Abstract
目标:主动学习 (AL) 的核心是应该选择哪些数据进行注释。
介绍 introduction
主动学习背景:在大多数情况下,监督学习仍然是训练深度神经网络最可靠的方式。 然而,数据注释通常可以说是昂贵的。 为了降低成本,可以使用主动学习(AL)来选择所有未标记数据的一部分进行注释,然后使用注释数据以监督方式训练任务模型(例如 CNN)。 目标:是在给定特定注释预算的情况下获得任务模型的最佳测试性能。 主动学习问题定义:应该选择哪些数据进行标注才能达到这个目标? 传统的两类主动学习方法:1、基于不确定性:旨在选择最不确定的数据进行注释 ;2、基于多样性:旨在选择可以使标记池多样化的未标记数据; 现有方法存在的问题:很少有工作探索所选数据与 AL 中使用的任务模型的测试性能之间的联系【换而言之:如果选择一个未标记的样本进行标注并用于训练任务模型,那么模型的测试性能将如何受到影响】, 这种联系可以指导我们选择有助于提高测试性能的未标记数据。
本文贡献:
相关工作 Related work
方法 Methodology主要内容概括: 1、选择什么数据评估 AL 方法的主要标准是任务模型的测试性能, 我们的最终目标是选择未标记的数据,使任务模型产生更好的测试性能。 其中 n 表示现有训练样本的数量,fθ(·) 是指产生模型 fθ 的 logits正向输出步骤,并且 Hθ 是所有训练样本的平均 Hessian(Hessian矩阵并且假定是正定矩阵,代表函数的局部曲率)。 对于每个训练样本,由于我们想计算它对测试数据集中所有样本的影响(如果被移除),我们计算总影响如下 如 (Koh and Liang 2017) 所示,虽然当训练样本对个体 xj 有害时 Iloss(x, xj) 可能为负值,但 Iloss(x, xj) 通常为正值。 直观地说,这意味着删除训练样本会增加预期的测试损失。 在 AL 设置中,假设 Tc+1 的测试损失为 Lc+1 测试,如果一个训练样本 x 从标记池中移除并且不参与训练 Tc+1,那么受影响的测试损失 Lc+1 测试可以 计算为 L test? ′ c + 1 = L test? c + 1 + ∑ j I loss? ( x , x j ) = L test? c + 1 + 1 n ∑ j ? θ L ( T c + 1 ( x j ) ) ? H θ ? 1 ? θ L ( T c + 1 ( x ) ) \begin{aligned} L_{\text {test }}^{\prime c+1} &=L_{\text {test }}^{c+1}+\sum_{j} I_{\text {loss }}\left(x, x_{j}\right) \\ &=L_{\text {test }}^{c+1}+\frac{1}{n} \sum_{j} \nabla_{\theta} L\left(T^{c+1}\left(x_{j}\right)\right)^{\top} H_{\theta}^{-1} \nabla_{\theta} L\left(T^{c+1}(x)\right) \end{aligned} Ltest?′c+1??=Ltest?c+1?+j∑?Iloss??(x,xj?)=Ltest?c+1?+n1?j∑??θ?L(Tc+1(xj?))?Hθ?1??θ?L(Tc+1(x))? 最终获得的化简近似公式为: 因此,我们得出结论,在 AL 中应该选择具有更高梯度范数的未标记数据进行标注。
2、计算梯度范数目的:选择导致更高 ||?θL(Tc(x))|| 的未标记数据 x,以降低测试损失的上限 预期梯度范数 Expected-Gradnorm Scheme为了计算 | | |Θl (Tc(x))||, 我们需要先计算损失L,但是L不能直接计算未标记数据,因此我们建议使用预期经验损失来近似实际经验损失。假设给定的未标记池中有N个类,我们使用yi表示第i个类的标签。 其中 P(yi|x) 是在 Tc(x) 上使用 softmax 获得的后验,Li 是当第 i 个候选标签被假设为 x 的真实标签时的经验损失。 该方案可以很容易地用于分类问题 熵梯度方案在这个方案中,我们使用输出熵来计算梯度范数。 具体来说,我们使用网络的 softmax 输出的可微熵作为损失函数,每个样本x的熵损耗定义为: 选择熵的合理性:
3、提出主动学习框架为了利用我们的理论发现,我们开发了一个通用的 AL 框架来整合上一节中介绍的两种方案。 实验 Experiment图像分类分类数据集: Cifar10 (2009), Cifar100 (2009), SVHN (2011), Caltech101 (2006)和 ImageNet(2009) 结果分析: 语义分割该实验证明了所提出方法与任务无关的性质。 倾向于选择更高梯度范数的更多数据
方程式中边界的定量评估在上面推导公式阶段,公式5是在公式3的基础上取的近似,这个实验就证明公式5的效果跟公式3对比效果,如下表所示,超过 90% 的所选样本在原始(方程 3)和近似标准(方程 5)之间是一致的。 更好的泛化在这里,我们比较了在不同 AL 方法选择的数据上训练的任务模型的泛化。 具体来说,在每个 AL 循环之后,我们计算训练和测试准确度之间的差距。 这个值越小越好,因为越大表明任务模型越容易受到过度拟合的影响。 如表 3 所示,我们的方法产生的差距最小,证明了其优越的泛化能力。 结论在本文中,我们从理论上分析了数据选择与主动学习中使用的任务模型的测试性能之间的联系。 我们证明了选择具有更高梯度范数的未标记数据可以降低测试损失的上限。 我们提出了两个独立的方案来计算梯度范数和一个通用的主动学习框架来利用这些方案。 我们对各种基准数据集进行了广泛的实验,有希望的结果验证了我们的理论发现和提出的方案。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 16:25:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |