[人工智能] ICLR 2022：?PiCO，基于对比消歧的偏标签学习丨AI Drive

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> ICLR 2022：?PiCO，基于对比消歧的偏标签学习丨AI Drive -> 正文阅读

[人工智能]ICLR 2022：?PiCO，基于对比消歧的偏标签学习丨AI Drive

在这里插入图片描述

偏标签学习 (Partial Label Learning, PLL) 是一个经典的弱监督学习问题，它允许每个训练样本关联一个候选的标签集合，适用于许多具有标签不确定性和歧义的的现实世界数据标注场景。

然而，现存的 PLL 算法与完全监督下的方法依然存在较大差距。

针对这一现象，本期 AI Drive，浙江大学人工智能系在读博士-王皓波，解读其发表在 ICLR 2022的最新研究成果：PiCO：基于对比消歧的偏标签学习。

这项研究提出一个协同的框架，解决 PLL 中的两个关键研究挑战——表征学习和标签消歧。具体地， PiCO 由一个对比学习模块和一个新颖的基于类原型的标签消歧算法组成。PiCO 为来自同一类的样本生成紧密对齐的表示，同时促进标签消歧。从理论上讲，我们表明这两个组件能够互相促进，并且可以从期望最大化 (EM) 算法的角度得到严格证明。大量实验表明，PiCO 在 PLL 中显着优于当前最先进的PLL方法，甚至可以达到与完全监督学习相当的结果。

王皓波，浙江大学人工智能系博士在读，研究领域包括弱监督学习、多标签学习、机器学习理论等方向，专注于开发鲁棒、实用、可解释机器学习算法。曾于ICLR、TPAMI、AAAI、IJCAI等顶级会议与期刊发表多篇论文，长期担任ICLR、ICML、NeurIPS等顶会审稿人。

本次分享的具体内容有（按“数据实战派”指示回复关键词，可获得本文ppt，文末视频号看观看本期回放）：

丨研究背景
丨相关工作
丨PiCO介绍
丨实验结果
丨EM视角下的PiCO
丨科研心得体会

一、研究背景

深度学习和人工智能的兴起，依赖于海量般的标注性数据，而收集这么多精准的标注性数据，实际非常地费时费力，高校与公司要落地这样的产品，需要有大量的标注人员来参与。所以现在的很多学界文章和工作都在关注弱监督学习，减少标注成本，他们实现标签学习，还有半监督学习，并以此来减少标注的数据量和标注的困难。

这篇文章是从比较独特、重要，且容易忽略的角度，去探索数据标注中的一种内生困难，也就是数据标注本身所存在的歧义和不确定性。

假设你是标注者，拿到了这样一张图片，很自然地想问其中的狗是一只什么狗？你可能会想说，这可能是一只阿拉斯加，不对，好像是一只哈士奇。

此时，如果你是一个一直养狗的人，是一个狗类专家，那么你可能一眼就辨识出来其种属。但是，如果像是这种从未养过狗，并且对其领域知识掌握不充分的人，可能就没有办法判别出。此时，若我一定要确认这只狗的种属，就不得不去查找相关文献，或者咨询专家。但是就会费功夫，那么该怎么办？比如随机选一个，但是阿拉斯加和哈士奇里面却选错了，在这种情况下，对于模型和数据，就引入了噪声的标签，实际上会对模型的准确性造成非常大的影响。

另一种方案是，鉴于这张图片标柱的困难性，选择不标注。此时的问题是虽然无法确定这张图片的准确标注到底是什么，但实际上至少能够确定是哈士奇或阿拉斯加此两种中的一种。所以，无论如何也不会把它当做是一只泰迪。我们还是一些认识，只是还不够充分，此时到底该怎么办？

于是自然而然想到，是否可以把所有可能的候选标签全都给标上呢，这便引出本文所研究的一个问题，即Partial Label Learning。

这个数据标注中，像这只狗，其实它的准确标注是阿拉斯加，但在Partial Label Learning里面，我们不再强求这个标注到底是否准确，而是只需要去提供一个标注性的集合，也就是把所有的可能标签都给它标上。在文献中也有一个别称Superset Label Learning，或Ambiguous Label Learning。

上可能这两个名称看起来更加直观一点，但因为一些历史原因，沿用了Partial Label Learning这个方案和名称。

二、相关工作

本节介绍Partial Label Learning的一些相关工作。

在设计初期，大家对这个问题的研究还不是很彻底，可能会选用一些比较naive的学习策略，此处采用 Average-based Methods，可以把所有的标签都当作是真实的标签，采用平均的方式计算其均值，比如两个标签，可以让其中一个变成0.5，另外一个标签comment也变成0.5，交给模型去学习。但这个方法，并没有去判断其真实标签到底是什么，被淹没在了所谓的候选标签里，此时它实际上引入了大量的噪声，会影响学习的过程。

这两年，我们有提到Alexnet上开始兴起了基于Self-Training的风潮。自训练方式，就是在训练过程中重新使用模型输出来更新标签的Confidence，也就是我们所识别的一个真实的标签。

所采用的那种方式基本上就是用概括性方式所定义出来的，也是Program这个方法所采用的，一般会在这个候选机里面，对模型的输出进行重做Normalization，即重新进行规划。

在我们的提出的方法之前，比如CFAR在Benchmark上也能达到sota的效果，但我们发现，这却忽略了这么一个问题，就是用模型输出去再次更新标签，以便能对模型进行训练。

但实际上由于这个标签存在不确定性，其表征圈得很不好，在这样的情况下，当表征不好时，模型输出也不会太准确，这样以来又重新影响了此表征，这就是我们称为Representation-Disambiguation Dilemma的问题。。

另外一些方法，比如基于图的方法、基于聚类的方法等，都是基于一个假设表征无需预先学习，也忽略了Representation-Disambiguation Dilemma这么一个问题。

那么该怎么去学习表征呢，此处介绍这两年非常火热的方法，即对比学习。

在自监督学习领域，对比学习实际上已经成为了一种非常标准的无监督表征学习范式。

在对比学习中，一般会通过数据增广的方式，比如说右侧有只猫，给它生成不同的 Query和 Key，Embedding，就可以把这两个增广的图像绘进同一个Encoder，获得一个Embedding。

接下来用一个对比学习即Noise Contrastive Estimation，就可以利用Ncence损失来对表征进行训练。其本质是希望把图片与其近邻样本进行拉近，而与其他的样本进行拉远。

既然对比学习在无监督上面有这么好的效果，那么能不能用到弱精度学习General Contrastive Learning上呢，于是就进入了我们这篇文章PICO的工作。

三、PiCO介绍

本节会从三个角度来分析PICO。

首先是提出了协同的 Partial Label Learning框架，利用了对比学习来增强表征学习的能力，同时赋予了它能够提升这个标签消息的能力。

这篇文章也是首次在Partial Label Learning里面引入了对比学习，以便能达到一个很好的效果。从实验的角度来看，在 PLL问题里面达到了最先进的效果，并且还发现，当某些标签歧义不是很高时，甚至能够达到一个接近监督学习的效果。

理论上，从期望最大化的角度来看，也就是以EM算法的角度来解释我们的方法，其实我们在对比学习里面证明了Aligh，也就是对齐的性质。

先介绍一下Partial Label Learning的 Setup。

我们的目标是学习分类器，它的参数分类器f，定义为 setup，数据集是在每个Tuple，每个元组里面Xi是一张图片，么Yi相比于之前，可能是一个问号，或者是一个离散的标签，在这里将其定义成了一个候选标签的集合，注意它这也是集合，而不是某一个离散的值。

这里有一个假设是 ground-truth真实标签是被引入的，它被包含在候选标签集里面，并且ground-truth标签对预测器来说，是不可见的，那么，在训练的时候会同步地进行标签消歧，所以这是一个Identification Based Method，相比于之前介绍的 Average Base Method，我们在训练时维持了这么一个伪标签si，对于每一个样本，我们使用经典的 cross HP损失来更新它。

PiCO实际上是由两个比较大的模块构成，首先是一个对比学习网络，是希望使用对比信息来提升它的表示能力，后面我们也会介绍它的另一个大模块，即标签消歧模块。

首先是 Backbone，它 follow了经典的MoCo工作。具体来说，给定一个图片以后，通过数据增广的方式生成两个View，第一个是query view，第二个是key view。将query view这两张图片放入两个Encoder，上面Encoder是主干的网络输出，它会连接上刚才提到的分类器。

另外一个部分称为projector，即投影器，它是一个多层感知机，与之相连后通过 MLP，会得到q的 embedding，它可以意识到对比学习的空间。

key view增广以后的图像放入另外的Encoder，不参与梯度的训练只是提供对比，也可以作为副样本来使用。对它也不进行梯度更新，而是要采用momentum的更新来做目标average，使得每步用Classifier这个模块，以query模块的 encoder来逐步地更新它。

同样，通过momentum更新的MLP来得到另外一个embedding，与此同时，通过key还会维护队列，维护队列的作用其实是为对比时机提供负样本。众所周知，在对比学习里面比较大的副样本池子能够让其表征学得更好。

在query和key的 embedding以后构建embedding的池子，其中包含了这个bash。

通过学习使其通过网络后得到query的embeddings，然后是Key embeddings，还有队列里面存储的Key embeddings，拿到 pull以后，引入了对比学习的损失函数。

我们的想法是这样的，既然做了一个分类任务，希望能够把同类的样本尽可能地拉近，把不同类的样本尽可能地拉远，因此，可以通过经典的对比学习损失函数来达到这个目标。具体来说，为每个样本选择一个positive的集合，里面的embedding，我们会在分子部分来拉近距离。

在分母部分，把当前样本的 query的embedding和剩下所有样本的 embedding拉远，这样就能达到之前想要实现的目标了。

有了这个目标函数以后， px要怎么去定义呢？

在MoCo里面,我们可能会有样本 query embedding和它的key embedding。比如说，它与增广样本的另一个样本互为正样本，但是实际上在Partial Label Learning里面，我们显然不能简单地这么来做。

希望能够把同一个类的样本都给拉近，到底要去怎么做？

实际上实验的过程中，我们采用了相当多不同的策略去尝试来构建更好的 Positive set，比如可能会引入过滤器，来过滤掉一些可信度可能不那么高的 positive的样本，但实际上，最后发现还是XXX策略最有用且最有效，也就是直接用分类器预测的标签来帮助去构建。

只要 class的预测这两个样本它俩的标签相同，我们就把它视作是positive。当然我们也会为预测的标签维护一个队列，它和key embedding对应的队列是同一个size，而且还帮帮助获得 positive size。最后可以同时训练 classifier和对比学习网络了，就得加权损失。

到此，对比学习网络就介绍完。

但我们还是发现了问题，就是要去构建 positive此时分类器其实是不可信的。因为标签本身存在一定的不确定性，如果非常自然地去相信分类器的结果，可能依然会陷入到不太好的结果当中。

那么，接下来就是另外的内容——怎么样去做标签消岐。

也就是怎么样能够把ground-truth标签从一个候选的标签集合里面找出来。

我们在这里提出了一个基于原型的消岐策略。具体而言，给每个类标签 c来维护原型的标签，原型的 Embedding的向量。

我们其实有一个非常简单的想法，也就是说，如果样本接近对比学习的原型，那么ground-truth label很有可能是 label了，到底要怎么样逐步地来更新它？我们会让伪标签从一开始的均匀分布，从uniform开始，由prototype定义的well-code的独热向量来逐步地进行更新。

比如说，这里可以看到伪标签可能是狗狗的标签，执行度可能是0.65，cat标签的执行度可能是0.35，那么这个时候它所显示的原型是狗。

于是，我们就会让0.65的伪标签往上提一点。可以设想一下，如果说这个样本一直都指向的是这个原型，那么，它在几步迭代以后就会逐步收敛到定义文号的标签。

最后还遗留了一个问题，就是原型到底要怎么去更新。

有一种非常简单的方法，就是我们每次在一个sep里面，或者进行epoch的时候，都需要计算每个类的均值，然后是引用 Classifier的预测，但这样以来，太过费时费力。

所以我们采用了一个Momentum的更新方式，在每一步，每一个sep里面，我们会让 query embedding去一点，每一步都让它稍微改进一下这个原型，让它往这个方向来进一步。

当然这里对应 c的选择，要看分类器的一个预测了，这样的话运行时间会大大地节省。

当然，在实验的过程中我们也发现，即使对每个epoch更新一次embedding，实际上效果也不差，当然计算成本也会更高一点。

总体来说，我们会放入一张图片，然后通过数据增广来获得两个bill，还会通过classifier来选择对比学习的positive的样本，进行对比学习。对比学习得到的embedding，我们又会通过圆形的方式来逐步地更新伪标签,它又会反过来支持这个分类器的学习。

值得注意的是，这里的两大模块实际上是有一种协同的作用。

首先，我们会在后面进行理论上的推导，以证明对比学习实际上是有聚类的效果，那么它可以很大程度上来帮助标签进行消歧，这实际上也能够反哺对比学习，从而有利于更好地来建立positive set。

四、实验结果

首先是主要结果，可以看到在θ10和θ100上，我们都获得了θ的结果，并且发现在q = 0.1和0.01情况中，我们的效果跟全监督是非常接近。

我们也可视化了一下表征，可以看到，Baseline的表征可能就没有那么好辨认，像 PRODEN终究是一些簇，而且会有一些边界感不是很清楚，相比之下，PiCO的每个类别都有一个非常紧的簇，这也证明了PiCO之于对比学习，它有一个剧烈的性质。

还有 Ablation study，即消融实验，我们发现，实际上标签消岐和对比学习模块都受到了很大的影响。每消熵一个，都会造成较大的性质损失。

接下来我们会想问，为什么对比学习还有PiCO，能够提升 Partial Label Learning的效果？

五、EM视角下的PiCO

本节从对比学习还有聚类的效果说起，给出一个基于期望最大化的理论视角解读。

首先，对对比学习的损失进行一个分解，这里面我们采用了一篇sml，它是2020年一篇文章中的经典分解。在这里面，一般把a称为alignment项，把b称为uniformity项，b项实际上跟熵是有关系的，还与一些互信息是有比较大的关系，能够很大程度地保留信息，并促进表征学习。

本文其实主要是围绕 a项进行的探讨，做一个简单的、比较理想化的情况说明，每一步迭代的时候，都能获取到整个数据集和它的增广样本。有了这样的数据以后，就可以把所有的样本都可以根据分类器的输出来进行分成c的子集。

此时经过简单推导以后，发现 A lambda项实际上等价于这个目标，大家可能对此不是很熟悉，它是很经典的k means算法，并且与其目标一模一样，也就是说，对比学习里面的alignment项，它在本质上最小化了类内的一个方差。

有了预备知识后，就可以进入EM视角了。我们的目标是去最大化似然，为此还有一个小工作要做。因为其实并不知道真实的标签到底是什么，所以便引入了一个假设，它也是来自于next的一篇比较经典的文章，可以把似然进行简单地变化，有了这一步工作后，我们就可以从 EM视角来进行分析了。

首先可以定义一组辅助性分布，这也是 em算法里很常见的一个策略。们定义了这么一个π(ij),其概率是分布在候选标签集里面的。

通过 Jason不等式，可以得到不等式等号成立的条件，也就是经典Jason不等式成立的条件是π(i-yi)需要满足这么一个等式。其实会发现，它后面的概率是分类器。有了这样的知识以后，就知道了PiCO里面的 E-step就是expectation steps，这对应的是对比学习里面所构建的 positive sets过程，这就是我们的E-step。

在M-step里面，就需要最大化似然了。假设了对比学习embedding是服从地缘的M-step的分布。由此可以证明，最小化对比学习的损失函数时，特别是alighnment这一项，其实也最大化了似然函数的下界，并且通过对表征进行可视化发现，它的确是能够让上界有很好的效果。

以上是我们的总结，首先提出了PiCO协同框架，在对比学习中，首将其利用在了Partial Label Learning这个问题上，我们还得到了sota效果。

在理论上，个人觉得这篇文章有意思的地方是，我们证明了对比学习实际上是有聚类的性质，并且从这个视角出发，把PiCO解释成了一个期望最大化的算法。

相关资料列示如图，可以进行进一步的阅读。

六、科研心得和体会

第一，针对一些比较Junior的同学，有很多刚进入研究生阶段的同学，可能会把自己对科研的方向还有学习很大程度寄托在导师的身上。但实际上就你开始研究的课题而言，导师无法帮你来解决任何事情，因为你研究的课题肯定不是你导师研究过的。

所以说，一定要做好自己学习和攻坚的准备，不要太过依赖导师。当然有很多导师能够给我们大家提供很多帮助，这样肯定最好。在大多数情况下，要尽早脱离依赖别人的习惯。因此，我觉得我们要更积极地和同辈，还有一些活跃在一线的科研工作者去交流。

进入研究生阶段，其实没有必要那么害羞和内向了，应该跟同学们多交流，多去了解，看他们对这些科学问题的认知，要大胆发邮件、加微信，你能够获取到别人的经验，这是最快的途径，这是一个非常重要的问题。因为我发现，其实大部分刚进入研一，或者说刚开始科研阶段的同学，可能都存在这样的一个问题。

其次，在平时的科研中要有一个比较好的科研习惯。基础的入门肯定是必备的，不管看论文也好，还是看知乎、微信公众号也好我都会看，相对碎片化的学习方式，很难帮助你构建起很好的课题认知。
如果仅限于机器学习的话，我可能会给出这样一个科研入门的路径：首先打好机器学习的基础，然后阅读一些稍微进阶的基本学习理论，或者像贝叶斯这样的一些书籍。然后深学习像CS231这样的一些课程。

此外，一定要多看书，多看网课，其实这些资源都非常好。此外，平时大量地阅读论文，每天刷课本，这是基本的。另外，很重要的一点就是要突破舒适圈。

觉得coding不好，那就要多复现论文，数学不好，那就要多补数学，不要一直在自己的舒适圈打转，如果一直在自己的舒适圈打转的话，你肯定做不好一件事情。

因为，其实科研需要相对比较全方位地来构建自己的能力，包括沟通能力、写作能力、阅读能力、检索能力，可能都需要打好基础。

最后，可能有些同学也会比较着急，例如觉得自己的一篇文章经常被拒。实际上，我觉得大家也不用太着急，还是要等待机会，不是说一两篇文章就能评判一个人的能力大小。这些PPT本来是在写这篇文章时候的科研心得，但实际上我可以很负责任地告诉大家，它也是灵光一闪的一个idea。

这篇文章能够做出来，一定也是有我一直以来的一些积累，但是总的来说，我们还是要有耐心来积极地去做好工作。