基于对比预测的缺失视图聚类方法

多模态的背景

现实生活中的数据大多以多个模态或者多个视图的形式存在，举一个例子：比如不同类型的摄像机拍摄的同一个物体的图片，如rgb，深度图等，或者同一个实体的文本或图片的描述，都叫做多视图或者多模态。而使用单模态或者单视图的方法是无法有效利用多模态数据中的信息的。如果能通过综合观察不同物体的视图或是利用物体的多个模态，就能够更好地建模物体。比如考虑同一物体不同角度的剖面图，或者同时考虑音频视频等多个模态，因此一个有效的多模态学习方法尤其是无监督学习方法是非常重要的。

多视图学习方法

把各个视图投影在联合子空间中，去学习多视图的联合表示。
另一种方法则是将每个视图映射到各自的子空间中，但是子空间之间需要满足一定的相关性约束。
在这里插入图片描述

但是不论是那种表示方法，不管是联合表示还是协同表示，都显示要求了多视图数据需要满足跨视图的一致性假设，也即是数据的完备性。
现有的多视图方法都高度依赖于数据的完整性假设，要求每个样本的所有视图都存在。
在这里插入图片描述

上图中每一列代表一个instence，每一行代表不同的视图，但是有一些视图的数据缺失了。这种现象在监控设备上非常的常见。不同摄像摄像设备，不同时间点，还会由于网不好信号不好，部分图像还会存在失真甚至丢失的问题。而自动驾驶也会存在这个问题，因为部分传感器失灵也会经常发生，利用部分正常的摄像头信息做出正确的决策是不完全多模态学习的关键。

不完全多模态聚类

有两个问题需要解决。
一是如何不利于标签信息的情况下学习一致性，即无监督学习，也即是如何学习未缺失数据间的已知信息，也就是如何充分利用部分完整的多模态信息。
第二个挑战则是如何消除缺失视图的影响，也就是数据恢复问题，也就是如何利用已知数据对未知数据反演和补全。
而且绝大部分情况对上述这两个问题都是分开考虑，缺乏一个统一的理解。

对于这两个问题，接下来就开始进入论文。

论文

论文一开始就从信息论的角度对这两个问题阐述了全新的见解。
作者认为跨视图的一致性学习和数据恢复是一体两面的两个问题，他们会相互促进。
在这里插入图片描述
如图所示，X1，X2代表两种不同的视图，Z1和Z2分别表示视图1和视图2的表示，实线和虚线框则表示X1和X2所包含的信息量。从信息论的角度，可以用表示间的互信息来衡量，如图中的灰色部分。作者希望最大化互信息来最大化两个视图间的灰色部分。最大化互信息可以增加共享信息量，因此这个一致性学习可以有利于数据的恢复。数据的可恢复性则可以用条件熵来决定，从条件熵的定义可以看出，当且仅当条件熵为0的时候，Zi完全被Zj所决定，因此最小化条件熵可以促进数据的可恢复性，也就是Zi可以完全被Zj所恢复。
而从图空可以看出，条件熵有着衡量视图间不一致的部分，也就是蓝色的部分，蓝色部分就是X1和X2互相不包含的部分，最小化这个条件熵就可以丢弃掉不一致的信息，进而可以去促进已知性学习。所以优化目标就是最大化灰色的部分，最小化蓝色的部分。
在这里插入图片描述
具体做法如上图所示，通过提出三种损失函数来解决上述问题，这三个损失函数分别是：
1.视图的重构损失
2.跨视图对比学习损失
3.跨视图对偶预测损失
在配合平衡系数（入），在实验中他们都固定为0.1，后续也会有参数分歧实验进行参数的分析，整个方法利用完整的pair数据进行训练，
先看第一种重构损失
在这里插入图片描述
重构损失是表示学习的常用方法，其实就是利用了自编码Auto-Encoder，公式中的f为编码器，g为解码器。视图内的重构损失可以将原始的高维数据投影低维空间，通过在表示空间进行一些约束来学习跨视图的已知性，这里就是用到了开始讲到的协同表示的方法，作者没有去显式地学习公共表示，而是去学习各个视图的独自表示，最终会将两个视图的表示进行concat连接作为公共表示。
视图内的重构损失一方面可以避免频繁解，因为它约束了子空间的表示，需要还原回原始的视图。
另一方面重构损失可以从表示还原回原始的输入空间，那么它其实具备了这种对缺失数据还原的能力。
在这里插入图片描述
第二个是跨视图的对比学习损失，通过最大化互信息实现已知性学习，这里直接采用最大化X1，X2对应的表示Z1，Z2间的互信息作为损失函数，这里的I（Z1，Z2）发表于ICCF中的不变信息聚类中提出的，在其基础上增加了一个熵的平衡项，阿尔法为平衡系数，这个熵平衡项确实提升了一定的性能，最大化信息熵还有另外两方面的优势，其一是可以使表示具备更多的信息量，因为熵其实就是信息量的表示，另一方面增加这个熵其实是增大了混乱度，会避免将所有的点聚到同一个类。
在这里插入图片描述
为针对数据有缺失问题，作者创新性的提出了跨视图的对偶预测损失，简单而言，让Z1和Z2互相预测，利用网络G1和G2，最小化G1Z1与Z2之间的差距，同时呢又最小化G2Z2和Z1之间的差距，这两个部分形成对称，所以乘它为dual prediction。最小化条件熵推导到这个loss的推导。这一步的对偶预测损失是通过最小化条件熵实现数据的恢复，同时提出了最小化条件熵可以降低数据间的不一致性，所以说可以变相地增强一致性。

实验

Baselines

Deep Canonical Correlation Analysis (DCCA)(Andrew et al.,2013)
Partial Multi-View Clustering (PVC) (Li et al.,2014)
Deep Canonically Correlated AutoEncoders (DCCAE) (Wang et al., 2015)
Incomplete Multi-Modal Visual Data Grouping (IMG)(Zhao et al.,2016)
Doubly Aligned Incomplete Multi-view Clustering (DAIMC) (Hu et al.,2018)
Binary Multi-View Clustering (BMVC) (Zhang et al., 2019).
Autoencoder in Autoencoder Networks (AE2-Nets)(Zhang et al., 2019)
Unified Embedding Alignment Framework (UEAF) (Wen et al., 2019)
Perturbation-oriented Incomplete Multi-view Clustering (PIC) (Wang et al.,2019)
10.Efficient and Effective Regularized Incomplete Multi-view Clustering(EERIMVC)
(Liu et al., 2020)
Datasets
1.Caltech101-20
2.LandUse-21
3.Scene-15
4.NoisyMNIST
本实验与十种多视图和不完全多视图方法进行了比较，其中有传统的多视图方法DCCA，DCCAE，BMVC等。也有专门针对不完全多视图的方法，比如PVC，DAIMC，EERIMVC等。
报道了两种情况下的聚类结果：

在聚类的三个评估指标当中，NMI（归一化互信息）的提升最为巨大，红色是最好的实验结果，蓝色是第二好的实验结果，可以看到这种方法在两种情况下都取得了最好的效果。并且在Caltech101-20和Noisy MNIST数据集上的效果最好。

在这里插入图片描述
进一步分析不同缺失率下的方法性能，从缺失率0.1上升到0.9，一共10个点绘制出不同缺失率的折线图，可以看到作者的方法对于不同的缺失率都很鲁棒，并且训练结果比对比的方法都高。

这幅图是随着训练epoch的变化的聚类效果可视化，这个方法大概在200个epoch左右就能达到收敛。
在这里插入图片描述
接下来就是数据恢复的可视化结果，是对理论分析的实验证明，第一行是完整的视图，第二行是缺失的视图，第三行是通过第一行还原的图片，理想情况下第三行的结果应该和第二行相似，4-6行同理。可以看到第三行和第二行非常接近，但是第6行却和第5行不同，第六行的背景和第四行相同，都是干净的，也就是说，下面这个实验中，并没有恢复出噪声的背景，这其实就是理论结果。简而言之，作者的方法会恢复出跨视图重要的信息，并且丢去掉像噪声这样不一致的信息。本地中的语义信息和噪声背景就可以看做是两个视图的一致性与不一致性，需要注意的是本文中所提到的数据恢复是面向下游任务的，我们只恢复共享信息，而不是所有的信息以方便聚类分类。