Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks [2018-SIGKDD]

本文是我在上一篇泛读中提到的，被投在顶会SIGKDD上的2018年的引用文章，当时引用是为了解释域间行为信息不兼容偏差，并指出这篇引文中解释了网络信息中由于信息异构性而产生的语义不兼容问题。由于我个人主要关注与跨域推荐这一块儿，如果本文确实证明了这一点，那么他将是支持跨域公平性研究的一篇重要参考文献。因此，我对本文进行了泛读，摘要和评论如下（由于未进行精读可能会存在谬误）：

论文解决的具体问题和主要假设

本文基于异构信息网络（HIN），指出了由于网络中信息异构性产生了语义不兼容问题。该语义不兼容可以简单用一个例子来形容，如下图所示，在HIN中用户Stan喜欢音乐剧，Stan还喜欢李安导演的电影，但如果异构图中所有节点都嵌入到一个度量空间中的话（如右侧的小图所示），则由于音乐剧向量和李安向量的不同，导致计算出来的Stan的user表示向量既不接近于音乐剧也不接近于李安，导致两个偏好（语义）在表示学习阶段都被稀释掉了。作者认为这样是不好的，应该采用一些方式方法来改善HIN中的这种现象，即在表示学习过程中能够更好地处理由于信息异构性而导致的语义不兼容偏差。

论文使用的方法

为了解决上述问题，本文提供了一种边缘表示和度量机制来解决该问题（如下图所示）。比如刚才的例子中，为了同时保护两种语义，该机制将原本单一的表示空间通过线性变换扩展成“用户-导演”和“用户-流派”两个type-specific度量空间，分别在各自的度量空间中学习相关表示，并通过可学习的参数加权求和得到最终的user-specific representation。这样既能够保持HIN中丰富的语义信息，又过滤掉了异构性产生的语义不兼容问题。（在此由于是泛读，我本人也没有去深究在函数表达式级别上该论文是如何进行线性变换来得到多个度量空间的，只是有目的的搞清楚了问题假设以及基本方法逻辑）

本文的主要贡献

本文的主要创新点是提供了一种既能保留异构信息网络丰富语义，同时还将异构性带来的语义偏差剔除掉的两全的方案。（具体来说就是将表示学习的单一空间，通过仿射变换映射到多个语义自适应的空间中）这也为随后的跨域推荐公平性研究，提供了予以不兼容的佐证（既证明了来自两个不相同领域的item如果被映射到相同的语义空间中来学习user表示时，会因为域间语义不兼容的问题而导致偏好的稀释）

简单读后感

本人对这篇文章的阅读是快速且有侧重的，本文为上一篇论文的假设提供了佐证，即不同域的行为差异大是一种跨域推荐偏差，需要被重视和应对。具体来说，这种跨域偏差可以被归纳为：在表示学习阶段不同域的item被映射到同一空间时item之间的相似度差异大，从而导致在聚合user表示的时候会相互稀释，这个问题源自异构信息网络那么应该也是普遍存在于跨域问题中的，如今在跨域过程中常使用GCN等聚合邻域结点表示来得到user表示的模型，那么这些模型应该也普遍存在这个问题。

在此我也提出一些思考，欢迎大家与我讨论，跨域场景中，基于跨域图表示的域自适应问题是否跟异构信息网络语义自适应问题类似，有无迁移可能？同时，是否一切考虑到语义自适应的方案都会给到跨域问题相关的启发呢？我会在未来的阅读中进一步验证这个问题。