Hybrid Attention-Based Prototypical Networks
Feature-level Attention
对support set中的随机选取的每个类别的所有instance做多层卷积处理得到最终的z。不就类似attention based muti-instance RE么,support set中每个类别的所有句子,就是一个小型bag,所谓feature-level attention就是类似sentence-level attention(Lin et al.,2016[5])中对整个bag的句子attention最终得到句子表示–bag_rep,相当于把所有句子揉合成了一个句子表示,思路都是差不多的感觉,只不过用的结构不一样罢了,CNN直接卷积不同于sentence-level attention,可能就像作者说的会更关注计算空间距离时那种很有区分性的特征(每个句子embedding 的维度)吧。
简单的欧氏距离不足以处理由于few-shot的support set数据很少所带来的特征稀疏的问题以及具体对比较具有区分性的特征关注不足的问题. Instance-level Attention 作者采用了新的attention的方式获取原型,作者原因有两点(对比original 方法):首先对于每个类别原型的获取,若是有一个instance的表示(即xji)偏离很多就会很大程度影响整体,因为平均即给所有句子分配的权重都一致。其次,原始的方法只根据support set中的instances,并没有看过query set中的instance(这里还都是training set所以看query应该是可以的,query感觉就有点像验证作用),所以普通的模型提取的特征对query set中instance的分类可能帮助有限。
|