Q1:为啥transformer分割效果会比较好? A1:因为它是基于自注意力,(自学习来分配权重,是软注意力的一种升级(都是0~1之间的权重),软注意力是人为分配的,还有一种硬注意力,是0或1,分配或者不分配权重;而软注意力和自注意力都是多少会分配权重,只是有多有少的问题),解决长文本间的***依赖***(相互注意力权重的影响) Q2:但是CNN中也有注意力(或自注意力),它与trnsformer中的注意力机制有啥本质的区别? A2:首先明确注意力机制本身就起源于NLP,所以无论是注意力还是自注意力,都有query,key,value,只不过基于CNN的注意力(如self.query_conv = Conv2d(in_channels=in_dim, out_channels=in_dim // 8, kernel_size=1))是通过卷积最终得到合适的参数模型,而transformer的Query,key,value是通过词嵌入方式得到,再计算相互之间的权重,这种方式得到的权重可解释性强,(相比于基于CNN的黑箱子得到的权重),所以效果自然也就好些。(和组长讨论的结果)
彩蛋:所谓基于注意力机制的分割能够解决长文本间的相互依赖,从而达到很好的分割效果,可以理解为:以角膜神经分割为例,边缘部分由于像素不清晰,分辨率低等原因,导致分割效果不理想,这时,可以用注意力计算出易分割像素点对于不易分割的相互影响权重,通过这个权重就可以间接得使得不易分割的像素值变得相对分割了。(感觉说得挺玄乎,好像是学渣和学霸有了瓜葛,学渣也能有机会变学霸一样,哈哈哈~~,待研究!)
|