[人工智能] DiffCSE

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> DiffCSE -> 正文阅读

[人工智能]DiffCSE

DiffCSE模型

这篇论文DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings提出了 DiffCSE，一种用于学习句子嵌入的无监督对比学习框架。 DiffCSE 学习对原始句子和编辑句子之间的差异敏感的句子嵌入，其中编辑句子是通过随机mask原始句子然后从masked language模型中采样获得的。DiffCSE是对SimCSE模型的优化。这篇论文是发表于2022NAACL，代码地址为代码

论文亮点

（1）目前在Semantic Textual Similarity (STS)任务上的SOTA模型
（2）运用不变性，使用基于 dropout 的增强作为不敏感变换和基于 MLM 的单词替换作为敏感变换，对句子进行等变对比学习操作。这会导致基于原始句子和转换句子之间的差异的额外交叉熵损失。

模型

DiffCSE是无监督对比学习，模型分为sentence encoder $f$ ，generator $G$ ，discriminator $D$ 。模型结构图如下：
diffcse模型
模型左边 sentence encoder $f$ 是输入的的句$ x $，用 t r a n s f o r m e r e n c o d e r 编码，与 S i m C S E 相类似，对句子$ x $进行随机mask后得到 $x^{'}$ 输入到Generator中生成mask处的词得到句子 $x^{''} = G(x^{'})$ ，在用discriminator进行判断句子 $x^{''}$ 的词是否为替换还是原来的词。这里的generator $G$ 和discriminator $D$ 与ELECTRA中的generator，discriminator的相类似，不同之处在于：
（1）discriminator $D$ 是有条件的判别，结合了sentence encoder中的句子embedding向量 $h = f (x)$ 反向传播更新 $f$ 使得sentence encoder $f$ 更好的表达句子 $x$ 的语义信息向量 $h$ ，从而使得 $G$ 更好的区分 $x$ 和 $x^{''}$ 的细微差别。
（2）在训练过程中generator $G$ 是固定，句子表征固定，参数不更新
（3）在下游任务，只是用sentence encoder $f$ 表征句子 embeddings

Loss

模型loss分两个部分，分别为对比loss和Replaced Token Detection (RTD) loss。
（1）对比loss

$\mathcal{L}_{contrast} = -\log\frac{e^{sim(h_{i}, h_{i}^{+})/\tau}}{\sum_{j=1}^{N}e^{sim(h_{i}, h_{j}^{+})/\tau}}$
其中 $N$ 表示batch 大小，batch间样本构建反例，分母包括自身正例和其他样本的反例，反例间足够远，cos值尽可能的小， $\tau$ 为温度参数。
（2）Replaced Token Detection (RTD) loss
$\mathcal{L}_{RTD}$ 是discriminator $D$ 恢复随机mask后词的edit 句子和原来句子的间的loss。给定长度为 $T$ 的句子 $x = [x_{(1)},x_{(2)},...,x_{(T)}]$ ，随机mask 向量为 $m = [m_{(1)},m_{(2)},...,m_{(T)}]$ ，得到mask后的句子 $x^{'} = m \cdot x$ ,discriminator $D$ 恢复 $x^{'}$ 中的mask掉的词得到句子 $x^{''} = G(x^{'})$ , loss $\mathcal{L}_{RTD}^{x}$

$\mathcal{L}_{RTD} = \sum_{i}^{N}\mathcal{L}_{RTD}^{x_{i}}$
其中 $\mathcal{L}_{RTD}^{x_{i}}$ 为：

$\mathcal{L}_{RTD}^{x_{i}} = \sum_{i=1}^{T}\Large(-\Large\boldsymbol{1} (x^{''}_{(t)}=x_{(t)})\log D(x^{''}, \boldsymbol{h}, t)\\- \Large\boldsymbol{1}(x^{''}_{(t)}\neq x_{(t)})\log D(x^{''}, \boldsymbol{h}, t))$
(3) loss
$\mathcal{L} = \mathcal{L}_{contrast} + \lambda \mathcal{L}_{RTD}$
其中 $\lambda$ 为参数，根据实际数据任务重新调参，论文默认为0.005，当 $\lambda$ 为0时，loss为SimCSE模型的loss

模型参数说明

（1）sentence encoder $f$ 和 discriminator $D$ 中的参数进行更新，generator $G$ 参数固定
（2）模型训练后进行推理或者下游任务，只使用sentence encoder $f$ 获取句子embedding
（3）sentence encoder $f$ 和 discriminator $D$ 的预训练模型使用的是BERT或者Roberta
（4）generator $G$ 预训练模型使用的是DistilRoBERTa，因为在STS-B数据集以及transfer mask任务上使用DistilRoBERTa的效果比较使用Bert base，Bert tiny等这些预训练模型效果好，如下图：
在这里插入图片描述

（5）句子随机mask占比为30%的时候，模型效果好
DiffCSE
（6）loss 中的 $\lambda$ 为0.005的时候效果比较好，当 $\lambda$ 为0时模型为SimCSE。
（7）在sentence encoder $f$ Pooler Choice取[CLS]特征后进行了batch normalization，这里选取两层的pooler结果以及batch normalization，在sts-b以及transfer mask任务效果比较好
DiffCSE
加入batch normalization 代码如下

class ProjectionMLP(nn.Module):
    def __init__(self, config):
        super().__init__()
        in_dim = config.hidden_size
        hidden_dim = config.hidden_size * 2
        out_dim = config.hidden_size
        affine=False
        list_layers = [nn.Linear(in_dim, hidden_dim, bias=False),
                       nn.BatchNorm1d(hidden_dim),
                       nn.ReLU(inplace=True)]
        list_layers += [nn.Linear(hidden_dim, out_dim, bias=False),
                        nn.BatchNorm1d(out_dim, affine=affine)]
        self.net = nn.Sequential(*list_layers)

    def forward(self, x):
        return self.net(x)