[人工智能] 【自然语言处理】【聚类】CDAC+：通过深度自适应聚类发现新意图

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【自然语言处理】【聚类】CDAC+：通过深度自适应聚类发现新意图 -> 正文阅读

[人工智能]【自然语言处理】【聚类】CDAC+：通过深度自适应聚类发现新意图

CDAC+：通过深度自适应聚类发现新意图 《Discovering New Intents via Constrained Deep Adaptive Clustering with Cluster Refinement》

论文地址：https://arxiv.org/pdf/1911.08891.pdf

一、简介

意图发现

? 发现用户未被满足的新意图是对话系统中的重要任务。通过将相似语料聚类成相同的簇，可以识别出新的商业机会，并决定系统未来的发展方向。由于许多对话数据是未标注的，一个好的聚类算法能够帮助自动发现合理的分类，识别潜在的用户需求。

? 但是，实现这样的聚类算法面临两个挑战。
- 精准估计新意图的数量十分困难；
- 聚类的结果很难符合人的期望。例如，假设需要根据用户遇到的技术问题来划分数据，最终可能会按问题的类型进行聚类；
现有方法
- $\text{Hakkani-Tur}$ 等人使用语义解决将用户的语料分解成图，然后基于频率和熵进行剪枝；
- $\text{Padmasundari}$ 通过集成方法来合并不同聚类算法和表示方法的结果；
- $\text{AutoDial}$ 抽取所有类型的特征(例如 $\text{POS}$ 标记和关键词)，然后使用层次聚类来聚合句子；
- $\text{Haponchyk}$ 使用预定义的结构化输出来指导聚类过程；
但是，这些方法都需要密集的特征工程。此外，这些方法以pipeline的方式执行表示学习和簇分配，可能导致较差的效果。
解决方案

? 实际场景中，存在着有限的标注数据和大量的无标注数据，且预先不知道所有的意图类别。此外，训练数据存在噪音，即无标注数据中既有已知意图，也有未知意图。关键是如何利用标注数据来有效地改进聚类效果。

? 为了解决这些问题，本文提出了一种端到端的聚类方法 $\text{CDAC+}$ ，在聚类的过程中优化意图的向量表示。此外，还利用预训练语言模型 $\text{BERT}$ 和标注数据来帮助聚类过程。具体来说，整个方法划分为三个步骤。
- 首先，从 $\text{BERT}$ 获取意图的向量表示；(意图表示)
- 其次，构造成对分类任务来作为聚类的替代。使用意图表示来计算句子对的相似矩阵，然后使用相似与否的标签来训练网络；(成对分类)
- 最后，使用辅助 $t$ 分布和 $\text{KL}$ 散度来鼓励模型从高置信度分配中学习；(簇细化)

二、意图表示

? 使用预训练语言模型 $\text{BERT}$ 来获取意图向量表示。给定语料库中的第 $i$ 个句子 $x_i$ ，从 $\text{BERT}$ 的最后隐藏层获取所有token的嵌入向量 $[C,T_1,\dots,T_N]\in\mathbb{R}^{(N+1)\times H}$ 。利用 $\text{mean-pooling}$ 来获得平均表示 $e_i\in\mathbb{R}^H$ ：
$e_i=\text{mean-pooling}([C,T_1,\dots,T_N])$
其中， $N$ 是序列长度， $H$ 是隐藏层大小。然后，将 $e_i$ 送入聚类层 $g$ ，并获得意图的向量表示 $I_i\in\mathbb{R}^k$ ：
$g(e_i)=I_i=W_2(\text{Dropout}(\text{tanh}(W_1 e_i)))$
其中， $W_1\in\mathbb{R}^{H\times H}$ 且 $W_2\in\mathbb{R}^{H\times k}$ 是可学习参数， $k$ 是簇数量。

三、成对分类

? 聚类的本质是衡量样本间的相似度。受模型 $\text{DAC}$ 的启发，本文将聚类问题重新为成对分类问题。通过学习句子是否相似，模型能够学习到有益于聚类的意图表示。使用意图向量表示 $I$ 来计算相似矩阵 $S$
$S_{ij}=\frac{I_i I_j^T}{\parallel I_i \parallel\parallel I_j \parallel}$
其中， $\parallel \cdot \parallel$ 是 $\text{L2}$ 范数，并且 $i,j\in\{1,\dots,n\}$ ；batch size为n； $S_{ij}$ 表示句子 $x_i$ 和 $x_j$ 的相似度。然后，迭代地使用监督和自监督步骤来优化模型。

1. 监督步骤

? 给定少量的标注数据，构造标签矩阵 $\text{R}$
$R_{ij}:= \begin{cases} 1,\;\text{if}\quad y_i=y_j \\ 0,\;\text{if}\quad y_i\neq y_j, \end{cases}$
其中， $i,j\in\{1,\dots,n\}$ 。使用相似矩阵 $S$ 和标签矩阵 $R$ 来计算损失函数 $\mathcal{L}_{sim}$ ：
$\mathcal{L}_{sim}(R_{ij},S_{ij})=-R_{ij}\text{log}(S_{ij})-(1-R_{ij})\text{log}(1-S_{ij})$
这里将标注数据作为先验，并使用它指导聚类过程。

2. 自监督步骤

? 通过相似矩阵 $S$ 上应用动态阈值，获取自标注矩阵 $\hat{R}$
$\hat{R}_{ij}:= \begin{cases} 1,\text{if}\quad S_{ij}>u(\lambda)\;\text{or}\;y_i=y_j \\ 0,\text{if}\quad S_{ij}<l(\lambda)\;\text{or}\;y_i\neq y_j \\ \text{Not selected, otherwise} \end{cases}$
其中， $i,j\in\{1,\dots,n\}$ 。 $u(\lambda)$ 是动态阈值上限， $l(\lambda)$ 是动态阈值下限，共同用来决定句子对是否相似。那些介于 $u(\lambda)$ 和 $l(\lambda)$ 的句子对不参与训练过程。在本步骤中，混合了标注和未标注数据来训练模型。

? 此外，添加 $u(\lambda)-l(\lambda)$ 作为样本数量的惩罚项
$\mathop{\text{min}}_{\lambda}\;\textbf{E}(\lambda)=u(\lambda)-l(\lambda)$
其中， $\lambda$ 是一个控制样本选择的自适应参数，并且迭代更新 $\lambda$ 的值
$\lambda:=\lambda-\eta\cdot\frac{\partial\textbf{E}(\lambda)}{\partial\lambda}$
其中， $\eta$ 是 $\lambda$ 的学习率。由于 $u(\lambda)\propto -\lambda$ 且 $l(\lambda)\propto\lambda$ ，可以在训练过程中增加 $\lambda$ 来降低 $u(\lambda)$ 和提高 $l(\lambda)$ 。这方便逐步地选择更多句子来参加训练过程。这当然也可能在 $\hat{R}$ 中引入更多的噪音。

? 最后，使用相似度矩阵 $S$ 和自标注矩阵 $\hat{R}$ 来计算损失函数 $\hat{\mathcal{L}}_{sim}$ ：
$\hat{\mathcal{L}}_{sim}(\hat{R}_{ij},S_{ij})=-\hat{R}_{ij}\text{log}(S_{ij})-(1-\hat{R}_{ij})\text{log}(1-S_{ij})$
随着阈值的改变，模型会从学习简单分类句子到学习难分类句子对，迭代地获取有益于聚类的表示。当 $u(\lambda)\leq l(\lambda)$ 时，停止迭代并移动到细化阶段。

四、簇细化

? 这部分的逻辑与模型DEC完全相同。

? 通过期望最大化方法迭代的细化簇分配，鼓励模型来学习高置信度的分配。首先，给定初始化的簇中心 $U\in\mathbb{R}^{k\times k}$ ，计算意图向量表示和簇中心的软分配。具体来说，使用学生 $t$ 分布作为评估意图向量表示 $I_i$ 和簇中心 $U_j$ 的相似度
$Q_{ij}=\frac{(1+\parallel I_i-U_j \parallel^2)^{-1}}{\sum_{j'}(1+\parallel I_i-U_j \parallel^2)^{-1}}$
其中， $Q_{ij}$ 表示样本 $i$ 属于簇 $j$ 的概率。

? 其次，使用辅助目标分布 $P$ 来强迫模型来学习高置信度分配，从而细化了模型参数和簇中心。定义目标分布 $P$ 如下：
$P_{ij}=\frac{Q_{ij}^2/f_i}{\sum_{j'}Q_{ij'}^2/f_{j'}}$
其中 $f_i=\sum_{i}Q_{ij}$ 表示软簇频率。

? 最后，最小化 $P$ 和 $Q$ 的 $\text{KLD}$ 损失函数
$\mathcal{L}_{\text{KLD}}=KL(P\parallel Q)=\sum_i\sum_j P_{ij}\text{log}\frac{P_{ij}}{Q_{ij}}$
然后，重复上面的两个步骤直至在两次连续迭代中，簇分配的改变小于 $\delta_{lable}\%$ 。