[人工智能] 【自然语言处理】BERT-Whitening

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【自然语言处理】BERT-Whitening -> 正文阅读

[人工智能]【自然语言处理】BERT-Whitening

苏神论文：https://arxiv.org/pdf/2103.15316.pdf

BERT-Whitening

? BERT虽然很成功，但是通过BERT来获取句子嵌入仍然是个问题。先前的研究认为BERT获取的句嵌入向量存在各向异性的问题，导致cosine相似度无法度量句子间的语义相似性。 $\text{BERT-Whiteing}$ 通过简单的白化操作，将嵌入向量转化为各向同性。

一、假设

? cosine相似度对于输入向量有什么假设？

? 给定两个向量 $x\in\mathbb{R}^d$ 和 $y\in\mathbb{R}^d$ ，这两个向量的cosine相似度为
$\text{cos(x,y)}=\frac{\sum_i^d x_iy_i}{\sqrt{\sum_i^d x_i^2}\sqrt{\sum_i^d y_i^2}} \tag{1}$
等式(1)仅在标准正交基下才满足。但是，研究显示BERT中包含了充分的语义，只是无法通过cosine或者其他的度量方式进行语义相似度度量。那么一个合理的猜测就是：BERT产生句向量的坐标基不是标准正交基，也就是各向异性。为了解决BERT句嵌入向量的问题，就需要将句向量转化至标准正交基中。

二、白化变换

? 先前解决BERT句向量各向异性采用基于flow的方法。本文认为使用简单的whitening操作也能实现相同的效果。具体来说，就是将所有句向量转换为均值为0且协方差矩阵为单位矩阵的向量。

? 假设存在一组句向量 ${x_i\}_{i=1}^N$ ，可以使用下面的线性变换实现各向同性(均值为0且协方差矩阵为单位矩阵)。
$\tilde{x}_i=(x_i-u)W \tag{2}$
等式 $(2)$ 就是机器学习中的白化操作。若要均值为0，仅需要
$\mu=\frac{1}{N}\sum_{i=1}^Nx_i \tag{3}$
下面来确定矩阵 $W$ 。 ${x_i\}_{i=1}^N$ 的原始协方差矩阵为
$\Sigma=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^T(x_i-\mu) \tag{4}$
转换后的协方差矩阵为
$\tilde{\Sigma}=W^T\Sigma W \tag{5}$
若希望转换后的协方差矩阵为单位矩阵，则需要解决下面的等式
$W^T\Sigma W=I \tag{6}$
将等式 $(6)$ 左乘 $W^T)^{-1}$ 和右乘 $W^{-1}$ ，得到
$KaTeX parse error: No such environment: align at position 8: \begin{?a?l?i?g?n?}? \Sigma&=(W^T)^…$
由于协方差矩阵 $\Sigma$ 是正定对称矩阵，满足 $\text{SVD}$ 分解，即
$\Sigma=U\Lambda U^T \tag{8}$
等式 $(7)$ 和 $(8)$ 联立
$(W^{-1})^TW^{-1}=U\Lambda U^T=U\sqrt{\Lambda}\sqrt{\Lambda}U^T=(\sqrt{\Lambda}U^T)^T\sqrt{\Lambda}U^T \tag{9}$
因此， $W^{-1}=\sqrt{\Lambda}U^T$ ，那么最终
$W=U\sqrt{\Lambda^{-1}} \tag{10}$

三、降维

? 通过矩阵 $W=U\sqrt{\Lambda^{-1}}$ 可以将句向量的协方差矩阵转换为单位矩阵。在这个变换中，对角矩阵 $\Lambda$ 中的每个对角元素的大小都代表了对应维度的重要性。因此，可以通过去掉那些不重要的特征来实现特征向量降维，这样可以一定程度上降低噪音且加速向量检索速度。

? 在实现过程中，由于奇异值分解出的对角矩阵 $\Lambda$ 中的元素已经被降序排列。因此，仅需要将 $W$ 中的前 $k$ 列保留下来，就能实现降维效果。论文将整个流程称为 $\text{Whitening-k}$ ，详细的实现如算法1描述。

算法1

**输入：**句嵌入 ${x_i\}_{i=1}^N$ 和要保留的维度 $k$ ；

计算 ${x_i\}_{i=1}^N$ 的均值 $\mu$ 和协方差矩阵 $\Sigma$ ；
计算 $U,\Lambda,U^T=\textbf{SVD}(\Sigma)$ ；
计算 $W=(U\sqrt{\Lambda^{-1}})[:,:k]$ ；
for $i=1,2,\dots,N$ do
? $\tilde{x}_i=(x_i-u)W$
end for

**输出：**转换后的嵌入向量 $\{\tilde{x}_i\}_{i=1}^N$ ；

四、复杂度分析

? 在大规模语料库上训练时，均值 $\mu$ 和协方差矩阵 $\Lambda$ 是可以迭代计算的。具体来说，整个句向量 ${x_i\}_{i=1}^N$ 均需要计算矩阵向量 $\mu\in\mathbb{R}^d$ 和协方差矩阵 $\Sigma\in \mathbb{R}^{d\times d}$ 。因此，给定一个新句子 $x_{n+1}$ ，均值可以迭代计算：
$\mu_{n+1}=\frac{n}{n+1}\mu_n+\frac{1}{n+1}x_{n+1} \tag{11}$
类似地，协方差矩阵就是 $(x_i-\mu)^T(x_i-\mu)$ 的期望，迭代计算
$\Sigma_{n+1}=\frac{n}{n+1}\Sigma_n+\frac{1}{n+1}(x_{n+1}-\mu)^T(x_{n+1}-\mu) \tag{11}$
因此，计算 $\mu$ 和 $\Sigma$ 的空间复杂度为 $O (1)$ ，时间复杂度为 $O (N)$ 。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-09-06 11:07:54 更:2021-09-06 11:08:44

360图书馆购物三丰科技阅读网日历万年历 2025年11日历

-2025/11/28 0:03:04-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码