| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【Paper Quickthrough】2021 Bert 各向异性 -> 正文阅读 |
|
[人工智能]【Paper Quickthrough】2021 Bert 各向异性 |
Bert各向异性2021 Paper QuickthroughISOTROPY IN THE CONTEXTUAL EMBEDDING SPACE: CLUSTERS AND MANIFOLDSPaper Url. Github Url. Accepted by ICLR 2021. Abstract
1. Intuition虽然Bert向量在很多任务上变现的很棒,但是由于其向量退化的特性,即所有的高维向量空间都是在一个凸锥中,所以在计算余弦距离时计算的值都很大。 所以本文通过各向异性的角度进行探究得到了以下几点结论: 1)我们在向量空间中发现了簇类内的各向同性,这与之前的学术研究的各向异性(由误导的孤立聚类造成)形成了对比。通过引入clustering和center shifting的方法来揭示各向同性,并在跨模型之间显示了更一致layer-wise行为。 2)在GPT/GPT2嵌入中发现Swiss-Roll流形,但在BERT/DistilBERT嵌入中没有发现。流行与词频分布密相关,这表明当模型看到更多数据时,其演变方式有所不同。我们使用Local Intrinsic Dimension (LID)来描述流形,并发现上下文嵌入模型,包括所有BERT、GPT族和ELMo,通常都有小的LIDs。小LID可以视空间的局部各向异性。
选取了BERT
S
i
n
t
r
a
?
E
i
[
E
k
≠
l
[
cos
?
(
?
k
(
t
i
)
,
?
l
(
t
i
)
)
]
]
S_{\mathrm{intra}} \triangleq \mathbb{E}_{i}\left[\mathbb{E}_{k \neq l}\left[\cos \left(\phi_{k}\left(t_{i}\right), \phi_{l}\left(t_{i}\right)\right)\right]\right]
Sintra??Ei?[Ek?=l?[cos(?k?(ti?),?l?(ti?))]] 针对主流的embedding模型进行分析: layer越深,簇类间距离越高,特别是GPT2的最后一层,相对更具有各向异性。S_intra指数一般都很高,说明任意向量都有很高的余弦相似度,不同类型的嵌入在更深的层次上越来越接近,而相同类型的实例的嵌入却在扩散。除了GPT-2,最后一层layer的余弦距离都相对较小。 2. Clusters对每一layer的embedding都进行降维,并计算PCA的方差贡献率,计算大于0.8最少需要的层数。 所有模型的嵌入空间中都存在孤立的聚类。 GPT2的第2层到第10层中表现出双岛特性,在最后一层合并成一个大集群。在所有PTM所有层上都能观察到类似的集群行为。 通过Silhouette Method计算聚类个数 ∣ C ∣ |C| ∣C∣,通过Maximum Mean-Silhouette(MMS) score计算衡量各个簇类在向量空间中是如何分布的,MMS越大说明簇类间距离分隔越大,越小说明簇类越重叠。Figure3可以看到GPT2模型有更明显的集群效应。 其后论文探究了中心化(shift mean to the origin)后的向量分布情景,即在聚好的簇中,将原始的向量距离计算减去簇类内的平均向量,类似于中心化。即: S intra? ′ ? E c [ E i [ E k ≠ l [ cos ? ( ? ˉ k c ( t i ) , ? ˉ l c ( t i ) ) ] ] ] S_{\text {intra }}^{\prime} \triangleq \mathbb{E}_{c}\left[\mathbb{E}_{i}\left[\mathbb{E}_{k \neq l}\left[\cos \left(\bar{\phi}_{k}^{c}\left(t_{i}\right), \bar{\phi}_{l}^{c}\left(t_{i}\right)\right)\right]\right]\right] Sintra?′??Ec?[Ei?[Ek?=l?[cos(?ˉ?kc?(ti?),?ˉ?lc?(ti?))]]]
3. 低维流形3.1 GPT是瑞士卷流形BERT和D-BERT向量倾向于沿着更多维度分布,而GPT和GPT2在向量空间中倾向于将tokens嵌入低维流形中。更具体地说,我们发现大多数tokens都嵌入在螺旋带中,螺旋随着层数加深而变厚,形成瑞士卷形状的表面。 3.2 tokens在空间中的变化为了验证GPT族的流形结构,通常认为越相关的单词距离理应当越近。在Bert和GPT的tokens embedding 中选定符号组 3.3 词频论文还发现所有模型都试图将高频率的单词映射到向量空间中的某个特定区域,而不是将它们分散到整个空间。 较深的红色表示高词频向量分布相对集中,且更倾向于分布在瑞士卷流形的前端;蓝色表示低词频向量分布,分布在瑞士卷的最末端。当模型发现了生僻词时,把他添加到流形的最末端。 3.4 LID虽然原始空间维数为768,但我们观测到的流形具有更低的固有维数,这意味着流形上的数据点移动的自由度更小。例如,在3-D空间的瑞士卷上,任何点都只能有2-d自由度,因此内在维数只有2。我们采用LID相对于参考点局部估计维数。LID由Houle(2013)提出,最近被用于深度学习模型表征。根据Amsaleg et al. (2015) 给出的LID的近似KNN估计方法: L I D ~ ( p ) = ? ( 1 K ∑ i = 1 K log ? dist ? ( p , q i ) max ? i ( dist ? ( p , q i ) ) ) ? 1 \tilde{LID}(p)=-\left(\frac{1}{K} \sum_{i=1}^{K} \log \frac{\operatorname{dist}\left(p, q_{i}\right)}{\max _{i}\left(\operatorname{dist}\left(p, q_{i}\right)\right)}\right)^{-1} LID~(p)=?(K1?∑i=1K?logmaxi?(dist(p,qi?))dist(p,qi?)?)?1.
在所有上下文嵌入层中,LID值都有明显的增加趋势。在图9中,我们还可以看到层数和LID之间的近似线性关系。**随着layer越来越深,流形逐渐扩散化并慢慢失去聚合力,导致数据样本扩散,如图4所示类型内余弦随深度而减小。**随着层的深入,每个token向量都通过添加它们的向量(并连接非线性转换)从上下文收集信息。这可以解释局部子空间的扩展,因此LID在更深层次上增加。表3可以看到静态向量间的LID普遍高于上下文向量空间,意味着数据点在静态嵌入中更加各向同性,这可能是因为它们的词汇表 V V V很大。
4. 启示
Isotropic Contextual Word Representation in BERTPaper Url. Github Url. 《A Cluster-based Approach for Improving Isotropy in Contextual Embedding Space》. Accepted @ ACL 2021 short paper. Abstract
1. Isotropy度量Z ( c ) = ∑ w ∈ V exp ? ( c ? v ( w ) ) Z(c)=\sum_{w \in \mathcal{V}} \exp \left(c^{\top} v(w)\right) Z(c)=∑w∈V?exp(c?v(w)),Z?应该近似为任意单位向量c的常数, v ( w ) v(w) v(w)是词汇表中词向量。 各向同性度量可以用 I ( { v ( w ) } ) = min ? ∥ c ∥ = 1 Z ( c ) max ? ∥ c ∥ = 1 Z ( c ) I(\{v(w)\})=\frac{\min _{\|c\|=1} Z(c)}{\max _{\|c\|=1} Z(c)} I({v(w)})=max∥c∥=1?Z(c)min∥c∥=1?Z(c)?来表示(具体推导可以参考Mu et al. 2018)。越趋向于1表示越各向同性。我们将C向量近似为 V T V V^TV VTV的特征向量的集合,其中V是词表示的向量空间。 2. Algorithm
后四步全都参考于Mu et al. 2018。
3. 实验结果任务也都是在语义相似度匹配和分类务上进行都有所提高。 PCA后成球形,也即白化,whitening or sphering。 Learning to Remove: Towards Isotropic Pre-trained BERT EmbeddingAccepted by ICANN2021 Abstract
1. Contributions
2. Observation平均余弦相似度远高于零,这意味着词向量不是均匀分布在向量空间中,而是分布在一个狭窄的圆锥体中 我们发现第一个PCA系数对单词频率进行显著地编码,二者具有很高的Pearson相关性(约为?0.7)。频率高的词接近原点(范数更小),分布相对均匀(平均余弦相似度更低),频率低的词被挤压成一个更窄的锥体,被推离原点。这可能导致两个明显不同的词,但其对应的词向量在欧几里得空间中可能产生高度的相似度,从而影响下游任务的性能。 对于任何一个token
w
i
w_i
wi?,其损失函数可以分为两部分:一块
A
w
i
A_{w_i}
Awi??为训练语料中context中不包含token
w
i
w_i
wi?的部分,一块
B
w
i
B_{w_i}
Bwi??为包含
w
i
w_i
wi?的部分。设
P
(
Context
∈
A
w
i
)
P(\text{Context}\in A_{w_i})
P(Context∈Awi??)和
P
(
Context
∈
B
w
i
)
P(\text{Context}\in B_{w_i})
P(Context∈Bwi??)表示A和B块上下文的概率,
L
A
w
i
(
w
i
)
L_{A_{w_i}} (w_i)
LAwi???(wi?)和
L
B
w
i
(
w
i
)
L_{B_{w_i}} (w_i)
LBwi???(wi?)分别为A/B块的loss。因此token
w
i
w_i
wi?的损失函数可以定义为: 3. Method重点就是如何去除dominant principle components. 不是直接去除或者减掉,学习一个权重序列哪几个应当减掉的更多。 4. Experiments进行Weight Removal操作之后词频也是球化,词频高低的中心化,高的反而容易边缘化分布。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 8:40:12- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |