[人工智能] tesnorized transformer-张量化思想

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> tesnorized transformer-张量化思想 -> 正文阅读

[人工智能]tesnorized transformer-张量化思想

首先我们介绍一下block -trerm decomposition：
在这里插入图片描述正如文章中说说,BTD是CP分解和Tucker分解的组合形式，它是把一个张量写成了多个Tucker分解的合并形式。这里我们可以提前说一下，tensorized transformer的一个优势在于写成核张量的形式可以对核张量做低秩近似，从而减小模型的参数量。另一点，后续在处理multi-head attention时，其实主要就是multi-core tensors。

下面我们补充一下transformer的基本模型：
在这里插入图片描述这里的 Q,K,V并不是当初的参数矩阵，而是已经乘上input X的结果。而所谓多头其实就是有多组这样的参数矩阵，从而有多组的Output, 最后多组output拼接后乘上权重矩阵；
另外补充一下input X的生成过程：对于图像而言，在X前其实是经历了一个卷积的过程，X的维数实际对应着卷积核的通道数。
在这里插入图片描述下面图解说明了张量化的方法：

在这里插入图片描述

在这里插入图片描述我们可以看出作者在尝试将atten写成tucker分解的形式，写成这样的形式后，在多头机制下，保持Q,K,V这样的参数矩阵不变，仅仅改变核张量（核张量是三阶对角阵，参数很少，这种方法极大的减小参数量），这样我们可以得到多个三阶张量Ti，将这些三阶张量直接做平均得到新的三阶张量，然后做切片，将切片拼接后再乘上权重矩阵。

这种方法最大的价值在于多头的机制下，他能够极大的减小参数量：
在这里插入图片描述下面我对这篇文章模型不太能理解或者说有一定质疑的部分：

他的AttenTD模型里的Q,K,V和原来transformer里的是否有关系？引理一的等式关系，我看过补充材料的证明，还是不太能接受这样的结论。另一方面也就是说，我个人认为，新模型里面QKV的关系建立并不像trandfomer模型具有良好的解释性。
这里多头权重本质上是相同的，就是做了个平均，他的权重矩阵乘的其实是矩阵T的切片，所以这里的权重矩阵相比于transformer的用法是否不太合理？

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-07-14 10:51:52 更:2021-07-14 10:52:57

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/19 12:40:30-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码