| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> GPT模型总结【模型结构及计算过程_详细说明】 -> 正文阅读 |
|
[人工智能]GPT模型总结【模型结构及计算过程_详细说明】 |
文章目录GPT模型GPT模型:生成式预训练模型(Generative Pre-Training) 总体结构:无监督的预训练
下面这张图更直观地反映了模型的整体结构: 模型描述GPT 使用 Transformer的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention,如下图所示。 对比原有transformer的结构 阶段描述预训练阶段:
下游任务精调阶段损失函数下游任务与上游任务损失的线性组合 计算过程:输入→embedding(词嵌入、位置嵌入等)→多层transformer的block→拿到两个输出端结果→计算损失、反向传播、更新参数 计算细节:【Embedding层】:查表操作 【GPT中类似transformer的decoder层】:
sublayer1:mask的多头注意力层
计算过程:下面这段内容介绍了计算注意力的整体过程: 分解说明:Mask Multi-head Attention1.矩阵乘法:将输入的q,k,v进行变换 2.Scaled Dot-Product Attention主要就是进行attention的计算以及mask的操作 mask后可视化矩阵: 3.Concat操作:综合多个注意力头的结果,实际上是对矩阵做变换:permute,reshape操作,降维。(如下图红框中所示) 4.矩阵乘法:一个Linear层,对注意力结果线性变换整个mask多头注意力层的 残差连接和归一化操作:5.Dropout层6.矩阵加法7.层归一化批量归一化是不同训练数据之间对单个神经元的归一化,层归一化是单个训练数据对某一层所有神经元之间的归一化。
sublayer2: ffn (feed-forward network)前馈网络1.线性层(矩阵乘法)2.relu函数激活3.线性层(矩阵乘法)4.Dropout操作5.层归一化【线性层】:多层block的输出结果放到两个线性层中进行变换,比较简单,不做赘述。 补充:注意力层流程图示参考资料1.参考论文:Radford et al. 《Improving Language Undersatnding by Generative Pre-Training"》 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 21:07:12- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |