| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【翻译】GPT-3是如何工作的 -> 正文阅读 |
|
[人工智能]【翻译】GPT-3是如何工作的 |
前排提示
主要是意译+我的补充,想看原文表达的拖到最底下有链接。 原文翻译在科技界我们可以看到很多关于GPT-3的新闻。大型语言模型(比如GPT-3)已经展示出让我们惊讶的性能。虽然对于大部分企业来说想让GPT-3落地还是比较困难的,这些功能不完全可靠的模型还是不能摆到用户面前的,但是这些大模型的出现展示出了加速自动化进程和智能计算机系统的前景。接下来让我们扒一扒GPT-3,看一看它神秘光环背后是如何训练和工作的。 用一个训练好的语言模型生成文本。 我们可以选择给模型输入文本,从而影响模型的输出。在训练期间,模型会通过大量文本学习知识,模型的输出是根据其在训练期间“学习”过的这些内容生成的。
我们给模型输入一个样本。将特征传递给模型,并要求它预测下一个单词。模型的输出应该是错的。我们计算其预测的错误并更新模型,以求下次获得更好的预测。然后我们将这一过程重复无数次。
现在我们来详细地介绍一下上边提到的这个需要重复的步骤。GPT-3实际上每次只生成一个token(我们现在默认一个token就是一个单词。) 注意:本文是对GPT-3工作原理的描述,重点不是讨论其创新点(巨大的模型结构)。该模型的体系结构是基于这篇文章Generating Wikipedia by Summarizing Long Sequences的Transformer的decoder模型。 GPT-3体力巨大,拥有1750亿个参数编码它在训练过程中学到的东西。这些参数用于计算每次运行时要生成的token。 未经训练的模型参数是随机初始化的,训练过程就是寻找参数值使其产生更好的输出的过程。 这些参数是模型中数百个矩阵的一部分。预测过程就是是大量的矩阵乘法运算。 在我YouTube上的AI简介的视频中,我讲了一个仅有一个参数的简单深度学习模型,这个视频可以作为入门,让你能理解这个1750亿参数的巨大模型。 为了阐明这些参数是如何分布和使用的,我们需要看一下模型的内部结构。 GPT-3接受token的宽度为2048,我们也可以称之为“上下文窗口”。这意味着它有2048个路径,每个token都要沿着这些路径进行处理。 高级步骤:
GPT-3的这些计算发生在96个Transformer的decoder层中。 看到这么多层了吗?这大概就是“深度学习”中的“深度”吧。
每个层都有单独的18亿参数,也就是让GPT-3如此强大到玄幻的地方,计算流程如下:
GPT-3的不同之处是交替使用稠密自注意力层和稀疏的自注意力层。 这是给定GPT-3输入并获得输出( 看一下这个示例:React代码生成。
上边这个代码生成的例子中,我认为是先给模型几个description=>code的示例,然后再给一个prompt描述。然后模型会输出像这些粉色的token一样逐个生成出来。 我的假设是,基础提示和描述作为额外输入,使用特定的分隔token符将提示内容和描述(结果)拆分开。然后将其喂给模型。
GPT-3已经很令人惊艳了,如果你能等到GPT-3的微调模型,性能可能会更加惊艳。 微调会更新模型的权重,使模型更适配于某一领域。 碎碎念作者博客:@Jay Alammar 原文链接:How GPT3 Works - Visualizations and Animations 这是我翻译这位大佬的第四篇文章了。之前的工作可以看: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/26 9:40:43- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |