| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Gavin老师Transformer直播课感悟 - 基于Retrieval的具有Fine-grained架构的对话系统(二) -> 正文阅读 |
|
[人工智能]Gavin老师Transformer直播课感悟 - 基于Retrieval的具有Fine-grained架构的对话系统(二) |
一、Related work介绍 最近的研究多集中于在基于retrieval的多轮对话系统中,当一个包含多轮对话的上下文被提供时,系统应该如何选择最合适的响应,如使用BERT对上下文序列进行编码,产生一个dense vector,然后把这个vector同一组可选响应的矩阵进行相乘,比较它们的相关度,然后使用softmax得到概率分布,从而选出一个概率最高的作为系统的响应。在对比这些研究时发现,有一种方式是使用称为IRC语料库的基准数据集和一个基于RNN网络的模型,另一种方式是使用一种基于dual encoder的模型来试图有效地对上下文进行编码和使用LSTM和CNN作为encoder对响应部分进行编码,这里提到的dual encoder可以看做是有左右两个encoder部分,使用左侧对上下文进行编码,而使用右侧对响应部分进行编码,上下文是指当前用户和系统交互的内容,通过编码形成一个dense vector。随着注意力机制的出现,注意力机制被用于对话系统来选择系统响应。譬如通过对话中的多个交互blocks来在上下文和响应之间进行一种深度的交互,从而通过对话状态控制器来改善训练表现。 论文提到使用开源的BERT模型,具有12层,12个注意力头,768维度的hidden state。BERT有两个训练目标:MLM和NSP,MLM使用掩码机制来进行预测,而NSP是针对给定的两个文本序列A和B,训练模型来决定序列B是否在序列A之后(指位置是否“相邻”),模型把A和B作为输入并使用token [SEP] 进行分隔,然后使用segment embedding 的 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 0:31:29- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |