| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 利用文本结构知识增强预训练模型的问题生成 -> 正文阅读 |
|
[人工智能]利用文本结构知识增强预训练模型的问题生成 |
前言问题生成任务简单来说就是给定一篇文章passage和一个对应的答案answer来自动生成一个模型,它的应用场景也非常的多,笔者之前也写过一篇有关问题生成的文章,感兴趣的小伙伴可以看看: QA4QG: 一个多跳问题生成任务模型: 今天要介绍的这篇paper是基于预训练模型做的,不过它的发力点是说之前很多基于预训练模型做的工作都没有考虑文章结构,为此作者针对性的提出设计了两个模块来解决,最后在SQuAD数据集上取得了很好的效果 论文链接: 前置工作在正式介绍本文方法之前,先来看两个概念,一个是Self-Attention,一个是ProphetNet。 我们知道预训练模型的架构就是transformer,而其最基本的就是Self-Attention,相信大家也比较熟悉,具体公式就是: 这里之所以老生常谈的拿出来这个公式,是因为后边作者提出的方法就是在这个基础上做了一些改动。 另一个需要提前知道的就是ProphetNet,这也是一个问题生成的模型,它的看点在于每一步step预测n个tokens,而不是一个token,该模型是一个很强的基线,感兴趣的小伙伴也可以去看看这篇论文:
方法总体框架: 首先定义一下变量:假设文章passage、问题question和答案answer 分别是P、Q和A,那么问题生成任务其实就是: 下面我们来分别细看作者的两个设计
相比于传统的Self-Attention,作者在softmax这里多设计了一个
而
在上面的公式中有两个参数,首先第一个是
可以看到
其中
到这里就讲完了第一个作者的设计即上述的strengthened localness information:
除了上述的位置编码设计,本小节作者主要针对句法结构进行了设计。 作者第一步是提取句法结构:基于时间复杂度的考虑,不能对全文所有句子都提取句法结构,而是选择一些关键的句子进行句法结构的提取,具体的就是看答案的span在的那些句子作为候选关键句,如果没有捞到,那就通过ROUGE分数来计算和答案头部的相似句子作为候选。 有了候选的句子就可以提取句法结构啦,具体的作者抽取的句法关系有:pred, subj, nsubjpass, csubj, csubjpass, obj, iobj和xcomp,即最后抽取的是一个三元组: 其中
基于上面抽取的三元组,就可以得到一个MASK矩阵: 当
在得到
可以看到当
作者把强加了句法结构这一设计概括为: 最后作者把上述设计的这两个全新的隐表征相加得到最终结果: 得到了上述的隐表征后,最后的问题生成就是和传统的一样就是decoder解码: 试验这里就挑一个消融试验看看吧: 可以看到两个设计都是有一定的收益的,更多的对比试验大家感兴趣可以去看看原论文 关注欢迎关注,下期再见啦~ 本文由 mdnice 多平台发布 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 22:56:43- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |