IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【论文阅读】Multi-hop Question Answering via Reasoning Chains -> 正文阅读

[人工智能]【论文阅读】Multi-hop Question Answering via Reasoning Chains

Multi-hop Question Answering via Reasoning Chains

论文:2019-Multi-hop Question Answering via Reasoning Chains

基于推理链的多跳问题回答

任务

? 本文提出了一种在文本中提取离散推理链的方法,模型不依赖于gold annotated chains or “supporting facts,使用基于命名实体识别和共指消解的启发式算法得到的pseudogold reasoning chains。

image-20210124163210620

推理链是一系列的句子,逻辑上把问题与一个事实联系起来,这个事实与给出一个合理的答案相关(或部分相关)。

方法(模型)

提出一个two-stage model

extractor model:提取推理路径。extractor模型对句子序列进行评分,并通过beam search生成n-best链列表。

answer module:将提取的推理链输入到BERT中提取最终的答案。

Learning to Extract Chains

Heuristic oracle chain construction

  • 使用命名实体识别提取句子中的实体,如果两个句子中有匹配的实体,则在这两个节点上添加一条边。对段落中的所有句子进行这一操作。

  • 从问题的节点开始,搜索所有可能的推理链。

使用两种方式选择heuristic oracles:

Shortest Path:选择最短的推理链。

Question Overlap:计算每条链的Rouge-F1,选择得分最高的推理链,这样可以找到更完整的答案链。

Chain extraction model

输入:文档+问题

处理流程:sentence encoding and chain prediction

Sentence Encoding
  • 将输入问题和段落使用BERT编码。句子可以从段落中提取出来。

s j = S p a n E x t r a c t o r ( p i , s j S T A R T , s j E N D ) s_j = Span Extractor(p_i, s^{START}_j , s^{END}_j ) sj?=SpanExtractor(pi?,sjSTART?,sjEND?)

s j s_j sj?表示段落 p i p_i pi?中第i句话

  • BERT-para

    本文设计的paragraph-factored model,比在整个上下文运行BERT更高的效率和可拓展性。

    使用bert-base-uncased预训练模型。

image-20210124182342557

Chain Prediction

? 将所有编码的句子表示作为一个句子包,并采用基于LSTM的pointer network来提取推理链。

在第一步中,使用问题q的max-pooled表示初始化pointer network中的隐藏状态 h 0 h_0 h0?,并提供一个特殊的令牌SOS作为第一个输入。

P ( c t = i ∣ c 1 , . . . , c t ? 1 , s ) = s o f t m a x ( α ) [ i ] P(c_t= i|c_1, . . . , c_{t?1}, s) = softmax(α)[i] P(ct?=ic1?,...,ct?1?,s)=softmax(α)[i]

α i = W [ h t ? 1 ; s c t ? 1 ; h t ? 1 ⊙ s c t ? 1 ] α_i= W[h_{t?1}; s_{c_{t?1}};h_{t?1} \odot s_{c_{t?1}}] αi?=W[ht?1?;sct?1??;ht?1?sct?1??]

c 1 , . . . , c t ? 1 c_1, . . . , c_{t?1} c1?,...,ct?1?:推理链中句子索引。

W:要学习的权重。

Training the Chain Extractor

step t的损失:
l o s s t = ? l o g ( P ( c ? t ) ∣ c 1 ? , . . . , c t ? 1 ? s ) loss_t=-log(P(c?t)|c^?_1,...,c^?_{t?1}s) losst?=?log(P(c?t)c1??,...,ct?1??s)

c 1 ? c^?_1 c1??:目标句子

数据集

  • WikiHop
  • HotpotQA

性能水平&结论

Comparison of Chain Extraction Methods

  • 使用更多的上下文有助于链提取器找到相关的句子。
  • one-best推理连通常包含答案。
  • Q-Overlap有助于找到更多的支持事实。
  • 可以通过跨多个链使用并集来提高性能。(BRRT-Para(top5))

image-20210124194515730

Results compared to other systems

HotpotQA:使用RoBERTa 预模型作为权重。

  • 性能超过了使用标记支持事实的模型,说明本文提出的heuristicallyextracted chains可以有效的替代标记支持事实进行监督。
image-20210129092022793

Evaluation of chains

  • 有序抽取优于无序抽取。

    在HotpotQA-Hard上,更需要多跳推理。

image-20210129092925076

  • 链接提取的性能已接近HotpotQA上的性能极限。
  • Table4中人类评估的得分与模型在oracle上的F1的分相近,表明本文提出的模型不再需要人工注释的支持事实。

image-20210129093850960

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-11 16:38:36  更:2021-07-11 16:39:04 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/4 22:56:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码