IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 《DuReaderretrieval: A Large-scale Chinese Benchmark for Passage Retrieval fromWeb Search Engine》论文阅读 -> 正文阅读

[人工智能]《DuReaderretrieval: A Large-scale Chinese Benchmark for Passage Retrieval fromWeb Search Engine》论文阅读


DuReaderretrieval: A Large-scale Chinese Benchmark for Passage Retrieval fromWeb Search Engine


作者:Yifu Qiu
机构:百度

简介

当前现存段落检索数据集存在以下两个问题:

  1. False Negative,错误标注
  2. semantically similar questions, 训练集、验证集中存在相似问题,导致数据泄露问题

基于此,提出了DuReader Retrieval 数据集,弥补以上两个问题,并且在baselines模型上验证效果,发现本书数据集仍然具有较大进步空间。

数据集介绍

DuReader Retrieval 数据集,数据来自百度搜索,标注方式采用远程标注

  1. 基于DuReader数据集,手写答案
  2. 答案与段落进行匹配,使用span-level F1做为评价指标
  3. 当F1的分数大于阈值0.5,标注为positive,反则标注negative
  4. 篇章长度控制,1)如果一个篇章长度小于256,则认为这个篇章为段落,2)对于篇章中的每个段落,如果长度小于256,则进行拼接后面的段落直到长度超过256。被拼接中有一个段落的标签为positive,则认为拼接后的段落为positive。
  5. 删除篇章的title,提升检索难度

Reducing False Negatives

为了减少标注错误的语料,

  1. 使用BM25以及四个神经网络检索模型,召回top-50段落,并使用ensemble 重排模型选择 top-5做为最终结果。
  2. 标注人员进行标签,是否前top-5的问题段落有关联关系。
  3. 至少两名检查员进行检查,如果准确率低于阈值(如:97%),则让标注人员继续标注,直到准确率打标。
  4. 最后,the average positive paragraph per query is increased from 2.43 to 4.91.

Removing Similar Questions

减少数据泄露问题,

  1. 使用问题匹配模型,输出问题对的相似度,范围(0, 1)。如果问题相似度阈值超过0.5。认为这两个问题是相似的
  2. 最终,选择出566问题在dev和test数据集中与train数据集中的问题相似。并删除566个问题

实验

baseline:

  1. BM25
  2. DE w/ BM25 Neg
  3. CE w/ BM25 Neg
  4. CE w/ DE Neg
    baseline之间的关系, 2是检索是神经网络 3 重排是神经网络 4 检索和重排都是神经网络 使用BM25抽取负样本,对2和3进行初始化,然后2 检索负样本做为4的训练集
    在这里插入图片描述

评价指标:
MRR
recall@1
recall@50

结果

在这里插入图片描述
基于神经网络的模型效果明显好于BM25.

同时,还对相似问题去除做了对比,发现CE w/o Sim Q 不带相似问题,在others问题上表现更好
在这里插入图片描述

在zero-shot上表现明显弱于传统方法,经过fine-tuning后,效果有所提升,所以领域适用性并不好
在这里插入图片描述

总结

模型在数据集中存在的问题:

  1. 实体匹配错误 (taobao -> alipay)39%
  2. 数字匹配错误 (2016->2017)5%
  3. 修饰词匹配错误 (吃完海鲜->早晨)9.4%
  4. 语义理解错误 (从台北怎么去瑞芳-> 从瑞芳怎么去台北)1%
  5. 鲁棒性(拼写错误和关键词敏感) 22.6%
    在这里插入图片描述
    因此,模型在DuReader Retrieval数据集中仍存在较大的进步空间。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-18 17:43:23  更:2022-04-18 17:46:21 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/8 3:22:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码