IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> NLP-文本摘要:Rouge评测方法【Rouge-1、Rouge-2、Rouge-L、Rouge-S】 -> 正文阅读

[人工智能]NLP-文本摘要:Rouge评测方法【Rouge-1、Rouge-2、Rouge-L、Rouge-S】

《原始论文:Rouge: A package for automatic evaluation of summaries》

Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

一、Rouge-N(Rouge-1,Rouge-2)

1、公式

在这里插入图片描述

分母是参考摘要(人工摘要/标准答案)中n-gram的总数量,分子是模型生成的摘要和参考摘要共有的n-gram的个数,即召回率(Recall)。

Rouge-N: 是对应的Rouge-1 : 1-gram, Rouge-2: 2-gram,Rouge-3: 3-gram。

2、举例

自动摘要 Y Y Y(一般是模型生成的):

the cat was found under the bed

参考摘要, X X X(gold standard ,人工生成的):

the cat was under the bed

则模型生成的summary的1-gram、2-gram如下,N-gram以此类推:

#1-gramreference 1-gram2-gramreference 2-gram
1thethethe catthe cat
2catcatcat wascat was
3waswaswas foundwas under
4foundunderfound underunder the
5undertheunder thethe bed
6thebedthe bed
7bed
count7665

Rouge-1 ( X , Y ) = 6 6 = 1.0 \text{Rouge-1}(X,Y) = \cfrac66=1.0 Rouge-1(X,Y)=66?=1.0:分子是待评测摘要和参考摘要都出现的1-gram的个数,分子是参考摘要的1-gram个数。(其实分母也可以是待评测摘要的,但是在精确率和召回率之间,我们更关心的是召回率Recall,同时这也和上面ROUGN-N的公式相同)

Rouge-2 ( X , Y ) = 4 5 = 0.8 \text{Rouge-2}(X,Y) = \cfrac45=0.8 Rouge-2(X,Y)=54?=0.8

Rouge-N 优点:直观,简洁,能反映词序。

Rouge-N 缺点:区分度不高,且当N>3时,ROUGE-N值通常很小。

应用场景:

  • ROUGE-1:短摘要评估,多文档摘要(去停用词条件);
  • ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);

二、Rouge-L

L即是LCS(longest common subsequence,最长公共子序列)的首字母,因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图:

在这里插入图片描述
其中:

  • L C S ( X , Y ) LCS(X,Y) LCS(X,Y) X X X Y Y Y 的最长公共子序列的长度;
  • m m m n n n 分别表示参考摘要(人工生成)和自动摘要(模型生成)的长度(一般就是所含词的个数);
  • R l c s R_{lcs} Rlcs? P l c s P_{lcs} Plcs? ?分别表示召回率和准确率。
  • F l c s F_{lcs} Flcs? ?即是我们所说的Rouge-L。

在DUC中, β β β 被设置为一个很大的数,所以Rouge-L几乎只考虑 R l c s R_{lcs} Rlcs??,与上面所说的一般只考虑召回率对应。

优点:使用LCS的一个优点是它不需要连续匹配,而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram,因此您不需要预定义的n-gram长度。

缺点:只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景:单文档摘要;短摘要评估。

三、Rouge-S

即使用了skip-grams,在参考摘要和待评测摘要进行匹配时,不要求gram之间必须是连续的,可以“跳过”几个单词,比如skip-bigram,在产生grams时,允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”.

优点:考虑了所有按词序排列的词对,比n-gram模型更深入反映句子级词序。

缺点:若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数,需要指定最大跳跃词数的值。

应用场景:单文档摘要;ROUGE-S4,ROUGE-S9: 多文档摘要(去停用词条件);




参考资料:
自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S
文本摘要的评测方法:Rouge-1, Rouge-2, Rouge-L, Rouge-S
自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S
ROUGE评价方法

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-19 17:37:57  更:2021-11-19 17:39:29 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 6:31:06-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码