开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> NLP-文本摘要：Rouge评测方法【Rouge-1、Rouge-2、Rouge-L、Rouge-S】 -> 正文阅读

[人工智能]NLP-文本摘要：Rouge评测方法【Rouge-1、Rouge-2、Rouge-L、Rouge-S】

《原始论文：Rouge: A package for automatic evaluation of summaries》

Rouge(Recall-Oriented Understudy for Gisting Evaluation)，是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

一、Rouge-N（Rouge-1,Rouge-2）

1、公式

在这里插入图片描述

分母是参考摘要（人工摘要/标准答案）中n-gram的总数量，分子是模型生成的摘要和参考摘要共有的n-gram的个数，即召回率（Recall）。

Rouge-N: 是对应的Rouge-1 : 1-gram， Rouge-2: 2-gram，Rouge-3: 3-gram。

2、举例

自动摘要 $Y$ （一般是模型生成的）：

the cat was found under the bed

参考摘要， $X$ （gold standard ，人工生成的）：

the cat was under the bed

则模型生成的summary的1-gram、2-gram如下，N-gram以此类推：

#	1-gram	reference 1-gram	2-gram	reference 2-gram
1	the	the	the cat	the cat
2	cat	cat	cat was	cat was
3	was	was	was found	was under
4	found	under	found under	under the
5	under	the	under the	the bed
6	the	bed	the bed
7	bed
count	7	6	6	5

$\text{Rouge-1}(X,Y) = \cfrac66=1.0$ ：分子是待评测摘要和参考摘要都出现的1-gram的个数，分子是参考摘要的1-gram个数。（其实分母也可以是待评测摘要的，但是在精确率和召回率之间，我们更关心的是召回率Recall，同时这也和上面ROUGN-N的公式相同）

$\text{Rouge-2}(X,Y) = \cfrac45=0.8$

Rouge-N 优点：直观，简洁，能反映词序。

Rouge-N 缺点：区分度不高，且当N>3时，ROUGE-N值通常很小。

应用场景：

ROUGE-1：短摘要评估，多文档摘要（去停用词条件）;
ROUGE-2: 单文档摘要，多文档摘要（去停用词条件）;

二、Rouge-L

L即是LCS(longest common subsequence，最长公共子序列)的首字母，因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图：

在这里插入图片描述
其中：

$L C S (X, Y)$ 是 $X$ 和 $Y$ 的最长公共子序列的长度；
$m$ 和 $n$ 分别表示参考摘要（人工生成）和自动摘要（模型生成）的长度（一般就是所含词的个数）；
$R_{lcs}$ 、 $P_{lcs}$ ?分别表示召回率和准确率。
$F_{lcs}$ ?即是我们所说的Rouge-L。

在DUC中， $β$ 被设置为一个很大的数，所以Rouge-L几乎只考虑 $R_{lcs}$ ?，与上面所说的一般只考虑召回率对应。

优点：使用LCS的一个优点是它不需要连续匹配，而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram，因此您不需要预定义的n-gram长度。

缺点：只计算一个最长子序列，最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景：单文档摘要；短摘要评估。

三、Rouge-S

即使用了skip-grams，在参考摘要和待评测摘要进行匹配时，不要求gram之间必须是连续的，可以“跳过”几个单词，比如skip-bigram，在产生grams时，允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”.

优点：考虑了所有按词序排列的词对，比n-gram模型更深入反映句子级词序。

缺点：若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数，需要指定最大跳跃词数的值。

应用场景：单文档摘要；ROUGE-S4，ROUGE-S9: 多文档摘要（去停用词条件);

参考资料：
自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S
文本摘要的评测方法：Rouge-1, Rouge-2, Rouge-L, Rouge-S
自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S
ROUGE评价方法