[人工智能] 【学习3】一些NLP评价指标及其计算

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【学习3】一些NLP评价指标及其计算 -> 正文阅读

[人工智能]【学习3】一些NLP评价指标及其计算

参考

1、https://zhuanlan.zhihu.com/p/223048748

2、https://www.cnblogs.com/xinbaby829/p/6955687.html

3、https://zhuanlan.zhihu.com/p/37639563

1、bleu

BLEU (全称为Bilingual Evaluation Understudy)的意思是双语评估替补。尽管最开始作为翻译的指标而被发明，但bleu也可以用于image caption的评估。

假如给定标准译文为reference，预测的句子是candidate，句子长度为n，candidate中有m个单词出现在reference，m/n就是bleu的1-gram的计算公式。

根据n-gram可以把bleu划分为多种评价指标，比如BLEU-1、BLEU-2、BLEU-3、BLEU-4......其中n-gram指的是连续的单词个数为n。

BLEU-1衡量的是单词级别的准确性，更高阶的bleu可以衡量句子的流畅性。

计算公式如下

pytorch中，利用包nltk可以计算bleu值

from nltk.translate.bleu_score import sentence_bleu
from nltk.translate.bleu_score import SmoothingFunction

smooth = SmoothingFunction()  # 定义平滑函数对象
# reference可以有多个,注意接受的格式是 -> [reference1,reference2] 
# 中文的reference和candidate要用空格进行分词或划分汉字
# reference = reference.replace('.', ' . ').replace(',', ' , ').split()
bleu1 = sentence_bleu([reference], candidate, weights=(1,0, 0,0), smoothing_function=smooth.method1)
bleu2 = sentence_bleu([reference], candidate, weights=(0,1, 0,0), smoothing_function=smooth.method1)
bleu3 = sentence_bleu([reference], candidate, weights=(0,0, 1,0), smoothing_function=smooth.method1)
bleu4 = sentence_bleu([reference], candidate, weights=(0,0, 0,1), smoothing_function=smooth.method1)

2、meteor

METEOR可以计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均，其结果和人工判断的结果有较高相关性。

METEOR还可以实现同义词匹配的功能。（需要先检查是否安装了wordnet同义词词库，没安装可以用 nltk.download('wordnet') 安装）

pytorch中，利用包nltk计算meteor值

from nltk.translate.meteor_score import meteor_score

meteor = meteor_score([reference],candidate)

3、CIDEr(Consensus-based Image Description Evaluation)

cider把每个句子都看作“文档”，将其表示成 tf-idf 向量的形式，然后计算参考caption与模型生成的caption的余弦相似度，作为打分。

这么计算可以参考一下这个https://github.com/msanders/cider

4、rouge

自动文本摘要系统评价的主流方法。受BLEU的启发，不同之处在于，采用召回率来作为指标。

rouge-n计算生成的摘要与标注摘要的n-gram召回率，通常用ROUGE-1/2来评估。

rouge-l计算匹配两个文本单元之间的最长公共序列（LCS，Longest Common Sub sequence）。

pytorch中利用包rouge计算这个指标

from rouge import Rouge

rouge_score = rouge.get_scores(candidate, reference)

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-07-25 11:39:27 更:2021-07-25 11:43:35

360图书馆购物三丰科技阅读网日历万年历 2025年8日历

-2025/8/26 6:00:12-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码