IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 自然语言处理顶级会议ACL,EMNLP,NAACL COLING论文质量有区别吗? -> 正文阅读

[人工智能]自然语言处理顶级会议ACL,EMNLP,NAACL COLING论文质量有区别吗?

1. 引言

作为自然语言处理方向的研究人员,我们称ACL,EMNLP,NAACL和COLING为自然语言处理领域的国际顶级会议(也有人说只有第一个称为顶级会议,其他的都只能是重要会议),尽管CCF协会里也已经给出了四个会议的等级,其中ACL为A类,EMNLP和COLING为B类,NAACL为C类,看起来好像是ACL>EMNLP≈COLING>NAACL。在知乎上讨论的结果是ACL>NAACL≈EMNLP>COLING。

那么通过实验的结果证明如何呢?利用我们自身的NLP的工具,我们通过常用的预训练模型XLNet分析了最近三年的各个顶会的论文摘要,从一个实验的角度来看看它们之间的差异。

2. 任务定义

为了看出各个会议上论文的差异,我们提取了ACL2019-2021,EMNLP2019-2020,NAACL2019-2021和COLING2018-2020中的全部主会论文作为主要研究数据,并使用了CCL2020-2021的数据作为区分数据,研究的对象为各个论文的摘要。

我们想做的,就是通过XLNet模型预测各个论文的摘要的会议归属情况。

3. 实验设置

我们使用的XLNet模型为XLNet-base的分类模型,batch-size=8,ephoch=5,learning-rate=1e-5。随机抽取10%的数据作为测试集,即训练集与测试集为9:1。

4. 实验结果

实验结果如图所示:
在这里插入图片描述
可以看到其性能并不是特别好,整体ACC只有40%,宏F1只有35%.其中对于CCL的识别最好,ACL的识别次之,CLONG的识别再次之。这应该说明这三类是最容易区分的类别。那么错误究竟发生在哪呢?我们对于混淆矩阵进行了进一步的分析。

5. 实验分析

混淆矩阵如下图所示,图中的数字被正则化为百分比,同一行中各个数字之和为100%。
在这里插入图片描述
对于这张图我们可以看到这样三个结论:

  1. 作为大家公认的老大哥ACL和公认的小老弟CCL,两个人之间存在着不可逾越的鸿沟,即使在正确率仅为40%的情况下,两个会议的论文竟然没有1篇混淆的,可以看出两个会议之间的差异非常的巨大。
  2. 真实结果与知乎上的讨论应该是一致的,从第一列的结果可以看出,NAACL最像ACL,EMNLP次之,COLING最低。
  3. CCL与COLING更像,但是与EMNLP还有联系,但是与NAACL就没有任何交集,这应该和作者的归属有关。

6. 总结

因此,通过本文的实验,最终结论是各个顶会是有差异的,与ACL的相似程度依次为NAACL,EMNLP,COLING,CCL,论文的质量应该也是这个顺序。然而,目前的数据并不能排除是作者归属地的撰写论文习惯或者是论文主题对于论文质量产生了影响,而且目前准确率太低,在接下来的工作中将会考虑如何提高准确率。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-10 10:50:39  更:2021-09-10 10:50:54 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 15:34:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码