| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【论文阅读】InfoSurgeon: Cross-Media Fine-grained Information Consistency Checking for Fake News Detection -> 正文阅读 |
|
[人工智能]【论文阅读】InfoSurgeon: Cross-Media Fine-grained Information Consistency Checking for Fake News Detection |
本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文。 论文标题:InfoSurgeon: Cross-Media Fine-grained Information Consistency Checking for Fake News Detection; 作者:Yi R. Fung1, Chris Thomas2, Revanth Reddy1, Sandeep Polisetty3, Heng Ji1, Shih-Fu Chang2, Kathleen McKeown2, Mohit Bansal4, Avirup Sil5;
发表地点:ACL 2021; 论文下载链接:https://aclanthology.org/2021.acl-long.133.pdf 代码链接:https://github.com/yrf1/InfoSurgeon 摘要:为了对抗神经网络生成的虚假新闻(fake news),急需一种有效的机制。 本文构造了一个新的知识元素级的基准数据集(benchmark at the knowledge element level),同时提出了一个知识元素(knowledge element, KE)级别的虚假新闻检测方法,通过检查跨模态信息的一致性实现对导致虚假的细粒度知识元素的检测。 由于KE级别虚假新闻检测方向的训练数据缺乏,本文制定了一种新的数据合成方法,通过修改知识图谱中的知识元素来产生特定的、难以检测的、包含已知不一致性的,噪声训练数据。 本文的虚假信息检测方法超过现有SOTA(准确率最多超过16.8%),且对于虚假信息的检测提供了细粒度的可解释性。 本文动机及现有方法的问题:
本文主要贡献:
本文模型及方法:1. 问题定义:给定一条多媒体新闻X,如上图最左边所示,虚假新闻检测任务的目的就是判断该新闻的真假性。该新闻数据包含以下3个方面:
本文的虚假新闻检测目的是在两种level上检测新闻的真假性:
2. 模型整体结构:如上图中间部分所示,本文将每一条多媒体新闻构造为一个多媒体知识图(multimedia knowledge graph)KG=(N, E),其中N是节点,由实体 t 构成;E是边,包含关系 r,事件元素角色 a。 ?那么本文两种level的虚假新闻检测实际转化为:
3. 模型特征初始化:如上图中间所示,本文模型同时从global context和local KG提取特征: 3.1. global context是news所包含的原始数据:body text,image,cpations,metadata(是否只有节点,形成边吗?)。 该部分的特征初始化方法:
3.2. local KG是通过将news中提取的nodes与KG中实体nodes连接,构成最终graph。 每个news构成一个KG,先用IE系统从news中提取实体关系等,然后进行entity? linking将提取的东西map到现有知识图库中(没见过的实体就用聚类去map)。 该KG中所有节点和边的初始化特征由以下三个部分组成:
4. 特征传递和联合学习:作者认为所构造的KG中non-fake的triplets(包含两个节点和一条边)想比较于fake的triplets而言,它的边与node关系更近。因此要学习节点之间连接的credibility来反映真假性。
5. 模型检测部分:
6. 虚假新闻生成:由于KE级的虚假新闻标注数据太少,而人工标注成本太高,所以本文提出两种方法构建可控的合成的虚假新闻,并且能够为KE自动生成标签(有关真假的标签)。 给定一个真实新闻集合X_{real},针对他们所构建的KG,作者有意地修改KG中的显著KEs,得到一个修改后的虚假的KG‘;那么,被修改的KEs就能够自动拥有其标签---fake,未被修改的KEs就是real的,同时在document-level上,修改后的KG’再转化为text之后,得到就是fake的新闻。 6.1 合成的KG to text 在KG的基础上修改特定KE实现虚假text的生成。具体包括修改实体,关系,和事件。
本文同时考虑过去掉node或者edge,但是发现缺失信息对于检测任务而言太难了。所以最终没有选择去掉显著KEs的方式。 最后,得到合成的KG’后,通过fine-tuning一个BART-large模型,生成对应的虚假新闻。如下图3所示,是一个实体替换的例子。 6.2 合成的AMR to text 前人工作发现caption对于检测虚假新闻非常有用,因此本文还通过现有的real news的captions来合成虚假新闻,通过修改caption中实体之间的关系。 作者首先提取real news的captions的抽象语义表示(Abstract Meaning Representation ,AMR,能够捕获丰富的句子级语义特征)图,然后修改这些AMR graphs,最后将修改后的虚假AMR graph转化为text,得到虚假news。如下图4所示是一个例子。 具体修改AMR graph的方式这里不再赘述,详细请看论文原文4.2章节。 实验:数据集:
对比方法:[2] 和 [3]; document-level的检测结果分析: 如下表1所示,在两个数据集上,本文方法都高于另外两个baseline很多。 作者认为,相比于tan 2020的方法,本文优势在于使用了多媒体结构推理,借助了额外的KG中background信息,还能捕获实体,关系这些结构信息。 同时作者认为,VOA这个本文构建的数据集,本身对于infoSurgeon来说是有特定难度的,但是本文方法仍然表现最好。 KE-level的检测结果: 针对KE-level的虚假检测有利于虚假新闻检测的可解释性,能够告诉我们是什么导致了新闻的fake。 但是由于数据的缺乏,目前只能在本文自己构建的VOA数据集上进行KE-level的检测实验。如下表2所示,与随机方法相比,本文方法明显性能更好。 另一方面,整体检测准确率很低,是因为针对KE-level的虚假检测难度较大,需要higher-level的推理,基于多媒体和事实信息进行检测。 消融实验分析和样例展示(论文5.4章节): 如下表3所示,分别给出仅使用KG,semantic features,和指示值的本文变体模型所得的虚假新闻检测结果,从中可以看出语义特征对检测虚假最有效(就是news的text,image和captions这些semantic features),KG对细粒度的虚假KE检测有辅助作用。 如下表4所示,是一个 虚假新闻的例子,Tan 2020的方法认为该新闻是real,而本文的方法正确识别出了该新闻为fake的,并且从KE-level定位出它的错误在于“twin towers”这个实体。附录中有其他此类样例,感兴趣的可以去论文原文查看。 对生成文本的人工图灵测试: 为了测试本文KG-to-text生成新闻的质量,作者进行了人工测试。随机选取了100篇新闻,一半real一半fake,让16个人判断这些新闻的真假。 最后的结果是:整体的判断准确率是61.6%,真新闻的判断准确率是81.2%,假新闻的判断准确率只有41.9%。有三分之一的假新闻几乎一半的人都判断错误了。 实验结果表明,本文自动生成的虚假新闻对于人类而言是较难判断的(也就是具有较高质量的text)。 总结及展望:本文提出了一个新的方法在检测多媒体虚假新闻任务上能达到92%-95%的准确率,充分利用跨模态的不一致性和KE-level的关系,实现细粒度的可解释性的虚假新闻检测。 在未来,作者们计划从更多的模态上进行虚假内容的检测,比如结合text,image,video,audio等各种信息;从multiple documents或者在常识knowledge上进行一致性推理;推广到open-domain的document 检测上,比如多源的,多语言的,多文化的。 长远来看,作者计划创造更多人工生成的数据,能够包含更多类型的虚假,比如实体新颖性,新闻价值等。 注意:为了避免不怀好意的人创造更多虚假新闻,本文不公开虚假新闻的生成器部分模型;同时公开虚假新闻检测方面模型,以供大家更好地打击虚假新闻。详见论文原文第8章节。 个人理解和问题:1.本文实验上只选用了两个数据集,其中一个还是自己创建的,不能体现本文模型针对不同数据集,在不同领域新闻上的泛化性。为什么不多用几个数据集呢? 2.本文对比方法只选用了两个,现有的虚假新闻检测的多模态模型已经很多了,为什么不进行对比呢? 参考文献:[1] Ali Furkan Biten, Lluis Gomez, Marc?al Rusinol, and Dimosthenis Karatzas. 2019. Good news, everyone! context driven entity-aware captioning for news images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12466–12475. [2] Reuben Tan, Bryan Plummer, and Kate Saenko. 2020. Detecting cross-modal inconsistency to defend against neural fake news. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2081–2106, Online. Association for Computational Linguistics. [3] Rowan Zellers, Ari Holtzman, Hannah Rashkin, Yonatan Bisk, Ali Farhadi, Franziska Roesner, and Yejin Choi. 2019. Defending against neural fake news. In Advances in Neural Information Processing Systems, pages 9054–9065 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/29 9:03:47- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |