系列文章目录
- 谣言检测文献阅读一—A Review on Rumour Prediction and Veracity Assessment in Online Social Network
- 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty?factor?based convolutional neural networks
- 谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends
前言
文章:The Future of False Information Detection on Social Media:New Perspectives and Trends 发布期刊:ACM Computing Surveys 时间:2020年7月
1、Introduction
False Information :包括两种disingotmation和misinfromation
- disingotmation:指出于某种目的故意误导他人的虚假信息
- misinformation:指在事件演化或知识更新过程中产生的虚假信息,其目的不是误导
FID方法: - 基于内容的方法:基于内容的检测方法主要利用从社交帖子中提取的文本或视觉特征进行二元分类(真或假)。
- 基于社交环境的方法:通常依赖于大量用户之间的交互特征,比如评论、转发和关注。
- 基于特征融合的方法:综合利用了内容特征和社会背景特征
- 基于深度学习的方法:主要通过神经网络学习信息的潜在深度表示。
存在的问题:
- 现有的FID方法大多利用内容或传播特性,通常在虚假信息的整个生命周期中都能很好地工作,这可能会导致早期检测性能不佳。由于虚假信息可能会在几分钟内产生严重影响,因此在早期发现它们至关重要。
- 随着在社交网络上传播的多模式帖子的增加,传统的基于文本的检测方法不再可行,在更复杂的场景中利用图像或视频进行FID是有益的。
- 目前的检测方法只能给出声明是否虚假的最终结果,但缺乏做出决定的理由。对揭穿不准确信息并防止其进一步传播给出令人信服的解释具有重要意义。
文章的贡献
- 在简要回顾FID文献的基础上,我们重点介绍了FID的最新研究趋势,包括新事件的模型通用性、早期检测、基于多模式融合的检测和解释性检测
- 我们对基于人群智能的FID方法进行了研究,包括FID中人群智能的范围、基于人群智能的检测模型和混合人机融合模型
- 我们进一步讨论了FID模型的开放性问题和有前途的研究方向,如模型对新事件的适应性/通用性,新的机器学习模型的接受,以及FID模型中的对抗性攻击和防御。
2、相关工作
相关定义:
- 声明
s
s
s:含有n个post,
P
=
{
p
1
,
p
2
,
.
.
.
,
p
n
}
P=\{p_1,p_2,...,p_n\}
P={p1?,p2?,...,pn?}和mf个相关用户
U
=
{
u
1
,
u
2
,
.
.
.
,
u
m
}
U=\{u_1,u_2,...,u_m\}
U={u1?,u2?,...,um?},其中
p
i
p_i
pi?含有一系列特征,例如文字、图片、评论数量等,
u
i
u_i
ui?由一系列描述用户的属性组成,包括姓名、注册时间、职业等。
- 令
E
=
{
e
1
,
e
2
,
.
.
.
,
e
n
}
E=\{e_1, e_2, . . . , e_n\}
E={e1?,e2?,...,en?}是指 m 个用户和 n 个帖子之间的关系。每个
e
i
e_i
ei? 定义为
e
i
=
{
p
i
,
u
j
,
a
,
t
}
e_i = \{p_i,u_j, a, t\}
ei?={pi?,uj?,a,t},表示用户
u
j
u_j
uj? 在时间 t 通过动作
a
a
a(发布、转发或评论)与帖子
p
i
p_i
pi? 进行交互。
- False Information Detection:给定一条语句
s
s
s,其帖子集
P
P
P,用户集
U
U
U,参与集
E
E
E,错误信息检测任务是学习预测函数
F
(
s
)
→
0
,
1
F (s) → {0, 1}
F(s)→0,1,满足:
2.1 基于内容的方法
??基于内容的方法主要基于虚假文章中的特定写作风格或耸人听闻的标题,例如词汇特征、句法特征和主题特征[143]。例如,卡斯蒂略等人。 [16, 17] 发现可信度高的推文有更多的 URL,文本内容长度通常比可信度低的推文长。
1、基于post的方法
??基于帖子的方法主要依靠用户的帖子来表达他们对特定事件的情绪或意见。许多研究通过分析用户的可信度 [95, 118] 或立场 [63, 116] 来检测虚假信息。例如,舒等人。 [164]从用户档案中探索真正有用的特征用于FID,以减少检测过程中特征提取的负担。具体来说,他们发现外向和随和的用户不太可能受到虚假信息的影响。而保守的用户更容易相信虚假新闻、
2、基于传播的特征。 ??基于传播的方法从整体上评估帖子和事件的可信度[14],通常关注信息传播网络的构建和可信度传播。 ??一些研究通过分析其传播模式来检测虚假信息。例如,马等人。 [107] 发现社会背景的特征会随着时间的推移而逐渐变化。因此,他们提出了一种 DSTS 模型来表征 FID 的社会背景特征的时间模式,该模型将信息传播序列划分为固定长度的片段,然后从每个帖子片段中提取基于内容和基于社会背景的特征,最后用支持向量机进行分类。刘等人。 [102]基于异构用户的特定属性构建信息传播网络,用于识别虚假信息的特殊传播结构。金等人。 [79] 提出了一种贝叶斯非参数模型来表征新闻文章的传输,该模型联合利用文章主题和用户兴趣进行 FID。此外,吴等人。 [186]观察到,虚假消息通常首先由普通用户发布,然后由一些意见领袖转发,最后由大量普通用户传播。然而,真相往往是由一些意见领袖发布,然后被大量用户直接传播。基于这一观察,他们提出了一种用于 FID 的混合 SVM 分类器,该分类器对消息传播结构、主题信息、用户属性等进行联合建模。
2.2 基于社会背景的方法
??传统的基于内容的方法孤立地分析单个微博或声明的可信度,忽略了不同推文和事件之间的高度相关性。此外,还有大量的人与内容交互数据(发帖、评论、转发、评分和标记等),具体来说基于社会背景的方法,分为基于post的方法和基于传播的方法
2.4 基于深度学习的方法
??基于深度学习的方法旨在自动抽象出虚假信息数据的高级表示。目前,大多数工作主要利用循环神经网络 [106] 和卷积神经网络 [195] 进行 FID,如表 2 所示。在本文中,我们首先总结一下广泛使用的深度学习模型,主要包括:
- 卷积神经网络 (CNN)。 CNN 是典型的前馈神经网络之一,具有三种层,即卷积层、池化层和全连接层 [135]。在卷积层中,多个过滤器(内核)与输入向量进行卷积以生成特征图。之后,池化层降低特征图的维数以加速网络的训练过程。通过多次卷积和池化操作,CNN 可以从输入中捕获局部和全局特征。最后,CNN通过全连接层(如Softmax)输出分类结果。可以看出,FID模型可以通过调整过滤器的大小来捕捉词与词、词组与词组之间的内容特征。
- 卷积神经网络 (CNN)。 CNN 是典型的前馈神经网络之一,具有三种层,即卷积层、池化层和全连接层 [135]。在卷积层中,多个过滤器(内核)与输入向量进行卷积以生成特征图。之后,池化层降低特征图的维数以加速网络的训练过程。通过多次卷积和池化操作,CNN 可以从输入中捕获局部和全局特征。最后,CNN通过全连接层(如Softmax)输出分类结果。可以看出,FID模型可以通过调整过滤器的大小来捕捉词与词、词组与词组之间的内容特征。
- 循环神经网络(RNN),RNN 可以有效地捕捉序列数据的特征,通过同一隐藏层中的神经元之间的信息传递节省了以前的计算。社交网络帖子显然具有时间特征,所以FID 模型可以将帖子的交互数据分成连续的片段,并通过 RNN 捕捉它们的顺序特征。然而,Glorot 等人。 [49] 发现 RNN 可能会遭受梯度消失的影响,这使得它没有长期记忆。因此,长短期记忆(LSTM)[65]和门控循环单元(GRU)[25],一种具有门控机制的RNN,被广泛用于NLP。 LSTM 增加了一个记忆单元来存储当前的网络状态,然后通过输入门、遗忘门和输出门的协调来控制信息流。 GRU虽然没有引入额外的内存单元,但是可以通过一个reset gate和一个update gate来控制当前的内存。
- 递归神经网络 (RvNN)。 RvNN 与 RNN 类似,它在结构上展开数据,可用于分析数据的层次结构 [135],例如语法分析树。该模型由根节点、左叶节点和右叶节点组成。此外,每个节点从直接的左右子节点学习其表示,递归计算,直到遍历所有节点。
- 自动编码器 (AE)。 AE 是一种无监督学习模型,包括编码和解码阶段 [64]。在编码阶段,输入数据通过多个隐藏层转化为潜在向量,在解码阶段将其重构为原始数据。通过最小化重构误差,AE 尽可能多地学习输入的表示。与 AE 相比,变分自动编码器 (VAE) 约束了编码阶段并成为生成模型 [82]。编码阶段的隐藏层通过从特定分布(例如高斯分布)中采样来学习潜在变量,然后将它们输入到解码阶段以生成真实样本。
- 生成对抗网络(GAN)。 GAN 是一种生成神经网络,由生成器和判别器组成 [51]。在反向传播的迭代过程中,判别器区分其输入来自真实数据集还是生成器生成的假样本,而生成器根据数据集的采样分布生成真实样本以混淆判别器。他们最终达到了纳什均衡,即生成器和判别器的性能无法再提高。
- 注意力机制。注意机制通常用于描述神经网络对输入序列的注意分布[7]。它计算当前输入序列和输出向量之间的匹配度,旨在捕获输入的关键信息。匹配度越高,注意力得分越高。因此,检测方法可以利用注意力机制来找到这些对 FID 贡献更大的单词或短语。
??许多现有研究利用深度神经网络通过将相关帖子建模为时间序列数据来学习虚假信息的潜在文本表示。例如,马等人。 [106] 提出了一种基于 RNN 的检测模型,该模型捕获连续用户评论流的时间语言特征。李等人。 [94] 考虑到后流的前向和后向序列都传达了丰富的交互信息,因此他们提出了 FID 的双向 GRU 方法。刘等人。 [101] 认为假新闻和真新闻的传播模式存在差异,他们利用 CNN 和 GRU 对传播路径进行分类,以识别低可信度信息。于等人。 [194] 认为帖子的时间序列特征有助于准确地建模事件,他们提出了 FID 的 ACAMI 模型。该模型使用 event2vec(建议学习事件相关表示)和注意力机制来提取事件的时间和语义表示,然后使用 CNN 提取高级特征以对假微博帖子进行分类。 ??一些方法将文本信息和社交上下文信息(例如用户响应、用户或网站配置文件)结合为深度神经网络的数据输入。例如,郭等人。 [60] 提出了一种分层神经网络,将用户、帖子和传播网络的信息视为数据输入。此外,他们利用注意力机制来估计 FID 中特征的不同贡献。 Ruchansky 等人的工作。 [144] 提出了一种基于 RNN 的检测模型,该模型结合了新闻内容、用户响应和源用户的特征,以提升 FID 的性能。马等人。 [111] 提出了一种基于 GAN 的检测模型,旨在捕捉虚假推文的低频但有效的迹象。生成器(基于 GRU 的 seq2seq 模型)试图生成有争议的意见,使推文观点的分布更加复杂,而鉴别器(基于 RNN)试图从增强样本中识别虚假信息的稳健特征。 ??还有一些使用图神经网络进行 FID 的工作,例如 GCN。他们经常利用神经网络分析社交帖子的传播结构,然后为分类器提取信息传播模式的高级表示。例如,蒙蒂等人。 [117] 提出了一种基于 GCN 的 FID 模型,该模型集成了推文内容、传播结构、用户个人资料和用户社交关系(关注和被关注)。给定原始推文和所有相关推文,即评论和转发,检测模型以每条推文为节点,以推文传播路径和用户关系为边,构建事件特定图。之后,他们使用 GCN 来识别那些低可信度的推文,其中包含两个卷积层和两个全连接层。此外,董等人。 [33] 提出了一种基于GCN的检测模型,名为 GCNSI,它利用图卷积网络来检测多个错误信息源。
2.5 Existing Detection Tools
??除了学术研究,研究人员还开发了几种 FID 工具。根据主要检测内容,现有的在线工具主要可分为基于图像的工具和基于文本的工具。
3、虚假信息检测的新趋势
3.1 早期检测
??大量用户很容易在社交网络上传播虚假信息,在很短的时间内造成严重影响 [14, 46]。因此,早期发现虚假信息成为重要的研究课题。然而,大多数现有研究(基于内容和基于社会背景的方法)通过假设它们拥有所有生命周期数据来检测错误信息。它们依赖于几个聚合特征,例如内容特征和传播模式,这需要一定数量的帖子来训练鲁棒的分类器。虚假信息开始时的可用数据非常有限,以至于在早期阶段检测它具有挑战性。最近,对于早期的 FID 也有一些努力。 ??传统的机器学习方法往往在帖子的早期传播中分析用户交互信息,手动提取大量特征,最后使用分类器(例如,SVM、随机森林)来评估它们的可信度。例如,刘等人。 [100] 发现来源可靠性、用户多样性和证据信号,如“我看到”和“我听到”,在少量数据中对 FID 有显着影响。此外,Qazvinian 等人。 [136] 观察到用户倾向于在推文传播的早期阶段表达自己的信念(例如,支持或质疑)。因此,合理利用用户对消息的信念,对于早期发现虚假信息大有裨益。为了解决缺乏数据的问题,从相关事件中借用知识用于 FID 将是另一种有用的方法。例如,桑普森等人。 [149] 通过利用隐式链接(例如,标签链接、网络链接)来获取来自相关事件的附加信息,提出了一种用于紧急 FID 的方法。实验结果表明,当可用的文本或交互式数据较少时,此类隐式链接显着有助于正确识别出现的不真实声明。 ??许多检测方法利用深度学习模型来早期检测错误信息。基于深度学习的检测方法通常使用神经网络自动提取社交上下文特征,并利用注意力机制找到 FID 的关键特征。例如,Liu 等人。 [99] 观察到只有少数帖子对 FID 有很大贡献。为了选择这些关键内容,他们提出了一种基于注意力的检测模型,该模型通过注意力值来评估每个帖子的重要性。此外,实验结果表明,正确使用注意力机制有利于早期发现错误信息。同样,陈等人。 [20]发现用户在信息传播的不同时期倾向于评论不同的内容(例如,从惊讶到质疑)。基于这一观察,提出了一种基于 RNN 的深度注意力模型,用于选择性地学习用于早期 FID 的序列帖子的时间隐藏表示。于等人。 [195]利用基于CNN的模型从帖子序列中提取关键特征并学习它们之间的高级交互,这有利于识别具有相对较少交互数据的假推文。阮等人。 [123] 还利用 CNN 来学习每条推文的潜在表示,从而获得推文的可信度。然后,他们通过在事件开始时聚合相关推文的所有预测来评估目标事件是否是一条虚假信息。更重要的是,刘等人。 [101] 发现在消息传播的早期,大多数用户在没有评论的情况下转发源推文,这隐含地导致了在早期 FID 中使用用户评论的一些延迟。因此,他们提出了一种传播路径分类模型,命名为 PPC,该模型联合使用 CNN 和 GRU 来提取用户在转发路径中的局部和全局特征。
|