[人工智能] 16.5 多模态假新闻识别

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 16.5 多模态假新闻识别 -> 正文阅读

[人工智能]16.5 多模态假新闻识别

文章目录

1、前言

假新闻，指在形式上模仿新闻媒体内容伪造的信息，往往是一些不正确的或是误导人的信息。当今，社交媒体已经成为人们获取、分享和评论新闻的主要平台。然而，社交媒体的便利性和开放性也导致了假新闻的广泛传播，从而对社会造成了严重影响。例如，新型冠状病毒（2019-nCoV）的爆发威胁着人们的身体健康，然而一些疫情相关的假新闻也在社交媒体上广泛传播，这极大阻碍了防疫工作的开展。

手动收集和调查假新闻尽管更加准确，但同时也需要耗费大量的资源和时间。因此对于社交媒体上的海量帖子，自动检测假新闻是非常必要的。通过挖掘假新闻和真实新闻特征的区别（例如帖子内容，用户信息，传播过程等），然后使用传统机器学习方法或者深度学习方法进行假新闻的检测。早期的假新闻检测研究主要基于帖子和评论的文本内容和写作风格，使用循环神经网络将事件中的帖子按时间序列建模，学习事件的潜在表示形式并进行预测。

除了帖子中的文本外，图像能更加直观地表达信息，因此视觉信息也有助于检测假新闻。结合文本、视觉和社交环境特征，对假新闻进行预测。一个新闻帖子通常伴随着一系列相关的帖子，本文将它们的集合称为事件。新闻事件可以提供更多的文本和图像信息，针对新闻事件进行预测非常有必要。先前的多模态检测相关研究对于文本特征和图像特征仅进行简单的融合，且只针对单个帖子进行预测。

2、相关知识

与假新闻检测相关的任务有很多，例如谣言检测和不实信息异常检测等。假新闻检测任务的重点是如何根据相应的特征来将新闻分类。现有的假新闻检测研究主要分为基于内容的方法和基于网络的方法。其中基于内容的方法包括文本内容和图像内容等，本文主要介绍基于内容的研究。

早期基于内容的研究采用特征工程等方法从文本中提取人工特征，并利用传统机器学习方法如决策树、SVM 等进行分类。Castillo 等人统计了推文文本中的单词数、特殊字符、情感词、关键词等语言特征，使用决策树来检测谣言。Gupta 等人加入了人称代词、URL数量、主题标签等统计特征。Feng 等人研究了欺骗检测的句法风格，利用浅语法规则进行分类。Ma 等人首次将深度神经网络应用于这一领域，通过将各个时间段内的推文文本向量输入双向 GRU 网络来学习新闻的特征表示，避免了传统的手动提取特征。Chen 等人将注意力机制整合到递归神经网络（RNN）中，来特别关注文本的时态等语言特征。

近年来，基于内容的方法开始研究如何利用图像信息或者文本、图像的多模态信息来进行假新闻检测。Jin 等人证明了视觉特征在检测假新闻中的重要性，手动提取了图像中的一些统计特征，通过早期将文本和图像特征串联拼接在一起或者将后期的预测结果融合在一起进行假新闻的检测。之后 Jin 等人提出了一种基于深度学习的假新闻检测模型，该模型首次利用深度学习来提取文本、社交环境和视觉等多模态特征进行假新闻检测任务。为了更好地对新出现的新闻进行检测，Wang 等人引入了对抗网络来学习与事件无关的多模态特征。Khattar 等人使用变分自编码器（VAE）来学习多模态信息的特征表示。以上三种神经网络模型都利用 VGG 网络来获取视觉表示，为了更好地对视觉特征进行建模，Qi 等人提出了一种新的模型从频域和像素域分别提取图像的部分特征。但是上述多模态方法对于文本特征和图像特征的融合较为简单，并且是针对单个新闻帖子进行分类，没有考虑利用新闻事件进行分类。

3、模型结构

MEDN：多模态假新闻事件检测网络

提出了一种用于假新闻事件检测的模型，该模型利用一个事件中多个帖子的文本和图像进行预测。
提出了相应的多模态特征融合网络和假新闻事件检测网络，可以有效地提高假新闻事件检测的准确性。
提出了一种新颖的假新闻检测模型，该模型考虑了新闻事件中的多个帖子的多模态信息，并且对于多模态特征的融合使用了注意力机制。

社交网络上的新闻通常包含一系列相关的帖子，每个帖子包含不同模态的信息：文字和图像。旨在利用多个相关帖子的多模态信息来确定一个新闻事件是否为假新闻。

问题定义

单独的社交媒体帖子比较短、包含的信息有限, 而一个帖子通常存在一系列相关的其他帖子。本文考虑将这些相关的帖子作为一个事件进行输入，假新闻检测网络针对具体的事件进行预测。给定一个新闻事件的集合 $\mathrm{E}=\left\{E_{i}\right\}$ , 其中每个事件 $E_{i}=\left\{P_{i, j}\right\}$ 包含一系列相关的帖子 $P_{i, j}$ , 每个帖子包含文本、图像等多种信息, 本研究的任务是预测事件 $E_{i}$ 是否为假新闻。

本文将一个新闻事件实例 $E_{i}=\left\{P_{i, j}\right\}$ 表示为多个相关帖子的集合。所提出的模型利用了新闻事件中每个帖子 $P_{i, j}$ 的文本内容 $T_{i, j}$ 、视觉内容 $V_{i, j}$ , 旨在学习一种可靠的多模态表示形式。首先, 把单个帖子的文本和图片分别通过深层 $\mathrm{CNN}$ 网络得到相应的特征表示 $R_{T_{i, j}}, R_{V_{i, j}}$ 。然后，利用注意力机制将文本特征和视觉特征融合起来得到多模态特征表示 $R_{M_{i, j}}$ 。最后，将新闻事件中的多个帖子的多模态特征一起作为输入, 判断新闻事件为真还是假。拟议的 $\mathrm{MEDN}$ 模型结构如图 1 所示。它包括四个组件: 文本特征提取器, 视觉特征提取器, 多模态特征融合子网和假新闻事件检测子网。

$图 1 : 提出的 M E D N 模型结构$

文本特征提取器

2.2TextCNN

为了提取帖子的文本特征，模型中的文本特征提取器采用了卷积神经网络 ( $\mathrm{CNN}$ ? ）。本文采用了一种自然语言处理领域经典的 $\mathrm{CNN}$ ? 模型, $\mathrm{Text}-\mathrm{CNN}^{ }$ ? 。该模型利用具有各种窗口大小的多个过滤器来捕获不同粒度的文本特征。

将每个帖子中单词的顺序列表作为文本特征提取器的输入。首先使用 Jieba 工具对帖子中的文本进行分词。使用预训练的单词嵌入来初始化给定数据集。对于帖子文本中的第 $i$ 个单词，相应的 $\mathrm{k}$ ? 维单词嵌入向量表示为 $T_{i} \in R^{k}$ ? 。假设新闻帖子的最大长度为 $\mathrm{n}$ ?, 少于 $\mathrm{n}$ ? 个单词的帖子可以填充为长度为 $\mathrm{n}$ ??? 的序列。因此，整个帖子可以表示为:
$T_{1: n}=T_{1} \oplus T_{2} \oplus T_{3} \oplus \cdots \oplus T_{n}\tag{1}$
其中 $\oplus$ 是串联运算符。通常，令 $T_{i: i+j}$ ? 表示单词 $T_{i}, T_{i+1}, \cdots, T_{i+j}$ ? 的串联。卷积运算涉及一个卷积滤波器 $\in R^{h k}$ ?, 该滤波器应用于帖子中 $\mathrm{h}$ ? 个连续单词的窗口以输出一个新特征。例如, 从第 $\mathrm{i}$ ? 个单词开始的 $\mathrm{h}$ ? 个连续单词的窗口生成新特征表示 $t_{i}$ ? :
$t_{i}=\sigma\left(\mathrm{W} \cdot T_{i: i+h-1}+\mathrm{b}\right)\tag{2}$
其中 $b\in R$ 是一个偏差项， σ(?) 是 ReLU 激活函数。将此过滤器应用于帖子 $\left\{T_{1: h}, T_{2: h+1}, \cdots, T_{n-h+1: n}\right\}$ 可以得到该帖子的一个特征向量:
$\mathrm{t}=\left[t_{1}, t_{2}, \cdots, t_{n-h+1}\right]\tag{3}$
其中 $\in \mathrm{R}^{n-h+1}$ 。对于每个特征向量 $\mathrm{t}$ , 应用最大池化操作取得最大值作为该滤波器对应的重要特征。Text-CNN 模型应用了多个窗口大小的滤波器, 并且每种窗口大小包含多个滤波器。

对于每种特定的窗口大小, 有 $n_{h}$ 个滤波器, 通过最大池化操作得到对应的特征向量 $R_{T} \in \mathrm{R}^{n_{h}}$ 。采用 $\mathrm{c}$ 种不同的窗口大小, 则经过文本特征提取器最终得到 $\mathrm{c}$ 个对应特征向量 $\left\{R_{T_{1}}, R_{T_{2}}, \cdots, R_{T_{c}}\right\}_{\circ}$

视觉特征提取器

为了提取帖子的视觉特征, 模型采用了预训练的 VGG-19 网络。视觉特征提取器将帖子图像的像素值作为输入。在 VGG 网络之后添加了一个全连接层, 用于生成 $n_{h}$ 维的视觉特征。在与 $\mathrm{Text}-\mathrm{CNN}$ 子网的联合训练期间, 预训练的 $\mathrm{VGG}$ 网络的参数保持静态, 仅更新最后的全连接层的参数。经过视觉特征提取器最终得到 $n_{h}$ 维的视觉特征表示 $R_{V} \in \mathrm{R}^{n_{h}}$ ??? ：
$R_{V}=\sigma\left(\mathrm{W}_{V} \cdot R_{V G G}\right)\tag{4}$
其中 $R_{V G G}$ 是从预训练的 VGG 网络获得的视觉特征, $\mathrm{W}_{V}$ 是最后的全连接层的权重, $\sigma$ 表示 $\operatorname{ReLU}$ 激活函数。

多模态特征融合子网

假设社交网络中帖子的文本和图像具有一定的相关性，并且文本特征提取器提取到的不同特征对于多模态特征的贡献不相同。在假新闻检测任务中，假设文本内容的语义可能与图像中的语义相关，与图像具有相似语义含义的文本特征应该分配更多权重。因此，本文提出了一种基于注意力机制的多模态特征融合子网，如图 2 所示。

$图 2 : 多模态特征融合子网结构图$
通过先前的文本特征提取器得到了 $\mathrm{c}$ ?? 个 $n_{h}$ ?? 维的文本特征向量 $\left\{R_{T_{1}}, R_{T_{2}}, \cdots, R_{T_{c}}\right\}$ ??, 通过图像特征提取器得到了 $n_{h}$ ?? 维的视觉特征表示 $R_{V}$ ?? 。在传入融合子网后, 首先通过一层 $\mathrm{MLP}$ ?? 来得到 $R_{T i}$ ?? 的隐藏表示形式 $U_{T_{i}^{ }}$ ?。? 然后用 $U_{T_{i}}$ ?? 与视觉特征 $R_{V}$ ?? 的相似性来度量文本特征的重要性, 并通过 softmax 函数进行归一化得到权重 $\alpha_{T i}$ ?? 。之后计算得到最终的文本特征 $R_{T^{ }}$ 。???
$\begin{gathered} U_{T_{i}}=\tanh \left(W_{w} R_{T_{i}}+b_{w}\right) \\ \alpha_{T_{i}}=\frac{\exp \left(U_{T_{i}}^{\mathrm{T}} R_{V}\right)}{\sum_{i} \exp \left(U_{T_{i}}{ }^{\mathrm{T}} R_{V}\right)} \end{gathered}\tag{5}$

$R_{T}=\sum_{i} \alpha_{T_{i}} R_{T_{i}}\tag{6}$
其中 $W_{w}$ ? 表示权重矩阵, $b_{w}$ ? 是偏差项。最后, 将文本特征表示 $R_{T}$ ? 和视觉特征表示 $R_{V}$ ? 拼接起来得到多模态特征表示 $R_{F}=$ ? $R_{T} \oplus R_{V} \in R^{2 n_{h}} 。 R_{F}$ ? 是多模态特征融合子网的输出。

假新闻事件检测子网

假新闻事件检测子网由一个具有自我注意力层的 $\mathrm{GRU}$ 网络以及 $\operatorname{softmax}$ 层组成。GRU将每个新闻事件的多个帖子的多模态特征作为输入。由于新闻事件中所有的帖子并非都具有相同的重要性, 因此在 $\mathrm{GRU}$ 网络后引入了一个自我注意力层。

标准循环神经网络在训练过程中可能会丢弃掉较早的输入, 使用门控循环单元 (GRU）可以更好地捕获帖子信息。GRU 有两种控制信息更新的门（复位门和更新门）, 旨在动态记住和忘记信息流。GRU 网络输入向量为 $\left\langle R_{F_{1}}, R_{F_{2}}, \cdots, R_{F_{n}}\right\rangle$ , 隐藏状态为 $\left\langle h_{1}, h_{2}, \cdots, h_{n}\right\rangle$ ????? 。

隐藏状态和输出的计算公式如下：
$\begin{gathered} h_{t}=\left(1-z_{t}\right) \odot h_{t-1}+z_{t} \odot \tilde{h}_{t} \\ \tilde{h_{t}}=\tanh \left(W_{h} R_{F_{t}}+U_{h}\left(r_{t} \odot h_{t-1}\right)+b_{h}\right) \\ r_{t}=\sigma\left(W_{r} R_{F_{t}}+U_{r} h_{t-1}+b_{r}\right) \\ z_{t}=\sigma\left(W_{z} R_{F_{t}}+U_{z} h_{t-1}+b_{z}\right) \end{gathered}\tag{7}$
其中 $r_{t}$ ? 和 $z_{t}$ ? 分别是复位门和更新门。 $h_{t}$ ? 是 $\mathrm{GRU}$ ? 的隐藏状态, $\widetilde{h}_{t}$ ? 是 $\mathrm{GRU}$ ? 的输出。 $\odot$ ? 表示向量的逐元素乘积, $\sigma(\cdot)$ ? 表示 sigmoid 函数。

自我注意力是一种特殊的注意力机制，它的 query $\mathrm{Q}, \mathrm{key} \mathrm{K}$ 和 value $\mathrm{V}$ 是相同的。 $d_{k}$ 是 $\mathrm{Q}, \mathrm{K}, \mathrm{V}$ 的维度。首先计算 $\mathrm{Q}$ 与 $\mathrm{K}$ 之间的缩放点乘，然后采用 $\operatorname{softmax}$ 函数对这些权重进行归一化。最后进行加权求和，得到最终的表示:
$\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V\tag{8}$
在假新闻事件检测子网中, query Q, key K 和 value $\mathrm{V}$ 为 $\mathrm{GRU}$ 网络隐藏层的拼接。通过计算相应的权重来反映各个帖子的重要性, 计算所有帖子的加权总和得到最终的新闻事件表示 $R_{E}$ 。最后将 $R_{E}$ 传入 softmax 层, 以预测新闻事件是假的还是真的。将新闻事件检测网络表示为 $G_{d}\left(\cdot ; \theta_{d}\right)$ , 其中 $\theta_{d}$ 代表所包括的所有参数。第 $\mathrm{i}$ 个新闻事件为虚假新闻事件的概率:
$\tilde{y}_{i}=G_{d}\left(E_{i} ; \theta_{d}\right)\tag{9}$
采用交叉熵计算损失函数:
$L_{d}\left(\theta_{d}\right)=-E_{\left(E_{i}, y\right) \sim(E, Y)}\left[y \log \left(\tilde{y}_{i}\right)+(1-y) \log \left(1-\tilde{y}_{i}\right)\right]\tag{10}$
其中， $\mathrm{E}$ 表示新闻事件集, $\mathrm{Y}$ 表示真实标签集。通过寻找最佳参数 $\theta_{d}$ 来最小化分类损失。