2021-08-10 多模态信息融合方式 摘录自 基于深度学习的多模态情感识别–张雪 语音、视频和文本信号的多模态情感识别技术应用过程中,需要模态融 合算法来实现不同模态的特征融合。常用的特征融合算法主要包括:基于数 据层融合算法、基于决策层融合算法和基于特征层融合算法。 数据层融合算法强调的是,将各个模态的数据信息,采用专业性的方式 融合在一起,在此基础上能够有效形成一个总的输入,接着把此输入利用神 经网络精准的提取特征,再进行分类。以本文中的语音、视频和文本三种模 态情感识别为例深层剖析,先对三种输入信号进行预处理,之后将得到的数 据信息在数据层有效融合,再通过神经网络精准高效的进行特征的提取,最 后通过专业性的分类器对情感合理的划分。在多模态数据层融合识别过程 中,将不同模态的输入信号信息有效融合仍是当今学术界一个研究热点,且 多模态情感识别的输入信号本身就有数据分布不均匀的问题。因此,大多数 情况下不使用此方式实现多模态情感的识别。下图 2-4 是具体的识别流程 图。
决策层融合的融合方式在近几年的多模态情感识别研究中得到了大家的 广泛应用,具体过程是首先将不同模态先分别进行单模态情感识别,再将不 同模态单独识别的数据信息结果综合性融合,通常情况下,使用求和的方式 或者是投票的方式进行分析处理的。尽管这种方式在实践应用中已取得显著 的效果,但未能够完全真正将具体的模态的输入信息数据综合性融合,仅仅 是把不同单种模态下的情感识别结果针对研究需求进行组合。因此,这种决 策层融合方式在极大程度上会受单个模态的信息数据结果的影响,容错率较 低。以本文为例,先将语音,视频和文本三种输入信号分别进行预处理,通 过神经网络进行特征提取,单个模态进行情感识别,最后通过投票的方式判 断出最终的识别结果。具体过程如图 2-5 所示。
基于特征层的特征融合算法则是将提取出来的不同模态的特征统一起来 直接连接成一个特征向量,然后再通过分类识别算法进行后续的情感识别。 该融合算法提供了一种较为简单易于实现的方法来进行特征融合,也比较完 整地将不同模态的特征向量结合在一起进行情感识别,实现了信息的统一实 现。本文采用特征层融合算法进行情感融合,首先将三种模态信号分别进行 预处理,再分别通过神经网络进行特征提取,进行特征组合形成特征向量, 最后进行分类。具体过程如图 2-6 所示。
|