| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 技术干货 | 腾讯云智媒体AI中台中的视听场景多模态分类识别 -> 正文阅读 |
|
[人工智能]技术干货 | 腾讯云智媒体AI中台中的视听场景多模态分类识别 |
作者:yujie yanan 腾讯云智媒体AI中台是为传媒行业量身打造的解决方案,旨在提供智能化、全流程、一站式的AI中台及开箱即用的智能编目、智能拆条等九大智能应用。因此,AI中台囊括了NLP、CV、多模态等多种能力,其中视听场景的多模态分类识别作为其中的重要能力之一,是针对视频进行特定的场景分类识别。例如,在媒资管理场景,通过音视频多模态信息构建AI算法,实现深层理解视频内容,为视频打标签及长视频拆条等。不仅如此,该能力在近日首次举办多模态分类挑战的国际权威声学场景和事件检测及分类赛事(DCASE 2021)中,也达到了接近SOTA的92.1%分类准确率。 图1 视频中的音画模态 更具体地来看,如图1所示,通过对画面——观众及声音——鼓掌两个模态的感知,能够准确地判断这段短视频为观众鼓掌,而非raining on the ground。因此,多模态信息的融合学习是非常必要的。我们构建了一种多模态场景分类系统,设计了一种轻量的音频分类Transformer模型,并创新性的提出一种数据增强的方法——feature dropout,使用特征随机混合的策略训练特征融合分类模型,不仅能够提升分类器的性能,还可以在某个特征缺失时仍可以进行有效分类。 一、多模态场景分类识别系统图2 基于多模态特征融合的场景分类系统 如图2所示,基于多模态特征融合的场景分类系统主要由四个部分组成。分别为基于卷积视觉Transformer的图像特征提取器,基于卷积神经网络的音频特征提取器,基于音频Transformer的音频特征提取器以及基于多层感知机的特征融合分类网络。首先,图像和音频模态分别输入到特征提取模块,提取而来的特征由再融合网络给出所属场景的预测。不仅如此,融合网络也可以作为融合特征的提取器,为拆条等更多的下游任务提供模态信息。 二、Feature Dropout图3 Feature dropout过程 在特征融合部分,我们提出并使用了一种混合特征的数据扩增方法,名为feature dropout。Feature dropout的具体形式详见公式1,详细图示见图3,表示单个模态特征的选取概率,概率符合伯努利分布;表示单个模态对应的特征embedding。训练时,对于一个样本的所有特征,根据一定的概率选取至少一种特征加入训练,针对有特征概率全为0的情况,我们还加入特征选取保护机制,随机选取一类特征作为样本加入训练。这种训练方法可以使得分类器均匀地学习到每一种特征的信息,以及融合地学习特征之间的相关性。通过这种训练方式,分类器不再倾向于关注最突出的特征,忽略其他微小却重要的辨别特征。不仅如此,该训练方式具有更强的鲁棒性,当某一模态特征缺失时,分类器也可以根据其他信息较好地完成分类。 (1) 三、技术方案在DCASE上实验效果(1)视听分类系统分类效果本套技术方案实现了用视觉和听觉信息共同进行场景分类,极大的提高了场景分类准确率。不仅用于媒体AI中台的多项能力中,该技术方案还在真实场景数据集DCASE2021 Task1b测试集的分类中表现突出,该任务要求为1秒种的音视频输出标签(10类),具体见表1。 表1 场景分类系统在task1b的性能 (2)feature dropout性能消融实验我们采用的feature dropout融合特征训练策略和简单使用所有特征进行训练的对比实验如表2所示。 表2 feature dropout消融实验 同时,使用混合特征策略和使用所有特征训练的分类器在只有单一特征输入时的对比如表3所示。 表3 特征缺失对是否为feature dropout训练而来的模型性能影响 显而易见,使用feature dropout的方式训练的模型在性能提升的情况下,对单个特征的鲁棒性更强。使用所有特征进行训练时,由于图像特征的主导地位,导致音频transformer的特征没有得到很好的学习。当使用混合特征训练策略时,每一种特征都得到了足够的关注,不会过于关注易区分的特征,而忽视微小但重要的特征。 四、总结目前,多模态场景分类识别系统技术已经被广泛应用于腾讯云智媒体AI中台的视频理解相关能力中,例如新闻综艺场景分类,视频拆条等。而从技术者的角度出发,该系统在能够广泛应用和落地的同时,还有很多细节可以优化及改进,详细的各模态网络结构及实现技术细节,详见DCASE技术报告(文末点击阅读原文可查看)及之后的workshop。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/18 0:23:26- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |