[人工智能] 2022 AAAI 多模态/情感分析/命名实体识别/关系抽取/知识图谱论文一览表(持续更新中)

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 2022 AAAI 多模态/情感分析/命名实体识别/关系抽取/知识图谱论文一览表(持续更新中) -> 正文阅读

[人工智能]2022 AAAI 多模态/情感分析/命名实体识别/关系抽取/知识图谱论文一览表(持续更新中)

1.Tailor Versatile Multi-Modal Learning for Multi-Label Emotion Recognition
Yi Zhang, Mingyuan Chen, Jundong Shen, Chongjun Wang

2.Sentiment and Emotion-Aware Multi-Modal Complaint Identification
Apoorva Singh, Soumyodeep Dey, Anamitra Singha, Sriparna Saha

3.Are Vision-Language Transformers Learning Multimodal Representations? A Probing Perspective.
Emmanuelle Salin, Badreddine Farah, Stéphane Ayache, Benoit Favre
论文地址：https://hal.archives-ouvertes.fr/hal-03521715/file/11931.SalinE-7.pdf

近年来，由于基于transformer的视觉语言预训练模型的发展，联合文本-图片的embedding得到明显的改善。作者通过一组文本、图像、多模态探究任务在单模态和多模态层次上比较预训练和微调的表征，并且引入了专门用于多模态探测的新数据集。结果证明了视觉语言预训练在多模态层次上理解了颜色的概念，对位置和大小的理解更依赖文本；在语义对抗的例子上，作者发现多模态预训练模型能够准确地指出细微的多模态差异。同时，作者发现模型在多模态任务（VQA、NLVR）上进行fine-tune不一定能提高其多模态表示能力。

4.Multi-Modal Answer Validation for Knowledge-Based VQA
Jialin Wu, Jiasen Lu, Ashish Sabharwal, Roozbeh Mottaghi
论文地址：https://arxiv.org/pdf/2103.12248.pdf
基于知识的视觉问答

5.UniMS: A Unified Framework for Multimodal Summarization with Knowledge Distillation
Zhengkun Zhang, Xiaojun Meng, Yasheng Wang, Xin Jiang, Qun Liu, Zhenglu Yang
论文地址：https://arxiv.org/pdf/2109.05812.pdf
多模态摘要

6.MIA-Former: Efficient and Robust Vision Transformers via Multi-grained Input-Adaptation
Z Yu, Y Fu, S Li, C Li, Y Lin

7.Hierarchical Cross-Modality Semantic Correlation Learning Model for Multimodal Summarization
论文地址：https://arxiv.org/pdf/2112.12072v1.pdf
层次化的跨模态语义关联学习模型（HCSCL）

8.Knowledge Bridging for Empathetic Dialogue Generation
利用外部知识联合交互丰富对话历史，并构建情感上下文图。然后从知识丰富的情感上下文图中学习情感上下文表示并提取情感信号。最后，提出一个情绪交叉注意力机制，从情感上下文图中学习情绪的依赖关系。

9.Hybrid Curriculum Learning for Emotion Recognition in Conversation
面向 ERC 的混合课程学习框架，框架包括两类课程，对话级课程（CC）[难度测量器]和话语级课程（UC）[训练调度器]。

10.CEM: Commonsense-aware Empathetic Response Generation
共情回应生成方法，利用常识获得更多关于用户情况的信息，并利用该额外信息进一步增强共情性在生成回应中表达。

11.OneRel: Joint Entityand Relation Extraction with One Module in One Step
论文地址：https://arxiv.org/abs/2203.05412
将联合提取任务转化为细粒度的三元组分类问题，并提出了一种新的联合提取模型。

12.MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding

论文地址：https://arxiv.org/pdf/2112.10728.pdf

作者提出了跨模态grounding的新的QA评估基准；涉及多跳问题，需要在图片-文本对之间及逆行推理以确定所指的基础视觉对象，然后从新闻正文中预测出一个跨度来回答问题。此外，作者提出基于多模态知识提取和和问题-答案生成的多模态数据增强网络为这项任务提供弱监督。

13.CLIP-Event: Connecting Text and Images with Event Structures

论文地址：https://arxiv.org/pdf/2201.05078.pdf

视觉语言预训练模型通过理解图片-文本之间的对齐，而本文用一个对比学习的框架来增强视觉语言预训练模型对结构性事件信息的理解，并且收集了事件丰富的图文对用于模型的预训练。