开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理 -> 正文阅读

[人工智能]2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理

1 自监督

1.1 MAE

模型简介：

Masked Autoencoders Are Scalable Vision Learners

恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单：对输入图像进行块随机mask并对遗失像素进行重建。它基于以下两个核心设计：我们设计了一种非对称编解码架构，其中编码器仅作用于可见块(无需mask信息)，而解码器则通过隐表达与mask信息进行原始图像重建；我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。仅需ImageNet-1K，ViT-Huge取得了87.8%的top1精度。

论文链接：https://arxiv.org/abs/2111.06377

源码链接：GitHub - pengzhiliang/MAE-pytorch: Unofficial PyTorch implementation of Masked Autoencoders Are Scalable Vision Learners

1.2?iBOT?

?模型简介：

iBOT: Image BERT Pre-Training with Online Tokenizer,字节跳动、约翰霍普金斯大学等机构组成的联合团队提出iBOT十几类任务和数据集上刷新了 SOTA 结果，在一些指标上甚至超过了 MAE。

论文链接：https://arxiv.org/abs/2111.07832?

1.3?RELICv2?

?模型简介：?

RELICv2使用ResNet50时在ImageNet上实现了77.1%的top-1准确率，而更大的ResNet模型则带来了80.6%的top-1准确率，以较大的优势超越了此前的自监督方法;RELICv2优于DINO和MoCo v3，并在参数数量相当的情况下表现出与EsViT类似的性能，尽管这些方法用了更强大的架构和更多的训练。

?论文链接：https://arxiv.org/abs/2201.05119

?1.4?data2vec

?模型简介：

data2vec 是首个适用于多个模态输入的高性能自监督算法。Meta AI 将 data2vec 分别应用于语音、图像和文本，在计算机视觉、语音任务上优于最佳单一用途算法，并且在 NLP 任务也能取得具有竞争力的结果。此外，data2vec 还代表了一种新的、全面的自监督学习范式，其提高了多种模态的进步，而不仅仅是一种模态

?论文链接：?https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

源码链接：?https://github.com/pytorch/fairseq/tree/main/examples/data2vec

?2 图像、视频、检测

?2.1?ConvNext

?模型简介：

当应用于广义CV任务(如目标检测、语义分割)时，常规的ViT面临着极大挑战。因此，分层Transformer(如Swin Transformer)重新引入了ConvNet先验信息，使得Transformer成实际可行的骨干网络并在不同视觉任务上取得了非凡的性能。完全标准ConvNet模块构建的ConvNeXt取得了优于Transformer的精度87.8%，在COCO检测与ADE20K分割任务上超越了SwinTransformer，同时保持了ConvNet的简单性与高效性。?

?论文链接：https://arxiv.org/pdf/2201.03545.pdf

?源码链接：?https://github.com/facebookresearch/ConvNeXt

2.2?UniFormer

?模型简介：

基于UniFormer模块，我们构建了一种新强力骨干并用于不同的视觉任务，包含图像与视频，分类与稠密预测。无需额外你训练数据，UniFormer在ImageNet数据及上取得了86.3%的精度；仅需ImageNet-1K预训练，它在诸多下游任务上取得了SOTA性能，比如Kinetics-400/600数据集上的82.9%/84.8%、Something-Something V1/V2数据集上的60.9%/71.2%、COCO检测任务上的53.8boxAP与46.4MaskAP、ADE20K分割任务上的50.8mIoU、COCO姿态估计上的77.4AP

?论文链接：https://arxiv.org/abs/2201.09450

??源码链接：https://github.com/Sense-X/UniFormer

3 多模态?

3.1?NüWA

?模型简介：

微软亚洲研究院、北京大学强强联合提出了一个可以同时覆盖语言、图像和视频的统一多模态预训练模型——NüWA（女娲），直接包揽8项SOTA

论文链接：https://arxiv.org/abs/2111.12417?

源码链接：https://github.com/microsoft/NUWA

3.2?Florence

?模型简介：

微软正式发布了一个新的计算机视觉基础模型Florence（佛罗伦萨），要用一个模型一统多模态天下！Florence可以轻松适用于各种计算机视觉任务，如分类、目标检测、VQA、看图说话、视频检索和动作识别，并在超过40个基准中刷新了SOTA。

论文链接：https://arxiv.org/pdf/2103.00020.pdf

源码链接

3.3?Omnivore

?模型简介：

Omnivore在图像分类数据集ImageNet上能达到86.0%的精度，在用于动作识别的Kinetics数据集上能达84.1%，在用于单视图3D场景分类的SUN RGB-D也获得了67.1%。Omnivore在图像、视频和3D数据分类任务上超越当前SOTA模型

论文链接：https://arxiv.org/abs/2201.08377

源码链接：GitHub - facebookresearch/omnivore: Omnivore: A Single Model for Many Visual Modalities

4 超分

?4.1?AutoML

?模型简介：

东北大学王言治团队将网络结构搜索与剪枝搜索相结合了全新的自动搜索框架。该AutoML框架得到的稀疏模型能够在移动设备上实时且高质量地处理视频超分辨率任务，最高可以将超清视频渲染加速70倍。

?论文链接：https://arxiv.org/pdf/2108.08910.pdf

?源码链接：演示视频 CoCoPIE vs TF-Lite - 移动设备实时视频超分辨率_哔哩哔哩_bilibili

5 检测?

5.1?Dynamic Head

?模型简介：

本文提出一种新颖的动态头框架，它采用注意力机制将不同目标检测头进行统一。通过特征层次之间的注意力机制用于尺度感知，空间位置之间的注意力机制用于空间感知，输出通道内的注意力机制用于任务感知，该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。

?论文链接：https://arxiv.org/abs/2106.08322

??源码链接：GitHub - microsoft/DynamicHead

6?自注意力?

6.1?HaloNet

?模型简介：

来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型，该模型不仅可以超越标准的基线模型，而且可以超越高性能的卷积模型。提出了自注意力的两个扩展，并与自注意力的更高效实现相结合，提高了这些模型的运行速度、内存使用率和准确率。研究者利用这些改进开发了一种新的自注意力模型——HaloNet，并且在 ImageNet 分类基准的有限参数设置上准确率实现了新 SOTA。

?论文链接：https://arxiv.org/abs/2103.12731