IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Masked Autoencoders Are Scalable Vision Learners 论文导读 -> 正文阅读

[人工智能]Masked Autoencoders Are Scalable Vision Learners 论文导读

Facebook 人工智能研究 (FAIR) 团队发表的论文 Masked Autoencoders Are Scalable Vision Learners 已成为计算机视觉社区的热门话题。这也是KaiMing大神在2年后的第一篇一作论文。

采用带有掩码的语言建模系统,如谷歌的 BERT 及其自回归对应物,如 OpenAI 的 GPT,已经在自然语言处理 (NLP) 任务中取得了惊人的性能,并能够训练包含超过 1000 亿个参数的泛化 NLP 模型。

但是在计算机视觉中自编码方法的进展和性能远远落后于它们在 NLP 能力。 一个问题自然会出现:掩码自动编码在视觉和语言领域有何不同? FAIR 论文解决了这个问题,并证明了 Masked Autoencoders (MAE) 可以是用于计算机视觉的可扩展自监督学习器。

研究人员首先讨论了视觉和语言领域中带有掩码的自编码器的差异,总结为以下三点:1) 到现在为止两者架构还是不同的; 2)语言和图像的信息密度不同; 3)自动编码器的解码器将潜在表示映射回输入,在重建文本或图像时扮演不同的角色。

然后,该论文提出了一种简单、有效且可扩展的 用于视觉表示学习的MAE方法。所提出的 MAE 方法背后的想法很简单——将来自输入图像的随机块被屏蔽,然后在像素空间中重建丢失的块。该团队将其 MAE 的双核心设计和方法总结为:

我们开发了一个非对称编码器-解码器架构,其中一个编码器只对可见的patches子集进行操作(没有掩码标记),以及一个轻量级解码器,可以从潜在表示和掩码标记重建原始图像。

我们发现屏蔽大部分输入图像,例如 75%,会产生重要且有意义的自监督任务。将这两种设计结合起来使我们能够高效地训练大型模型,将训练速度提高 3 倍或更多,并提高准确性。

论文在 ImageNet-1K (IN1K) 训练集上进行了自监督的预训练,然后进行了监督训练,以通过端到端的微调或线性探测来评估表示。他们使用 ViT-Large (ViT-L/16) 作为他们的模型并验证Top1准确性。

结果表明,MAE 学习了非常高容量的模型,这些模型也能很好地泛化。 使用普通的 ViT-Huge 模型,MAE 在 ImageNet-1K 上进行微调时达到了 87.8% 的准确率。

论文认为,扩展性好的简单算法是深度学习的核心。在NLP中,简单的自监督学习方法可以指数级别的增益模型。在计算机视觉中,尽管在自监督学习方面取得了进展,但实际的预训练模式仍主要受到监督。在ImageNet和迁移学习中观察到,自动编码器(autoencoder)提供了非常强的优势。视觉中的自监督学习现在可能正走上与NLP类似的轨道。

论文地址:https://arxiv.org/abs/2111.06377

本文来自 syncedreview,作者:Hecate He

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-18 11:11:49  更:2021-11-18 11:12:22 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 5:55:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码