IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> N ¨UWA: Visual Synthesis Pre-training for Neural visUal World creAtionChenfei -> 正文阅读

[人工智能]N ¨UWA: Visual Synthesis Pre-training for Neural visUal World creAtionChenfei

NUWA:一种多模态方法,操纵视觉图像。

贡献:

1、一个3D transformer,可以包括文字、图片与视频输入。

2、提出3D Nearby attention(3DNA)。3DNA由空域和时域的局部特征组成。不仅减少了复杂度,同时提高了最后可视化图片的质量。

3、在T2I(text-to-image),T2V(text-to-video),Video prediction 等等任务中都达到SOTA结果。并且模型不仅在text-guided image manipulation(文本操控图片)(图一的第一行第四列)展示了很好的zero-shot能力,在text-guide video manipulation(文本操控视频)(图1的第二行第一列)也展示了很不错的能力。

?引言:

一些Auto-regressive 自回归模型都基于pixel-by-pixel的方式,所以都有一个缺点:无法处理高维度high-dimensional visual data,只能处理一些低分辨率low-resolution 图片和视频。

最近,VQ-VAE 是一个离散可视token化的方法,可以有效并且在large-scale上训练visual synthesis task.但其有个缺点,就是VQ-VAE把视频和图片分离开,这对训练来说并不友好。

方法:

如何分别标准文本、图像、视频?

1、用一个通用的维度来获得输入X \in \mathbb{R}^{h*w*s*d},其中h和w代表图像的高和宽,s代表多少个token(NLP的词向量的个数),d代表每个token的维度。

2、文本用一个lower-case byte pair encodeing(BPE)将文本嵌入到\mathbb{R}^{1*1*s*d}中。文本在h和w方向都没有维度,因此用1表示;

图片的输入I \in \mathbb{R}^{h*w*c},也是需要编码的,公式如下:

E(I)代表一个encoder,将raw data送入encoder,得到?E(I),比较E(I)B_{j}codebook的距离,其中E(I)\in \mathbb R^{h*w*d_{B}},B\in \mathbb R^{N*d_{B}},得到离B_{j}最近的token,将其离散化,并且利用decoder(G)重构I_hat.这部分就是VQ-VAE,然后通过G和D的不断训练,得到B。最后的B[z]\in \mathbb R^{h*w*1*d}用于训练,1代表没有temporal dimensions

3、视频可以被视为图像的时间扩展,最近的作品如VideoGPT[48]和VideoGen[51]将VQ-V AE编码器中的卷积从2D扩展到3D,并训练视频特定的表示。然而,这不能为图像和视频共享一个共同的码本。在本文中,我们展示了简单地使用2D VQ-GAN编码视频的每一帧也可以产生时间一致性的视频,同时受益于图像和视频数据。结果表示为asRh×w×s×d,其中表示帧的数量。

?3DNA

一个减法的算法,原论文写的听清楚的,这里不介绍了(主要做K和V的减法)

Loss

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-30 15:37:27  更:2021-11-30 15:38:53 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 2:28:49-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码