开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 50、LOLNeRF: Learn from One Look -> 正文阅读

[人工智能]50、LOLNeRF: Learn from One Look

简介

主页：https://lolnerf.github.io/
在这里插入图片描述
方法通过在共享潜在空间(左)条件下使用单一神经网络重构大量的单视图图像集合来学习形状和外观的空间。这允许从图像中提取一个三维模型，并从新的视角进行渲染(右)

贡献点

提出了一种从单视图图像中学习三维重建目标类别的方法，将训练复杂度与图像分辨率解耦;
表明单个视图足以在没有任何几何监督的情况下学习高质量的几何预测(例如深度)
方法在通过重建固定的图像和新颖的视图来表示学习类别的物体外观方面超过了对抗方法。

实现流程

NeRF回顾
在这里插入图片描述

自动解码器
自动解码器，也被称为生成潜优化(GLO)，是一组生成模型，无需使用编码器或鉴别器即可学习，通过为训练数据集中的每个不同元素分配一行代码表来直接学习代码，这些代码与模型参数的其余部分作为可学习变量进行协同优化。

LOLNeRF
在这里插入图片描述
学习每个图像的潜在代码表，以及前景和背景nerf。体积渲染输出受制于每个训练像素的每射线RGB损失，以及针对图像分割器的alpha值。摄像机的对齐是从二维地标输出到特定类的标准3D关键点的最小二乘拟合中派生出来的

最小化三个损失的加权和来训练网络参数和潜码Z
在这里插入图片描述
训练图像 $I_k$ 的标准 L2 光度重建损失除以像素 prgb

Lrgb

在这里插入图片描述
扩展了NeRF的“单场景”(即过拟合/记忆)公式，通过加入一个自动解码器架构来支持学习形状的潜在空间

在这种改进的体系结构中，主要NeRF骨干网络的条件是每个对象的潜码 $z∈R^D$ ，以及 l 维位置编码 $γ^L(x)$

密度和辐射函数的形式是 σ(x|z) 和 c(x|z)

考虑一个公式，其中亮度不是视图方向 d 的函数

这些潜码是潜表 $Z∈R^{K×D}$ 中的行，将潜表初始化为 $0^{K×D}$ ，其中 K 为图像数

这种架构使得精确重构训练示例成为可能，而无需对编码器模型进行大量额外的计算和内存，并避免了从训练图像中提取3D信息需要卷积网络

训练该模型遵循与单场景NeRF相同的过程，但从数据集中的所有 K 张图像中抽取随机射线，并将每条射线与图像中采样对象对应的潜在代码相关联。

Foreground-Background Decomposition

使用一个单独的模型来处理背景细节的生成,使用一个低容量的模型 $C_{bg}(d|z)$ 作为背景，它预测每条射线的亮度,结合背景和前景色，使用NeRF密度函数的透明度值进行渲染
在这里插入图片描述
监督前景/背景分离并不总是必要的

从纯色背景颜色和360?摄像头分布中自然地学习了前景分解

当预先训练的模块可用来预测训练图像的前景分割时，还应用一个额外的损失来鼓励NeRF体积的透明度与这个预测一致
在这里插入图片描述
$S_I(·)$ 是应用于图像 $I_k$ 并在像素 p 处采样的预训练图像分割器

在人脸数据集上进行训练时，对(7)中的预训练模块使用MediaPipe自拍分割，λ 掩码=1.0。

Hard Surfaces

有了足够的输入图像和足够的纹理表面，多视图一致性将有利于创建从空到实的硬过渡,该属性在单个视图情况下不成立。因为对应于每个潜码的场函数只从一个视点监督，这通常会导致沿视点方向的表面模糊
在这里插入图片描述
对权重 w 作为拉普拉斯分布的混合分布的概率施加先验，其中一个在权值为 0 附近的模态，另一个在权值为 1 附近的模态:

该分布是峰值的，并将鼓励一个稀疏解，其中开放区间(0,1)中的任何值 w 都是不鼓励的,将此先验转换为损失
在这里插入图片描述
满足该约束条件的 σ(x) 的大小取决于采样密度,鼓励密度产生一个阶梯函数，该函数至少在一个采样区间内饱和采样权值，通过构造，它适合于被建模场景的规模

Camera Parameters

体绘制需要相机参数将每个像素与用于计算样本位置的射线相关联,摄像机是通过运动结构对输入图像集进行估计,单视图用例，由于深度模糊，这是不可能的.

使方法与单视图图像兼容，使用了MediaPipe Face Mesh预训练的网络模块来提取出现在对象类的一致位置的2D地标
在这里插入图片描述
地标和分段器-(对两个输入标识的地标和分段器网络的输出进行采样。蓝色圆圈(?)表示标识的地标。用于人脸的五个地标的示例网络输出

然后，利用“形状匹配”最小二乘优化将这些地标位置与标准3D地标位置的投影进行对齐，以获得相机参数的粗略估计

Conditional Generation

给定一个预先训练的模型，可以找到一个潜在的代码 z，它可以重建训练集中不存在的图像,由于潜伏表是与NeRF模型参数并行学习的，可以将这一过程视为潜伏表中额外一行的微调优化,这一行被初始化为潜表现有行的平均 $μ_Z$ ，并使用与主模型相同的损耗和优化器进行优化
在这里插入图片描述
对于每种方法，展示了一个适合于训练方法的例子:对于π-GAN，一个从训练分布中采样的潜伏代码，对于论文的，一个学习到的重建训练图像的潜伏代码。由于在更高分辨率的图像上进行训练，论文的方法恢复了更清晰的细节。

对于用两种方法重建的同一图像的新视图的比较
在这里插入图片描述

Unconditional Generation

为了从模型学习到的空间中对新对象进行采样，从由潜表 Z 的行定义的经验分布 Z 中对潜码进行采样。将 Z 建模为一个多元高斯，通过对 Z 的行进行主成分分析发现其均值为 $μ_Z$ ，协方差为 $χ_Z$ 。类似于其他生成模型对潜变量使用高斯先验，当抽样距离分布均值较远时，观察到样本的多样性和质量之间的权衡。因此，采用GAN中常用的“截断技巧”来控制这种权衡。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-09-25 23:12:38 更:2022-09-25 23:14:19

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/23 7:36:17-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码