开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【NeRF】背景、改进、应用与发展 -> 正文阅读

[人工智能]【NeRF】背景、改进、应用与发展

1 背景

3D场景表征可分别为：

显式（explicit representaion）
- Mesh
- Point Cloud
- Voxel
- Volume
隐式（implicit representation）
- 使用函数来对场景集合进行描述。

显式 vs 隐式

显式是对场景的直观建模，从而易于合成照片级的虚拟视角。
隐式使用MLP模拟函数，对输入的3D空间坐标输出其对应的几何和外观信息。
显式是离散的表达，不能精细化，导致重叠等伪影，耗费内存，限制了在高分辨率场景的应用。
隐式是连续的表达，能够适用于大分辨率的场景，而且不需要3D信号进行监督。在NeRF之前，它的缺点是无法生成照片集的虚拟视角。eg：occupancy field、signed distance function（SDF）

2 NeRF

NeRF首次利用隐式表示实现了照片级的视角合成效果，与之前方法不同的是，它选择了Volume作为中间表示，尝试重建一个隐式的Volume。

NeRF的主要贡献：

提出了一种5D的神经辐射场来作为复杂场景的隐式表示。
基于经典的volume rendering技术提出了一种可微渲染的过程。
提出了位置编码（positional encoding）将5D输入映射到高维空间。

2.1 神经场（Neural field）

推荐阅读： Neural Fields in Visual Computing and Beyond[1]
简单来说：场（field）是为所有（连续）空间和/或时间坐标定义的量（标量），如电磁场，重力场等。此当我们在讨论场时，我们在讨论一个连续的概念，而且他是将一个高维的向量映射到一个标量。

神经场表示用神经网络进行全部或者部分参数化的场。 我们可以理解为，神经场是以空间坐标或者其他维度（时间、相机位姿等）作为输入，通过一个MLP网络模拟目标函数，生成一个目标标量（颜色、深度等）的过程。

2.2 体绘制（volume rendering）

推荐阅读：State of the art on neural rendering[2]
简而言之，是个从3D的表达到2D图片的过程。
体数据的渲染主要是指通过追踪光线进入场景并对光线长度进行某种积分来生成图像或视频，具体实现的方法包括：Ray Casting，Ray Marching，Ray Tracing。

3 NeRF的改进

NeRF存在的问题

计算速度慢
只针对静态场景
泛化性差
需要大量视角

3.1 针对速度慢的问题

NeRF方法生产生图像时，每个像素都需要近200次MLP深度模型的前向预测。尽管单次计算规模不大，但逐像素计算完成整幅图像渲染的计算量还是很可观的。其次，NeRF针对每个场景需要进行训练的时间也很慢。

针对这个问题的研究工作有：

AutoInt[3]
FastNeRF[20]
Depth-supervised NeRF[4]

3.2 只适用于静态场景的问题

NeRF方法只考虑了静态场景，无法拓展到动态场景。这一问题主要和单目视频做结合，从单目视频中学习场景的隐式表示。
针对这个问题的研究工作有：

Neural Scene Flow Fields[5]

3.3 针对泛化性差的问题

NeRF方法针对一个新的场景需要重新训练，无法直接扩展到没有见过的场景，这显然与人们追求泛化性的目标相违背。
针对这个问题的研究工作有：

GRF[6]
IBRnet、
pixelNeRF

3.4 针对需要大量视角数量的问题

尽管NeRF方法能够实现出色的视角合成效果，但是它需要大量的（数百张）视角来进行训练，这限制了它在现实中的应用。
针对这个问题的研究工作有：

pixelNeRF[7]
Urban-NeRF
Block-NeRF

4 NeRF的应用

4.1 逆渲染

从真实数据中估计不同模型参数（相机、几何体、材质、灯光参数）的过程称为反向渲染（逆渲染），其目的是生成新视图、编辑材质或照明，或创建新动画[2]。

主要任务有：

几何与代理几何：NerfingMVS[9]用SfM估计的稀疏深度来监督单目深度估计网络，调整其尺度，然后再输入NeRF网络中实现视角一致性。ICCV2021 oral
照明：NeRV[10]以一组由无约束已知光照照亮的场景图像作为输入，并生成一个可以在任意光照条件下从新视点渲染的三维表示。
相机（位姿估计）：Self-Calibrating[11]在没有任何校准对象的情况下，共同学习场景的几何结构和精确的相机参数，提出了一张适用于具有任意非线性畸变的普通摄像机的摄像机自标定算法

4.2 可控编辑

虽然NeRF提供了对场景合理的表示，但是它并不允许人们对形状、外观进行编辑。对场景表示进行可控的编辑，是NeRF发展的一个重要方向。
编辑的方向主要包括：形状、外观、场景组合。
相关工作有：

EidtNeRF[21]
GRAF[22]
GIRAFFE (CVPR2021 Best Paper)
这些方法主要通过GAN和NeRF结合，实现了可控的编辑。

4.3 数字化人体

数字化人体是立体视觉中的一个重要领域。NeRF跟其他3D场景表征一样，也被应用于对人体进行建模。数字化人体主要包括：

脸部建模: 4D Facial Avatar[14]将3DMM和NeRF结合，实现了一个动态神经辐射场。输入一个单目视频，该方法能够实现人脸的位姿、表情编辑。
人体建模: Animatable[15]引入神经混合权重场来产生变形场，实现了人体建模。需要输入多视角视频。这个领域目前主要向SMPL靠近，就是给定一个规范空间，或者说template，然后从不同观测空间估计规范空间。
手部建模。

4.4 多模态

目前基于NeRF的扩展工作，大部分使用的是图像、单目视频作为输入。探索其他模态如文字、音频等与图像的结合，能够催生惊艳的应用效果。
相关工作有：

CLIP-NeRF[16]将CLIP和NeRF结合，实现了通过文字和图像编辑场景。目前还局限在椅子、汽车等简单模型中。进一步探索鸟、花等简单场景可能是一个方向。

4.5 图像处理

NeRF作为一种隐式表示，为传统的图像处理方法提供了一种新思路，即从隐式神经表示，或者神经场的角度来处理图像。这里的图像处理方法包括：压缩、去噪、超分、inpainting等。
相关工作有：

Neural Knitworks[17]提出了一种用于自然图像神经隐式表示学习的体系结构，它通过以对抗的方式优化图像补丁的分布，并通过增强补丁预测之间的一致性来实现图像合成

4.6 视频处理

使用神经场的方法来进行视频压缩、视频编辑。这些方法证明了单目视频与NeRF或者神经场方法结合会是一个重要方向。
相关工作有：

Layered Neural Atlases[18]提出了一种将输入视频分解并“展开”为一组分层2D地图集的方法，每个地图集都提供了视频上对象（或背景）外观的统一表示。该文章能够用一组参数来存储视频，能够实现令人惊艳的编辑效果。

4.7 特征领域

特殊领域包括：

机器人
医疗成像；
在医疗成像中，如CT和MRI，传感器探测的数据是人不可读的，需要经过离散采样并重建成体数据(3D)或者切片(2D)供人类观看。如果能够减少采样率，则可以减少CT和MRI的时间。NeRP[19]提出一种在稀疏采样下进行神经场重建的框架，并证明可以推广到医疗图像中。
偏微分方程求解

5 NeRF的未来

NeRF和神经场与单目视频的结合。这种结合已经催生了非常多高质量的工作和惊艳的效果，不管是Video for NeRF还是NeRF for Video，都是非常具有实用价值的。
多模态。图像与图像，文本与图像，视频与图像等。针对NeRF多模态的研究目前还比较少，CLIP-NeRF为我们研究提供了基础，这表明这个方向是可以继续发掘的，比如更加复杂的场景的多模态控制或者编辑。
在低级语义上的探索并没有特别完备，如去噪，图像恢复等。这一部分工作目前还没有成型的工作，是一片蓝海，如果能够基于隐式表示对这种视觉的Inverse Problem提出一个解决框架，是非常有意义的。
数字化人体，尤其是人脸建模。人**脸永远是应用最快最广泛的技术，这部分的工作也刚刚开始，**值得关注。
可控编辑。正如3D MM催生了很多基于3D表示解耦的方法，隐式表示如何提取可控量，实现可控编辑，是未来的一个重要方向。
从另一个角度来看：NeRF存在的问题与实际应用可以进行组合，也可以催生新的方法。

参考文献
1、Xie Y, Takikawa T, Saito S, et al. Neural Fields in Visual Computing and Beyond[J]. arXiv preprint arXiv:2111.11426, 2021.

2、Tewari A, Fried O, Thies J, et al. State of the art on neural rendering[C]//Computer Graphics Forum. 2020, 39(2): 701-727.

3、Lindell D B, Martel J N P, Wetzstein G. Autoint: Automatic integration for fast neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14556-14565.

4、Deng K, Liu A, Zhu J Y, et al. Depth-supervised nerf: Fewer views and faster training for free[J]. arXiv preprint arXiv:2107.02791, 2021.

5、Li Z, Niklaus S, Snavely N, et al. Neural scene flow fields for space-time view synthesis of dynamic scenes[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 6498-6508.

6、Trevithick A, Yang B. Grf: Learning a general radiance field for 3d representation and rendering[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 15182-15192.

7、Yu A, Ye V, Tancik M, et al. pixelnerf: Neural radiance fields from one or few images[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 4578-4587.

8、Barron J T, Mildenhall B, Tancik M, et al. Mip-nerf: A multiscale representation for anti-aliasing neural radiance fields[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5855-5864.

9、Wei Y, Liu S, Rao Y, et al. Nerfingmvs: Guided optimization of neural radiance fields for indoor multi-view stereo[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5610-5619.

10、Srinivasan P P, Deng B, Zhang X, et al. Nerv: Neural reflectance and visibility fields for relighting and view synthesis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7495-7504.

11、Jeong Y, Ahn S, Choy C, et al. Self-calibrating neural radiance fields[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5846-5854.

12、Niemeyer M, Geiger A. Giraffe: Representing scenes as compositional generative neural feature fields[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 11453-11464.

13、Gafni G, Thies J, Zollhofer M, et al. Dynamic neural radiance fields for monocular 4d facial avatar reconstruction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 8649-8658.

14、Gafni G, Thies J, Zollhofer M, et al. Dynamic neural radiance fields for monocular 4d facial avatar reconstruction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 8649-8658.

15、Peng S, Dong J, Wang Q, et al. Animatable neural radiance fields for modeling dynamic human bodies[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 14314-14323.

16、Wang C, Chai M, He M, et al. CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields[J]. arXiv preprint arXiv:2112.05139, 2021.

17、Czerkawski M, Cardona J, Atkinson R, et al. Neural Knitworks: Patched Neural Implicit Representation Networks[J]. arXiv preprint arXiv:2109.14406, 2021.

18、Kasten Y, Ofri D, Wang O, et al. Layered neural atlases for consistent video editing[J]. ACM Transactions on Graphics (TOG), 2021, 40(6): 1-12.

19、Shen L, Pauly J, Xing L. NeRP: Implicit Neural Representation Learning with Prior Embedding for Sparsely Sampled Image Reconstruction[J]. arXiv preprint arXiv:2108.10991, 2021.

20、Garbin S J, Kowalski M, Johnson M, et al. Fastnerf: High-fidelity neural rendering at 200fps[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 14346-14355.

21、Liu S, Zhang X, Zhang Z, et al. Editing conditional radiance fields[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5773-5783.

22、Schwarz K, Liao Y, Niemeyer M, et al. Graf: Generative radiance fields for 3d-aware image synthesis[J]. Advances in Neural Information Processing Systems, 2020, 33: 20154-20166.