| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 58、NeuMan: Neural Human Radiance Field from a Single Video -> 正文阅读 |
|
[人工智能]58、NeuMan: Neural Human Radiance Field from a Single Video |
简介主页:https://machinelearning.apple.com/research/neural-human-radiance-field
相关工作
贡献点
实现流程NeRF 回顾 主要由两个NeRF网络组成 The Scene NeRF Modelscene NeRF模型与传统运动检测工作中的背景模型相似,不同的是,它是一个NeRF,构建了一个NeRF模型,并只使用被认为来自背景的像素进行训练 对于射线 r,给定人体分割掩码为 M?,其中如果射线对应于人体,M? = 1,而 M? = 0对应于背景,将场景NeRF模型的重建损失表示为 如 Video-NeRF 中empty loss,简单地最小化Eq. 3会导致“模糊的”物体漂浮在场景中,通过在估计密度上添加正则化器来解决这个问题,并强制相机和场景之间的空间为0,对于每条射线 r, 对终止深度值
z
^
r
=
D
f
u
s
e
(
r
)
\hat{z}r = D_{fuse}(r)
z^r=Dfuse?(r)进行采样并最小化 结合后损失函数为 Preprocessing给定一个视频序列,使用COLMAP来获取摄像机姿态、稀疏场景模型和多视点立体(MVS)深度图。通常情况下,MVS深度图 D m v s D_{mvs} Dmvs? 包含孔,使用密集的单眼深度图 D m o n o D_{mono} Dmono? 填充孔。将 D m v s D_{mvs} Dmvs? 和 D m o n o D_{mono} Dmono? 融合在一起,得到一个具有一致比例尺的融合深度图 D f u s e D_{fuse} Dfuse? 。 更详细地说,使用具有两个估计值的像素,找到两个深度映射之间的线性映射。然后用这个映射变换 D m o n o D_{mono} Dmono? 的值,以匹配 D m v s D_{mvs} Dmvs? 中的深度标度,通过填充孔得到融合深度图 D f u s e D_{fuse} Dfuse? 。 在检索人体分割地图时,使用 Mask-RCNN。人体的掩码进一步扩张了 4% ,以确保人体完全掩盖了。根据估计的相机姿态和背景掩模,只在背景上训练场景NeRF模型。 The Human NeRF Model为了建立一个可以姿势驱动的人体模型,要求模型是姿势独立的,为此,定义了一个基于大-pose (Da-pose) SMPL 网格的规范空间,与传统的 T-pose 相比,Da-pose 避免了腿部从观察空间弯曲到规范空间时的体积碰撞。 为了用该模型在观察空间中渲染一个人的像素,将沿该射线的点转换为规范空间,困难在于如何将 SMPL 网格的转换扩展到整个观测空间,以允许在规范空间中进行光线跟踪,这里使用一种简单的策略将 网格skinning 扩展到体积弯曲领域。 在每一帧 f 中,给定观测空间中的一个三维点
x
f
=
r
f
(
t
)
x_f = r_f (t)
xf?=rf?(t),并根据预处理得到相应的 SMPL 网格估计
θ
f
θ_f
θf? ,对其在网格上的最近点进行刚变换,将其转化为正则空间;将这个基于网格的变换表示为 T,使
x
f
′
=
T
θ
f
(
x
f
)
x'_f = T_{θ_f} (x_f)
xf′?=Tθf??(xf?) 。然而,这种转换完全依赖于
θ
f
θ_f
θf? 的准确性,这是不可靠的,即使与最近的艺术状态。为了缓解 SMPL 估计值与潜在人体之间的偏差,在训练时联合优化
θ
f
θ_f
θf? 和神经辐射场。 此外,为了考虑到 SMPL 模型无法表达的细节,引入了纠错网络
ε
\varepsilon
ε,一种修正翘曲场中的错误的MLP。最后,得到观测空间中的点与规范空间
x
f
→
x
~
f
′
x_f→\tilde{x}'_f
xf?→x~f′? 中的校正点之间的映射为 由于使用单一的规范空间来解释所有的姿势,纠错网络自然地对每一帧进行过拟合,使规范体更加一般化。 由于翘曲场的性质,在观测空间中的一条直线在翘曲后的正则空间中是弯曲的。因此,通过考虑光线在标准空间中的实际传播方式,通过观察前一个样本的位置,重新计算了视角 为了渲染一个像素,发射两条射线,一条用于人体NeRF,另一条用于场景NeRF。沿着射线计算两组样本的颜色和密度。然后根据它们的深度值按升序对颜色和密度进行排序,类似于 ST-NeRF。最后,对这些值进行积分,使用Eq.(2)得到像素。 Training为了训练人体辐射场,在人体掩码覆盖的区域上采样,并将其最小化 为了避免规范空间中的斑点和半透明的 canonical human,强制规范SMPL网格内部的体积为固体,而强制规范SMPL网格外部的体积为空,由 Preprocessing Scene-SMPL Alignment利用ROMP 来估计视频中人体的SMPL参数。然而,估计的SMPL参数并不准确。因此,使用估计的轮廓和估计的二维关节优化SMPL参数,细化SMPL估计。然后将SMPL估算值与场景坐标对齐。 Scene-SMPL Alignment 效果
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 20:19:41- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |