IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> In-Place Scene Labelling and Understanding with Implicit Scene Representation -> 正文阅读

[人工智能]In-Place Scene Labelling and Understanding with Implicit Scene Representation

?用nerf做语义分割

Abstract

语义标记Semantic labelling与几何形状geometry 和辐射重建radiance reconstruction高度相关,因为具有相似形状和外观的场景实体更有可能来自相似的类别。最近的隐式神经重建技术很有吸引力,因为它们不需要预先的训练数据,但同样的完全自监督的方法是不可能进行语义的,因为标签是人类定义的属性。

我们扩展了神经辐射场(NeRF),以联合编码具有外观和几何形状的语义jointly encode semantics with appearance and geometry,以便可以使用少量特定于场景的就地注释 in-place annotations 来实现完整和准确的二维语义标签?2D semantic labels。NeRF语义固有的多视图一致性multi-view consistency平滑性smoothness 有利于使稀疏标签得以有效传播。当标签在房间尺度的场景中是稀疏的或非常嘈杂的时sparse or very noisy in room-scale?scenes,我们展示了这种方法的好处。我们在视觉语义映射系统visual semantic mapping systems中展示了它的优势,如高效的场景标记工具efficient scene labelling tool、新语义视图合成novel semantic view synthesis、标签去噪label denoising、超分辨率super-resolution、标签插值label interpolation和多视图语义标签融合multi-view semantic label fusion

?

图1:神经辐射场(NeRF)联合编码外观和几何形状,包含了分割和聚类的强先验。在此基础上,我们创建了一个特定场景的3D语义表示,semantic -nerf,并表明它可以通过现场监督有效地学习,以执行各种潜在的应用程序。

1. Introduction

机器学习方法在几何和语义预测任务中都被证明是有价值的,但当训练数据的分布与测试时观察到的场景不匹配时,这些方法的性能就会受到影响。虽然这个问题可以通过收集昂贵的注释数据或半监督学习来缓解,但在具有各种已知和未知类的开放集场景中并不总是可行的。

估计场景的几何形状和预测其语义标签的任务是密切相关的,因为具有相似形状的场景更可能属于同一语义类别,而不是差异很大的语义类别。其中同时预测形状和语义的网络比单独处理任务时表现得更好。

然而,与场景几何?scene geometry不同的是,语义类semantic classes是一个人类定义的概念,它不可能以一种纯粹的自我监督的方式来语义地标记一个新的场景。所能达到的最好方法是将场景的自相似结构聚为类别cluster self-similar structures of a scene into categories;但是总是需要一些标签来将这些集群与人类定义的语义类联系起来。

在本文中,我们展示了如何设计一个特定场景的网络用于联合几何和语义预测,并在只有弱场景任务监督(没有几何监督)的单一场景的图像上进行训练。因为我们的单一网络必须同时生成几何图形和语义,这些任务之间的相关性意味着语义预测可以受益于几何自监督学习到的平滑性、相干性和自相似性?smoothness, coherence and self-similarity。此外,多视图一致性是训练过程中固有的,使网络能够产生准确的场景语义标签,包括与输入集中的任何视图有本质上不同的视图。

我们的系统以一组具有相关的已知相机姿态的RGB图像作为输入。我们还为图像提供一些部分或有噪声的语义标签,例如为一小部分图像提供地面真实标签,或为更多数量的图像提供有噪声或粗糙的标签映射。我们训练我们的网络共同为整个场景的几何和语义的隐式三维表示。

我们对来自复制数据集Replica dataset[28]的场景进行了定量和定性的评估,并对来自ScanNet数据集[3]的真实世界的场景进行了定性的评估。从部分或噪声输入标签为整个场景生成密集的语义标签对于实际应用很重要,比如当机器人遇到一个新场景时,只有少量的现场标签是可行的,或者只有一个不完美的单视图网络可用。

3. Method

3.1. Preliminaries

NeRF简介

3.2. Semantic-NeRF

?

图2:Semantic-NeRF网络架构。在进行位置编码(PE)后,将三维位置方向(x、y、z)观察方向(θ、φ)输入网络。体积密度σ语义逻辑semantic logits?s三维位置的函数,而颜色c另外取决于观察方向。

我们现在展示如何扩展NeRF来联合编码外观、几何和语义。如图2所示,我们在向MLP中注入查看方向之前,通过添加一个分割渲染器来增强原始的NeRF。

我们将语义分割形式化为一个固有的视图不变函数,它通过 pre-softmax?semantic logits?s(x),只将一个世界坐标x映射到C语义标签上的分布:

?

其中,FΘ表示学习到的mlp。

图像平面上给定像素的近似期望语义对数?S(r)可以写为:

?

?

α(x)=1?exp(?x),δk=tk+1?tk是相邻样本点之间的距离。语义对数可以Semantic logits通过一个软极大的归一化层softmax normalisation layer?转换为多类概率multi-class probabilities

3.3. Network Training

?

其中,R为训练批内的采样射线,分别为射线r的地面真实值、粗体积预测和细体积预测的RGB颜色。同样,分别是在地面真实图的第l类上的多类语义概率、rayr的粗体积预测和细体积预测。选择Ls作为多类交叉熵损失,以鼓励呈现的语义标签与提供的标签一致,无论这些是地面真实、噪声还是部分观察。因此,总训练损失L为:

?其中λ为语义损失的权重,设置为0.04以平衡两个损失的大小[8]。在实践中,我们发现实际性能对λ值并不敏感,将λ设置为1也会得到类似的性能。这些光度和语义损失自然地鼓励网络从底层的联合表示中生成多视图一致的二维渲染。

3.4. Implementation

通过对每个场景的网络从头开始训练,获得特定场景的语义表示。我们使用类似于[16(NeRF)]的设置和超参数。具体来说,我们使用分层体积采样来联合优化粗网络和细网络,其中前者提供了重要性抽样偏差,以便后者可以将更多的样本分布到可能可见的位置。长度为10和4[32,30]的位置编码分别应用于三维位置和观看方向。此外,由于我们没有深度信息,我们在实验中将射线采样的边界分别设置为0.1m和10m,而没有对室内场景进行仔细调整

4. Experiments and Applications

通过对彩色图像和具有相关姿态的语义标签的训练,我们得到了一个特定于场景的隐式三维语义表示。我们通过将三维表示投影回二维图像空间来定量地评估它的有效性,在那里我们可以直接访问显式的地面真实数据。我们的目的是展示有效学习这种联合三维表示对语义标记和理解的好处和有前途的应用。我们强烈敦促读者在项目页面上检查更多的定性结果:https://shuaifengzhi.com/Semantic-NeRF/。

?

图3:在训练过程中,给出100%和10%的地面真实标签的测试姿态时的合成语义标签。从左到右,我们显示了地面真实的颜色和语义图像以供参考,并分别在100%和10%的监督下呈现了语义标签及其信息熵。熵图的明亮部分与相应训练设置中的物体边界或模糊/未知区域匹配良好。

?

图5:语义去噪的定性结果。即使当90%的训练标签都是随机损坏的,我们也可以恢复一个精确的去噪语义映射。从左到右是有噪声的训练标签,训练后从相同姿势呈现的去噪标签,以及信息熵。我们在去噪任务中看到的整体高熵表明,有噪声的训练标签之间有很大的不一致性。

5. Conclusion and Future Work

我们已经证明,在特定的几何和外观隐式MLP模型中添加语义输出意味着当只有部分、噪声或低分辨率语义监督时,可以为场景生成完整和高分辨率的语义标签这种方法在机器人技术或其他应用中有实际应用,在只有有限标签的新场景中是可能的。

未来研究的一个有趣的方向是交互式标签,持续训练网络要求新的标签,这将最能解决整个场景的语义模糊。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-24 18:10:12  更:2022-05-24 18:15:11 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 4:37:30-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码