IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> MVSNet、R-MvsNet的一些理解 -> 正文阅读

[人工智能]MVSNet、R-MvsNet的一些理解

一、MVSNet一些操作

1、MVSNet 构建特征体

参考图像的一个pixel(记作x)(r image),在其拍摄方向给定的深度(d_i)对应着一个三维点(x_i)即世界坐标值,它投影到matching image会打在某个pixel(x_i)(相机坐标系–>归一化得到像素坐标)的位置。x与x_i的匹配代价或者说是相似程度,就是cost volume记录的内容。这个cost volume通过多个3D卷积得到一个初始的深度图。最后这个初始深度图(initial depth map)和reference image共同作用,去改善边界范围的准确率。
从参考视角到去找源视角的像素坐标对应点的计算过程,可以用单应性矩阵来描述。
连接变换后的特征Vi(d)和第i个视角图像特征Fi的是与参考相机视角下深度d相关的仿射变换。
这里得到的是N+1个特征体,特征体类似一摞书,长、宽、页数表示32通道,深度可以用第几本书表示。

在这里插入图片描述

2、构建代价体

将N+1个特征体聚合为一个统一的代价空间,将N+1摞书转换为一摞书
代价体的方差聚合可以融合多视角的信息,就是比较对应点的特征相似程度,相似度越高,说明这个平面对应的深度越接近真实深度。
特征体都是重叠放置在一起的,将每摞书第一页(有32个channel)左上角的点都取出来,然后计算方差,得到输出的那摞书的第一页左上角的点。对每个空间点都进行这样的计算,得到输出的一摞书,即最终的代价空间,每一本代表一个深度

3、构建概率体

一摞书变成一本书,三维卷积的最后将通道降为1,也就是把每本书都变成一页纸,一张纸代表一个深度,对于书页((W,H)平面)上的每一个点,若它在第三页的值最大,那么这个点的深度就为第三页的取值。使用一个3D U-Net结构来将代价 cost 转化为概率,即对于(W,H)平面上的每个点,沿D方向的概率合为1.,这便得到最终的概率空间P。视角图像中的每一个像素在参考相机坐标系下的深度的概率
生成的概率体既可以用于逐像素的深度估计,同时可用于测量估计的置信度

这里参考了一些文章
https://zhuanlan.zhihu.com/p/571631019
https://zhuanlan.zhihu.com/p/148569782
博客1

二、R-MVSNet

基本流程是和MVSNet基本类似,平面扫面转换视角构建代价体,正则化的时候使用循环神经网络RNN进行序列化处理,用2D的卷积加上GNU(门控循环单元)来处理每一张特征图。

1、循环神经网络

有些任务需要更好的处理序列信息,前面的输入和后面的输入有关系。每次会得到当前隐藏层的输出以及传递给下一节点的隐藏状态
在这里插入图片描述
这是一个简单的循环神经网络,隐藏层中的值S不仅取决于本次的输入X,还取决于上一次隐藏层的值S’,权重矩阵W就是隐藏层上一次的值作为这一次的输入所占的权重,W相当于是参数乘以S’输入S中。
在这里插入图片描述
GRU是RNN的一种,,可以解决RNN中不能长期记忆和反向传播中的梯度等问题。
这里学习了这篇博客
在这里插入图片描述
请添加图片描述 :表示当前时刻输入数据

请添加图片描述 :表示上一时刻的隐藏状态,包含了前面的记忆。

请添加图片描述 :传递到下一时刻的隐藏状态

请添加图片描述:候选隐藏状态
请添加图片描述 :重置门

请添加图片描述:更新门

请添加图片描述:sigmoid函数,将数据映射到[0,1]范围内。

tanh : tanh函数,将数据映射到[-1,1]范围内。

在这里插入图片描述
公式推导可以参考链接的博客
候选隐藏信息是通过当前信息的输入以及重置门乘上一时刻的来的;最终的隐藏状态会因为更新门获得上一时刻的某些信息,并加入当前节点的候选隐藏状态的一些信息。

在这里插入图片描述

2、代价体正则化在这里插入图片描述

沿着深度防线,顺序逐步处理代价体,在内存占用方面要优于使用3D CNN,提升了模型的精度和效率,使得高分辨率的深度图/立体重建成为可能。
GRU+Softmax
在文章中为3层GRU单元堆栈形成一个深度网络,将每个特征体(32 channel)转换为16channel作为输入,每一层GRU输出作为下一层的输入,输出channel数为16、4、1的损失图,这里应该是对应深度数量的损失图。
再通过softmax层得到概率体。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-10-22 21:15:35  更:2022-10-22 21:17:59 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 22:21:30-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码