IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> cv2 interpolate插值-align_corners -> 正文阅读

[人工智能]cv2 interpolate插值-align_corners

torch interpolate


torch.nn.functional.interpolate(input, size=None, scale_factor=None, mode='nearest', align_corners=None, recompute_scale_factor=None)

  • input (Tensor):输入数据
  • size (int or Tuple[int] or Tuple[int, int] or Tuple[int, int, int]):输出数据的尺寸
  • scale_factor (float or Tuple[float]):缩放因子
  • mode (str):采样算法
  • align_corners (bool, optional):几何上,我们认为输入和输出的像素是正方形,而不是点。如果设置为True,则输入和输出张量由其角像素的中心点对齐,从而保留角像素处的值。如果设置为False,则输入和输出张量由它们的角像素的角点对齐,插值使用边界外值的边值填充;当scale_factor保持不变时,使该操作独立于输入大小。仅当使用的算法为’linear’, ‘bilinear’, 'bilinear’or 'trilinear’时可以使用。默认设置为False

角像素:缩放后四个角的像素值

注意:

  1. scale_factor与size只能设置一个。
  2. 当设置scale_factor时,会对输出size下取整,比如输入[2, 2], scale_factor=2.1, 则输出size为[4.2, 4.2] = [4, 4]。
  3. 当设置scale_factor时,再设置recompute_scale_factor时,会根据输出的实际大小重新计算一下scale_factor。
  4. 用scale_factor不用size是因为scale_factor可以不写死大小,而size会固定输出大小,在处理多分辨率输入图像的时候会有问题。
input:输入Tensor。

size:插值后输出Tensor的空间维度的大小,这个spatial size就是去掉Batch,Channel,Depth维度后剩下的值。比如NCHW的spatial size是HW。

scale_factor(float 或者 Tuple[float]):spatial size的乘数,如果是tuple则必须匹配输入数据的大小。
mode(str):上采样的模式,包含'nearest' | 'linear' | 'bilinear' | 'bicubic' | 'trilinear' | 'area'。 默认是 'nearest'。

align_corners(bool):在几何上,我们将输入和输出的像素视为正方形而不是点。 如果设置为True,则输入和输出张量按其角像素的中心点对齐,保留角像素处的值。 如果设置为False,则输入和输出张量按其角像素的角点对齐,插值使用边缘值填充来处理边界外值,当scale_factor保持不变时,此操作与输入大小无关。 这仅在mode为 'linear' | 'bilinear' | 'bicubic' | 'trilinear'时有效。默认值是False。

recompute_scale_factor(bool):重新计算用于插值计算的
scale_factor。 当 scale_factor 作为参数传递时,它用于计算 output_size。 如果 recompute_scale_factor 为 False 或未指定,则传入的 scale_factor 将用于插值计算。 否则,将根据用于插值计算的输出和输入大小计算新的 scale_factor(即,等价于显示传入output_size)。 请注意,当 scale_factor 是浮点数时,由于舍入和精度问题,重新计算的 scale_factor 可能与传入的不同。

ops_version对导出onnx影响:

op9, op10是Unsample,而op11变成了Resize。

不同的ops_version对interpolate的支持程度:

F.interpolatenearest bilinear, align_corners=Falsebilinear, align_corners=Truebicubic
op-9YYNN
op-10YYNN
op-11YYYY

align_corner的表现行为:

align_corner

如果设置为True,则输入和输出张量由其角像素的中心点对齐,从而保留角像素处的值。如果设置为False,则输入和输出张量由它们的角像素的角点对齐,插值使用边界外值的边值填充

opencv, PIL的align_corner为False, mxnet为True,而torch和tensorflow可以设置。


?首先介绍 align_corners=False,它是 pytorch 中 interpolate 的默认选项。这种设定下,我们认定像素值位于像素块的中心,如下图所示:(3*3)

?对它上采样两倍后,得到下图:(6*6)

首先观察绿色框内的像素,我们会发现它们严格遵守了 bilinear 的定义。而对于角上的四个点,其像素值保持了原图的值。边上的点则根据角点的值,进行了 bilinear 插值。所以,我们从全局来看,内部和边缘处采用了比较不同的规则。?


?接下来,我们看看 align_corners=True 情况下,用同样画法对上采样的可视化:(5*5)

这里像素之间毫无对齐的美感,强迫症看到要爆炸。事实上,在 align_corners=True 的世界观下,上图的画法是错误的。在其世界观里,像素值位于网格上,如下图所示:?

那么,把它上采样两倍后,我们会得到如下的结果:

?


1、align_corners 参数的实验(2*2-4*4)

import torch
import torch.nn as nn
import torch.nn.functional as F

a = [[1., 2.], [4., 5.]]
a = torch.tensor(a).reshape(1, 1, 2, 2)
x = F.interpolate(a, scale_factor=2, mode='bilinear', align_corners=True)
print(x)
#tensor([[[[1.0000, 1.3333, 1.6667, 2.0000],
#          [2.0000, 2.3333, 2.6667, 3.0000],
#          [3.0000, 3.3333, 3.6667, 4.0000],
#          [4.0000, 4.3333, 4.6667, 5.0000]]]]) # 等距

y = F.interpolate(a, scale_factor=2, mode='bilinear', align_corners=False)
print(y)
#tensor([[[[1.0000, 1.2500, 1.7500, 2.0000],
#          [1.7500, 2.0000, 2.5000, 2.7500],
#          [3.2500, 3.5000, 4.0000, 4.2500],
#          [4.0000, 4.2500, 4.7500, 5.0000]]]])  # 不等距

2、align_corners 参数的实验(3*3-6*6)?

import torch
import torch.nn as nn
import torch.nn.functional as F
a = [[1., 2., 3.], [4., 5., 6.], [7., 8., 9.]]
a = torch.tensor(a).reshape(1, 1, 3, 3)
print(a)
#tensor([[[[1., 2., 3.],
#          [4., 5., 6.],
#          [7., 8., 9.]]]])

x = F.interpolate(a, scale_factor=2, mode='bilinear', align_corners=True)
print(x)
#tensor([[[[1.0000, 1.4000, 1.8000, 2.2000, 2.6000, 3.0000],
#          [2.2000, 2.6000, 3.0000, 3.4000, 3.8000, 4.2000],
#          [3.4000, 3.8000, 4.2000, 4.6000, 5.0000, 5.4000],
#          [4.6000, 5.0000, 5.4000, 5.8000, 6.2000, 6.6000],
#          [5.8000, 6.2000, 6.6000, 7.0000, 7.4000, 7.8000],
#          [7.0000, 7.4000, 7.8000, 8.2000, 8.6000, 9.0000]]]])  # 等距

y = F.interpolate(a, scale_factor=2, mode='bilinear', align_corners=False)
print(y)
#tensor([[[[1.0000, 1.2500, 1.7500, 2.2500, 2.7500, 3.0000],
#          [1.7500, 2.0000, 2.5000, 3.0000, 3.5000, 3.7500],
#          [3.2500, 3.5000, 4.0000, 4.5000, 5.0000, 5.2500],
#          [4.7500, 5.0000, 5.5000, 6.0000, 6.5000, 6.7500],
#          [6.2500, 6.5000, 7.0000, 7.5000, 8.0000, 8.2500],
#          [7.0000, 7.2500, 7.7500, 8.2500, 8.7500, 9.0000]]]])  # 不等距

?

参考博客:

一文看懂align_corners - 知乎

cv2.reisze, interpolate采样比较 - bairuiworld - 博客园

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-08 22:28:33  更:2022-03-08 22:31:14 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 2:28:00-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码