在深度学习模型中经常会用到torch.argmax函数,网上对它的讲解多是针对指定dim参数的情况。但是最近遇到了一个dim=None的情况,不是很理解,查了半天也没找到相关的解释。自己写了个例子试了一下,大概理解了,记录一下,做个备忘。
import torch
a = torch.rand((2, 2, 3, 4))
b, d, w, h = a.shape
print(a)
index = torch.argmax(a)
print(index)
z = int(index // w // h)
index -= z * w * h
x = int(index // h)
index -= x * h
y = int(index)
print(z, x, y)
运行结果:
tensor([[[[0.2936, 0.2863, 0.5059, 0.4042],
[0.9422, 0.4629, 0.8336, 0.0168],
[0.9002, 0.8628, 0.3787, 0.9284]],
[[0.5688, 0.2993, 0.3334, 0.9471],
[0.4500, 0.1274, 0.1956, 0.6806],
[0.8735, 0.5767, 0.8293, 0.3108]]],
[[[0.3033, 0.8770, 0.2276, 0.4150],
[0.2653, 0.9783, 0.2614, 0.9467],
[0.4042, 0.8505, 0.0225, 0.4542]],
[[0.8606, 0.3494, 0.1172, 0.4817],
[0.1268, 0.2600, 0.1153, 0.6345],
[0.7228, 0.9589, 0.2653, 0.5185]]]])
tensor(29)
2 1 1
首先生成了一个随机矩阵a,从矩阵a来看,最大值为0.9783. 其索引为(2, 1, 1)。torch.argmax(a)返回的index只有一个值29。下面理解一下29是怎么来的,首先对于矩阵a,其shape为(2, 2, 3, 4), 29=[2×(3×4)]+1×4+1×1=24+4+1。可以理解为,对于d维度,必须满足w和h维度后,才有d维度;对于w维度,必须满足h维度后才有w维度;对于h维度,h维度就是单个的数。
这么讲可能讲不太清楚,可结合256 = 2×100+5×10+6×1来理解,其中100=10×10,也就是256=2×(10×10)+5×10+6×1。所以,通过上述代码,可在未指定dim时求解出整个矩阵最大值的具体索引。
这是对于不指定dim时的高维矩阵的情况,在指定dim时,网上有很多讲解的博客,这里就不记录了,想了解可以看这一篇博客。
上述内容是个人理解,如有不对,欢迎指正!
|