我使用pytorch跑深度学习模型时发现每次跑的结果都不一样,所以在此总结了一下如何解决的方法。
1、首先设置种子
在代码中加入下面这个函数方法:
def set_random_seed(seed, deterministic=False):
random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)
if deterministic:
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False
加入这个函数后,torch.utils.data.RandomSampler、 random.shuffle(list)、以及模型初始化数值等都会保持一致。
2、逐步检查
一般来说,加入上述代码后,就可以解决问题。但是如果你每次结果还是不一样,那可能是数据处理的代码写的有点问题。
如何检查哪个地方不对呢?
我是使用的比较笨的方法,即设置断点,两次启动程序,将模型的输入(比如 for step, batch in enumerate(dataloader): 里面的这个batch的值)都保存下来,然后查看这两次的结果是否一样。
比如,使用np.save(“xxx.npy”,xxx)保存,跑两次后,使用np.load(“xxx.npy”)加载两次的保存结果x1,x2,然后对比这两次结果是否一样。比如,类似下面代码的比对代码。
x1=list(x1)
x2=list(x2)
count=0
f_count=0
for i in range(len(x1)):
count=count+1
if (x1[i]!=x2[i]).all():
#if x1[i]!=x2[i]:
f_count=f_count+1
print(“总数量”,count)
print("不一样的数量",f_count)
然后逐渐往前进行检查,就可以发现问题数据所在。
3、可能出错的地方
- set(list) 这个方法会使得list本身的顺序改变,慎用
- 其他的还没坑还没遇到,遇到了再填上…(欢迎写下你发现的坑)
|