| 我使用pytorch跑深度学习模型时发现每次跑的结果都不一样,所以在此总结了一下如何解决的方法。 1、首先设置种子在代码中加入下面这个函数方法: def set_random_seed(seed, deterministic=False):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    if deterministic:
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False
 加入这个函数后,torch.utils.data.RandomSampler、 random.shuffle(list)、以及模型初始化数值等都会保持一致。 2、逐步检查一般来说,加入上述代码后,就可以解决问题。但是如果你每次结果还是不一样,那可能是数据处理的代码写的有点问题。 如何检查哪个地方不对呢? 我是使用的比较笨的方法,即设置断点,两次启动程序,将模型的输入(比如 for step, batch in enumerate(dataloader): 里面的这个batch的值)都保存下来,然后查看这两次的结果是否一样。 比如,使用np.save(“xxx.npy”,xxx)保存,跑两次后,使用np.load(“xxx.npy”)加载两次的保存结果x1,x2,然后对比这两次结果是否一样。比如,类似下面代码的比对代码。 x1=list(x1)
x2=list(x2)
count=0
f_count=0
for i in range(len(x1)):
    count=count+1
    if (x1[i]!=x2[i]).all():
    #if x1[i]!=x2[i]:
        f_count=f_count+1
print(“总数量”,count)
print("不一样的数量",f_count)
 然后逐渐往前进行检查,就可以发现问题数据所在。 3、可能出错的地方set(list) 这个方法会使得list本身的顺序改变,慎用其他的还没坑还没遇到,遇到了再填上…(欢迎写下你发现的坑)
 |