[人工智能] 模型每次跑的结果不同怎么办？

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 模型每次跑的结果不同怎么办？ -> 正文阅读

[人工智能]模型每次跑的结果不同怎么办？

模型每次跑的结果不同怎么办？

我使用pytorch跑深度学习模型时发现每次跑的结果都不一样，所以在此总结了一下如何解决的方法。

1、首先设置种子

在代码中加入下面这个函数方法：

def set_random_seed(seed, deterministic=False):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    if deterministic:
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False

加入这个函数后，torch.utils.data.RandomSampler、 random.shuffle(list)、以及模型初始化数值等都会保持一致。

2、逐步检查

一般来说，加入上述代码后，就可以解决问题。但是如果你每次结果还是不一样，那可能是数据处理的代码写的有点问题。

如何检查哪个地方不对呢？

我是使用的比较笨的方法，即设置断点，两次启动程序，将模型的输入（比如 for step, batch in enumerate(dataloader): 里面的这个batch的值）都保存下来，然后查看这两次的结果是否一样。

比如，使用np.save(“xxx.npy”,xxx)保存，跑两次后，使用np.load(“xxx.npy”)加载两次的保存结果x1,x2，然后对比这两次结果是否一样。比如，类似下面代码的比对代码。

x1=list(x1)
x2=list(x2)
count=0
f_count=0
for i in range(len(x1)):
    count=count+1
    if (x1[i]!=x2[i]).all():
    #if x1[i]!=x2[i]:
        f_count=f_count+1

print(“总数量”,count)
print("不一样的数量",f_count)

然后逐渐往前进行检查，就可以发现问题数据所在。