本文旨在记录在实验室服务器上配置pytorch的全过程
预备
使用conda创建虚拟环境
首先使用命令conda env list 查看当前存在的环境:  然后使用指定python版本创建虚拟环境,使用conda create -n torchEnv python=3.9 ,这里的-n 为虚拟环境名字参数,这里为pytorchEnv,指定python版本为3.9;安装完成后,再次使用conda env list 查看当前存在的环境,其中的*号表示当前的虚拟环境: 
激活(切换)虚拟环境
由于收到Window上安装使用pytorch的影响,所以一直在使用activate pytorchEnv 命令来激活创建好的虚拟环境,但是一直没有出现任何反应,查询到linux上应该是使用source activate torchEnv 来激活,这时候,激活成功后,命令行的用户名前多了(torchEnv): 
开始
调研
问题
进入pytorch官网,一通操作(实际就是进入网站:https://pytorch.org/get-started/locally/),发现需要确定cuda版本:  行,那我直接使用命令nvidia-smi 查看一下我的cuda版本,发现我的cuda版本是11.6,然而,torch官网最高只有11.3:  所以,目前遇到的问题就是cuda版本问题。
探索
查看本机已有cuda版本
调研了一下,目前的本机上拥有的cuda版本,参考了博客(链接):
- 使用了
stat cuda 命令,查看当前的cuda命令是链接的哪一个文件,奇怪的是,这里的cuda链接的既不是cuda-11,也不是cuda-11.1,还不是cuda-11.6。  - 通过一系列的探索,发现最后的cuda指向的就是cuda-11.6,这和前面通过命令
nvidia-smi 查看到的cuda版本一致: 
去官网下载pytorch需要的版本
- 进入官网:nvidia-cuda-toolkit-archive,点击所需版本。
2. 发现需要弄清楚机器的体系架构。通过命令arch 来查看,然后使用官网给出的命令对应下载就完事了(当然还需要知道自己的操作系统版本):  
安装cuda结束
安装过程中,如果本机有Driver,就不需要选Driver,只需要勾选对应的toolkit即可。一般来讲,如果自带了高版本cuda,驱动的版本基本能满足低版本cuda所需驱动版本的。  根据上图安装cuda结束的提示,在当前用户目录下的.bashrc文件后加入如下代码:
export PATH=/usr/local/cuda-11.3/bin:$PATH
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.3/lib64
 也可以通过命令nvcc -V 查看cuda版本: 
继续安装pytorch
使用官方给出的命令安装即可,conda安装速度可能有点慢,可以使用镜像源,参考文章:配置镜像源
最后安装完成,进行测试: 
结束
安装完成后,才发现,pytorch给出的官方命令中(conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch ),-c参数不需要添加(即去掉-c pytorch),否则配置的镜像源没用。。。
问题
出现了大问题,大致问题就是,我创建的虚拟环境torchEnv中没pytorch,但是,base虚拟环境中装上了、、、好像问题也不大,反正都能用,不过还是没弄清楚哪里出了问题,待解决
创作开始时间:2022-3-1早上 创作结束时间:2022-3-1晚上
|