目录

cuda环境的配置

cuda环境的配置

分为不同的系统,把环境变量的搞好就行

cuda版本可以向下兼容

比如我的cuda是11.0.

如果我安装需要cuda11.1的库,那么肯定过不了。

但是如果我安装cuda版本为10.1的,那么可以继续兼容安装

基于docker 的nvida环境配置

要配置好这个环境1,需要首先安装好NVIDIA Container Toolkit的这个容器。 和配置cuda类似,主要需要注意cuda的版本要和自己的cuda版本兼容

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
# install NVIDIA Container Toolkit

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
   && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
   
curl -s -L https://nvidia.github.io/nvidia-container-runtime/experimental/$distribution/nvidia-container-runtime.list | sudo tee /etc/apt/sources.list.d/nvidia-container-runtime.list

sudo apt-get update

sudo apt-get install -y nvidia-docker2

sudo systemctl restart docker


# run a container with gpu

# 一个基于Ubuntu的基础镜像
sudo docker run --rm --gpus all nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi


#sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi
#or 
#nvidia-docker run --rm all nvidia/cuda:11.0-base nvidia-smi

其他项目如果需要使用到NVIDIA环境,那么需要在启动时声明。

mindspore 环境的安装

我这里选择的是用docker去安装

1
docker run -i -p 51020:22 -p 51180:8888 -v /dev/shm:/dev/shm -v $PWD/ms:/home --runtime=nvidia swr.cn-south-1.myhuaweicloud.com/mindspore/mindspore-gpu-cuda10.1:1.8.1 

docker ssh服务

设置root用户密码为admin

1
passwd

开启容器的ssh服务

https://www.cnblogs.com/devilmaycry812839668/p/13691236.html

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
# update source
apt-get update

# install ssh
apt-get install openssh-server

# maybe need 
mkdir /run/sshd

# start
/usr/sbin/sshd -D &


# 注意

ssh服务,可以设置为该环境的初始启动命令

打开root用户的登录权限

1
2
3
通过 cat 等指令查看 /etc/ssh/sshd_config 中是否包含类似如下配置:
PermitRootLogin no
改为yes

然后重启ssh服务就行

ref

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker

https://juejin.cn/post/6999883472487596062