服务器开荒日记(CUDA、cuDNN、nvidia-fabricmaneger安装)—–解决nvcc、驱动正常,但GPU无法正常使用问题
1 安装显卡驱动
1.1 禁用nouveau
1 | sudo vim /etc/modprobe.d/blacklist-nouveau.conf |
在文件中插入以下内容,将nouveau加入黑名单,默认不开启
1 | blacklist nouveau |
输入以下命令使禁用生效然后重启
1 | sudo update-initramfs -u |
重启后验证
1 | lsmod | grep nouveau |
如果回车后无反应,则禁用成功
1.2 安装显卡驱动
查询电脑最适合的显卡驱动版本
1 | ubuntu-drivers devices |
安装推荐的显卡驱动,后面标recommended
1 | sudo apt-get update |
安装完成后重启
1 | sudo reboot |
重启后在终端验证
1 | nvidia-smi |
若出现GPU列表,则安装成功
2 安装CUDA
下载CUDA),并按照官方提示安装。
1 | wget https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run |
等待一会,会出现安装界面,取消第一个Driver选项里的X,[X]改为[ ],选择Install。
安装完后需要配置环境变量,将以下内容添加到~/.bashrc
文件中。
1 | sudo vim ~/.bashrc |
在文件末尾添加如下两行。
1 | export LD_LIBRARY_PATH=/usr/local/cuda/lib |
然后刷新~/.bashrc
配置文件,使得配置生效。
1 | source ~/.bashrc |
测试、查询nvcc版本检查是否安装成功
1 | nvcc -V |
3 安装cuDNN
cuDNN下载链接, 下载对应版本的cuDNN
1 | wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb |
4 安装Fabric-manager(天坑)
之前装好了显卡驱动、CUDA、cuDNN后,使用Pytorch测试一直显示GPU不可用,报错代码:
1 | Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized |
只能尝试重装驱动和CUDA等,试了无数个版本都未果。丢给DeepSeek、文心一言、豆包等都是得到教科书式的标准答案:”建议检查驱动兼容性”、”尝试清理残留文件”,最后天无绝人之路,尝试丢给ChatGPT,答案输出的同时,瞬间看出具体问题所在,激动的心,颤抖的手。。。
在使用NVIDIA显卡(V100/A100/A30等)时,需要安装对应的驱动,还要安装与驱动版本对应的 nvidia-fabricmanager 服务,使GPU卡间能够通过NVSwitch互联。
安装nvidia-fabricmanager:
1 | version=570.xxx.xx #已经安装的驱动版本 |
启动服务
1 | systemctl start nvidia-fabricmanager |
查看状态
1 | systemctl status nvidia-fabricmanager |
设置开机自启动
1 | systemctl enable nvidia-fabricmanager |
5 使用Pytorch验证
使用miniconda安装好对应版本的Pytorch,运行下面的程序进行验证。
1 | import torch |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 养猫的少年~!