這兩天按照之前自己寫的步驟來裝 NV Driver
結果又有問題了
裝到 cuda 的時候,出現以下畫面
就是不行,順道提一下清除指令如下
sudo apt-get --purge remove nvidia-* <-- 新發現 sudo apt-get --purge remove "*nvidia*" <-- 新發現 sudo apt purge nvidia* -y sudo apt remove nvidia-* -y sudo rm /etc/apt/sources.list.d/cuda* sudo apt autoremove -y && sudo apt autoclean -y sudo rm -rf /usr/local/cuda*
另外記錄一下幾個可能有用的指令
* 查看驅動版本號
sudo dpkg --list | grep nvidia-*
-----------------------------------------------------------------------------------
簡單來說
之前安裝 driver 的部分是沒問題的
可以按照之前的說明安裝
但 driver 535 版本看起來是 CUDA 12.2
所以這次就改裝 12.2 吧
首先,到以下網址
https://developer.nvidia.com/cuda-12-2-0-download-archive
要裝在 ubuntu 20.04 上
所以選 linux -> x86_64 -> Ubuntu -> 20.04 -> runfile (local)
然後出現
Installation Instructions: | |
|
照著做,執行 sh 後,他會說已偵測到有其他安裝程式之類的
強烈建議你不要繼續,別理他,選繼續
會出現以下畫面
這真的讓人搞不懂前面的X到底是要選還是不要選
答案是,有X是要選的
driver 我們剛才裝過了
註 : 這個 sh 也能安裝 driver,但似乎要 OS 進入 cmd 模式才行? 不確定是不是但太麻煩了
所以只要選 CUDA 就好
安裝完成後他會說找不到 driver 之類的
不用理他,我們可以用以下指令檢查
nvidia-smi <-- driver 有安裝才會 work
nvcc -V <-- cuda 有安裝才會 work
但是在使用 nvcc -V 之前,還得自行更新 library path 的位置
指令如下
# setup your paths echo 'export PATH=/usr/local/cuda-12.2/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc sudo ldconfig
成功的話 nvcc -V 之後就會出現 cuda 的版號
失敗的話可以用最上面提到的清除指令重來
--------------------------------------------------------------------------------------
再來要安裝 cuDnn,先到以下網址
https://developer.nvidia.com/rdp/cudnn-archive
其實 cuDnn 已經到 9.x 了
但我是 RTX 3060 應該不用那麼新吧
總之我是選了 cuDNN v8.9.7 (December 5th, 2023), for CUDA 12.x 這個
NV 還要你註冊才給你下載,就註冊吧,下載完就像下面這樣
然後用以下指令安裝 cuDnnCUDNN_TAR_FILE="cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz" sudo tar -xvf ${CUDNN_TAR_FILE} sudo mv cudnn-linux-x86_64-8.9.7.84_cuda12-archive cuda # copy the following files into the cuda toolkit directory. sudo cp -P cuda/include/cudnn.h /usr/local/cuda-12.2/include sudo cp -P cuda/lib/libcudnn* /usr/local/cuda-12.2/lib64/ sudo chmod a+r /usr/local/cuda-11.2/lib64/libcudnn*
這些都做完後
自己開個 pytorch 的專案來跑一下訓練
是有用 gpu 在跑的 !
以上做個紀錄