2024年12月31日 星期二

ubuntu 20.04 安裝 CUDA 12.2 for RTX 3060

 

這兩天按照之前自己寫的步驟來裝 NV Driver

結果又有問題了

裝到 cuda 的時候,出現以下畫面


重新來來回回弄好了幾遍

就是不行,順道提一下清除指令如下

sudo apt-get --purge remove nvidia-* <-- 新發現                             sudo apt-get --purge remove "*nvidia*" <-- 新發現                                                                                                                                                      sudo apt purge nvidia* -y                                                       sudo apt remove nvidia-* -y                                                                             sudo rm /etc/apt/sources.list.d/cuda*                                                             sudo apt autoremove -y && sudo apt autoclean -y                                          sudo rm -rf /usr/local/cuda*                                                                        

另外記錄一下幾個可能有用的指令

* 查看驅動版本號

sudo dpkg --list | grep nvidia-*

-----------------------------------------------------------------------------------

簡單來說

之前安裝 driver 的部分是沒問題的

可以按照之前的說明安裝

但 driver 535 版本看起來是 CUDA 12.2 

所以這次就改裝 12.2 吧

首先,到以下網址

https://developer.nvidia.com/cuda-12-2-0-download-archive

要裝在 ubuntu 20.04 上

所以選 linux -> x86_64 -> Ubuntu -> 20.04 -> runfile (local)

然後出現

Installation Instructions:
wget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.runsudo sh cuda_12.2.0_535.54.03_linux.run

照著做,執行 sh 後,他會說已偵測到有其他安裝程式之類的

強烈建議你不要繼續,別理他,選繼續

會出現以下畫面

這真的讓人搞不懂

前面的X到底是要選還是不要選

答案是,有X是要選的

driver 我們剛才裝過了

註 : 這個 sh 也能安裝 driver,但似乎要 OS 進入 cmd 模式才行? 不確定是不是但太麻煩了

所以只要選 CUDA 就好

安裝完成後他會說找不到 driver 之類的

不用理他,我們可以用以下指令檢查

nvidia-smi       <-- driver 有安裝才會 work

nvcc -V          <-- cuda 有安裝才會 work

但是在使用 nvcc -V 之前,還得自行更新 library path 的位置

指令如下

# setup your paths                                                                                                                                                 echo 'export PATH=/usr/local/cuda-12.2/bin:$PATH' >> ~/.bashrc                                                                     echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc                      source ~/.bashrc                                                                                                                                                 sudo ldconfig                                                                                                                                                    

成功的話 nvcc -V 之後就會出現 cuda 的版號

失敗的話可以用最上面提到的清除指令重來

--------------------------------------------------------------------------------------

再來要安裝 cuDnn,先到以下網址

https://developer.nvidia.com/rdp/cudnn-archive

其實 cuDnn 已經到 9.x 了

但我是 RTX 3060 應該不用那麼新吧

總之我是選了 cuDNN v8.9.7 (December 5th, 2023), for CUDA 12.x 這個

NV 還要你註冊才給你下載,就註冊吧,下載完就像下面這樣

然後用以下指令安裝 cuDnn

CUDNN_TAR_FILE="cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz"                                        sudo tar -xvf ${CUDNN_TAR_FILE}                                                                                                     sudo mv cudnn-linux-x86_64-8.9.7.84_cuda12-archive cuda                                                             # copy the following files into the cuda toolkit directory.                                                                  sudo cp -P cuda/include/cudnn.h /usr/local/cuda-12.2/include                                                      sudo cp -P cuda/lib/libcudnn* /usr/local/cuda-12.2/lib64/                                                             sudo chmod a+r /usr/local/cuda-11.2/lib64/libcudnn*                                                                    


這些都做完後

自己開個 pytorch 的專案來跑一下訓練

是有用 gpu 在跑的 !

以上做個紀錄

沒有留言:

張貼留言