GPU环境配置指南(Ubuntu16.04+CUDA+CUDNN)
前言
這兩天由于種種原因,反復(fù)重裝系統(tǒng)并配置了深度學(xué)習(xí)開(kāi)發(fā)環(huán)境,無(wú)意中便總結(jié)了一份環(huán)境配置指南出來(lái),所幸再稍加整理,和大家分享出來(lái)。
本指南確認(rèn)無(wú)誤的環(huán)境是:
系統(tǒng)是Ubuntu16.04
GPU是NVIDIA GTX1070
CUDA安裝8.0和9.0均可
一、重裝系統(tǒng)、配置網(wǎng)絡(luò)
這個(gè)就不必多說(shuō)了,首先重裝好系統(tǒng)
然后配置好網(wǎng)絡(luò):配置ip,網(wǎng)關(guān)等,確??梢陨暇W(wǎng)即可。
二、安裝必備工具:
根據(jù)自己的需求,安裝一些必要工具
更換國(guó)內(nèi)源
參考教程
更新
$ sudo apt-get update
安裝vim
$ sudo apt-get install vim
安裝ssh
$ sudo apt-get install openssh-server
運(yùn)行ssh:
$ sudo service ssh start
安裝傳輸工具rzsz
sudo apt-get install lrzsz
三、安裝CUDA
為了安裝nvidia驅(qū)動(dòng),我們首先需要禁用Ubuntu系統(tǒng)自帶的驅(qū)動(dòng)nouveau
測(cè)試nouveau是否正在運(yùn)行,有輸出則代表nouveau正在加載
$ lsmod | grep nouveau
將nouveau加入黑名單,禁用nouveau
$ sudo vi /etc/modprobe.d/blacklist.conf
加入下面的內(nèi)容
blacklist nouveau
執(zhí)行命令更新?tīng)顟B(tài)
$ sudo update-initramfs –u
重啟,然后查看是否禁用成功
$ reboot
$ lsmod | grep nouveau
如果無(wú)任何輸出,說(shuō)明禁用成功(登陸過(guò)程中,如果發(fā)現(xiàn)字體變大,其實(shí)就說(shuō)明禁用成功了)
禁用成功后準(zhǔn)備安裝CUDA,首先到官網(wǎng)下載好對(duì)應(yīng)版本的安裝文件
現(xiàn)在切換到命令行界面,按下Alt + Ctrl + F1
首先關(guān)閉圖形界面
$ sudo service lightdm stop
如果安裝了驅(qū)動(dòng),則刪除已有的nvidia驅(qū)動(dòng)
$ sudo apt-get remove --purge nvidia*
安裝CUDA9.0(CUDA8.0的安裝完全一致)
sudo sh cuda_9.0.176_384.81_linux.run
cuda_9.0.176_384.81_linux.run里面自帶NVIDIA驅(qū)動(dòng)384.81,按照提示默認(rèn)安裝即可。
不需要像網(wǎng)上的某些教程說(shuō)的那樣CUDA和驅(qū)動(dòng)分開(kāi)裝,不確定的選項(xiàng)就按默認(rèn)提示選擇即可。
可能出現(xiàn)的錯(cuò)誤:
原因:內(nèi)核版本過(guò)高
解決方案1:參考這篇博客https://blog.csdn.net/lewif/article/details/79625151,(我沒(méi)有試過(guò),需要自行確認(rèn)是否可行)
解決方案2:重裝系統(tǒng),我當(dāng)時(shí)就是這樣暴力的解決問(wèn)題的,簡(jiǎn)單有效。。。
原因:禁用沒(méi)有成功,請(qǐng)確認(rèn)是否完全按照上面的介紹進(jìn)行
可以通過(guò)以下命令確認(rèn)安裝是否成功,以及版本是否正確
顯示顯卡驅(qū)動(dòng)信息命令
$nvidia-smi
查看NVIDIA驅(qū)動(dòng)的版本
$ cat /proc/driver/nvidia/version
檢查CUDA的版本
$ cat /usr/local/cuda/version.txt
一切順利的話,恢復(fù)圖形界面
$ sudo service lightdm start
設(shè)置環(huán)境變量
在/etc/profile結(jié)尾添加如下兩句
export PATH=/usr/local/cuda-9.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64
查看cuda是否安裝成功
$ source /etc/profile
$ nvcc -V
2020/4/19 補(bǔ)充:
今天又裝了個(gè)Ubuntu 18.04,又踩了些坑
發(fā)現(xiàn)18.04還是驅(qū)動(dòng),CUDA分開(kāi)裝比較簡(jiǎn)單
驅(qū)動(dòng)也不需要像上面介紹的那樣先禁用nouveau,再裝新驅(qū)動(dòng),一行命令就能搞定:
$ sudo ubuntu-drivers autoinstall
詳見(jiàn)How to install the NVIDIA drivers on Ubuntu 18.04 Bionic Beaver Linux
四、安裝cudnn
下載cudnn,
去官網(wǎng)下載cudnn,或者在網(wǎng)上下載,網(wǎng)上資源也很多
注意下載的cudnn的版本需要與CUDA的版本是對(duì)應(yīng)的
安裝cudnn
首先解壓出名為cuda的目錄,然后執(zhí)行命令:
$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
$ sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
五、安裝Anaconda
$ bash Anaconda相應(yīng)版本.sh
六、安裝tensorflow
安裝tensorflow很簡(jiǎn)單,僅僅需要注意安裝的版本是否合適!
確認(rèn)安裝的是GPU的版本,如果你有GPU的顯卡
確認(rèn)tensorflow版本與CUDA是否匹配
$ pip install tensorflow-gpu==1.6
注1:CUDA9.0 與 tensorflow1.6 以上是對(duì)應(yīng)的,如果是CUDA8.0,建議裝tensorflow1.2
在python中 import tensorflow as tf 測(cè)試安裝是否成功
注2:如果無(wú)法拿到線上機(jī)root權(quán)限,上述的cudnn安裝方法無(wú)法完成。
此時(shí),import tensorflow 會(huì)報(bào)錯(cuò):ImportError: libcudnn.so.7: cannot open shared object file: No such file or directory
替代解決方案是將所需的libcudnn.so.7拷貝到anaconda的lib目錄下,這樣tendorflow也能找到對(duì)應(yīng)的文件
七、安裝opencv
自動(dòng)下載安裝opencv
$pip install opencv-python
或者手動(dòng)下載whl文件安裝:
$pip install opencv-python相應(yīng)版本.whl
安裝opencv后,import cv2進(jìn)行測(cè)試
如果遇到了報(bào)缺少lib的錯(cuò)誤,只需找到對(duì)應(yīng)的lib,將文件拷貝到Anaconda路徑/lib下即可
尋找lib的方式有兩種:
1.如果你的其他機(jī)器并不會(huì)報(bào)錯(cuò),那這臺(tái)機(jī)器一定有你需要的lib文件,試試看/usr/lib64/或者其他地方有沒(méi)有你想要的文件
2.去網(wǎng)上下載
總結(jié)
以上是生活随笔為你收集整理的GPU环境配置指南(Ubuntu16.04+CUDA+CUDNN)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 区块链读书笔记一
- 下一篇: dockerfile拉取私库镜像_还在用