GPU服务器安装tensorflow环境全过程

简单操作:
ls #列出当前目录下的所有文件
cd … # 返回上一级
sudo #以管理者身份运行
ctrl+alt+T #打开命令行窗口,若有(或者在桌面鼠标右击,选择最后一个)
ctrl+shift+T #同一个界面打开多个窗口,没有的话打不开
F11 全屏
显卡未识别 -> 未安装驱动
ctrl+shift+v 在命令窗口粘贴
poweroff 关机
reboot 重启
clear 清空一下窗口

Step1. 重装ubantu18.04系统

软件:软碟通
系统版本:ubantu 18.04

1 启动U盘制作

*软碟通使用:

  1. 下载:联想应用商店下载
  2. 激活:http://www.ddooo.com/softdown/153565.htm#dltab
  3. 制作启动u盘:
    参考:https://jingyan.baidu.com/article/90bc8fc839b421b652640c6d.html*

2 重装系统

  1. 开机后长按F11,进入bios界面,在boot选项中检查服务器是否能够识别到u盘。确认可以识别后,关机
  2. 开机长按F11,选择u盘启动。(注:不修改系统启动选项:因为若修改u盘启动为首选项后,重装系统之后再进入系统,仍会先寻找u盘)
    开机 -> F11 -> BIOS -> boot option(设置u盘启动) -> install ubantu -> lanuage(English) -> install type(选择第一个,清除数据重装。双系统是最后一个) -> 选择时区(上海)->

Step2: 修改系统镜像源为清华源

1: 百度搜索 ubnatu18.04 tuna

百度搜索 ubnatu18.04 tuna
点击第一个后(注:https://mirror.tuna.tsinghua.edu.cn/help/ubuntu/)
选择版本18.04

2: 寻找Ubuntu 的软件源配置文件是 /etc/apt/sources.list

  1. 输入命令寻找到sources.list文件所在位置:
ls(列出当前子目录的所有文件)
cd ..(返回上一级目录)
ls
cd ..
ls
cd etc/
ls
cd apt/
  1. 找到之后,先备份,再修改
sudo cp sources.list sources.list.backup    #备份文件为sources.list.backup
  1. 文本编辑器gedit打开sources.list文件,
sudo gedit sources.list
  1. 按网上教程进行修改(删掉后替换)
  2. 换完更新一下
sudo apt-get update
  1. 升级一下软件和内核
sudo apt-get upgrade 
sudo apt-get dist-upgrade
clear
  1. 检查是否更新成功(应该有4个0)
sudo apt-get upgrade

Step3: 禁用开源驱动

1.打开黑名单:

sudo gedit /etc/modprobe.d/blacklist.conf

或先安装vim编辑器,再用vim打开(vim和gedit)

sudo apt-get install vim
sudo vim /etc/modprobe.d/blacklist.conf

2.添加两行语句:

blacklist nouveau
options nouveau modeset=0

3、更新initramfs

sudo update-initramfs -u
  1. 验证,终端输入语句
lsmod | grep nouveau

#没有结果表示禁用成功,一般未成功
5. 重启

reboot
  1. 验证,终端输入语句,
lsmod | grep nouveau

#如果没有结果表示禁用成功。

Step4: 安装英伟达驱动(提前将英伟达驱动和Anaconda复制粘贴到桌面)

  1. 简单看一下
nvidia-smi              #应该是没有
clear
  1. 预先安装两个缺少的包(gcc和make)
sudo apt-get install gcc
sudo apt-get install make
  1. 找到英伟达驱动所在的上一级目录(此时是桌面)
cd Desktop/
ls   

#看看是否有驱动文件,有的话继续
安装之前要修改英伟达驱动文件的权限,方法:右击文件,点击properties,点击permissions,在execute点击对号。
4. 安装,过程中会有警告,还有一堆yes,不用管

sudo ./NVIDIA-Linux-x86_64-418.165.02.run -no-x-check -no-nouveau-check -no-opengl-files

5.安装后检查

nvidia-smi

6.重启

reboot

7.检查一下,一般不掉

nvidia-smi

Step5: 安装Anaconda

  1. 找到anaconda的位置
ls
cd Desktop/
ls
clear

2.安装

sudo bash Anaconda3-2019.10-Linux-x86_64.sh
  1. 修改anaconda权限
    先找到anaconda文件所在位置
ls
cd ..
ls   #看到有anaconda显示就可以

查看anaconda文件夹是否上锁(文件夹图标右下方有锁的标志),有的话修改权限

sudo chmod 777 -R anaconda3/
  1. 解决问题
    注:问题不一定是现在出现,可能暂时未出现,或者现在解决了之后仍可能出现

解决问题1:conda自动激活base,不一定会出现(这时在新打开的命令窗口前面是(base)这种)
problem1. anaconda 取消每次默认启动base环境
解决:先ctrl+alt+T打开命令窗,查看是否存在命令行前出现的base,有的话使用下面的语句

conda config --set auto_activate_base false

看看是否成功,再打开一个新窗口(注:原窗口前面仍显示(base)),此时新窗口没有这个显示

problem2. ubuntu下conda: command not found(此问题不一定会出现)
【解决方法】
参考:https://www.cnblogs.com/wjunneng/p/9391103.html
安装好Anaconda3后,创建虚拟环境时显示
conda: command not found

解决方法:

  1. Ctrl+Alt+T打开终端
  2. 修改环境变量
gedit ~/.bashrc

(网上有教程是使用vim文本编辑器打开
具体操作是先安装再打开

  1. 安装vim文本编辑器
sudo apt install vim

  1. 修改环境变量
vim ~/.bashrc
  1. 在文本最后添加环境变量
export PATH=~/anaconda3/bin:$PATH

#找到anaconda安装的目录,一直要找到bin文件夹下,可以打开bin文件夹下面的任意一个文件路径(/home/falwat/anaconda3/bin),复制后,替换~/anaconda3/bin
最终变成这个样子:

export PATH=/home/falwat/anaconda3/bin:$PATH
  1. 重启环境变量
source ~/.bashrc

5.输入

anaconda -V

显示:anaconda Command line client (version 1.7.2)

Step6: 修改anaconda镜像

  1. 创建名为 .condarc 的文件
conda config --set show_channel_urls yes
  1. 打开 .condarc文件
gedit .condarc
  1. 修改文件,用引号内的内容替换原来的文件,即可添加 Anaconda Python 免费仓库。
channels:
  - defaults
show_channel_urls: true
channel_alias: https://mirrors.tuna.tsinghua.edu.cn/anaconda
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud


4. 清除索引缓存,保证用的是镜像站提供的索引。

conda clean -i 

Step7: 配置tensorflow和相关库

安装tensorflow2.0.0 2.1.0 2.2.0 1.13.1 1.14.0 1.15.0

conda-env list 查看已安装的虚拟环境
conda search tensorflow 查看可安装的tensorflow版本
conda deactivate 关闭虚拟环境

通用代码

  1. 创建名为envs-name的虚拟环境,安装指定python版本
conda create -n envs-name python==x.x.x
  1. 激活该虚拟环境
conda activate envs-name
  1. 安装指定版本的tensorflow
    注:如果不知道tensorflow都有什么版本,可通过
conda list tensorflow-gpu查询
conda install tensorflow-gpu==x.x

4 . 安装常用库

conda install pandas
conda install scikit-learn
conda install matplotlib
  1. 关闭虚拟环境
conda deactivate
clear

以配置tensorflow2.1为例,完整代码如下:

  1. 创建名为tf-gpu-2.1的虚拟环境,使用python版本为3.6.8
conda create -n tf-gpu-2.1 python==3.6.8
  1. 激活该虚拟环境
conda activate tf-gpu-2.1
  1. 安装指定版本的tensorflow
conda install tensorflow-gpu==2.1

4 . 安装常用库

conda install pandas
conda install scikit-learn
conda install matplotlib
  1. 关闭虚拟环境
conda deactivate
clear

环境配置后可能会出现的情况:

英伟达驱动被卸载

  1. 查看是否被卸载
nvidia-smi  #显示不了
  1. 寻找卸载程序路径
sudo find / -name "nvidia-uninstall"

会返回路径
3. 卸载

sudo /usr/bin/nvidia-uninstall

运行之后直接yes
4. 重启

reboot

图形化界面无法操作

ctrl+alt+F2(不一定是F1-F12的哪一个,都试一试)F1 # 切换到命令行界面
tty3和tty4代表两个界面
还有一个ctrl+alt+F键中的某一个可返回图形化界面(本服务器是F1/F2)
先输入用户名:falwat(本服务器用户)
再输密码:wl920611(本服务器用户对应密码)
输密码的时候不要用小数字键盘,用上面的数字键,否则容易出错。

sudo chmod a+x ./NVIDIA-Linux-x86_64-418.165.02.run
a and
x 可执行权限
、/ 代表在根目录下

anaconda安装报错condaHTTPError

: 说明网不好,或者是没有修改镜像源

你可能感兴趣的:(tensorflow)