监控进程:
watch -n 0.1 nvidia-smi
nvidia-smi
ps -A 查看当前有哪些进程
top 查看当前耗费资源最多的进程
释放进程:
sudo kill -9 [PID]
多GPU训练:
当是/xlaGPU 而不是/GPU,tensorflow要用conda install, pip install不能用。
命令行运行过程中退出进程使用Ctrl+C(能够同时kill进程),而不是Ctrl+Z(不能kill掉进程,虽然进程不运行了,但是还在占据内存)。
可以先看下这个流程和一些本文没有提及到的点:
https://blog.csdn.net/A_Z666666/article/details/72853346
按住Alt不放,依次按下‘print screen键’、R、E、I、S、U、B
在训练不起来的时候,释放GPU资源:
命令行:nvidia-smi (查看使用GPU的PID)
然后 sudo kill -9 ****[PID]
有的时候提示源里不包含什么什么东西,可能是你的命令写错了,而不是源真的不包含它..
换sources.list是整个换源
推荐:方法1. https://www.jianshu.com/p/3f471a646161
注意 清空sources.list后添加阿里源 或者是其他源 即不能同时添加两个及以上源。
打开文件的方式为 sudo gedit 文件路径和文件名字 gedit也可以换成vim
方法2.nautilus /etc/apt 打开sources.list,
勾选source code ,点开Download from,选择other,在里面选择中国的源,我选的是aliyun的,亲测好使。
方法3. 修改condarc是换conda源
https://blog.csdn.net/observador/article/details/83618540?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase
清空conda源,使用默认 :conda config --remove-key channels
北外conda源:https://mirrors.bfsu.edu.cn/help/anaconda/
新建pip文件夹,内部新建一个文件pip.ini(mkdir pip.ini),内容:
[global]
timeout = 60000
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
[install]
use-mirrors = true
mirrors = https://pypi.tuna.tsinghua.edu.cn
推荐方法一:下载搜狗输入法安装和配置https://zhuanlan.zhihu.com/p/58837239
方法二:
https://blog.csdn.net/qq_39907831/article/details/78772093
相关依赖项安装
sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
sudo apt-get install --no-install-recommends libboost-all-dev
sudo apt-get install libopenblas-dev liblapack-dev libatlas-base-dev
sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev
https://code.visualstudio.com/Download下载deb文件之后,双击deb下载即可,不用下面灰色区域的命令
通过官方PPA安装Ubuntu make:
sudo add-apt-repository ppa:ubuntu-desktop/ubuntu-make
sudo apt-get update
sudo apt-get install ubuntu-make
使用命令安装visual studio code:
umake ide visual-studio-code
中间会确认安装visual studio code,输入a即可
可能需要重启才能看到软件
https://blog.csdn.net/linlinlin96/article/details/79441350?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&dist_request_id=&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control
编译tasks.json时出现提示vscode 编译/bin/bash: g++: command not found
解决:sudo apt-get install g++
先安装openssl
sudo apt-get install libssl-dev
在https://cmake.org/download/下载
然后在terminal 输入
tar -zxvf cmake-3.18.0-rc1.tar.gz
cd cmake-3.18.0-rc1
./bootstrap
出现问题:在./bootstrap命令后出现这个问题Cannot find appropriate Makefile processor on this system. Please specify one using environment variable MAKE.
解决:Need to install make. Do:
sudo apt-get -y update
sudo apt-get install build-essential
make
sudo make install
安装结束后,查看cmake版本:
cmake -version
显卡驱动与cuda版本要对应,查看对应表:
https://blog.csdn.net/zwqjoy/article/details/103198737
安装cuda前首先要安装显卡驱动
https://blog.csdn.net/u010801439/article/details/80483036
安装cuda10.0及之前版本,安装cudnn请不要参照这个
https://zhuanlan.zhihu.com/p/76852561
下载的是.run文件
注意cuDnn无法下载 可以去ie浏览器下载
或者安装cuda10.1,,安装cudnn请不要参照这个
https://blog.csdn.net/sss_369/article/details/94591280
安装cudn参照下面的链接
https://blog.csdn.net/Lucifer_zzq/article/details/76675239
查看cuda版本
nvcc --version
查看cudnn版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
问题:鼠标键盘失灵
https://blog.csdn.net/qq_15192373/article/details/81091278
pycharm上方菜单选择”View”->”Toobar”可以出现返回上一步的按钮。
每次打开pycharm的方式是:在安装包内的bin文件夹下,命令行输入 sh pycharm.sh
https://blog.csdn.net/evergreenswj/article/details/86573371
https://zhuanlan.zhihu.com/p/52874931
https://blog.csdn.net/qq_17448289/article/details/56480367
tar -xvJf node-v8.11.1-linux-x64.tar.xz
解压rar
sudo apt-get install rar unrar
sudo apt-get install rar rar
1.terminal提示:file cannot create directory: /usr/local/doc/cmake-3.17/cmsys. Maybe need administrative privileges.
解决:在命令前加 sudo
2. manta错误:version `CXXABI_1.3.8' not found (required by ./manta)
解决: cp /usr/lib/x86_64-linux-gnu/libstdc++.so.6 /home/lj2/Downlods/anaconda3/lib/
或者cp /usr/lib/x86_64-linux-gnu/libstdc++.so.6 /home/lj2/anaconda3/envs/tf111/lib/
注意是把usr的这个so文件复制到你用的anaconda环境或者你的anaconda虚拟环境目录下
3. 问题:QXcbIntegration: Cannot create platform OpenGL context, neither GLX nor EGL are enabled.
解决:
4.问题:Failed to load the native TensorFlow runtime.
解决:下载的是tensorflow-gpu的1.9.0版本,但是其实不对,应该下载tensorflow的1.9.0版本,虽然程序用到了GPU.. 这个问题是通过运行tensorflow_self_check.py测出来的
5.错误:AttributeError: module 'ctypes' has no attribute 'WinDLL'
怀疑:严重怀疑这个sz的台式机目前系统原因不能装tensorflow-gpu
6. 错误:在命令“sudo apt-get install python3.5-dev”时提示:E: Unable to locate package python3.5-dev
E: Couldn't find any package by glob 'python3.5-dev'
E: Couldn't find any package by regex 'python3.5-dev'
解决:sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt-get install python3.5-dev
若已经安装,但是没有进入conda环境:
source anaconda3/bin/activate
即可进入
https://blog.csdn.net/weixin_40109345/article/details/102738799
安装anaconda后输入命令 conda update conda
注意:tensorflow用pip命令装,不要用conda命令装
如何确定自己的tensorflow是CPU还是GPU版本
注意在anaconda建立虚拟环境后 由于ubuntu本身自带python2.7且一定不能删除它,否则系统崩坏。要在python3更新包得使用如下代码 下面是更新matplotlib包:
sudo apt install python3-pip
sudo pip3 install –upgrade matplotlib
sudo apt-get upgrade
在程序里 anaconda prompt里面输入,来创建一个名字叫VQA的虚拟环境:
创建新环境 conda create --name tf1 python=3.6 anaconda
显示已创建的环境 conda info --envs
更新 conda update -n root conda
进入一个环境 conda activate tf1
退出一个环境 conda deactivate
复制一个环境 conda create --name
删除一个环境 conda remove --name
Anaconda无法创建新环境 :httperror
https://www.jianshu.com/p/92057f76ff82
更换python为32位:
1、查看当前工作平台:conda info
可以看到现在用的是64位的,Python3.7。
2、切换成32位的: set CONDA_FORCE_32BIT=1
(可以使用conda info进行查看)
3、安装python:conda create -n env_name python=3.6,如果需要安装一些包,只需要在name后加上对应的包名称。conda create -n env_name numpy matplotlib python=3.6。
如:conda create -n python32(虚拟环境名) numpy matplotlib scipy pandas scikit-learn python=3.6
4、激活环境 conda activate python32
(虚拟环境名) (如下图),如果要取消 conda deactivate python32
,如果要删除环境 conda remove -n python32--all
问题:ImportError: No module named scipy
解决:
https://stackoverflow.com/questions/24808043/importerror-no-module-named-scipy
If you want for Python 3.6 version:
scipy‑0.19.0‑cp36‑cp36m‑win32.whl
scipy‑0.19.0‑cp36‑cp36m‑win_amd64.whl
numpy‑1.11.3+mkl‑cp36‑cp36m‑win32.whl
numpy‑1.11.3+mkl‑cp36‑cp36m‑win_amd64.whl
pip install [where/is/your/downloaded/scipy_whl.]
问题:py_initialize unable to load the file system codec
解决:因为我把anaconda的虚拟环境设为系统默认变量,会出错的,系统变量应该只能说anaconda的root的地址
问题:failed to load the native tensorflow runtime
解决:一些依赖没装好 conda clean --all --yes
and conda update anaconda –yes
3.https://blog.csdn.net/jal517486222/article/details/89085428?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase
注意:dell这个要按F2 进入setup 然后把Boot Sequence选中的系统取消勾选,只选上u盘的系统UEFI
问题:Could NOT find X11 (missing: X11_X11_INCLUDE_PATH X11_X11_LIB)
解决:sudo apt-get install libx11-dev
问题:The RandR headers were not found
解决:sudo apt-get install xorg-dev libglu1-mesa-dev
问题:Could NOT find TBB (missing: TBB_INCLUDE_DIR TBB_LIBRARY TBB_MALLOC_LIBRARY)
解决:sudo apt install libtbb-dev
问题:sudo: ./configure: command not found
解决:命令行输入chmod 777 configure 或者 chmod 755 ./configure 给它修改权限后再输入./configure
问题:cannot find -lc++
解决:https://www.cnblogs.com/willaty/p/8024313.html中的安装libc++库部分
问题:could not find CUB
解决:pip install cub 却不能解决问题, 其实是依赖的第三方文件cub没有git完全,在open3d里面找到下载下来。
nautilus ddd/ccc/ => 打开文件夹窗口
mkdir 目录名 => 创建一个目录
rmdir 空目录名 => 删除一个空目录
rm 文件名 文件名 => 删除一个文件或多个文件
rm –rf 非空目录名 => 删除一个非空目录下的一切
touch 文件名 => 创建一个空文件
https://blog.csdn.net/wangkaidehao/article/details/103434442
import numpy as np
arr0 = np.array([0,1,2,3])
arr1 = np.array([4,5,6,7,8])
#保存文件为npz格式
np.savez('hellofile.npz', a = arr0, b = arr1)
#打开npz文件
datas = np.load('hellofile.npz')
print(datas.files)
print(datas['a'])
print(datas['b'])
#输出
['a', 'b']
[0 1 2 3]
[4 5 6 7 8]
先以管理员身份进入系统,再做下面的步骤
https://blog.csdn.net/fengxingzhe001/article/details/8862052
sudo chmod -R 777 /usr/local/include/c++
ubuntu安装好后,root初始密码(默认密码)不知道,需要设置。
1、先用安装ubuntu的时候创建的用户登录到系统
2、然后输入命令:sudo passwd 摁回车
3、接下来会提示您:输入新密码,重复输入密码,最后提示您passwd:password updated sucessfully
此时已完成root密码的设置
4、接着就可以输入命令:su root
即以root的身份登录到系统里面去了,此时你再拷贝文件,就ok啦
sudo apt-get install build-essential
sudo apt-get install libgl1-mesa-dev
sudo apt-get install libglu1-mesa-dev
sudo apt-get install libglut-dev or sudo apt-get install freeglut3-dev
sudo apt-get install git
问题:git clone总是中断和失败
解决:1.将地址里的http:// 改成给git:// 2.递归时子模块下载总是失败:进入克隆的文件夹的第一个目录下,输入git submodule update --init --recursive
问题:git太慢
解决:方法1.假设我们需要访问一个github的repo:https://github.com/graykode/nlp 并且clone其的项目: https://github.com/graykode/nlp 我们将原本的网站中的github.com 进行替换为github.com.cnpmjs.org
参考Don.hub的回答https://www.zhihu.com/question/27159393/answer/141047266
方法2. git config --global http.postBuffer 524288000 设置这个配置可以提速
Git clone 包含子模块的项目:
方法一:初始化本地子模块配置文件
git submodule init
更新项目,抓取子模块内容。
git submodule update
方法二:在执行 git clone 时加上 --recursive 参数。它会自动初始化并更新每一个子模块。例如:
git clone --recursive https://github.com/example/example.git