发现cuda又不能用了,不知道怎么回事
1,gpu-2上重新安装pytorch,但是http错误,换源不能解决问题
2,尝试在v-100上安装conda,然后再安装pytorch
参考
vim ~/.bashrc
这步,进入这个文件,常用操作:
https://blog.csdn.net/ylhsuper/article/details/61925713?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%A6%82%E4%BD%95%E9%80%80%E5%87%BA/.bashrc%E6%96%87%E4%BB%B6&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduwebdefault-3-.first_rank_v2_pc_rank_v29&spm=1018.2226.3001.4187
2021-06-03
更新,之前是在v-100上安装anacconda,这次尝试在gpu-2上重装anaconda
为什么要重装gpu-2的conda,因为安装了合适版本的pytorch之后,运行:
torch.cuda.is_available() # 在my-rdkit-env环境中
结果为False
先查看gpu-2 和v-100 的anaconda版本:
conda -V
结果:
gpu-2
v-100
说明conda4.8.3的是可用的,4.10.1是不可用的,可能。。。
还是按照这个教程来参考
1,下载anaconda,
wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2021.05-Linux-x86_64.sh
运行完成之后 conda -V 发现还是4.10.1版本,不知道为啥
conda list
nvidia-smi
CUDA Version: 11.2
采取官网安装:
如果命令输错了,但是已经按下enter健时可以用ctrl+c终止
查看后决定安装:pytorch==1.7.1
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.0 -c pytorch
# 官网是cudatoolkit=10.1, 我改成了cudatoolkit=10.0
conda config --show channels
这里对比着看了一下:
gpu-2的channels有很多,都是后来添加的
v100的channels只有默认的
关于channels的其他命令:
conda config --show channels # 显示有哪些channels
conda config --show-sources # 显示channels文件所在位置,同时显示有哪些channels
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ # 添加channel
conda config --set show_channel_urls yes
conda config --remove channels 'https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/' # 删除channel
conda config --remove channels 链接
最后只剩下defaults
conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.0 -c pytorch
安装完成了,但是发现导入torch模块时报错找不到该模块,于是尝试重新安装1.7.版本的
conda install pytorch==1.7.0 torchvision==0.8.0 torchaudio==0.7.0 cudatoolkit=10.0 -c pytorch
# 同样还是官网是cudatoolkit=10.1, 我改成了cudatoolkit=10.0
创建一个新环境: test
conda create --name test python=3.7
pytorch包是安装在当前所在环境下的,需要在当前所在环境下删除
conda uninstall pytorch
经检查卸载成功
conda install pytorch==1.7.0 torchvision==0.8.0 torchaudio==0.7.0 cudatoolkit=10.0 -c pytorch
说明想要换pytorch版本是需要先卸载后安装的
想到前面的重新安装conda可能也是需要先卸载再安装的
按照之前的步骤重新安装anaconda ,提示该文件夹已经存在,(安装到了服务器 /home/zhangzimei 目录下)
运行如下刚刚下载的.sh文件,进行anaconda的安装(命令行输入ls可以找到这个文件)
bash Anaconda3-2020.07-Linux-x86_64.sh
还需要导入环境变量 ,vim ~/.bashrc 进入这个文件
vim ~/.bashrc
点击 i 可以对这个文件进行编辑
在文件末尾加入语句
export PATH=/home/user_name/anaconda3/bin:$PATH
按下Esc 退出编辑模式
输入 :wq 写入并退出
其他常用的命令:
:wq! 是写入并强制退出
:w 保存但不退出(常用)
:w! 若文件属性为『只读』时,强制写入该档案
:q 离开 vi (常用)
:q! 若曾修改过档案,又不想储存,使用 ! 为强制离开不储存档案
:e! 将档案还原到最原始的状态!
更新配置文件
source ~/.bashrc
完成之后发现还是不能用,pytorch无法安装,报错好像是找不到匹配的包
尝试安装2020.07版本的
安装过程中提示 已经存在anaconda3文件夹(由于刚刚安装过了)
使用命令:
bash Anaconda3-2020.07-Linux-x86_64.sh -u
即可解决这个问题
这次安装过程中发现之前操作有误:忘记改加入语句export PATH=/home/user_name/anaconda3/bin:$PATH 中的user_name改为zhangzimei
这可能就是之前一直不成功的原因
还有需要注意的一点是anaconda配置好以后自动退回到base,所有环境的conda版本都变为了新安装的这个版本,说明所有的环境使用的conda是一个
提示10.0那里错了,说明不能简单地修改那里
又修改回10.1进行尝试 ,安装成功,可以导入,但是torch.cuda.is_available()时,是False
卸载以后,重新安装,cudatoolkit=9.2,终于是True了!!!太不容易了!
注意:安装ipykernel和运行这个模块这些操作必须在你想要使用的这个环境下进行,如下:必须在my-rdkit-env虚拟环境下进行
不管是从哪个虚拟环境中弹出来的jupyter notebook jupyter notebook的运行环境都是默认的环境变量,因此需要改变jupyter notebook的kernel。
需要安装ipykernel模块:
conda install ipykernel
python -m ipykernel install --user --name my-rdkit-env --display-name "Python [conda env:my-rdkit-env]"
# 这里 -m 的意思是以模块形式运行
然后输入jupyter notebook弹出,然后选择或切换 “Python [conda env:my-rdkit-env]” kernel
这就成功了!!
补充:jupyter kernel创建 删除
conda create -n py36 python=36 # 创建一个python36的环境,名为py36
source activate py36 # 激活py36环境
conda install ipykernel # 安装ipykernel模块
#进行配置 名字为py36显示为py3636
python -m ipykernel install --user --name py36 --display-name “py3636”
jupyter notebook # 启动jupyter notebook
查看安装的内核和位置
jupyter kernelspec list
删除py36
jupyter kernelspec remove py36
————————————————
版权声明:本文为CSDN博主「ying______」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_44135282/article/details/90704266
————————2021年6月7日 下午更新————————————
今天请教了吴师兄,终于把这个问题解决了,感谢!
这里出现很多网址其实都是同一个
复制网址,把//和端口号8890之间的替换为ip地址:172.21.8.36
http://172.21.8.36:8890/?token=da130a5edd6f5929532f06dadc7a734951bddc802b6063ce
# 以下来自与博客,用于学习记录,侵删
# 可解决No web browser found: could not locate runnable browser.的问题
ipython
from IPython.lib import passwd
passwd() #得到加密后的hash
exit
jupyter notebook --generate-config
vim ~/.jupyter/jupyter_notebook_config.py
c.NotebookApp.ip = '*'
c.NotebookApp.allow_root = True
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8888
c.NotebookApp.password = u'sha1:...' #输入上面加密后得到的密文
c.ContentsManager.root_dir = '/root'
#如果还是无法访问添加
iptables -I INPUT -p tcp -m state --state NEW -m tcp --dport 端口号 -j ACCEPT
#原文链接:https://blog.csdn.net/Martind/article/details/79117830
jupyter_notebook_config.py
vim 进入这个文件进行修改(之前也用vim进入过文件,修改文件,是在安装anaconda时)
vim .jupyter/jupyter_notebook_config.py
# 通过以下命令可以查看上述配置文件的位置
jupyter notebook --generate-config
vim进入这个文件以后, / 可以进行检索,搜索App.ip
找到这一行:
c.NotebookApp.ip = '*'
这行代码本来是注释的,取消注释以后,将 等于号后面引号里面的内容修改,修改完以后如上代码。
i 进入编辑模式,esc退出编辑模式,:wq 写入并退出
Firefox is already running, but is not responding. To use Firefox, you must first close the existing Firefox process, restart your device, or use a different profile.
解决方法:参考博客
在linux的终端输入:
firefox -profilemanager
回车后会出现一个小窗口让你选择使用哪个 profile 来启动 firefox。
首先将当前出错的Profile删除掉,然后新建个即可。