自学过程遇到的问题,包括服务器环境的配置等

1.python升级Pip总是失败:超时,使用国内镜像:python -m pip install --upgrade pip -i https://pypi.douban.com/sim

2.安装opencv:pip install opencv-contrib-python总是失败:增加pip install opencv-python --default-timeout=1000或者pip3 install --user -i https://pypi.tuna.tsinghua.edu.cn/simple opencv-python    这样依然出错的原因主要是因为Anaconda的python版本号和自己的环境变量中配置的版本号不一致,导致安装的是环境变量的opencv版本,这种情况下修改环境变量或者重新下载Anaconda对应的python版本重新安装

3.安装numpy:pip install numpy

4.安装pytorch:

cuda9.2 下载界面: https://developer.nvidia.com/cuda-92-download-archive s
Pytorch: https://pytorch.org/get-started/locally/ ://d
下载和cuda对应的版本: http://download.pytorch.org/whl/torch_stable.html
ow n load .p ytor c h .or g /w h l/tor c h _ stab le .h tml

自学过程遇到的问题,包括服务器环境的配置等_第1张图片

实验室服务器的cuda版本号:

自学过程遇到的问题,包括服务器环境的配置等_第2张图片

查看GPU使用情况:

自学过程遇到的问题,包括服务器环境的配置等_第3张图片

 查看Python安装路径

5.安装tensorflow(服务器GPU版本10.2)

pip install -U tensorflow-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple
出现问题:

自学过程遇到的问题,包括服务器环境的配置等_第4张图片

原因:setuptools 版本太旧,无法卸载,解决方案:

(1)强制安装:pip install --ignore-installed tensorflow(推荐使用)

(2)按步骤升级:https://blog.csdn.net/weixin_42419002/article/details/100665921

 

6.配置Jupyter远程连接服务器

https://blog.csdn.net/qq_32612467/article/details/78728883

远程访问:
(1)在服务器端执行命令

jupyter notebook --no-browser --port=1111

将会创建一个没有浏览器的notebook,端口号为xxxx,一般端口选择1024-49151中任一即可,如1111,避免与其他服务端口冲突。关于端口的介绍

我的:jupyter notebook --no-browser --port=1100

执行命令后服务器终端会显示如下图所示,其中红线画出部分为token,下面会用到

这里写图片描述

(2)在个人电脑上,打开git的bash终端,执行命令

ssh -N -f -L localhost:1112:localhost:1111 username@serverIP
  •  
  • 第一个localhost填入xxxx+1,第一个localhost填入xxxx+2 ,username填入用户名,username为服务器端的用户名,serverIP填入服务器ip。其中1111,1112一般为空闲端口,读者大多可直接使用。

执行命令后需要输入服务器用户名密码,输出完成后没有其他显示,保持bash终端不要关闭。

我的:ssh -N -f -L localhost:1101:localhost:1100 [email protected]

(3)在个人电脑上打开浏览器,输入http://localhost:1112

我的:http://localhost:1101

这里写图片描述

将服务器端的token粘贴到此处,即可进入jupyter,打开对应ipynb文件就可以查看并运行代码了。

远程访问tensorboard

tensorboard是tensorflow的重要组件,可以对tensorflow中实现对变量可视化再现等强大功能,具体操作与上述相似
1、server的终端输入tensorboard –logdir=’logs/’启动tensorboard
2、windows的bash终端输入ssh -L 16006:127.0.0.1:6006 username@serverIP
3、在本地打开127.0.0.1:16006即可

(4)jupyter激活虚拟环境的方法

https://zhuanlan.zhihu.com/p/51390574

自学过程遇到的问题,包括服务器环境的配置等_第5张图片

conda install nb_conda

再次运行notebook,现在可以选择虚拟环境了。

2019年7月更新:

似乎nb_conda有时候会工作异常。另一个方法是通过ipykernel来注册。

pip install ipykernel
python -m ipykernel install --user --name stock --display-name stock

上述命令将把通过conda create创建的名为stock的虚拟环境注册到notebook当中,并且其显示名也为stock

 

7.(1)《动手学深度学习》中导入d2lzh_pytorch包的问题

先下载这个包,pip install是不行的,下载在F盘中

在服务器对应的虚拟环境目录下找到site-packages位置,如

/home/xzx/.conda/envs/Fast_rcnn_env/lib/python3.7/site-packages/

在这里把下载的包复制到这个路径下。

自学过程遇到的问题,包括服务器环境的配置等_第6张图片

  下载之后运行下面的导入包的命令时,还提示ModuleNotFoundError: No module named 'tqdm',tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。

直接pip install tqdm

之后又出现了

提示没有 torchtext 的module。百度搜torchtext,使用pip安装,直接运行这句程序即可。

pip install torchtext

完成,继续学习

又出现了利用matplotlib绘制图像时不显示的问题,尝试了加上plt.show(),依然不显示,加上网上常用的

import matplotlib
matplotlib.use('TkAgg')
import matplotlib.pyplot as plt

依然不可以,再找答案。

重启了一下pycharm,直接run,可以了,在命令行,不可以

8.(2)《动手学深度学习》中,关于MNIST数据集以及FashionMNIST数据集下载超时的问题

    利用torchvision下载数据集时

mnist_train=torchvision.datasets.FashionMNIST(root='~/Datasets/FashionMNIST',
                                              train=True,download=True,
                                              transform=transforms.ToTensor())
mnist_test=torchvision.datasets.FashionMNIST(root='~/Datasets/FashionMNIST',
                                             train=False,download=True,
                                             transform=transforms.ToTensor())

总是出现连接超时的错误。解决方法是,将这个数据集下载到服务器目录下,这里我下载到了/home/xzx/Downloads/FashionMNIST/中。接下来找到服务器虚拟环境(我这里是Fast_rcnn_env),找到对应的配置文件

/home/xzx/.conda/envs/Fast_rcnn_env/lib/python3.7/site-packages/torchvision/datasets/中的mnist.py文件,修改下载路径,如图:自学过程遇到的问题,包括服务器环境的配置等_第7张图片

如图,把路径改成自己本地服务器上下载文件的路径

    resources = [
        ("file:///home/xzx/Downloads/FashionMNIST/train-images-idx3-ubyte.gz",
         "8d4fb7e6c68d591d4c3dfef9ec88bf0d"),
        ("file:///home/xzx/Downloads/FashionMNIST/train-labels-idx1-ubyte.gz",
         "25c81989df183df01b3e8a0aad5dffbe"),
        ("file:///home/xzx/Downloads/FashionMNIST/t10k-images-idx3-ubyte.gz",
         "bef4ecab320f06d8554ea6380940ec79"),
        ("file:///home/xzx/Downloads/FashionMNIST/t10k-labels-idx1-ubyte.gz",
         "bb300cfdad3c16e7a12a480ee83cd310")
    ]    

这样就成功了!

参考:https://blog.csdn.net/york1996/article/details/81780065

https://blog.csdn.net/weixin_44398263/article/details/107820011?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.channel_param

其他的数据集合框架也可以采取类似的方式下载。这里我踩到的坑是之前一直在修改自己主机上的配置文件,但是没有考虑过自己的代码是运行在服务器的虚拟环境中的,应该去对应虚拟环境下的torchvision中的mnist.py文件中修改路径,导致一直不成功浪费一上午的时间。。。。。。。。

你可能感兴趣的:(自学过程遇到的问题,包括服务器环境的配置等)