在ubuntu上安装pytorch框架并完成机器学习demo

一、综述

以下参考链接主要描述了如何使用现在热度和关注度比较高的Pytorch(深度学习框架)构建一个简单的卷积神经网络,并对MNIST数据集进行了训练和测试。MNIST数据集是一个28*28的手写数字图片集合,使用测试集来验证训练出的模型对手写数字的识别准确率。

参考链接:

https://zhuanlan.zhihu.com/p/30249139(知乎说明)

https://github.com/JaimeTang/Pytorch-and-mnist(完整源码)

二、安装步骤

参考 https://zhuanlan.zhihu.com/p/141252055 进行pytorch的安装,其中主要步骤为先安装anaconda,再更换源为清华源,因为ubuntu默认的源,因为是国外网站的原因比较慢,先更换为清华源,再进行安装即可,同时安装vscode,在vscode中运行代码.

三、安装结果

利用 lsb_release -a 查看Ubuntu版本

1.安装的Ubuntu系统21.10

在ubuntu上安装pytorch框架并完成机器学习demo_第1张图片

2.安装成功的anaconda

在ubuntu上安装pytorch框架并完成机器学习demo_第2张图片

3.Pytorch安装成功:

在ubuntu上安装pytorch框架并完成机器学习demo_第3张图片

4.运行代码:

在ubuntu上安装pytorch框架并完成机器学习demo_第4张图片
在ubuntu上安装pytorch框架并完成机器学习demo_第5张图片

四、遇到的主要问题和解决方法

问题一:虚拟机网络配置出问题

解决方法:重置网络虚拟器

问题二:下载Ubuntu镜像速度十分慢

解决方法:进入http://mirrors.aliyun.com/ubuntu-releases/21.10/(阿里云镜像网站进行下载)

问题三:根目录磁盘空间不足

解决方法:先是简单的关闭虚拟机,扩充磁盘空间,最后发现还是根目录空间不足的情况,于是参考https://www.cnblogs.com/yxym2016/p/12617676.html,成功解决问题。

问题四:

安装Anaconda的过程中,下载好了源文件,执行安装命令,却显示在Debian 或 ubuntu 64位下运行 ./xxx 会跳出来说没有这个文件或者目录,但是ls看又有这个文件,很是奇怪。

解决方法:

查找资料https://www.cnblogs.com/rohens-hbg/p/4763378.html

每个方法的尝试过一遍之后,发现全部失败,最后发现是bash Anaconda3-5.2.0-Linux-x86_64.sh中.sh前面加了空格,属于是有点泪目了

问题五:在安装完Anaconda之后出现conda命令不能正常使用的解决办法,提示未找到命令

解决方法:是环境变量未设置清楚的原因,重新设置环境变量

问题六:安装pytorch换源清华源,出现报错

在ubuntu上安装pytorch框架并完成机器学习demo_第6张图片

解决方法:参考 https://www.cnblogs.com/tianlang25/p/12433025.html

清华源在换的时候,网址应该使用http,而不是https,这样会出现无法识别的网址情况,其次删除-default.,使用命令conda config --remove channels defaults,使用命令加网址的形式即conda config --add channels+网址,来添加源。

问题七:在跑Pytroch的MNIST手写识别例子时,碰到了shape不匹配的错误,错误指向:

images, labels = next(iter(data_loader_train))

解决方法:参考

https://blog.csdn.net/weixin_43159148/article/details/88778371

在ubuntu上安装pytorch框架并完成机器学习demo_第7张图片
在ubuntu上安装pytorch框架并完成机器学习demo_第8张图片

问题八:

from torchvision import datasets, transforms
import matplotlib.pyplot as plt
##这里出现报错
import os
import torchvision
import numpy as np
from torch.autograd import Variable

解决方法:

参考:

https://blog.csdn.net/HaaSTech/article/details/113587646?utm_source=app&app_version=5.0.1&code=app_1562916241&uLinkId=usr1mkqgl919blen

使用·(pytorch)$conda install matplotlibconda install matplotlib这个指令进行安装matplotlib

问题九:

在ubuntu上安装pytorch框架并完成机器学习demo_第9张图片

运行该代码时报错为:

invalid index of a 0-dim tensor. Use `tensor.item()` in Python or `tensor.it

参考https://blog.csdn.net/qq_42255269/article/details/108287251

修改loss.data[0]loss.item()

问题十:运行

在ubuntu上安装pytorch框架并完成机器学习demo_第10张图片

解决方法:删除红框中的代码

问题十一:在Ubuntu使用anaconda新建虚拟环境安装pytorch

参考https://blog.csdn.net/sinat_41563673/article/details/97402059

问题十二:环境变量的设置

参考 https://blog.csdn.net/u011630575/article/details/49839893

关于环境变量的设置是个值得学习的点,好几次都设置成了临时环境变量。

五、cuda的安装(附加)

注意:虚拟机没有显卡哈,所以安装cuda要在非虚拟机的环境下,或者你装个linux在主机上,或者安装windows下的pytorch。windows上的就更简单了,不再赘述。

可以参考:

https://blog.csdn.net/XieRuily/article/details/123670141 (nvcc命令找不到的解决办法))

https://blog.csdn.net/m0_37605642/article/details/99100924(windows下CUDA的卸载以及安装)

六、反思与总结

1.在安装完pytorch后,突然打不开设置,因为此前由于下载速度过慢,便使用了网络代理,但是网络代理不知为什么失效之后,想点开设置进行关闭,否则连接不上网络,但是无论怎么尝试,都打开不了设置,于是尝试从命令的层面来关闭,参考

https://blog.csdn.net/qq_22186119/article/details/121917139等博客,最后遇到提示为需要降级(这块挺乱的),总之打不开设置,重启也没解决这个问题。最后选择了重新安装Ubuntu系统(十分不幸的故事)。

2.Ubuntu一直在登录界面不断循环,无法解决,最后重装虚拟机

3.在更换清华源这个问题上卡了很久,一直出现报错,卡了很久,最后参考这个https://www.cnblogs.com/tianlang25/p/12433025.html,以及https://blog.csdn.net/sinat_41563673/article/details/97402059

这个里面的清华源,删去https,改成http,具体原因没深入理解,总之这么改就行了,这一步是安装pytorch上的一大绊脚石。这一步卡了有好几天。

4.以上简单总结了一下这些安装和使用的过程,以备下次查验,有出错的地方请大佬们批评指正。

你可能感兴趣的:(机器学习,ubuntu,pytorch,机器学习)