记录一下在复现st-gcn中遇到的坑

简单记录一下复现ST-GCN时遇到的坑

在搭环境时遇到的坑

具体的项目链接在这:ST-GCN
我的环境:
Ubuntu16.04
cuda:9.0
我的pytorch等ST-GCN的依赖是装在anaconda的沙盒环境里的,opencv、caffe和openpose是用的系统环境。经过测试,可以执行ST-GCN中的测试Demo。
遇到的第一个坑是这里:记录一下在复现st-gcn中遇到的坑_第1张图片
要使用 conda install -r requirements.txt 简单安装所需的包时,报错了,基本的意思就是所在的channel没有其中的几个包,因此,我后来就一个一个去装。在这其中又遇到了一些问题。
1.服务器 conda时错误提示 The following specifications were found to be conflict:
解决的办法就是在base环境中输入:conda update conda 。再次conda install 就没报错了。
2.第二个问题就是想安装opencv-python这个包的时候报错。
解决的办法就是:直接在cmd命令行输入:conda install --channel https://conda.anaconda.org/menpo opencv3
3.第三个问题就是安装scikit-video这个包的时候报错。(其实这个问题和第2个问题一样,就是当前的频道没有这个包的资源)
解决的办法就是在–channel中选有这个包的频道啦,那就是https://anaconda.org/conda-forge
4.最骚的是我在装完上面的包之后我的环境的pytorch消失了?
然后我现在在重装。看看等会怎么样吧。
5.第二天发现我的python版本无缘无故变成2.7版本的了,咋回事?
原来是装argparse的时候,系统自动给我降了。我*,后来查了一下发现这个argparse是python自动带着的,没必要再另外去装,所以我把环境删掉之后,再从新搞一次,这次就没装argparse了,import 它也是可以的。
6.额,后面开始跑实验了,但是有一个包漏了torchvision也是要装的····

然后是在远程调试时遇到的坑

因为我是想通过服务器来进行调试的嘛,那就得将项目上传到服务器上,但是有一个问题是因为我把数据库放在项目里面打算一起上传的(通过pycharm),可能是我的电脑内存太低了,根本上传不了这么大的数据库的数据,因此昨天就没上传成功。今天试着分开上传(先上传本来的项目加上下载的model,然后再上传数据库的压缩包),成功了,最后是在性能比较好的服务器上解压的数据库,现在在进一步处理数据库的数据。

跑 test 时报错

就是会说什么意外的值啊之类的
RuntimeError: in loading state_dict for Model…
这个问题我还是没有解决,问题主要就出在无法加载预训练模型,其实后来我自己训练了一个模型也是可以的,然后后我自己训练的模型来测试也是可以的。

后来这个问题解决了,修正的模型在issues里面可以找得到,给个链接吧:
https://github.com/yysijie/st-gcn/issues/182

openpose的安装

这个最让我头大了···
主要的配置过程参考这个博客,但是这其中还有很多的坑,我一一道来。
1.首先是opencv的安装。
这个一堆坑,最简单的方法就是先把之前系统里面装的opencv先删除干净,然后再用一个简单的命令安装2.4的版本。apt-get install libopencv-dev(可能要装依赖,百度一下)
2.然后是caffe的安装。(应该考虑到cuda和cudnn版本的问题)
这个遇到的问题也挺多的,有一个是这个:在这里插入图片描述
其实很多问题在这里都有提到:https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/doc/faq.md#check-failed-for-readprotofrombinaryfile-failed-to-parse-netparameter-file
这个问题在这里面也有提到。
这个问题后来我换成CUDA9.0就解决了,CUDA8.0可能是cudnn的问题,我还是没搞清楚。

3.在解决第二个问题之后,又出现了新的问题(编译openpose成功,运行测试时),就是caffe版本和openpose不匹配的问题:
在这里插入图片描述
参考这个:https://blog.csdn.net/chenzhenyu123456/article/details/84259851
其实从主要的参考博客就可以看出一点蛛丝马迹了,caffe版本是升级过的(Makefile文件内容不同),我们就降版本来进行配置吧。
经过测试,完成openpose的配置,并测试成功。(在系统环境下。)

你可能感兴趣的:(记录一下在复现st-gcn中遇到的坑)