捉虫 | mmlab 系列安装过程遇到的问题合集

(不定时更新…以我遇到问题为主)

  • linux
  • python3.6
  • cuda 10.1
  • torch 1.6.0;vision 0.7

mmcv安装不完全

20210117

事故发生在一开始。
官方教程提供对应版本的mmcv-full下载;但是无法完整获取。

# latest
pip install mmcv-full -f https://download.openmmlab.com/mmcv/dist/cu101/torch1.6.0/index.html

建议使用这种方式:

git clone https://github.com/open-mmlab/mmcv.git
cd mmcv

# 安装完整版本
MMCV_WITH_OPS=1 pip install -e .

报错:No CUDA runtime is found…

20210118

事故发生在mmcv成功后,安装mmpose和mmdetection期间。

# mmpose
git clone https://github.com/open-mmlab/mmpose.git
cd mmpose

pip install -r requirements.txt   # 安装依赖扑街
python setup.py develop  # 正式安装报错

# mmdetection
git clone https://github.com/open-mmlab/mmdetection.git
cd mmdetection

pip install -r requirements/build.txt
pip install -v -e .  # 注意最后还有一个『.』
# or "python setup.py develop"

直接操作,不仔细看文件内容安装的话;
在调用测试文件的时候,会报错“No CUDA runtime is found”或者“too old”

捉虫 | mmlab 系列安装过程遇到的问题合集_第1张图片
捉虫 | mmlab 系列安装过程遇到的问题合集_第2张图片
仔细观察,可以发现之前 pip install -r requirements.txt 的时候自动给我的torch顶满了。
如果此时接着使用普通的 pip 重装对应版本的 torch 依旧会有以上问题。
捉虫 | mmlab 系列安装过程遇到的问题合集_第3张图片
正确的姿势应该是:去官网找对应版本,然后重装。

pip install torch==1.6.0+cu101 torchvision==0.7.0+cu101 -f https://download.pytorch.org/whl/torch_stable.html

之后在python里输 torch.cuda.is_available() 验证一下;只要是 True 这个问题就解决了!!!


报错:大数据集上传

20210121

事故发生在下载COCO数据集,搞了我3天(原地跺脚)

首先是大数据集的下载,大家都知道,COCO的 train2017 快 20G 了,我每次直接用科研平台上传,都失败。
后来发现可以直接用 linux 里面的断点续传来解决大数据集下载的问题,不用一直盯着!

cd /workspace/coco  # 进入需要下载到的文件夹
wget -c http://images.cocodataset.org/zips/train2017.zip  

捉虫 | mmlab 系列安装过程遇到的问题合集_第4张图片


报错:bad zipfile offset…

20210121

事故发生在下载好 COCO 后的解压环节。

之前直接按照老规矩,使用命令行解压到指定文件夹,这时候报错了几行,我也没在意,以为黑客帝国常规操作;

unzip train2017.zip -d /workspace/mmpose/data/coco

捉虫 | mmlab 系列安装过程遇到的问题合集_第5张图片

同时推导数据集也没报错;但是到了训练数据集环节,就说找不到文件……

./tools/dist_train.sh configs/bottom_up/higherhrnet/coco/higher_hrnet32_coco_512x512.py 2

捉虫 | mmlab 系列安装过程遇到的问题合集_第6张图片
回头一想,就是解压的这个报错出了问题,网上找了很多方案,重新下载上传数据集都没用。

后来发现:有可能是数据集太大了,再给他 -d 指定到别的文件夹会丢包,放到要解压的文件夹原地解压就好。

# 不是压缩包的问题,是unzip到另外文件夹出现错误,把文件放到指定文件夹,再就地解压就好了!
unzip train.zip

报错:Address already in use…

20210120

事故发生在开始训练的时候。

端口冲突,我当时可以训练了,兴奋过头,不小心误按了Ctrl+Z 然后训练就异常中断了;再次训练时候出现这个报错。

捉虫 | mmlab 系列安装过程遇到的问题合集_第7张图片
网上查了很多方法,说是需要找到冲突的进程,然后kill掉!这个方法不好,因为我分不清哪个进程是我堵塞的。

解决方法很粗暴,关掉这个终端,重新打开一个就好!

你可能感兴趣的:(HPE,debug)