记录auto-dl服务器安装mmdetection

记录auto-dl服务器安装mmcv-full==1.4.0安装失败


之前用auto-dl租的服务器来训练PVT,提示ModuleNotFoundError: No module named 'mmcv'

pip install mmcv-full后提示版本不对

于是安装1.4.0版本结果死活安装不上,一直报一大堆错

后来换了pytorch版本为1.9.0才安装成功。之前是1.11.0

也有可能是我安装了apex库的原因。

记录一下


记录安装apex加速库报错AttributeError: module 'torch.distributed' has no attribute '_reduce_scatter_base'

安装apex的版本不对

应该安装这个版本

先把之前的apex库删除

然后下载最这个版本

rm -rf apex
git clone --branch 22.04-dev https://github.com/NVIDIA/apex.git

int(float(bnd_box.find('xmin').text)), AttributeError: 'NoneType' object has no attribute 'find'

要么是因为图片打了旋转框的原因,将这些图片删除掉就行
要么是因为数据是原始的,在运行一遍split_train.py文件生成那四个train.txt......

浅浅记录一下

mmdetection训练第一件事情

调节你的sample_per_gpu和lr

忘记调lr导致白白训练的一天,越到后面loss都快1000多,离谱

无论怎么改类别问题报错不匹配等问题

重新编译,重新编译的原因就是因为环境里的源文件没有修改,所以你才会报错。mmdetection-master目录下只是一些python文件,真正运行程序时,运行的还是环境里的源文件,因为我们直接去环境里修改源文件。

假设我的conda环境名为conda_env_name,因此去下面的目录下,分别修改两个文件:

\anaconda3\envs\conda_env_name\lib\python3.7\site-packages\mmdet\core\evaluation\class_names.py

\anaconda3\envs\conda_env_name\lib\python3.7\site-packages\mmdet\datasets\coco.py

你可能感兴趣的:(深度学习,pytorch,人工智能)