最近写的行人重识别(person re-id) 程序错误反思记录

文章目录

  • 一、 Loss 问题
  • 二、 分层学习率问题
  • 三、多GPU 处理程序

一、 Loss 问题

首先,loss 用的是 三元组损失,标签平滑交叉熵损失,调试的过程中出了两个错误

(1) float,list dtype不一样的问题,问题出在了 下边的 len(),忘了写了,导致class_names是一个列表,不是我们需要的长度。
在这里插入图片描述

最近写的行人重识别(person re-id) 程序错误反思记录_第1张图片
(2) 维度不匹配
最近写的行人重识别(person re-id) 程序错误反思记录_第2张图片
原因是出在了 train.py 训练程序里边的训练和验证环节(train和 val) net返回的特征不一样导致,所以出错。

二、 分层学习率问题

一开始按照net(model)的模块名字写上去,这个思想是没问题的,但是因为太多了,导致复制粘贴重复了一次,导致出错。
最近写的行人重识别(person re-id) 程序错误反思记录_第3张图片
要细心

三、多GPU 处理程序

os.environ['CUDA_VISIBLE_DEVICES'] = '0,1'
device_ids = [0, 1]
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

inputs = inputs.cuda()
labels = labels.cuda()



model = nn.DataParallel(model, device_ids=device_ids)
model = model.to(device)#先cuda





注意, 分层不同学习率,需要加model.moudule.xxxx
最近写的行人重识别(person re-id) 程序错误反思记录_第4张图片

你可能感兴趣的:(pytorch,搭建网络,行人重识别)