本文中介绍解析的代码均为原始代码,地址:https://github.com/yjxiong/tsn-pytorch。
在TSN实验配置中,部分代码有所更改,不做对比。
tsn-pytorch项目中主要的文件即其作用如下所示
下面对训练部分的代码进行详细的介绍。
在前一篇博文TSN实验配置中,TSN训练是从main.py进入的,而main.py文件主方法为main(),所以我们从main()开始,其主体功能如下图,下面按顺序解释主函数及其调用的代码。
# 初始化模型
model = TSN(num_class, args.num_segments, args.modality,
base_model=args.arch,
consensus_type=args.consensus_type, dropout=args.dropout, partial_bn=not args.no_partialbn)
crop_size = model.crop_size
scale_size = model.scale_size
input_mean = model.input_mean
input_std = model.input_std
policies = model.get_optim_policies()
train_augmentation = model.get_augmentation()
从第一行代码,进入models.py查看关于模型的相关内容。
首先models.py结构如下:
对其中几个函数进行解释。
def __init__(self, num_class, num_segments, modality,
base_model='resnet101', new_length=None,
consensus_type='avg', before_softmax=True,
dropout=0.8,
crop_num=1, partial_bn=True):
super(TSN, self).__init__()
self.modality = modality
self.num_segments = num_segments
self.reshape = True
self.before_softmax = before_softmax
self.dropout = dropout
self.crop_num = crop_num
self.consensus_type = consensus_type
if not before_softmax and consensus_type != 'avg':
raise ValueError("Only avg consensus can be used after Softmax")
if new_length is None:
self.new_length = 1 if modality == "RGB" else 5
else:
self.new_length = new_length
# 打印网络不贴出
self._prepare_base_model(base_model)
feature_dim = self._prepare_tsn(num_class)
if self.modality == 'Flow':
print("Converting the ImageNet model to a flow init model")
self.base_model = self._construct_flow_model(self.base_model)
print("Done. Flow model ready...")
elif self.modality == 'RGBDiff':
print("Converting the ImageNet model to RGB+Diff init model")
self.base_model = self._construct_diff_model(self.base_model)
print("Done. RGBDiff model ready.")
self.consensus = ConsensusModule(consensus_type)
if not self.before_softmax:
self.softmax = nn.Softmax()
self._enable_pbn = partial_bn
if partial_bn:
self.partialBN(True)
参数解释:
这部分代码主要就是对模型的初始设置,对传入的参数进行保存和修改,在这之后调用_prepare_base_model方法导入模型并使用_prepare_tsn修改网络部分结构。
对不同基础网络结构进行数据预处理设置,因为我们在实验时使用的是resnet101,这里仅对该部分解释
def _prepare_base_model(self, base_model):
if 'resnet' in base_model or 'vgg' in base_model:
self.base_model = getattr(torchvision.models, base_model)(True)
self.base_model.last_layer_name = 'fc'
self.input_size = 224
self.input_mean = [0.485, 0.456, 0.406]
self.input_std = [0.229, 0.224, 0.225]
if self.modality == 'Flow':
self.input_mean = [0.5]
self.input_std = [np.mean(self.input_std)]
elif self.modality == 'RGBDiff':
self.input_mean = [0.485, 0.456, 0.406] + [0] * 3 * self.new_length
self.input_std = self.input_std + [np.mean(self.input_std) * 2] * 3 * self.new_length
主要是使用getattr模块:getattr(torchvision.models, base_model)()根据base_model的不同指定值来导入不同的网络,对不同基础模型设定不同的输入尺寸、均值和方差,这些后面进行数据处理时使用,此外对光流输入和RGB差分,需要进行不同的设置。
调整feature_dim,feature_dim是网络最后一层的输入feature map的channel数,后面若有dropout层,那么添加一个dropout层后连一个全连接层,否则就直接连一个全连接层,全连接层的输入为feature_dim,输出为数据集的类别num_class。
def _prepare_tsn(self, num_class):
feature_dim = getattr(self.base_model, self.base_model.last_layer_name).in_features
if self.dropout == 0:
setattr(self.base_model, self.base_model.last_layer_name, nn.Linear(feature_dim, num_class))
self.new_fc = None
else:
setattr(self.base_model, self.base_model.last_layer_name, nn.Dropout(p=self.dropout))
self.new_fc = nn.Linear(feature_dim, num_class)
std = 0.001
if self.new_fc is None:
normal(getattr(self.base_model, self.base_model.last_layer_name).weight, 0, std)
constant(getattr(self.base_model, self.base_model.last_layer_name).bias, 0)
else:
normal(self.new_fc.weight, 0, std)
constant(self.new_fc.bias, 0)
return feature_dim
此部分用到了两个函数
在调用本方法之后,初始化函数需要对非单一RGB输入(光流和差分数据)做修改,主要差别在第一个卷积层,因为该层的输入channel依据不同的输入类型而变化,分别通过_construct_flow_model和_construct_diff_model实现,由于只对单一RGB输入进行了实验,所以这部分不做详细介绍。
接下来回到main.py的main(),在模型初始化之后,对多gpu与断点恢复进行了设置
model = torch.nn.DataParallel(model, device_ids=args.gpus).cuda()
if args.resume:
if os.path.isfile(args.resume):
print(("=> loading checkpoint '{}'".format(args.resume)))
checkpoint = torch.load(args.resume)
args.start_epoch = checkpoint['epoch']
best_prec1 = checkpoint['best_prec1']
model.load_state_dict(checkpoint['state_dict'])
print(("=> loaded checkpoint '{}' (epoch {})"
.format(args.evaluate, checkpoint['epoch'])))
else:
print(("=> no checkpoint found at '{}'".format(args.resume)))
cudnn.benchmark = True
使用torch.nn.DataParallel方法设置多GPU训练,而args.resume主要是用来设置是否从断点处继续训练,比如原来训练模型训到一半停止了,希望继续从保存的最新epoch开始训练,因此args.resume要么是默认的None,要么就是保存的模型文件(.pth)的路径。
其中checkpoint = torch.load(args.resume)是用来导入已训练好的模型,model.load_state_dict方法是完成导入模型的参数初始化model这个网络的过程,这也是torch.nn.Module类中的重要方法之一。
继续沿着main.py的main()阅读,下面是进行数据的导入,通过自定义的TSNDataSet类导入数据
if args.modality != 'RGBDiff':
normalize = GroupNormalize(input_mean, input_std)
else:
normalize = IdentityTransform()
if args.modality == 'RGB':
data_length = 1
elif args.modality in ['Flow', 'RGBDiff']:
data_length = 5
train_loader = torch.utils.data.DataLoader(
TSNDataSet("", args.train_list, num_segments=args.num_segments,
new_length=data_length,
modality=args.modality,
image_tmpl="img_{:05d}.jpg" if args.modality in ["RGB", "RGBDiff"] else args.flow_prefix+"{}_{:05d}.jpg",
transform=torchvision.transforms.Compose([
train_augmentation,
Stack(roll=args.arch == 'BNInception'),
ToTorchFormatTensor(div=args.arch != 'BNInception'),
normalize,
])),
batch_size=args.batch_size, shuffle=True,
num_workers=args.workers, pin_memory=True)
val_loader = torch.utils.data.DataLoader(
TSNDataSet("", args.val_list, num_segments=args.num_segments,
new_length=data_length,
modality=args.modality,
image_tmpl="img_{:05d}.jpg" if args.modality in ["RGB", "RGBDiff"] else args.flow_prefix+"{}_{:05d}.jpg",
random_shift=False,
transform=torchvision.transforms.Compose([
GroupScale(int(scale_size)),
GroupCenterCrop(crop_size),
Stack(roll=args.arch == 'BNInception'),
ToTorchFormatTensor(div=args.arch != 'BNInception'),
normalize,
])),
batch_size=args.batch_size, shuffle=False,
num_workers=args.workers, pin_memory=True)
TSNDataSet继承了pytorch中原生的Dataset类,最终返回torch.utils.data.Dataset类型,通过重写__init__和__getitem__方法自定义数据类型来读取数据。返回的Dataset类要经过torch.utils.data.DataLoader进一步封装成可迭代对象,这些与之前的CNN操作都类似,最终使用前面解析获得的batch size等参数将数据封装成一个可直接获取批大小数据量的类迭代器形式。
在获取数据时,需要特别关注的TSNDataSet这个自定义类,这是在dataset.py中定义的,结构如下图所示
对TSNDataSet几个函数详解:
def __init__(self, root_path, list_file,
num_segments=3, new_length=1, modality='RGB',
image_tmpl='img_{:05d}.jpg', transform=None,
force_grayscale=False, random_shift=True, test_mode=False):
self.root_path = root_path
self.list_file = list_file
self.num_segments = num_segments
self.new_length = new_length
self.modality = modality
self.image_tmpl = image_tmpl
self.transform = transform
self.random_shift = random_shift
self.test_mode = test_mode
if self.modality == 'RGBDiff':
self.new_length += 1# Diff needs one more image to calculate diff
self._parse_list()
主要是要明白参数列表,重复的不再做介绍
def _parse_list(self):
self.video_list = [VideoRecord(x.strip().split(' ')) for x in open(self.list_file)]
self.list_file是训练或测试的列表文件(.txt文件),里面包含三列内容,用空格键分隔,第一列是video名,第二列是video的帧数,第三列是video的标签,分别将这三个信息提取出来封装为VideoRecord对象存储在video_list中。
def _sample_indices(self, record):
"""
:param record: VideoRecord
:return: list
"""
average_duration = (record.num_frames - self.new_length + 1) // self.num_segments
if average_duration > 0:
offsets = np.multiply(list(range(self.num_segments)), average_duration) + randint(average_duration, size=self.num_segments)
elif record.num_frames > self.num_segments:
offsets = np.sort(randint(record.num_frames - self.new_length + 1, size=self.num_segments))
else:
offsets = np.zeros((self.num_segments,))
return offsets + 1
对视频进行稀疏采样,采样方式如下:
def __getitem__(self, index):
record = self.video_list[index]
if not self.test_mode:
segment_indices = self._sample_indices(record) if self.random_shift else self._get_val_indices(record)
else:
segment_indices = self._get_test_indices(record)
return self.get(record, segment_indices)
此函数为真正的数据读取操作,record = self.video_list[index]得到的record就是一帧图像的信息,index是随机的,和前面数据读取中的shuffle参数对应。
训练时self.test_mode是False,故执行if语句,而self.random_shift默认是True,所以最终执行的是2.2.3的采样函数。
测试时self.test_mode为True,实际执行的是_get_test_indices函数。
def _get_test_indices(self, record):
tick = (record.num_frames - self.new_length + 1) / float(self.num_segments)
offsets = np.array([int(tick / 2.0 + tick * x) for x in range(self.num_segments)])
return offsets + 1
本方法在模型测试的时候调用。
将输入video按照相等帧数距离分成self.num_segments份,最终返回的offsets就是长度为self.num_segments的numpy array,表示从输入video中取哪些帧作为模型的输入。
回到main.py的main(),接下来开始准备训练和训练。
定义损失函数,优化器和设置一些超参数,从代码中可以看到,这里使用的是交叉熵损失函数,优化器使用SGD方式。
if args.loss_type == 'nll':
criterion = torch.nn.CrossEntropyLoss().cuda()
else:
raise ValueError("Unknown loss type")
for group in policies:
print(('group: {} has {} params, lr_mult: {}, decay_mult: {}'.format(
group['name'], len(group['params']), group['lr_mult'], group['decay_mult'])))
optimizer = torch.optim.SGD(policies,
args.lr,
momentum=args.momentum,
weight_decay=args.weight_decay)
根据args.evaluate参数判断当前是训练模式还是测试模式,此处代码先列出代码的流程,其中涉及具体函数的内容将在2.4小节展开。
if args.evaluate:
validate(val_loader, model, criterion, 0)
return
for epoch in range(args.start_epoch, args.epochs):
adjust_learning_rate(optimizer, epoch, args.lr_steps)
# train for one epoch
train(train_loader, model, criterion, optimizer, epoch)
# evaluate on validation set
if (epoch + 1) % args.eval_freq == 0 or epoch == args.epochs - 1:
prec1 = validate(val_loader, model, criterion, (epoch + 1) * len(train_loader))
# remember best prec@1 and save checkpoint
is_best = prec1 > best_prec1
best_prec1 = max(prec1, best_prec1)
save_checkpoint({
'epoch': epoch + 1,
'arch': args.arch,
'state_dict': model.state_dict(),
'best_prec1': best_prec1,
}, is_best)
代码流程如下图:
这个过程中有几个非常重要的函数,下面一一进行详解。
train函数是整个训练部分的入口
def train(train_loader, model, criterion, optimizer, epoch):
batch_time = AverageMeter()
data_time = AverageMeter()
losses = AverageMeter()
top1 = AverageMeter()
top5 = AverageMeter()
if args.no_partialbn:
model.module.partialBN(False)
else:
model.module.partialBN(True)
# switch to train mode
model.train()
end = time.time()
for i, (input, target) in enumerate(train_loader):
# measure data loading time
data_time.update(time.time() - end)
target = target.cuda()
input_var = torch.autograd.Variable(input)
target_var = torch.autograd.Variable(target)
# compute output
output = model(input_var)
loss = criterion(output, target_var)
# measure accuracy and record loss
prec1, prec5 = accuracy(output.data, target, topk=(1,5))
losses.update(loss.data[0], input.size(0))
top1.update(prec1[0], input.size(0))
top5.update(prec5[0], input.size(0))
# compute gradient and do SGD step
optimizer.zero_grad()
loss.backward()
if args.clip_gradient is not None:
total_norm = clip_grad_norm(model.parameters(), args.clip_gradient)
if total_norm > args.clip_gradient:
print("clipping gradient: {} with coef {}".format(total_norm, args.clip_gradient / total_norm))
optimizer.step()
# measure elapsed time
batch_time.update(time.time() - end)
end = time.time()
# 输出部分代码不再贴出
train函数借助AverageMeter类实例来管理更新变量,关于AverageMeter类在后面解释,这里仅关注train函数的流程。
注意这样一行代码
prec1, prec5 = accuracy(output.data, target, topk=(1,5))
通过accuracy函数计算topK(1,5)的准确率,下面对这个函数解析。
def accuracy(output, target, topk=(1,)):
"""Computes the precision@k for the specified values of k"""
maxk = max(topk)
batch_size = target.size(0)
_, pred = output.topk(maxk, 1, True, True)
pred = pred.t()
correct = pred.eq(target.view(1, -1).expand_as(pred))
res = []
for k in topk:
correct_k = correct[:k].view(-1).float().sum(0)
res.append(correct_k.mul_(100.0 / batch_size))
return res
accuracy为准确率计算函数,输入output是模型预测的结果,尺寸为batch size*num class;target是真实标签,长度为batch size。
- 参数1:maxk表示要计算的是top maxk的结果;
- 参数2:1表示dim,即按行计算(dim=1)
- 参数3:完整的是largest=True,表示返回的是top maxk个最大值
- 参数4:四个参数True,完整的是sorted=True,表示返回排序的结果
学习率调整函数
def adjust_learning_rate(optimizer, epoch, lr_steps):
"""Sets the learning rate to the initial LR decayed by 10 every 30 epochs"""
decay = 0.1 ** (sum(epoch >= np.array(lr_steps)))
lr = args.lr * decay
decay = args.weight_decay
for param_group in optimizer.param_groups:
param_group['lr'] = lr * param_group['lr_mult']
param_group['weight_decay'] = decay * param_group['decay_mult']
lr_steps是一个列表,里面的值表示到达多少个epoch的时候要改变学习率,在adjust_learning_rate函数中,修改学习率时是默认修改成当前的0.1倍。
主要功能是保存表现最好的一个模型及其参数。
def save_checkpoint(state, is_best, filename='checkpoint.pth.tar'):
filename = '_'.join((args.snapshot_pref, args.modality.lower(), filename))
torch.save(state, filename)
if is_best:
best_name = '_'.join((args.snapshot_pref, args.modality.lower(), 'model_best.pth.tar'))
shutil.copyfile(filename, best_name)
其主要工作是生成模型路径,用torch.save()方法保存模型。
关于torch.save()的用法可参考:
利用torch.save()保存/读取模型等相关参数
验证函数validate和训练函数train类似,主要有几个不同点。
def validate(val_loader, model, criterion, iter, logger=None):
batch_time = AverageMeter()
losses = AverageMeter()
top1 = AverageMeter()
top5 = AverageMeter()
# switch to evaluate mode
model.eval()
end = time.time()
for i, (input, target) in enumerate(val_loader):
target = target.cuda()
input_var = torch.autograd.Variable(input, volatile=True)
target_var = torch.autograd.Variable(target, volatile=True)
# compute output
output = model(input_var)
loss = criterion(output, target_var)
# measure accuracy and record loss
prec1, prec5 = accuracy(output.data, target, topk=(1,5))
losses.update(loss.data[0], input.size(0))
top1.update(prec1[0], input.size(0))
top5.update(prec5[0], input.size(0))
# measure elapsed time
batch_time.update(time.time() - end)
end = time.time()
# 打印代码不再贴出
return top1.avg
在train和validate函数中均使用了AverageMeter对象来管理变量更新,如
batch_time = AverageMeter()
data_time = AverageMeter()
losses = AverageMeter()
top1 = AverageMeter()
top5 = AverageMeter()
它的定义如下:
class AverageMeter(object):
"""Computes and stores the average and current value"""
def __init__(self):
self.reset()
def reset(self):
self.val = 0
self.avg = 0
self.sum = 0
self.count = 0
def update(self, val, n=1):
self.val = val
self.sum += val * n
self.count += n
self.avg = self.sum / self.count
初始化调用重置方法reset,当调用该类对象的update方法的时候就会进行变量更新,当要读取某个变量的时候,可以通过对象.属性的方式来读取,比如在train函数中的top1.val读取top1准确率。
至此,我们从main.py的main()入手,按照执行和调用顺序对tsn-pytorch训练的大部分代码做了解释,下面结合实验过程给出训练部分的数据流。
通过阅读和解析代码,现在回顾TSN论文中的网络架构和主体公式
对应本文2.2.3小节(_sample_indices函数(稀疏和全局采样的实现))。
K=3,将视频分为3段,即 S 1 , S 2 , S 3 S_1,S_2,S_3 S1,S2,S3,再对每一段随机采样一个片段,在RGB中,一个片段包含一帧图像,采样方式同样在2.2.3小节,共有3个片段 T 1 , T 2 , T 3 T_1,T_2,T_3 T1,T2,T3,然后将每一个片段都输入到卷积网络中,将输出的三个结果进行分段聚合最终得到视频级别的分类结果。
有关聚合函数的内容,我在代码中并没有找到很多的信息,在项目models.py定义TSN类别的初始化函数中,仅有这样的一句代码
self.consensus = ConsensusModule(consensus_type)
跟踪代码,可找到tsn-pytorch/ops/basic_ops.py中对于该模块的定义如下
class SegmentConsensus(torch.autograd.Function):
def __init__(self, consensus_type, dim=1):
self.consensus_type = consensus_type
self.dim = dim
self.shape = None
def forward(self, input_tensor):
self.shape = input_tensor.size()
if self.consensus_type == 'avg':
output = input_tensor.mean(dim=self.dim, keepdim=True)
elif self.consensus_type == 'identity':
output = input_tensor
else:
output = None
return output
def backward(self, grad_output):
if self.consensus_type == 'avg':
grad_in = grad_output.expand(self.shape) / float(self.shape[self.dim])
elif self.consensus_type == 'identity':
grad_in = grad_output
else:
grad_in = None
return grad_in
class ConsensusModule(torch.nn.Module):
def __init__(self, consensus_type, dim=1):
super(ConsensusModule, self).__init__()
self.consensus_type = consensus_type if consensus_type != 'rnn' else 'identity'
self.dim = dim
def forward(self, input):
return SegmentConsensus(self.consensus_type, self.dim)(input)
这部分我仅能看出平均池化一个聚合类型,对于论文中提到的其他类型,希望随着后续学习的深入再做研究。