for name, params in xlnet.named_parameters():
if params.dim() >1:
torch.nn.init.xavier_uniform_(params)
print(name)
CNN的kernal size和stride会影响模型的收敛,ks尽量大一些,stride应当接近或低于ks的一半。
一个极端的例子:ks=3,stride=2,很难收敛,因为帧与帧之间有很高的相似性,这样卷积后不同帧之间的差别就更小了,不利于后续的分类。
model = Model()
print('total parameters:', sum(param.numel() for param in model.parameters()))
del loss,targets_mask,targets,input_q,target_mapping,perm_mask,input_mask,input_k
torch.cuda.empty_cache()
self.q_proj_weight = nn.Parameter(torch.randn(self.n_layer, self.d_model,
self.n_head, self.d_head))