接续训练调优:model.load_state_dict不会自动加载优化器参数,它仅加载模型的权重参数。要完整恢复训练状态,需要单独处理优化器和学习率调度器。
注意:model.load_state_dict(torch.load(self.config.ckpt_path),strict=False)不会自动加载优化器和调度器参数,所以会导致接续训练时候loss为什么不是接上的,而是再次训练时候会上升一点点。原因是:学习率和优化器重置了,没有保存之前的状态。1.标准检查点应包含的内容完整的训练检查点(checkpoint)通常包含以下键值:{'epoc