[每日一氵] Python 训练过程中,如何优雅的保存loss

我为了看 每个epoch 的平均loss

新建一个 list []
for 每个 step
	将 该 step 的 loss 放在上边那个list中
打印那个list的 均值

很麻烦,每次都得重新,而且 不优雅 ,主要是 不优雅

和上一篇氵文一样,本文也是从 那个baseline 中扒下来的:

定义一个 Counter 类

用于记录他的均值、次数和总和
(当然你也可以加一个 last_num 用于记录上一个值)

class Counter:
    def __init__(self):
        self.count, self.sum, self.avg = 0, 0, 0
        return

    def update(self, value, num_updata=1):
        self.count += num_updata
        self.sum += value * num_updata
        self.avg = self.sum / self.count
        return

    def clear(self):
        self.count, self.sum, self.avg = 0, 0, 0
        return

用法:

# 在大循环外部先初始化这个类
loss_recorder = Counter()

for epoch in range(EPOCH):
    for batch in batch_loader:
    	out = model(batch)
    	loss = Loss(out, gt)
		
		# 这里更新那个对象
		loss_recorder.update(loss) # 当这里的loss你要转化成 float 的
		
		optimizer.zero_grad() # 优化器清空
		loss.backward() # 反向求导
		optimizer.step() # 更新优化器
		
	# 每个 epoch 打印一下这个loss
	print(loss_recorder.avg)

(你大概会说,就这,就这?? 额,好吧,感觉可能确实,就这,捂脸笑哭)

每次跑完,loss 就没了,我想保存下来,那么咱们用这个 Loss_Saver

class Loss_Saver:
    def __init__(self, moving=False):
        self.loss_list, self.last_loss = [], 0.0
        self.moving = moving  # 是否进行滑动平均操作
	
    def updata(self, value):
		# 只有进行滑动平均时,才会用到 self.last_loss 
		
        if not self.moving:
            self.loss_list += [value]
        elif not self.loss_list:
            self.loss_list += [value]
            self.last_loss = value
        else:
            update_val = self.last_loss * 0.9 + value * 0.1
            self.loss_list += [[update_val]]
            self.last_loss = update_val
        return

    def loss_drawing(self, root_file, encoding='gbk'):
    
    	# 这个用于在指定位置保存 loss 指标
        loss_array = np.array(self.loss_list)
        colname = ['loss']
        listPF = pd.DataFrame(columns=colname, data=loss_array)
        listPF.to_csv(f'{root_file}loss.csv', encoding=encoding)

这个类,用于在指定位置保存结果,用的时候这样用:

# 在训练的for循环开始之前,先定义一个loss保存类
losssaver, max_acc = Loss_Saver(), 0.0

然后就是训练中途,保存一下loss

 for epoch in range(opt.max_epoch):

        model.train()
        epoch_loss = Counter()
        train_dataset.update_num_epoch(epoch)
        for batch_id, batch in tqdm(enumerate(dataloader):
        	
        	inputs, target = batch
            pred = model(inputs)
            loss = loss_fn(pred, target)

            epoch_loss.updata(float(loss.item())) # 这里是之前咱们用的那个loss(Counter类)

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

        losssaver.updata(epoch_loss.avg)  # <----------- 这里就是保存loss的部分

在训练完毕后,把刚刚的loss保存一下:

root_exp_file = "model"
losssaver.loss_drawing(f'{root_exp_file}/{name_exp}/')
logger.info('finish training!')   # 顺便打印一个 finish training hhh(上一篇博客的)

这里这个 name_exp 变量也值得说叨说叨,一般来说,我们每次运行这个train文件,loss每次都会被覆盖,在懒得想名字的情况下,我们直接给他赋值一个随机的名字,时间一长(一般我一小时就忘了)诶,哪个是哪个的loss来着hhh

于是可以借鉴这个baseline中起名字的方法,直接给文件夹的名字赋值为 当前的日期和时间

from datetime import datetime

time = datetime.now()
name_exp = f'{str(time.month).zfill(2)}{str(time.day).zfill(2)}_{str(time.hour).zfill(2)}' \
           f'{str(time.minute).zfill(2)}'
>>> name_exp
0424_1636

--------------- 完 ---------------

你可能感兴趣的:(每日一氵,python)