如何选择合适的learning rate?

1. 设置一个较大的learning_rate

learning_rate = 1e-3

2. 设置warmup

from transformers import AdamW,  get_constant_schedule_with_warmup

optimizer = AdamW(model.parameters(), lr=learning_rate, correct_bias=True)
scheduler = get_constant_schedule_with_warmup(optimizer, num_warmup_steps=1000)

3. 导致train loss突变时的learning_rate/10即为合适的learning rate。

如何选择合适的learning rate?_第1张图片

如何选择合适的learning rate?_第2张图片

该train loss突变点前为step 348,对应的learning_rate为0.000346,约等于3e-4,除以10为3e-5。因此,在该模型训练过程中设置learning_rate为3e-5 会比较合适。

你可能感兴趣的:(人工智能)