关于交叉熵CrossEntropyLoss不下降

1. Loss不断上升:模型分类输出标准化使用了log_softmax;

2. Loss不变(从开始):如果结果使用交叉熵损失,就无需在输出结果用一个softmax;

3.Loss下降后大幅跳动:学习率是否过大,Adam学习率一般设置为1e-3(0.001);

你可能感兴趣的:(python,nlp)