被冻结的层在训练过程中参与正向反向传递,只是这一层的梯度不再更新。||底层逻辑

 被冻结的层可以前向传播,也可以反向传播,只是自己这一层的参数不更新,其他未冻结层的参数正常更新。

在微调期间,只有被激活的层的梯度会被计算和更新,而被冻结的层的梯度则会保持不变。

其实从数学上去理解也不难,但自己手推还是需要花点时间的,至少先回顾一下BP。被冻结的层在训练过程中参与正向反向传递,只是这一层的梯度不再更新。||底层逻辑_第1张图片

 

 

你可能感兴趣的:(LLM,人工智能,机器学习,深度学习,冻结,微调,大模型)