学习笔记-李沐动手学深度学习(五)(14-15,数值稳定性、模型初始化和激活函数、Kaggle房价预测)
总结14-数值稳定性(梯度爆炸、梯度消失)尤其是对于深度神经网络(即神经网络层数很多),最终的梯度就是每层进行累乘理论t:为第t层y:不是之前的预测值,而是包括了损失函数L所有的h都是向量(向量关于向量的导数是矩阵)(博客):①MLP:多层感知机。②对角矩阵(diagonalmatrix)是一个主对角线之外的元素皆为0的矩阵,常写为diag(a1,a2,…,an)。③diag*W把diag和W分开