Train/Dev/Test sets的比例选择;防止过拟合的两种方法:L2 regularization和Dropout;梯度消失和梯度爆炸的概念和危害;梯度初始化;梯度检查
Train/Dev/Testsets的比例选择一般地,我们将所有的样本数据分成三个部分:Train/Dev/Testsets。Trainsets用来训练你的算法模型;Devsets用来验证不同算法的表现情况,从中选择最好的算法模型;Testsets用来测试最好算法的实际表现,作为该算法的无偏估计。在样本数量不是很大的情况下,例如100,1000,10000:常设置Trainsets和Testset