深度学习为什么需要suffle,xgb为什么不需要shuffle?

因为深度学习的优化方法是随机梯度下降,每次只需要考虑一个batch的数据,也就是每次的“视野”只能看到这一批数据,而不是全局的数据。是一种“流式学习”。原始数据因为某中原因分布并不平均,会出现连续的正负样本,或者数据分布集中的情况,这样的话会限制梯度优化方向的可选择性,导致收敛点选择空间严重变少。不容易收敛到最优值。

而xgb模型训练建树的过程最重要的步骤是分裂点的选择。考虑的数据是整个训练集。xgb的视野是整个数据集。所以不需要shufle。

你可能感兴趣的:(深度学习为什么需要suffle,xgb为什么不需要shuffle?)