2019-01-29 大数据处理学习

训练大的数据集存在计算量的问题。假设要训练一个线性回归模型或者是逻辑回归模型, 当m是一个亿的时候, 用求一亿个项目总和的计算量来计算仅仅一步的梯度下降,这显然效率不高。

在我们训练一个上亿条数据的模型之前,也许可以随机从上亿条的数据集里选个一千条的子集用算法计算,画学习曲线检查小一些的数据集是不是好用。

学习曲线结果示例:

高方差的学习算法(左图):增加训练集的大小来提高性能

高偏差的学习算法(右图):增加样本个数不一定会提高太多的性能,多加一些特征或者在你的神经网络里加一些隐藏的单元。以最后会变成高方差的学习算法,然后添加基础设施来改进算法,而不是用多于一千条数据来建模

学习曲线

你可能感兴趣的:(2019-01-29 大数据处理学习)