海量数据处理--使用sklearn进行增量学习

转载来自:https://blog.csdn.net/whiterbear/article/details/53120004

问题

实际处理和解决机器学习问题过程中,我们会遇到一些“大数据”问题,比如有上百万条数据,上千上万维特征,此时数据存储已经达到10G这种级别。这种情况下,如果还是直接使用传统的方式肯定行不通,比如当你想把数据load到内存中转成numpy数组,你会发现要么创建不了那么大的numpy矩阵,要么直接加载时报MemeryError。
在这种情况下我了解了几种选择办法,

  1. 对数据进行降维,
  2. 使用流式或类似流式处理,
  3. 上大机器,高内存的,或者用spark集群

你可能感兴趣的:(机器学习与数据挖掘,人工智能,机器学习)