文本分类问题的增量学习 PassiveAggressiveClassifier在线主动攻击型分类算法 大数据
实际解决机器学习问题过程中,我们会遇到一些“大数据”问题,比如有上百万条数据,上千上万维特征,此时数据存储已经达到10G这种级别。如果是文本分类分体,你还需要提取文本特征,这时候如果把数据load到内存,那占用内存就太大了,如何解决:1.对数据进行降维?2.使用流式或类似流式处理?3.上大机器,高内存的,或者用spark集群。本文将要介绍的是一种增量学算法PassiveAggressiveClas