机器学习算法对数据的要求以及使用的情况

1.数据量大于10万采用随机梯度下降,效果不错,大大的节约时间成本
2.数据量小于1万的可以采用kmeans聚类算法,无效果采用特殊聚类或者GMM模型。大于1万的采用minibatch kmeans算法。使用kmeans聚类的前提是聚类类别数量知道。
3.聚类类别数量未知的情况下,数据量小于1万时,采用meanshift或者VBGMM模型,大于1万时,就咩有什么有效的算法
4.聚类算法是建立在没有标记样本的数据,属于无监督模型
5.知道样本的类别标签,小于10万,采用线性SVM分类,没有效果,如果是文本数据,采用朴素贝叶斯,不是采用最近邻分类,最近邻无效,采用SVC或者采用集成分类算法。
6.如果数据量大于10万,采用随机梯度下降,没有效果,采用核函数近似的方法,这些算法属于有监督学习,知道样本类别标签
7.样本数量小于50,需要获取更多的样本,否则算法的效果没有用,也就是说机器学习的算法建立的数据样本规模要大于50
8.上面的是分类问题,下面说一下预测问题
9.预测质量,数据样本大于10万,采用随机梯度下降回归法,数据样本小于10万,并且只有少数特征有效的情况下,采用Lasso,ElasticNet算法。如果不是,采用SVR(线性核函数),岭回归模型( ridge regression ),如果无效,采用SVR(非线性核函数),或者集成回归
10.仅仅是数据寻找,可以采用随机PCA,没有效果,数据量小于1万,采用Isomap或者采用普嵌入算法(spectral embedding ),乜有效果采用LLE算法,这下算法用于减低维度
11.如果数据量大于1万,采用核函数近似算法降低维度
12如果是预测结构,就没有什么有效的算法了。

你可能感兴趣的:(机器学习--ML)