机器学习算法的归类

机器学习算法的归类

@(博客文章)[machine learining]

机器学习从数据处理到分析算法,再到指标评价等,涉及各种各样的算法及知识点,每个人都对其有不同的归类思路,我们结合自己的理解,以及参考spark的归类方式,将其分为以下几类:
详见https://spark.apache.org/docs/latest/mllib-guide.html

一、数据预处理

(一)数据降维(Dimensionality reduction)

1、奇异值分解(SVD,Singular value decomposition)
2、主成分分析(PCA,Principal Component Analysis)

(二)特征提取与转换(Feature extraction and transformation)

二、挖掘算法

(一)基本的统计方法(Basic statistics)

1、概括性统计(summary statistics)
2、 correlations
3、分层抽样(stratified sampling)
4、假设检验(Hypothesis Testing)
5、随机数据生成(random data generation)

(二)分类与回归(Classification and regression)

1、线性模型(SVMs, 逻辑回归,线性回归)
linear models (SVMs, logistic regression, linear regression)
2、朴素贝叶斯( naive Bayes)
3、决策树 (decision trees)
4、ensembles of trees (随机森林,GBTs)
(Random Forests and Gradient-Boosted Trees)
5、保序回归(isotonic regression)

(三)协同过滤(Collaborative filtering)

1、交替最小二乘(ALS,alternating least squares )

(四)聚类(Clustering)

1、k-means
2、高斯混合模型( Gaussian mixture)
3、迭代聚类(PIC,power iteration clustering )
4、 latent Dirichlet allocation (LDA)
5、 streaming k-means

(五)频繁模式挖掘(Frequent pattern mining)

1、频繁模式增长(FP-growth)
2、关联规则(association rules)
3、PrefixSpan

三、挖掘后处理

(一)模型评估(Evaluation metrics)

(二)PMML model export

(三)优化(Optimization (developer))

1、随机梯度下降(SGD, stochastic gradient descent)
2、 limited-memory BFGS (L-BFGS)

你可能感兴趣的:(算法,spark,机器学习)