机器学习算法概述(持续更新)

机器学习算法广泛,各种衍生算法太多太多,各显其招。这里根据自己工作学习的经验只能大概总结如下(按一般数据处理流程区分)

数据预处理算法

基本处理

  • 归一化 :0~1之间
  • 标准化:均值为0,方差为1
  • 异常点的去除:一般与均值的差值大于2倍标准差的数据点
  • 缩放:也是一种归一化,对于极大值或者极小值不对称分布的特征施加转换,如:对数log缩放

滤波

  • 均值滤波
  • 中位值滤波
  • 一阶滞后滤波
  • 卡尔曼滤波:5个公式

特征提取算法

  • 正交信号矫正(OSC)
  • 连续投影算法(SPA)
  • 小波变换
  • 经验模态分解(EMD)
  • 黄变换(HHT)

监督学习建模算法

基本上所有分类方法均可以用于回归

分类算法

  • 感知机(Perceptron): 决策函数:sign(W*X+b);>0为1类,<0为-1类
  • 逻辑回归(LogisticRegression):
  • 随机梯度下降(Stochastic Gradient Descent)
  • K-近邻(KNN)
  • 支持向量机(SVM)
  • 决策树(DecisionTreeClassifier)
  • 朴素贝叶斯(Naive Bayes)
  • 集成学习(bagging、boosting):bagging: 随机森林(RandomForest); boosting: Adaboost、GBDT、XGBoost
  • 人工神经网络(ANN):BP网络
  • 线性判别分析(LDA):有监督降维

回归算法

  • 多元线性回归(MLR): y = W*X+b; w,b由最小二乘法求得
  • 偏最小二乘法(PLS): yi = W*X+b;偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析;基于因变量为多个,自变量为多个。先同时求二者的主成分,使两个主成分的相关性达到最大,然后求各个因变量与自变量的主成分之间的回归方程,再反推回原变量间的回归方程。
  • 岭回归(Ridge Regression)
  • 逐步回归(Step Regression)

非监督学习建模算法

  • k-均值(聚类)
  • 高斯混合模型GMM(聚类)
  • 主成分分析PCA(降维)
  • 核主成分分析K-PCA
  • 局部保持投影LPP(降维)
  • 流形学习Manifold Learning
  • 独立成分分析ICA

模型评价指标

pass

参数优化算法

  • 梯度下降(Gradient Descent)
  • 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods)
  • 拉格朗日乘数法
  • 粒子群算法(PSO)
  • 遗传算法(GA)

自然语言处理三大基本算法:

  • N-gram
  • HMM
  • CRF

深度学习建模算法

  • CNN
  • RNN(LSTM)

你可能感兴趣的:(机器学习算法概述(持续更新))