统计学习方式总结

常用的统计学习由如下几种方式组成:

一,监督学习

  1. 生成方法:由数据学习联合概率分布p(y|x),然后求出它作为预测模型。模型表示了给定输入x产生输入y的生成关系。eg,nb,hmm.
  2. 判别方法:该方法由数据直接学习决策函数f(x)或者条件概率分布作为预测的模型,判别方法关心的是对给定的输入x,应该预测什么样的输出y.eg,k近邻算法,感知机,决策树,LR,最大熵模型,SVM,CRF.

  1,分类法

  1. 感知机(二分类线性模型)---->神经网络(在前者基础上增加了隐藏层,输出层神经元不止一个输出)-->深度神经网络(有很多层隐藏层的神经网络,本质上多层神经网络和深度神经网络DNN都是一个东西)
  2. KNN
  3. 概率(朴素贝叶斯(NB),Logistic Regression(LR),最大熵MEM(与LR同属于对数线性分类模型))
  4. 支持向量机(SVM)
  5. 决策树(ID3、CART、C4.5)
  6.     assembly learning{
            Boosting{
                Gradient Boosting{
                    GBDT
                    xgboost(传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题);xgboost是Gradient Boosting的一种高效系统实现,并不是一种单一算法。)
                }
                AdaBoost
            }   
            Bagging{
                随机森林
            }
            Stacking
        }

     

  2,回归法

  1. 线性回归
  2. 树回归
  3. Ridge岭回归
  4. Lasso回归

  3,标注法

    概率图模型:HMM,MEMM(最大熵马尔科夫),CRF(标注法本质上是分类问题的一个推广,又是更复杂的结构预测问题的简单形式,其输入时一个观测序列,输出是一个标记序列或者状态序列。其目的是学习一个模型,使他能够对观测序列给出标记序列作为预测。其常用的统计学习方法有:隐马尔可夫模型,条件随机场(应用于词性标注问题))

二,非监督学习

  1,聚类

  1. 基础聚类(K—mean,二分k-mean,K中值聚类,GMM聚类)      
  2. 层次聚类
  3. 密度聚类
  4. 谱聚类

  2,主题模型

  1. pLSA
  2. LDA隐含狄利克雷分析(应用于抽取文档的主题特征)      

  3,关联分析

  1. Apriori算法
  2. FP-growth算法      

  4,降维

  1. PCA算法
  2. SVD算法
  3. LDA线性判别分析
  4. LLE局部线性嵌入      

  5,异常检测

      异常检测

三,半监督学习

      

即,semi-supervised,学习过程不依赖外界的咨询交互,自动利用未标记样本所包含的分布信息的方法,即,训练集同时包含有标记样本数据和未标记样本的数据。例如,半监督SVM,半监督聚类等

四,强化学习

      

即,reinforcement.它的本质是解决decision making 问题,即自动进行决策,并且可以做连续决策。例如,无人驾驶,AlphaGo,玩游戏等。

 

你可能感兴趣的:(machine,learning,work,summary)