ML 算法总结

K近邻法(K-nearest neighbor, k-NN)

是一种基本的分类回归方法
输入:训练数据集
输出:实例x所属的类y
k值得选择会对k近邻法结果产生重大影响。应用中,k值一般取一个比较小的数值。通常采取交叉验证法来选取最优k值

决策树(Decision tree)

是一种基本的分类回归方法,常用算法有ID3C4.5CART
决策树学习通常包括3个步骤:特征选择决策树生成决策树的修剪。
1、通常使用信息增益最大、信息增益比最大或基尼系数最小作为特征选择的准则。
2、决策树的生成往往通过计算信息增益或其他指标,从根结点开始,递归的产生决策树。这相当于用信息增益或其他准则不断地选取局部最优的特征,或将训练集分割为能够基本正确分类的子集。
3、由于生成的决策树存在过拟合问题,需要对他进行剪枝,以简化学到的决策树。决策树的剪枝,往往从已经生成的树上减掉一些叶结点或者叶结点以上的子树,并将其父结点或根结点作为新的叶结点,从而简化生成的决策树。

逻辑斯谛回归(Logistic regression)

经典的分类方法

logistic distribution:ML 算法总结_第1张图片
ML 算法总结_第2张图片

支持向量机(Support vector machines, SVM)

一种二分类模型,可以被推广至多分类问题。
支持向量机学习方法包含构建由简至繁的模型:

  1. 线性可分支持向量机(linear support vector machine in linearly separable case)

  2. 线性支持向量机(linear support vector machine)

  3. 非线性支持向量机(non-linear support
    vector machine)

提升(Boosting)

一种常用的统计学习方法,应用广泛且有效。在分类问题中,他通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类器的性能。例如Adaboost、提升树(boosing tree)、XGBoost。

EM算法

一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:

  1. E步,求期望(expectation)
  2. M步,求极大(maximization)

EM算法的一个重要应用是高斯混合模型的参数估计。

朴素贝叶斯法(Naive Bayes)

是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习和预测的效率都很高,是一种常用方法。

隐马尔科夫模型(Hidden Markov model, HMM)

是可用于标注问题的统计学习模型。在语音识别、自然语言处理、生物信息、模式识别等领域有广泛的应用。
HMM有3个基本问题

  1. 概率计算问题:给定模型λ=(A, B, π)和观测序列O=(o1,o2,···),计算在模型λ下观测序列O出现的概率PO | λ)。
  2. 学习问题:已知观测序列O=(o1,o2,···),估计模型λ=(A, B, π)参数,使得在该模型下观测序列PO | λ)最大。即用极大似然估计的方法估计参数。
  3. 预测问题:也称为解码问题。已知模型λ=(A, B, π)和观测序列O=(o1,o2,···),求对给定观测序列条件概率P(I|O)最大的状态序列I=(i1i2,···)。即给定观测序列,求最有可能的对应的状态序列。

K均值聚类(K-means clustering)

k均值聚类是基于样本集合划分的聚类算法。K-means将样本集合划分为k个子集,构成k个子类,将n个样本分到k个类中,每个样本到其所属类的中心的距离最小。每个样本只能属于一个类,所以k均值聚类是硬聚类。其策略是通过损失函数的最小化选取最优的划分。

潜在狄利克雷分配(Latent Dirichlet allocation)

LDA,作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的拓展。
LDA模型表示文本集合的自动生成过程:

  1. 基于单词分布的先验分布(狄利克雷分布)生成多个单词分布,即决定多个话题内容
  2. 基于话题分布的先验分布(狄利克雷分布)生成多个话题分布,即决定多个文本内容
  3. 然后,基于每一个话题分布生成话题序列,针对每一个话题,基于话题的单次分布生成单词,即生成文本,重复这个过程生成所有文本。

文本的单词序列是观测变量,文本的话题分布和话题的单词分布也是隐变量。

你可能感兴趣的:(机器学习)