机器学习-统计学习方法算法笔记

监督学习

  1. 感知机--二类分类的线性分类模型 输出1和-1
    f(x)=sign(wx+b)
    学习策略:损失函数为误分类点到超平面的总距离
    L(w,b)=-∑y(wx+b)
    最优化算法:随机梯度下降法:首先选取一个超平面,一次极小化一个误分类点
  2. k近邻法(knn)--找到与输入实例最近的k个实例,这k个实例多数属于某个类,就把该实例归于这个类
    当k=1时为最近邻算法
    通常采用交叉验证选取最优k值
    分类决策规则:多数表决
  3. 朴素贝叶斯:基于朴素贝叶斯定理和特征条件独立假设的分类法
    学习联合概率分布P(X,Y)
    具体地,学习先验概率分布P(Y=c) 及后验概率分布 P(X=x|Y=c)=ПP(X=x|Y=c)
    参数估计:
    极大似然估计:先验估计:P(Y=c)=∑I(y=c)/N
    贝叶斯估计:先验估计:P(Y=c)=(∑I(y=c)+λ)/(N+Kλ)
  4. 决策树:一种分类与回归算法。决策树学习包括三个步骤:特征选择,决策树生成,修剪
    熵表示随机变量不确定性的度量
    随机变量X的熵定义为:H(X)=-∑plogp
    以2为底的对数熵称作比特 以e为底成为纳特(nat)
    条件熵表示x条件下y的不确定性,定义为y的条件概率熵对x的数学期望
    H(Y|X)=∑pH(Y|X=x)
    信息增益表示特征x使y的信息不确定性减少的程度
    g(D,A)=H(D)-H(D|A) A为特征 D为数据集
    熵H(Y)与条件熵H(Y|X)之差为互信息
    根据信息增益选择特征的方法是,计算每个特征,选择信息增益最大的特征
    以信息增益为标准存在选择取值较多的特征的问题,信息增益比可以对这个问题校正
    gr(D,A)=g(D,A)/H(A)(D)
    决策树的生成:ID3算法应用信息增益选择特征 递归生成决策树 由于这个算法只有树的生成 容易产生过拟合
    C4.5算法使用信息增益比生成树
    决策树的剪枝:极小化整体损失函数 L(T)=C(T)+a|T| T为叶节点个数
    CART算法:既可用于分类以可以回归 假设决策树是二叉树 特征取值为‘是’和‘否’,左分支为‘是’,右分支为‘否’
    生成:递归构建二叉树,对回归树用平方误差最小化准则 对分类树用基尼指数最小化准则 进行特征选择
    回归树的生成:
    如何对输入空间进行划分?采用启发式的方法,选择第j个变量x(j)和它的值s作为切分变量和切分点
    分类树的生成:
    用基尼指数选择最优特征 同时决定该特征的最优二值切分点
    Gini(p)=∑p(1-p)
  5. 逻辑回归模型与最大熵模型
    二项逻辑回归模型:P(Y=1|x)=exp(wx+b)/(1+exp(wx+b)) P(Y=0|x)=1/(1+exp(wx+b))
    模型参数估计:交叉熵损失函数
  6. 支持向量机(svm) 是一种二分类模型 特征空间上间隔最大的分类器
    a. 线性可分支持向量机:函数间隔 γ=y(wx+b) 为了使间隔确定 对w加入L2范数约束 函数间隔成为几何间隔
    支持向量:样本点中离分离超平面距离最近的点 即满足:y(wx+b)-1=0
    只有支持向量起决定分离超平面的作用 其他实例不起作用
    线性不可分意味着函数间隔不能满足大于等于1 所以对每个样本点引入松弛变量ξ 约束条件变为y(wx+b)>=1-ξ
    学习算法:凸二次优化
    非线性支持向量机:输入空间中非线性分类问题通过非线性变换转化为某个高维特征空间的线性分类问题
    K(x,z)=Φ(x)Φ(z)
  7. 提升方法:通过改变样本权重,学习多个分类器,并将这些分类器线性组合
    adaboost:线性模型,指数损失函数,前向分步算法
    提升树:以分类树或回归树为基本分类器的提升方法
    提升树模型可以表示为决策树的加法模型:f(x)=∑T(x;Θ) T(x;Θ)表示决策树 Θ表示决策树的参数
    提升树算法:采用前向分步算法 首先确定f0(x)=0 第m步的模型是fm(x)=fm-1+T(x;Θ)
    通过经验风险最小化确定下一颗决策树的参数
    Θm=arg min∑L(yi,fm-1+T(xi;Θ))
  8. EM算法:一种迭代算法 用于含有隐变量的概率模型参数的极大似然估计或极大后验概率估计
    每次迭代分两步:E步,求期望;M步,求极大。所以也称为期望极大算法
    概率模型为:P(Y,Z|Θ) Y是观测数据 Z是隐变量数据 Θ是模型参数
    算法通过迭代求解观测数据的对数似然函数L(Θ)=logP(Y|Θ)的极大化,实现极大似然估计
  9. 隐马尔可夫模型 是关于时序的概率模型 描述由一个隐藏的马尔可夫链随机生成不可观测的状态序列 再由各个状态生成观测序列的过程
    λ=(A,B,π)
  10. 条件随机场
    待完善
    无监督学习--从无标注数据中学习模型
    假设数据由N个样本组成 每个样本是一个M维向量 训练数据可以由一个矩阵表示 每一行对应一个特征 每一列对应一个样本
    聚类可以发掘数据中隐藏的纵向结构
    降维可以帮助发掘数据中隐藏的横向结构
    概率估计假设数据由一个概率模型生成 由训练数据学习概率模型的结构和参数

你可能感兴趣的:(机器学习-统计学习方法算法笔记)