统计学习方法学习笔记

第1章 统计学习方法概论

  • 期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。
  • 经验风险最小化等价于极大似然估计。
    结构风险最小化是为了防止过拟合而提出的策略,加入了正则化。
  • 贝叶斯估计中的最大后验概率估计,是结构风险最小化的一个例子。
    当模型是条件概率分布,损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。
  • 奥卡姆剃刀原理: 在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也是应该选择的模型。从贝叶斯估计的角度来看,正则化对应于模型的先验概率。可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
  • 泛化误差上界,训练误差小的模型,泛华误差也会小。
  • 生成方法的特点: 生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
  • 判别方法的特点: 判别方法直接学习的是条件概率P(Y|X)或决策函数f(X), 直接面对预测,往往学习的准确率更高; 由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
  • 分类问题
  • 标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
  • 回归问题

第2章 感知机

感知机就是一个基于w*x+b的二分类器。
wx+b对应于特征空间Rn中的一个超平面S, 其中w是超平面的法向量,b是超平面的截距。
感知机算法是误分类驱动的,具体采用随机梯度下降法。极小化的过程不是一次使得M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。
感知机有原始形式和对偶形式。

第3章 k近邻法

  • k近邻法是一种基本分类与回归方法。k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。k值的选择、距离度量以及分类决策规则是k近邻法三个基本要素。
    讲述k近邻法的一个实现方法—kd树,介绍构造kd树和搜索kd树。
  • 给定一个数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例。这k个实例的多数属于某个类。就把该输入实例分为这个类。
  • k近邻法距离选择,Lp距离
    p = 2时, Lp距离为欧式距离
    p = 1时,Lp距离为曼哈顿距离
    p = 无穷时,它是各个坐标距离的最大值
  • 如果选择较小的k值,容易过拟合, 如果选择较大的k值,会增大偏差, 通常采用交叉验证法来选取最优的k值。
    多数表决规则等价于经验风险最小化。
  • 构造kd树,kd树是一种对k维空间的一个划分。构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间划分,构成一系列的k维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。用中位数在各个维度依次进行切分。因为是中位数切分,所以值一定会落在切分平面上。重复切分直到子区域中不存在样本为止。
  • 搜索kd树。包含目标点的叶节点对应包含目标点的最小超矩形区域。以此叶节点的实例点作为当前最近点。目标点的最近邻一定以目标点为中心并通过当前最近点的超球体的内部,然后递归搜索即可。
  • kd树的平均时间复杂度是O(logN), kd树更适应于训练实例远大于空间维数时的k近邻搜索。当空间维数接近训练实例数时,它的效率会迅速下降,几乎接近线性扫描。

第4章 朴素贝叶斯法

  • 朴素贝叶斯法是基于贝叶斯定理与特征独立假设的分类方法。朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)
    朴素贝叶斯法对条件概率作了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯法也由此得名。
  • 朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
  • 用极大似然估计可能会出现所要估计概率值为0的情况。这时会影响到后验概率的计算效果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。

第5章 决策树

  • 决策树是一种基本的分类与回归方法。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择,决策树的生成和决策树的修剪。
  • 决策树的路径或其对应的if-then规则集合具有一个重要的性质: 互斥并且完备。
  • 决策树学习用损失函数表示这一目标。决策树学习的损失函数通常是正则化的极大似然函数。决策树学的策略是以损失函数为目标函数的最小化。
  • NP就是Non-deterministic Polynomial的问题,也即是多项式复杂程度的非确定性问题。因为从所有可能的决策树中选取最优决策树是NP完全问题,所以现实中决策树学习算法通常采用启发式方法,近似求解这一最优化问题。这样得到的决策树是次最优的。
  • 决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。由于决策树表示一个条件概率分布,所以深浅不同的决策树对应着不同复杂度的概率模型。
  • 熵越大,随机变量的不确定性就越大。当p=0或者p=1时,随机变量完全没有不确定性。当p=0.5时,H§ = 1, 熵取值最大,随机变量不确定性最大。
  • 当熵和条件熵的概率由数据估计(特别是极大似然估计)得到时,所对应的熵与条件熵分别称为经验熵和经验条件熵。
  • 信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
  • 决策树学习中的信息增益等价于训练数据中类与特征的互信息。
  • 以信息增益作为划分训练数据集的特征,存在偏向于特征选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。
  • 决策树的生成算法
  • ID3算法的核心是在决策树各个节点上应用信息增益准则进行特征选择,递归地构建决策树。从根节点开始,对结点计算所有可能的特征的信息增益,选择信息增益大的特征作为节点的特征,由特征的不同取值建立子节点;再对子节点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或者没有特征可以选择为止,最后得到一个决策树,ID3相当于用极大似然法进行概率模型的选择。
  • C4.5算法与ID3算法类似,C4.5算法对ID3算法进行了改进。C4.5在生成的过程中,用信息增益比来选择特征。
  • 在决策树学习中将已生成的树进行简化的过程称为剪枝。具体地,剪枝从已生成的树上裁掉一些子树或叶节点,并将其根节点或父节点作为新的叶节点,从而简化分类树模型。

第7章 支持向量机

  • https://www.jiqizhixin.com/articles/2019-03-05-8
    关于正定与非正定矩阵的解释。
  • 函数间隔
    定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi,yi)的函数间隔最小值。
    函数间隔可以表示分类预测的正确性及确性度,但是选择分离超平面时,只有含糊是间隔还不够。因为只要成比例地改变w和b,例如将它们改为2w和2b,超平面并没有改变,但函数间隔却成为原来的2倍。
  • 几何间隔
    超平面关于样本点的几何间隔一般是实例点到超平面的带符号的距离。当样本点被超平面正确分类时就是实例点到超平面的距离。
  • 间隔最大化
    支持向量机学习的基本想法是求解能够正确划分训练数据集并且集合间隔最大的分离超平面。对线性可分的训练数据集而言,线性可分分离超平面有无穷多(等价于感知机),但是几何间隔最大的分离超平面是唯一的。这里的间隔最大化又称为硬间隔最大化。
    放射函数是1阶多项式构成的函数,一般形式为f(x)=Ax+b
    当目标函数f(w)是二次函数且约束函数gi(w)是放射函数时,上述凸优化问题成为凸二次规划问题。

你可能感兴趣的:(机器学习基础)