机器学习:《李航统计学方法》二

感知器
他是二类分类的线性分类模型,输出的是实例的特征向量,而输出的是实例的类别。
数据集是线性可分数据集和线性不可分的区别就是
是否可以将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,也就是对所有y=1的实例都有wx+b>0,对y=-1的实例,都有wx+b<0
感知机学习算法在采用不同的初值或者选取不同的误分类点的时候,解可以不同。

并且感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法,有原始形式和对偶形式,算法简单易实现,在原始形式中,首先任意选取一个超平面,然后用梯度下降法不断极小化目标函数,在这个过程中一次随机选取一个误分类点使其梯度下降。

K近邻法
是一种基本分类与回归方法,输入是实例的特征向量,输出是实例的类别。有三个基本要素:k值的选择,距离度量和分类决策规则。
并且在k=1的情形之下,称为最近邻算法。
k近邻模型有三个基本要素:距离度量,k值的选择和分类决策规则决定。
距离度量
特征空间中两个实例点的距离是两个实例点相似程度的反应
k值的选择
如果选较小的k的话,相当于用较小的邻域中的训练实例进行预测,“学习”的相似误差就会减少,但“学习”的估计误差就会增大。
也就是k值减少的话,会让整体模型变复杂,容易发生过拟合
如果选较大的k值的话,就是用较大领域中的训练实例进行预测,优点就是减少学习的估计误差,相对应的就会增大学习的近似误差,也就是k值增大的话,整体的模型会变简单。
所以一般是采取一个较小的值。
分类决策规则
是多数表决的,也就是输入实例的k个邻近的训练实例中的多数类决定输入实例的类。根据公式可知,多数表决规则等价于经验风险最小化。

k近邻法的实现:kd树
一般来说,进行搜索的方法就是使用线性扫描,但这个方法在训练集很大的情况之下,是不可行的,所以为了提高效率,引进了kd树方法。
构造kd树的方法:

构造kd树,使根节点对应于k维空间中包含所有实例点的超矩形区域,再使用递归方法,不断对k维空间进行切分,生成子结点,并在这个结点上选择一个坐标值和坐标轴的一个切分点,这样就将实例分成两个子区域了,这个过程直到子区域内没有实例才终止。

搜索kd树:

给定一个目标,搜索其最近邻,首先找到包含目标点的叶结点,然后从该叶结点出发,依次回退到父结点,不断查找与目标点最邻近的结点,确定不可能存在更近的结点时终止,这样搜索就被限制在空间的局部区域上,效率大为提高。

朴素贝叶斯法
是基于贝叶斯定理和特征条件假设的分类方法。
它的基本方法就是:通过训练数据集学习联合概率分布,具体是学习先验概率分布以及条件概率分布。
决策树
机器学习:《李航统计学方法》二_第1张图片

它是由结点和有向边组成的,结点有两种类型,内部结点和叶结点,内部结点表示一个特征或属性,叶结点表示一个类。
决策树主要优点就是模型有可读性,分类速度快,根据损失函数最小化的原则建立决策树模型,主要有以下三个步骤:特征选择,决策树的生成和决策树的修剪。
决策树学习的本质
是从训练数据集中归纳出一组分类规则,与训练数据集不相矛盾的决策树可能有很多,也可能一个也没有。
特征选择
在于选择对训练数据具有分类能力的特征,其中有一个能表示得知特征X的信息而使得类Y的信息不确定性减少的程度的信息增益。
所以对于信息增益准侧的特征选择方法是:对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。
决策树的生成
有两种生成算法,分别是ID3算法和C4.5.
ID3算法
核心是在决策树各个结点上应用信息增益准则选择特征,递归构建决策树,具体方法就是从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点,再对子结点递归调用以上方法,构建决策树。

C4.5算法
输入训练数据集D,特征集A,阈值&,输出的是决策树。有以下几种判别类型:
1.如果D中所有实例都同属于同一类,那就置T为单结点树,并将C作为结点的类并返回T
2.如果A是空的,那么置T为单结点树,并将D中实例数最大的类C作为该结点的类并返回T
3.除却两种方法,就是计算A中各个特征对D的消息增益比,选择增益比最大的特征
4. 如果A8的纤细增益比小于阈值,那么置T为单结点树,并将D中实例树最大的类作为该节点的类,返回T
5. 再次是对每一个可能性,分割开,并将实例数最大的类作为标记,构建子结点,由结点及其子节点构成树T
6. 对结点递归调用以上步骤得到树

决策树的剪纸
再决策树学习中将已生成的树进行简化的过程称为剪枝。具体就是从已生成的树上裁掉一些子树或叶结点,并将其根结点或父结点作为新的叶结点,从而简化分类树模型。
一种简单的决策树学习的算法:
通过极小化决策树整体的损失函数或代价函数来实现。
机器学习:《李航统计学方法》二_第2张图片

先计算每个结点的经验熵 递归地从树的叶结点向上回缩, 再返回前面的操作,直到不能继续为止,就可以得到损失函数最小的子树了。

CART算法
是分类与回归树算法的缩写,同样由特征选择,树的生成以及剪纸组成,也可用作分类,也可用作回归。
它是在给定输入随机变量x条件下,输出随机变量Y的条件概率分布的学习方法。由以下两步组成:
1.决策树生成:基于训练数据集生成决策树,需要它尽可能大
2.决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。

你可能感兴趣的:(机器学习)