机器学习之监督学习:分类

监督学习经典模型之分类


监督学习任务大致可以分类两类:

一是分类学习,二是回归预测

今天我们讨论的是分类学习


SVC(支持向量机分类器)
是根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个
我们把可以用来真正帮助决策最优线性分类模型的数据点叫做“支持向量”

结构化信息
是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范

朴素贝叶斯
抽象一些说,朴素贝叶斯分类器会单独考量每一维度被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。因此,这个模型的基本数学假设是:

各个维度上的特征被分类的条件概率之间是相互独立的

特点分析:朴素贝叶斯模型被广泛应用于海量互联网文本分类任务。由于其较强的特征条件独立假设,使得模型预测所需要的估计的参数规模从幂指数量级想线性量级减少,极大地节约了内存消耗和计算时间。但是,也正式受这种强假设的限制,模型训练时无法将各个特征之间的联系考量在内,使得该模型在其他数据特正关联性较强的分类任务上的性能表现不佳。

K阶邻(分类)
近朱者赤近墨者黑
K不属于模型通过训练数据学习的参数,因此要在模型输出和过程中提前确定
随着阶数K的不同,我们会获得不同效果的分类器
K阶邻属于无参数模型中非常简单的一种,然而,正是这样的决策算法,导致了其非常高的计算复杂度和内存消耗

决策树(Decision Tree)
决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。
特点分析:决策树在模型描述上有着巨大的优势。决策树的推断逻辑非常直观,具有清晰地可解释性,也方便了模型的可视化。决策树属于有参数模型。

集成模型(分类)
集成分类模型是综合考量多个分类器的预测结果,从而做出决策。
这种“综合考量”的方式大体上分为两种:
1.利用相同的训练数据同事搭建多个独立的分类模型,然后通过投票的形式,一少数服从多数的原则作出最终的分类决策。
2.按照一定的次序搭建多个分类模型。这些模型之间彼此存在依赖关系。一般而言,每一个后续模型的加入都需要对现有集成模型的综合性能有所贡献,进而不断提升更新过后的集成模型的性能,并最终期望借助整合多个分类能力较弱的分类器,搭建出具有更强分类能力的模型。

补充:(参考:  https://www.jianshu.com/p/005a4e6ac775 )
梯度提升决策树

随机森林
随机森林算法,由多颗决策树构成的分类器,首先通过有放回的抽样从原始数据集中构建多个子数据集,然后利用每个子数据集构建一颗决策树,最终的分类效果由多颗决策树预测得到的众数决定;
(设想有一批待分类数据,采用上述的随机森林分类器进行分类,3颗决策树会给出3个分类结果,采用3个分类结果的众数作为这批数据最终的分类结果)

之所以叫做随机森林,是因为两个核心观点:
1)子数据集的构建,通过随机抽样得到,所以有随机这个关键词
2)在这个分类器中,有多颗决策树,所以有森林这个关键词


基线系统
通常指的事那些使用经典模型搭建的机器学习系统。
研发人员每提出一个新模型,都需要和基线系统在多个具有代表性的数据集上进行性能比较的测试。随机森林分类模型就经常以基线系统的身份出现在科研论文,甚至公开的数据竞赛中。



你可能感兴趣的:(机器学习)