机器学习浅谈

浅谈机器学习与决策树

机器学习简介
机器学习 (Machine Learning) 是近 20 多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简而言之,机器学习就是把无序的数据转换成有用的信息。
机器学习的主要任务就是分类。另一项任务是回归,主要用于预测数值型数据。

常用术语
①特征(属性)
②训练集:用于训练机器学习算法的数据样本集合。
目标变量:机器学习算法的预测结果。
训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标向量之间的关系。

学习方式
㈠监督学习――分类,回归。
这类算法必须知道目标变量的分类信息。
㈡无监督学习――聚类,密度估计。
数据没有类别信息,也不会给定目标值。
聚类:将数据集合分成由类似的对象组成的多个类的过程。
密度估计:寻找描述数据统计值的过程。

监督学习的用途
k-近邻算法,线性回归,朴素贝叶斯算法,局部加权线性回归,支持向量机,Ridge回归,决策树,Lasso最小回归系数估计
无监督学习的用途
K-均值,最大期望算法,DBSCAN,Parzen窗设计

机器学习算法分类
判别模型:感知机,k近邻法,决策树,逻辑斯谛回归与最大熵模型,支持向量机,提升方法,条件随机场
生成模型:朴素贝叶斯法,隐马尔可夫模型

开发机器学习应用程序的步骤
㈠收集数据(制作网络爬虫从网站上抽取数据,从RSS反馈,API中得到信息,设备发送过来的实测数据)
㈡准备输入数据。
㈢分析输入数据。
㈣训练数据。
㈤测试数据。
㈥使用算法。

决策树
学习步骤:
①特征选择――信息增益,信息增益比
②决策树的生成――ID3算法(用信息增益最大的特征作为结点的特征,可能出现过拟合),C4.5算法(用信息增益比来选择特征)
③决策树的修剪

决策树算法以树状结构表示数据分类的结果。
叶子节点:代表分类后所获得的分类标记。
非叶子节点(决策点):特征属性,及其对应输出,按照输出选择分支
决策过程:从根节点出发,根据数据的各个属性,计算结果,选择对应的输出分支,直到到达叶子节点,得到结果
构建决策树

分裂属性的选择算法
信息增益(Information gain)
信息增益比(Information gain
ratio)
基尼指数(Gini index)

信息增益(Information Gain)
表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
典型算法:ID3
核心:在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。

缺点:此公式偏向数据量多的属性,如果样本分布不均,则会导致过拟合。假如上述例子中包括人名属性,每个人名均不同,显然以此属性作为划分,信息增益最高,但是,很明显,以此属性作为划分毫无意义。

信息增益比(Information gain ratio)
算法:C4.5的生成算法。

基尼指数(Gini index)
典型算法:CART

你可能感兴趣的:(机器学习之决策树,机器学习)