机器学习算法-决策树

前言

这段时间除了工作之外,想了解一些机器学习相关东西,同时也希望能将一些内容应用到工作。之前虽然也有一些接触,甚至做过1-2个试验。但是对于结果而已还不知道该如何进行评估。简而言之就是觉得缺乏这块系统的理论知识。故通过blog监督,经常分享一些学习笔记或者相关,也算是对自己监督。
下面分享决策树相关内容

由来

早在 1966 年 Hunt,Marin 和 Stone 提出的 CLS 学习系统就有了决策树算法的概念。但到了 1979 年,J.R. Quinlan 才给出了 ID3 算法的原型,1983 年和 1986 年他对 ID3 算法进行了总结和简化,正式确立了决策树 学习的理论。从机器学习的角度来看,这是决策树算法的起点。到 1986 年,Schlimmer 和 Fisher 在此基础上进行改造,引入了节点缓冲区,提出了 ID4 算法。在 1993 年, Quinlan 进一步发展了 ID3 算法,改进成 C4.5 算法,成为机器学习的十大算法之一。 ID3 的另一个分支是分类回归决策树算法(Classification Regression Tree),与 C4.5 不同 的是,CART 的决策树主要用于预测,这样决策树理论完整地覆盖了机器学习中分类 和回归两个领域了。
常见的算法包括 CART (Classification And Regression Tree)、ID3、C4.5、随机森林 (Random Forest) 等。CART(Classification And Regression Tree)算法是目前决策树算法中最为成熟的.它既可用于分类 ,也可用于预测。

基本思想和原理

决策树

上面是一个典型的决策树的图,叶子节点,就是根据前面不同条件(是否是年龄、收入等)得到的最红是否要买的决定。

理论基础

决策树的基本理论基础信息熵,信息熵是事物不确定性的度量标准。如果某个特征列向量的信息熵越大,就说明该向量的不确定性程度越 大,即混乱 程度越大,就应优先考虑从该 特征向量着手来进行划分。信息熵为决策树 的划分提供 最重要的依据和标准。

优缺点

决策数优点:
1. 模型可以读性好,具有描述性,有助于人工分析;
2. 效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。
3. 对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:
1. 可能会产生过度匹配的问题

应用场景

决策树适用数值型和标称型类型。
1,预测互联网用户对在线广告的点击概率,这本质是一个二元分类(点击或者不点击);
2,检查欺诈,这同样是一个二元分类(欺诈或者不欺诈)
3,预测拖欠贷款(二元分类)
4,对图片、视频或者声音分类(大多数情况下是多酚类,并且有许多不同的类别)
5,对新闻、网页或者其他内容标记类别或者打标签(多分类)
6,发现垃圾邮件、垃圾页面、网络入侵和其他恶意行为(二元分类或者多分类)
7,检测故障,比如计算机系统或者网络的故障检测;
8,根据顾客或者用户购买产品或者使用服务的概率对他们进行排序(这可以建立分类模型预测概率并根据概率从大到小排序)
9,预测顾客或者用户中谁有可能停止使用某个产品或服务

参考

《机器学习算法原理与编程实践》
《机器学习实战》

你可能感兴趣的:(机器学习,机器学习,决策树)