决策树

    决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。
 组成
□——决策点,是对几种可能方案的选择,即最后选择的最佳方案。如果决策属于多级决策,则决策树的中间可以有多个决策点,以决策树根部的决策点为最终决策方案为最终决策方案。
○——状态节点,代表备选方案的经济效果(期望值),通过各状态节点的经济效果的对比,按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝,概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。
△——结果节点,将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。
画法
第一步:画决策树
决策数的画法是从左至右分阶段展开的。画图时先分析决策点的起点,备选方案,各方案所面临的自然状态机器概率,以及个方案在不同自然状态下的损益值,然后先画一个方框作为出发点,从出发点向右引出若干条直线,在每个方案枝的末端画一个圆圈,从自然状态点引出代表各自然状态的分枝,则概率分枝末端画三角形,表示终点。[3]如果是多级决策,则要确定是哪几个阶段逐段展开其方案枝、状态节点、概率枝及结果节点。最后将决策点、状态点自左向右分别编号。
第二步:计算期望值
一般按反向的时间程序逐步计算,将各方案的几种可能结果的数值和它们各自的概率相乘,并汇总所得之和,其和就是该方案的期望值。
第三步:确定决策方案
比较不同方案的期望值,在比较方案考虑的是收益值时,则取最大期望值;若考虑的是损失时,则取最小期望值。舍弃的方案可在方案枝上画“11”符号,称为剪枝。最后决策点只留下一根方案枝,即为最优方案枝。
优点
    决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义。
    对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
    易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。
缺点
1)对连续性的字段比较难预测。
2)对有时间顺序的数据,需要很多预处理的工作。
3)当类别太多时,错误可能就会增加的比较快。
4)一般的算法分类的时候,只是根据一个字段来分类。
实例
为了适应市场的需要,某地提出了扩大电视机生产的两个方案。一个方案是建设大工厂,第二个方案是建设小工厂。建设大工厂需要投资600万元,可使用10年。建设小工厂投资280万元,如销路好,3年后扩建,扩建需要投资400万元,可使用7年,每年赢利190万元。

  各点期望:
点②:0.7×200×10+.3×(-40)×10-600(投资)=680(万元)

  决策树分析[7]
点⑤:1.0×190×7-400=930(万元)
点⑥:1.0×80×7=560(万元)
比较决策点4的情况可以看到,由于点⑤(930万元)与点⑥(560万元)相比,点⑤的期望利润值较大,因此应采用扩建的方案,而舍弃不扩建的方案。把点⑤的930万元移到点4来,可计算出点③的期望利润值。
点③:0.7×80×3+0.7×930+0.3×60×(3+7)-280 = 719(万元)
最后比较决策点1的情况。由于点③(719万元)与点②(680万元)相比,点③的期望利润值较大,因此取点③而舍点②。这样,相比之下,建设大工厂的方案不是最优方案,合理的策略应采用前3年建小工厂,如销路好,后7年进行扩建的方案。

你可能感兴趣的:(决策树)