ID3算法

  • 在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高.
  • ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂
  • 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。
  • ID3算法_第1张图片
    图片.png
  • 举个例子
    根据天气情况决定今天打球与否:


    ID3算法_第2张图片
    Firefox_Screenshot_2017-09-26T13-27-38.839Z.png
  • 可以看出,一共14个样例,包括9个正例和5个负例。那么当前信息的熵计算如下:


    Firefox_Screenshot_2017-09-26T13-33-26.951Z.png
  • 在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。假设利用属性Outlook来分类,那么如下图:
    ID3算法_第3张图片
    Firefox_Screenshot_2017-09-26T13-39-00.161Z.png

    划分后,数据被分为三部分了,那么各个分支的信息熵计算如下:
    ID3算法_第4张图片
    Firefox_Screenshot_2017-09-26T13-40-33.327Z.png

    那么划分后的信息熵为:
    ID3算法_第5张图片
    Paste_Image.png
  • 如果按照温度来划分
    ID3算法_第6张图片
    1179285551.jpg
  • 如果按照湿度以及刮风来划分


    ID3算法_第7张图片
    微信图片_20170926234931.jpg
  • 由此可以看出,属性“outlook”的信息增益最大,所以第一层利用“温度”来进行划分:
  • ID3算法可用于划分标准称型数据,但存在一些问题:
    1.只可以处理离散分布的数据特征
    2.信息增益的方法偏向选择具有大量值的属性,也就是说某个属性特征索取的不同值越多,那么越有可能作为分裂属性,这样是不合理的;
    3.没有剪枝过程,为了去除过渡数据匹配的问题,可通过裁剪合并相邻的无法产生大量信息增益的叶子节点;

你可能感兴趣的:(ID3算法)