数据挖掘:id3 算法

1 简述

    id3是一种基于决策树的分类算法,由J.Ross Quinlan

1.2 信息熵
    Entropy(X) = -Sum(p(xi) * log(p(xi))) {i: 0 <= i <= n}

1.3 信息增益
    Gain(A, X) = Entropy(X) - Sum(|Xv| / |X| * Entropy(Xv))  {v: A的所有可能值}

2 id3算法流程
    1) 若所有种类的属性都处理完毕,返回;否则执行2)
        i.  将所有属性a的值是v的样本作为S的一个子集Sv;
        ii. 生成属性集合AT=A-{a};

3 一个的例子

                     Attribute                       class
    outlook    temperature    humidity    windy
    sunny       hot             high           false       N
    sunny       hot             high           true         N
    overcast   hot             high           false       P
    rain           mild           high           false       P
    rain           cool           normal      false       P
    rain           cool           normal      true         N
    overcast   cool           normal      true         P
    sunn y      mild           high           false       N
    sunny       cool           normal      false       P
    rain           mild           normal      false       P
    sunny       mild           normal      true         P
    overcast   mild           high           true         P
    overcast   hot             normal      false       P
    rain           mild           high           true        N

    因此样本集合的信息熵是:-5/14log(5/14) - 9/14log(9/14) = 0.940

    因此sunny的信息熵是:-3/5log(3/5) - 2/5log(2/5) = 0.971


    属性outlook的信息增益:gain(outlook) = 0.940 - (5/14*0.971 + 4/14*0 + 5/14*0.971) = 0.246

    gain(temperature) = 0.029
    gain(humidity) = 0.151
    gain(windy) = 0.048



4 代码演示
    只是在fedora 16上做了初步的测试,所以有一些错误和不适当的地方。
        g++ -g -W -Wall -Wextra -o mytest main.cpp id3.cpp

// 2012年 07月 12日 星期四 15:07:10 CST
// author: 李小丹(Li Shao Dan) 字 殊恒(shuheng)
// K.I.S.S
// S.P.O.T

#ifndef ID3_H
#define ID3_H


// value and index: >= 0, and index 0 is classification
// value and index: not decision is -1
class id3_classify {

    int push_sample(const int *, int);
    int classify();
    int match(const int *);
    void print_tree();

    typedef std::list > > sample_space_t;

    struct tree_node {
        int index;
        int classification;
        std::map next;
        sample_space_t unclassified;


    void clear(struct tree_node *);
    int recur_classify(struct tree_node *, int);
    int recur_match(const int *, struct tree_node *);
    int max_gain(struct tree_node *);
    double cal_entropy(const std::map &, double);
    int cal_max_gain(const sample_space_t &);
    int cal_split(struct tree_node *, int);
    void att_statistics(const sample_space_t &,
            std::map > &,
            std::map > > &,
            std::map &);
    double cal_gain(std::map &,
            std::map > &,
            double, double);

    int is_classfied(const sample_space_t &);
    void dump_tree(struct tree_node *);

    sample_space_t unclassfied;
    struct tree_node *root;
    std::map *attribute_values;
    int dimension;


// 2012年 07月 16日 星期一 10:07:43 CST
// author: 李小丹(Li Shao Dan) 字 殊恒(shuheng)
// K.I.S.S
// S.P.O.T



#include "id3.h"

using namespace std;

id3_classify::id3_classify(int d)
:root(new struct tree_node), dimension(d)
    root->index = -1;
    root->classification = -1;


int id3_classify::push_sample(const int *vec, int c)
    list > v;

    for(int i = 0; i < dimension; ++i)
        v.push_back(make_pair(i + 1, vec[i]));
    v.push_front(make_pair(0, c));


    return 0;

int id3_classify::classify()
    return recur_classify(root, dimension);

int id3_classify::match(const int *v)
    return recur_match(v, root);

void id3_classify::clear(struct tree_node *node)

    std::map &next = node->next;
    for(std::map::iterator pos
            = next.begin(); pos != next.end(); ++pos)

    delete node;

int id3_classify::recur_classify(struct tree_node *node, int dim)
    sample_space_t &unclassified = node->unclassified;
    int cls;
    if((cls = is_classfied(unclassified)) >= 0) {
        node->index = -1;
        node->classification = cls;
        return 0;
    int ret = max_gain(node);
    if(ret < 0) return 0;

    map &next = node->next;
    for(map::iterator pos
            = next.begin(); pos != next.end(); ++pos)
        recur_classify(pos->second, dim - 1);

    return 0;

int id3_classify::is_classfied(const sample_space_t &ss)
    const list > &f = ss.front();
    if(f.size() == 1)
        return f.front().second;

    int cls;
    for(list >::const_iterator p
            = f.begin(); p != f.end(); ++p) {
            if(!p->first) {
                cls = p->second;
    for(sample_space_t::const_iterator s
            = ss.begin(); s != ss.end(); ++s) {
        const list > &v = *s;
        for(list >::const_iterator vp
                = v.begin(); vp != v.end(); ++vp) {
            if(!vp->first) {
                if(cls != vp->second)
                    return -1;
    return cls;

int id3_classify::max_gain(struct tree_node *node)
    // index of max attribute gain
    int mai = cal_max_gain(node->unclassified);
    assert(mai >= 0);
    node->index = mai;
    cal_split(node, mai);
    return 0;

int id3_classify::cal_max_gain(const sample_space_t &ss)
    map >att_val;
    map > >val_cls;
    map cls;

    att_statistics(ss, att_val, val_cls, cls);

    double s = (double)ss.size();
    double entropy = cal_entropy(cls, s);

    double mag = -1;        // max information gain
    int mai = -1;  // index of max information gain

    for(map >::iterator p
            = att_val.begin(); p != att_val.end(); ++p) {
        double g;
        if((g = cal_gain(p->second, val_cls[p->first],
                        s, entropy)) > mag) {
            mag = g;
            mai = p->first;
    if(!att_val.size() && !val_cls.size() && cls.size())
        return 0;
    return mai;

void id3_classify::att_statistics(const sample_space_t &ss,
        map > &att_val,
        map > > &val_cls,
        map &cls)
    for(sample_space_t::const_iterator spl = ss.begin();
            spl != ss.end(); ++spl) {
        const list > &v = *spl;
        int c;
        for(list >::const_iterator vp
                = v.begin(); vp != v.end(); ++vp) {
            if(!vp->first) {
                c = vp->second;
        for(list >::const_iterator vp
                = v.begin(); vp != v.end(); ++vp) {
            if(vp->first) {

double id3_classify::cal_entropy(const map &att, double s)
    double entropy = 0;
    for(map::const_iterator pos = att.begin();
            pos != att.end(); ++pos) {
        double tmp = pos->second / s;
        entropy += tmp * log2(tmp);
    return -entropy;

double id3_classify::cal_gain(map &att_val,
        map > &val_cls,
        double s, double entropy)
    double gain = entropy;
    for(map::const_iterator att = att_val.begin();
            att != att_val.end(); ++att) {
        double r = att->second / s;
        double e = cal_entropy(val_cls[att->first], att->second);
        gain -= r * e;
    return gain;

int id3_classify::cal_split(struct tree_node *node, int idx)
    map &next = node->next;
    sample_space_t &unclassified = node->unclassified;

    for(sample_space_t::iterator sp = unclassified.begin();
            sp != unclassified.end(); ++sp) {
        list > &v = *sp;
        for(list >::iterator vp = v.begin();
                vp != v.end(); ++vp) {
            if(vp->first == idx) {
                struct tree_node *tmp;
                if(!(tmp = next[vp->second])) {
                    tmp = new struct tree_node;
                    tmp->index = -1;
                    tmp->classification = -1;
                    next[vp->second] = tmp;
    return 0;

int id3_classify::recur_match(const int *v, struct tree_node *node)
    if(node->index < 0)
        return node->classification;

    map::iterator p;
    map &next = node->next;

    if((p = next.find(v[node->index-1])) == next.end())
        return -1;

    return recur_match(v, p->second);

void id3_classify::print_tree()
    return dump_tree(root);

void id3_classify::dump_tree(struct tree_node *node)
    cout << "I: " << node->index << endl;
    cout << "C: " << node->classification << endl;
    cout << "N: " << node->next.size() << endl;
    cout << "+++++++++++++++++++++++\n";

    map &next = node->next;
    for(map::iterator p
            = next.begin(); p != next.end(); ++p) {

// 2012年 07月 18日 星期三 13:59:10 CST
// author: 李小丹(Li Shao Dan) 字 殊恒(shuheng)
// K.I.S.S
// S.P.O.T


#include "id3.h"

using namespace std;

int main()
    enum outlook {SUNNY, OVERCAST, RAIN};
    enum temp {HOT, MILD, COOL};
    enum hum {HIGH, NORMAL};
    enum windy {WEAK, STRONG};

    int samples[14][4] = {
        {SUNNY   ,       HOT ,      HIGH  ,       WEAK  },
        {SUNNY   ,       HOT ,      HIGH  ,       STRONG},
        {OVERCAST,       HOT ,      HIGH  ,       WEAK  },
        {RAIN    ,       MILD,      HIGH  ,       WEAK  },
        {RAIN    ,       COOL,      NORMAL,       WEAK  },
        {RAIN    ,       COOL,      NORMAL,       STRONG},
        {OVERCAST,       COOL,      NORMAL,       STRONG},
        {SUNNY   ,       MILD,      HIGH  ,       WEAK  },
        {SUNNY   ,       COOL,      NORMAL,       WEAK  },
        {RAIN    ,       MILD,      NORMAL,       WEAK  },
        {SUNNY   ,       MILD,      NORMAL,       STRONG},
        {OVERCAST,       MILD,      HIGH  ,       STRONG},
        {OVERCAST,       HOT ,      NORMAL,       WEAK  },
        {RAIN    ,       MILD,      HIGH  ,       STRONG}};

    id3_classify cls(4);
    cls.push_sample((int *)&samples[0], 0);
    cls.push_sample((int *)&samples[1], 0);
    cls.push_sample((int *)&samples[2], 1);
    cls.push_sample((int *)&samples[3], 1);
    cls.push_sample((int *)&samples[4], 1);
    cls.push_sample((int *)&samples[5], 0);
    cls.push_sample((int *)&samples[6], 1);
    cls.push_sample((int *)&samples[7], 0);
    cls.push_sample((int *)&samples[8], 1);
    cls.push_sample((int *)&samples[9], 1);
    cls.push_sample((int *)&samples[10], 1);
    cls.push_sample((int *)&samples[11], 1);
    cls.push_sample((int *)&samples[12], 1);
    cls.push_sample((int *)&samples[13], 0);

    cout << "===============================\n";
    for(int i = 0; i < 14; ++i)
        cout << cls.match((int *)&samples[i]) << endl;
    return 0;
