Weka算法Classifier-trees-REPTree源码分析(二)

(接上篇)


一、剪枝过程

上篇分析完了tree节点的构建过程,在REPTree.buildClassifier之后如果设置了剪枝选项,则还有一个剪枝和backfit过程。

    if (!m_NoPruning) {
      m_Tree.insertHoldOutSet(prune);
      m_Tree.reducedErrorPrune();
      m_Tree.backfitHoldOutSet();
    }


其中insertHoldOutSet就是把剪枝用到的数据集传进去,不具体的区跟代码了。

重点卡一下reducedErrorPrune和backfitHoldOutSet过程。


二、Tree.reducedErrorPrune

    protected double reducedErrorPrune() throws Exception {
<span style="white-space:pre">	</span>//这个函数会返回该树及其子树的一个错误情况,如果是枚举类型返回的是分错的instance数量,数值类型返回的是与正确值的偏差的平方和
      // 如果是叶子节点就不做任何操作
      if (m_Attribute == -1) {
	return m_HoldOutError;//简单的说一下这个error怎么计算来的,使用<span style="font-size:18px;">insertHoldOutSet传入数据时会根据原先训练时的分布,来预测出传入数据的class,然后根据这个结果和真正的class值进行比对,就知道是否分的正确了</span>
      }

      //计算一下所有的子树的偏差
      double errorTree = 0;
      for (int i = 0; i < m_Successors.length; i++) {
	errorTree += m_Successors[i].reducedErrorPrune();
      }

      if (errorTree >= m_HoldOutError) {
	m_Attribute = -1;//如果子树偏差大于本身的偏差,那子树就没啥存在的意义了,直接去掉。
	m_Successors = null;
	return m_HoldOutError;
      } else {
	return errorTree;
      }
    }
可以看出,这个剪枝过程和J48相比还是简单不少的。


三、Tree.backfitHoldOutSet

protected void backfitHoldOutSet() throws Exception {
      
      // Insert instance into hold-out class distribution
      if (m_Info.classAttribute().isNominal()) {
	
	// Nominal case
	if (m_ClassProbs == null) {
	  m_ClassProbs = new double[m_Info.numClasses()];
	}
	System.arraycopy(m_Distribution, 0, m_ClassProbs, 0, m_Info.numClasses());
        for (int i = 0; i < m_HoldOutDist.length; i++) {
          m_ClassProbs[i] += m_HoldOutDist[i];
        }
        if (Utils.sum(m_ClassProbs) > 0) {
          Utils.normalize(m_ClassProbs);
        } else {
          m_ClassProbs = null;
        }
      } else {
	
	// Numeric case
        double sumOfWeightsTrainAndHoldout = m_Distribution[1] + m_HoldOutDist[0];
        if (sumOfWeightsTrainAndHoldout <= 0) {
          return;
        }
	if (m_ClassProbs == null) {
	  m_ClassProbs = new double[1];
	} else {
          m_ClassProbs[0] *= m_Distribution[1];
        }
	m_ClassProbs[0] += m_HoldOutDist[1];
	m_ClassProbs[0] /= sumOfWeightsTrainAndHoldout;
      }	
      
      // The process is recursive
      if (m_Attribute != -1) {
        for (int i = 0; i < m_Successors.length; i++) {
          m_Successors[i].backfitHoldOutSet();
        }
      }
    }
可以看出,就是一个根据新传入的数据集对原数据的分布进行重新计算,并且再对子树进行递归的调用backfit的过程,不再详细对代码进行注释了。


四、REPTree和J48的比较

同样都是分类树,REPTree和J48有很多不同点,下面简单的说一说这些差异。

1、对连续值排序的处理

J48在处理连续值的时候,每一个subset都要进行排序,而REPTree是先在主流程中对所有属性进行排序,并生成index传给Tree节点来进行处理的。

因此J48所耗时间比较长,而REPTree则占用较大内存(数据数量*数据属性列数量,因此也可以看到REPTree的代码中不断的有显式置空去尝试释放内存的操作),这是一个典型的时间和空间的tradeoff。

2、递归退出条件

J48的分裂停止条件有5个,

(1)所有的instances已经属于同一个分类(selectModel里)

(2)instances数量小于2*minNoObj(selectModel里)

(3)一个分裂产生的信息增益石0(selectModel里)

(4)对离散值进行分裂节点的计算时,超过一个的Bag里的instance数量小于minNoObj(spliter里)

(5)对连续值进行分裂计算时,有效instances数量小于2*minNoObj(spliter里)

REPTree的停止条件有4个

(1)训练集数量小于2*minNum

(2)如果枚举类型,且在一个类中

(3)如果数值类型,方差小于一个给定值

(4)达到最大深度

可以看出,主要的不同在于REPTree使用方差来判断连续值是否结束分裂。

3、节点选择方式

J48使用信息增益率,REPTree使用信息增益

4、剪枝与backfit

J48的剪枝较为复杂,分成了collapse()和prune()两个操作,而REPTree的剪枝从逻辑上讲只是J48的collapse操作,并没有子树上提等较为激进的剪枝策略。

J48没有backfit,REPTree有backfit,这是因为J48就自己独立的classifyInstance过程并不依赖样本集的分布,而J48的classifyInstance是调用基类过程,需要自己存储一个分布,进而使用backfit来防止过拟合。







你可能感兴趣的:(源码,算法,机器学习,weka,分类器)