对ctree(条件推断决策树)的个人理解

个人的一些理解,不一定对。首先对因变量和单个自变量进行卡方检验,计算出因变量与所有自变量的卡方值,选择p值小于阈值(如0.05,一般小样本和中等样本都为0.05)的自变量进入模型,这时已经确定好那些自变量进入模型,下一步就是选择哪个zi自变量作为第一次分割的自变量,方法:在进入模型的自变量中,选择与因变量的相关性最高的那个自变量作为第一次分割的自变量。那么,怎么来划分呢,就是用置换检验来确定。置换检验:例如选取一个划分点将一个自变量划分为两个部分,如果这两个部分有显著差异,则可以根据该划分点划分。

置换检验:假设有两组待检数据,A组有m个数据,B组有n个数据,均值差为d0,现把所有数据放在一起进行随机抽取,抽出m个放入A组,剩下n个放入B组,计算A、B两组的均值差记为d1,再放在一起进行随机重抽m、n两组,得到均值差记为d2,重复这个步骤k次得到(d3……dk),于是d1……dk可以画出一张正态图,然后看d0落在什么方,若落在置信水平之外,即可以显著说明它们是有差异的。 

你可能感兴趣的:(机器学习算法)