qunxingvip

ChiMerge 算法

基本思想

ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。
基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。
参考
参考：
1. ChiMerge:Discretization of numeric attributs
2. Chi算法
要点

1、最简单的离散算法是：等宽区间。从最小值到最大值之间,，均分为 N 等份，这样，如果 A,B 为最小最大值，则每个区间的长度为 W=(B−A)/N , 则区间边界值为 A+W,A+2W,….A+(N−1)W .
2、还有一种简单算法，等频区间。区间的边界值要经过选择，使得每个区间包含大致相等的实例数量。比如说 N=10 ，每个区间应该包含大约10%的实例。
3、以上两种算法有弊端：比如，等宽区间划分，划分为5区间，最高工资为50000，则所有工资低于10000的人都被划分到同一区间。等频区间可能正好相反，所有工资高于50000的人都会被划分到50000这一区间中。这两种算法都忽略了实例所属的类型，落在正确区间里的偶然性很大。
4、 C4、CART、PVM 算法在离散属性时会考虑类信息，但是是在算法实施的过程中间，而不是在预处理阶段。例如， C4 算法（ID3决策树系列的一种），将数值属性离散为两个区间，而取这两个区间时，该属性的信息增益是最大的。
5、评价一个离散算法是否有效很难，因为不知道什么是最高效的分类。
6、离散化的主要目的是：消除数值属性以及为数值属性定义准确的类别。
7、高质量的离散化应该是：区间内一致，区间之间区分明显。
8、 ChiMerge 算法用卡方统计量来决定相邻区间是否一致或者是否区别明显。如果经过验证，类别属性独立于其中一个区间，则这个区间就要被合并。
9、 ChiMerge算法包括2部分：1、初始化，2、自底向上合并，当满足停止条件的时候，区间合并停止。

步骤
第一步：初始化
根据要离散的属性对实例进行排序：每个实例属于一个区间
第二步：合并区间，又包括两步骤
(1) 计算每一对相邻区间的卡方值
(2) 将卡方值最小的一对区间合并
预先设定一个卡方的阈值，在阈值之下的区间都合并，阈值之上的区间保持分区间。
卡方的计算公式：

χ2=∑mi=1∑kj=1(Aij−Eij)2Eij

参数说明：

m=2 ，每次比较两个相邻区间，2个区间比较

k= 类别的数量

Aij= 第

i 区间第

j 类的实例数量

Ri= 第

i 区间的实例数量

Ri=∑kj=1Aij

Cj= 第

j 类的实例数量

Cj=∑mi=1Aij

N= 总的实例数量

N=∑kj=1Cj

Eij=Aij 的期望

Eij=Ni∗CjN

10、卡方阈值的确定：先选择显著性水平，再由公式得到对应的卡方值。得到卡方值需要指定自由度，自由度比类别数量小1。例如，有3类，自由度为2，则90%置信度（10%显著性水平)下，卡方的值为4.6。阈值的意义在于，类别和属性独立时，有90%的可能性，计算得到的卡方值会小于4.6，这样，大于阈值的卡方值就说明属性和类不是相互独立的，不能合并。如果阈值选的大，区间合并就会进行很多次，离散后的区间数量少、区间大。用户可以不考虑卡方阈值，此时，用户可以考虑这两个参数：最小区间数，最大区间数。用户指定区间数量的上限和下限，最多几个区间，最少几个区间。
11、 ChiMerge算法推荐使用0.90、0.95、0.99置信度，最大区间数取10到15之间.
12.以iris数据距离说明


图二：左边第一列是 sepal−length 属性值，中间三列是三个类在该属性值下对应的实例数量，最后一列是卡方值。区间为相邻两行第一列属性所构成的区间，如 [4.3,4.9) ，前闭后开。卡方值越大说明该区间和下一个区间的差别越大，如 [5.0,5.5) 和下一个区间 [5.5,5.6) ,说明 [5.5,5.6) 不会和 [5.0,5.5) 合并到一个区间，左边采用的是卡方值是1.4（0.5显著水平）下的阈值得到的离散结果，右边是采用卡方值是4.6（0.9的显著水平）的阈值得到的离散结果。

举例：
取鸢尾花数据集作为待离散化的数据集合，使用ChiMerge算法，对四个数值属性分别进行离散化，令停机准则为max_interval=6。
下面是我用Python写的程序，大致分两步：
第一步，整理数据
读入鸢尾花数据集，构造可以在其上使用ChiMerge的数据结构，即, 形如 [(‘4.3’, [1, 0, 0]), (‘4.4’, [3, 0, 0]),…]的列表，每一个元素是一个元组，元组的第一项是字符串，表示区间左端点，元组的第二项是一个列表，表示在此区间各个类别的实例数目；
第二步，离散化
使用ChiMerge方法对具有最小卡方值的相邻区间进行合并，直到满足最大区间数(max_interval)为6
程序最终返回区间的分裂点
Python实现：

# coding=utf-8
from time import ctime
''' 读取数据'''
def read(file):
    Instances = []
    fp = open(file,'r')
    for line in fp:
        line = line.strip('\n')
        if line!='':
            Instances.append(line.split(','))
    fp.close()
    return Instances
''' 将第i个特征和类标签组合起来 如:[[0.2,'Iris-setosa'],[0.2,'Iris-setosa'],...]'''
def split(Instances,i):
    log = [] 
    for line in Instances:
        log.append([line[i],line[4]])
    return log 
''' 统计每个属性值所具有的实例数量 [['4.3', 'Iris-setosa', 1], ['4.4', 'Iris-setosa', 3],...]'''  
def count(log):
    log_cnt = []
    # 以第0列进行排序的 升序排序
    log.sort(key = lambda log:log[0])
    i = 0
    while(i<len(log)):
        cnt = log.count(log[i])
        record = log[i][:]
        record.append(cnt)
        log_cnt.append(record)
        i += cnt 
    return log_cnt

''' log_cnt 是形如： ['4.4', 'Iris-setosa', 3] 的 统计对于某个属性值，对于三个类所含有的数量量 返回结果形如：{4.4:[0,1,3],...} 属性值为4.4的对于三个类的实例数量分别是：0、1、3 '''
def build(log_cnt):
    log_dict = {}
    for record in log_cnt:
        if record[0] not in log_dict.keys():
            log_dict[record[0]] = [0,0,0]
        if record[1] == 'Iris-setosa':
            log_dict[record[0]][0] = record[2]
        elif record[1] == 'Iris-versicolor':
            log_dict[record[0]][1] = record[2]
        elif record[1] == 'Iris-virginica':
            log_dict[record[0]][2] = record[2]
        else:
            raise TypeError('Data Exception')
    log_truple = sorted(log_dict.items())
    return log_truple

def collect(Instances,i):
    log = split(Instances,i)
    log_cnt = count(log)
    log_tuple = build(log_cnt)
    return log_tuple

def combine(a,b):
    ''''' a=('4.4', [3, 1, 0]), b=('4.5', [1, 0, 2]) combine(a,b)=('4.4', [4, 1, 2]) '''  
    c = a[:]
    for i in range(len(a[1])):
        c[1][i] += b[1][i]
    return c 

def chi2(A):
    '''计算两个区间的卡方值'''
    m = len(A)
    k = len(A[0])
    R = []
    '''第i个区间的实例数'''
    for i in range(m):
        sum = 0
        for j in range(k):
            sum += A[i][j]
        R.append(sum)
    C = []
    '''第j个类的实例数'''
    for j in range(k):
        sum = 0
        for i in range(m):
            sum+= A[i][j]
        C.append(sum)
    N = 0
    '''总的实例数'''
    for ele in C:
        N +=ele
    res = 0.0
    for i in range(m):
        for j in range(k):
            Eij = 1.0*R[i] *C[j]/N 
            if Eij!=0:
                res = 1.0*res + 1.0*(A[i][j] - Eij)**2/Eij
    return res 

'''ChiMerge 算法'''
'''下面的程序可以看出，合并一个区间之后相邻区间的卡方值进行了重新计算，而原作者论文中是计算一次后根据大小直接进行合并的 下面在合并时候只是根据相邻最小的卡方值进行合并的，这个在实际操作中还是比较好的 '''
def ChiMerge(log_tuple,max_interval):
    num_interval = len(log_tuple)
    while num_interval>max_interval:
        num_pair = num_interval -1
        chi_values = []
        ''' 计算相邻区间的卡方值'''
        for i in range(num_pair):
            arr = [log_tuple[i][1],log_tuple[i+1][1]]
            chi_values.append(chi2(arr))
        min_chi = min(chi_values)
        for i in range(num_pair - 1,-1,-1):
            if chi_values[i] == min_chi:
                log_tuple[i] = combine(log_tuple[i],log_tuple[i+1])
                log_tuple[i+1] = 'Merged'
        while 'Merged' in log_tuple:
            log_tuple.remove('Merged')
        num_interval = len(log_tuple)
    split_points = [record[0] for record in log_tuple]
    return split_points

def discrete(path):
    Instances = read(path)
    max_interval = 6
    num_log = 4
    for i in range(num_log):
        log_tuple = collect(Instances,i)
        split_points = ChiMerge(log_tuple,max_interval)
        print split_points

if __name__=='__main__':  
    print('Start: ' + ctime())  
    discrete('iris.data')  
    print('End: ' + ctime())

结果

Start: Sat Jan 02 21:33:26 2016
['4.3', '4.9', '5.0', '5.5', '5.8', '7.1']
['2.0', '2.3', '2.5', '2.9', '3.0', '3.4']
['1.0', '3.0', '4.5', '4.8', '5.0', '5.2']
['0.1', '1.0', '1.4', '1.7', '1.8', '1.9']
End: Sat Jan 02 21:33:26 2016

资料来源：http://blog.csdn.net/zhaoyl03/article/details/8689440

利用R自带函数运行

library(discretization)
#--Discretization using the ChiMerge method data(iris) disc=chiM(iris,alpha=0.05) #--cut-points disc$cutp #--discretized data matrix disc$Disc.data

结果

> disc$cutp
[[1]]
[1] 5.45 5.75 7.05

[[2]]
[1] 2.95 3.35

[[3]]
[1] 2.45 4.75 5.15

[[4]]
[1] 0.80 1.75

还是有点差别的
0.9的显著水平时候

disc=chiM(iris,alpha=0.1)
#--cut-points
disc$cutp

结果

disc$cutp
[[1]]
[1] 4.85 4.95 5.45 5.75 6.25 7.05

[[2]]
[1] 2.45 2.85 2.95 3.35

[[3]]
[1] 2.45 4.75 5.15

[[4]]
[1] 0.80 1.35 1.75

和原作者论文中计算结果很接近了。但是在作者论文中先对数据进行了处理，Sepal.Length这个属性，直接把小于4.9 的归为一类大于7.1的归为一类，和R自带函数运行的结果却很相似，可能也对两端数据进行了预处理。
但是为什么不是合并两个区间后重新计算相邻区间的卡方值，再进行合并？
R语言中计算分裂点的函数：

 value <- function (i, data, alpha) 
{
    p1 <- length(data[1, ])
    p <- p1 - 1
    y <- as.integer(data[, p1])
    class <- dim(table(data[, p1]))
    discredata <- data
    threshold <- qchisq(1 - alpha, class - 1)
    cuts <- numeric()
    z <- sort(unique(data[, i]))
    if (length(z) <= 1) 
        return(list(cuts = "", disc = discredata))
    dff <- diff(z)/2
    lenz <- length(z)
    cutpoint <- z[1:(lenz - 1)] + dff
    midpoint <- c(z[1], cutpoint, z[lenz])
    a <- cut(data[, i], breaks = midpoint, include.lowest = TRUE)
    b <- table(a, data[, p1])
    b <- as.array(b)
    repeat {
        m <- dim(b)[1]
        if (length(dim(b)) < 2 || m < 2) 
            break
        test <- numeric()
        for (k in 1:(m - 1)) {
            d <- b[c(k, k + 1), ]
            test[k] = chiSq(d)
        }
        k <- which.min(test)
        if (test[k] > threshold) 
            break
        b[k + 1, ] <- b[k, ] + b[k + 1, ]
        cutpoint <- cutpoint[-k]
        midpoint <- midpoint[-(k + 1)]
        b <- b[-k, ]
    }
    cuts <- cutpoint
    discredata[, i] <- cut(data[, i], breaks = midpoint, include.lowest = TRUE, 
        label = FALSE)
    return(list(cuts = cuts, disc = discredata))
}

说明：在上面是在 1−α 显著水平下 class−1 自由度下的卡方值
在进行计算每个区间的卡方值的时候有这个预处理

    dff <- diff(z)/2
    lenz <- length(z)
    cutpoint <- z[1:(lenz - 1)] + dff
    midpoint <- c(z[1], cutpoint, z[lenz])
    a <- cut(data[, i], breaks = midpoint, include.lowest = TRUE)
    b <- table(a, data[, p1])
    b <- as.array(b)

z是相邻两个数据的差值，再以diff/2为步长，说明白点就在不是严格按照当前点为区间分裂的边界，而是以两个点的中间点为分裂边界。
后面的程序也是每次合并两个，直到最后只有一个区间或者最小计算卡方值大于指定的卡方阈值了。
按照上面对 chiMerge 稍作改动


'''ChiMerge 算法'''
def ChiMerge2(log_tuple,max_chi):
    num_interval = len(log_tuple)
    while num_interval>2:
        num_pair = num_interval -1
        chi_values = []
        ''' 计算相邻区间的卡方值'''
        for i in range(num_pair):
            arr = [log_tuple[i][1],log_tuple[i+1][1]]
            chi_values.append(chi2(arr))
        min_chi = min(chi_values)
        if min_chi> max_chi:
            break
        for i in range(num_pair - 1,-1,-1):
            if chi_values[i] == min_chi:
                log_tuple[i] = combine(log_tuple[i],log_tuple[i+1])
                log_tuple[i+1] = 'Merged'
        while 'Merged' in log_tuple:
            log_tuple.remove('Merged')
        num_interval = len(log_tuple)
    split_points = [record[0] for record in log_tuple]
    return split_points

输出结果的切分点是：

['4.3', '4.9', '5.0', '5.5', '5.8', '6.3', '7.1']
['2.0', '2.5', '2.9', '3.0', '3.4']
['1.0', '3.0', '4.8', '5.2']
['0.1', '1.0', '1.4', '1.8']

这里是 maxchi=4.6 也就是说，显著水平0.9，自由度是3
而R的输出结果是：

disc$cutp
[1] 4.85 4.95 5.45 5.75 6.25 7.05
[2] 2.45 2.85 2.95 3.35
[3] 2.45 4.75 5.15
[4] 0.80 1.35 1.75

上面Python中输出的有左侧最小边界的，和R的输出差别主要是0.05，由于R考虑的是两个点的中间点进行合并的。

python 连续比较_python实现连续变量最优分箱详解--CART算法 weixin_39834788 python 连续比较
关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基于CART算法对连续变量进行最优分箱由于CART是决策树分类算法，所以相当于是单变量决策树分类。简单介绍下理论：CART是二叉树，每次仅进
风控实战-卡方分箱计算IV值（含代码）风控小兵突击智能风控 python 数据挖掘数据分析金融
统计学，风控建模经常遇到卡方分箱算法ChiMerge。卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心，让分箱具有统计学意义（单调性）。卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别。01卡方检验算法介绍卡方检验（Chi-SquareTest）是一种统计学上的检验方法，用于评估两个类别变量之间的独立性。它基于样本数据来测试观察值与预期值之间的差异是否足够大，以至于能够推断变量之间
卡方分箱(chi-square) python风控模型论文毕设概率论
统计学，风控建模经常遇到卡方分箱算法ChiMerge。卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心，让分箱具有统计学意义（单调性）。卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别。但很多建模人员搞不清楚卡方分箱原理。先给大家介绍一下经常被提到的卡方分布和卡方检验是什么。欢迎各位同学学习更多相关知识python金融风控评分卡模型和数据分析：https://edu.csdn.ne
r 语言 c50算法,c50(部分)决策树R代码易烫YCC r 语言 c50算法
#c50决策树作为商业版本的决策树，尤其高效的速度和，更加符合理论意义的分类方式#信息熵，信息熵增益率作为样本数据的分支方式，下文中没有对连续型变量做输入，可以参考chimerge转化为分类型变量#如果想转变为2叉树形式可以参考以gini或者信息熵增益率作为分类方式#最终形成的分类数做减枝的参考是子误差加权后比父误差要小，则分类延续，否则剪枝#w1=matrix(sign(rnorm(120)),
风控建模二、特征工程---风控沐自礼风控人工智能机器学习人工智能机器学习数据挖掘算法 python
本节主要将风控中比较常见的特征工程。目录目录一、分箱1.1Best-KS1.2卡方分箱法（ChiMerge）二、WOE和IV2.1两种woe处理分类问题。三、共线性3.1相关系数COR:3.2方差膨胀系数VIF四、PSI参考文献一、分箱分箱是将连续变量离散化，将多状态的离散变量合并成少状态。分箱的重要性：避免特征中无意义的波动对评分带来的波动（稳定性），避免极端值的影响（健壮性）。分箱的优势：可以
数据处理实战： Chimerge和决策树分箱数据臭皮匠fxx
本文是对《数据挖掘概念与技术》第三章的补充，详细展开分箱技术的细节1、Chimerge分箱Chimerge分箱虽然在书中只是寥寥几行，但却瞬间吸引了我的兴趣,因为它的方式比较特别,属于自下而上的分箱方式首先将变量值排序,初始化时每个值作为一组,对相邻组做卡方检验，具有最小卡方值的组合并在一起（卡方值小，说明两组值的差别与目标变量不独立，可以参考小说和男女的关系），循环合并，直到满足预先设定的终止条
自动分箱的代码实现（基于卡方）薛定谔的三大爷学习笔记
defmc_chiMerge_final(df,var,target,max_groups=None,threshold=None):"""df:数据集var:变量target:标签max_groups:最大分箱个数threshold:卡方阈值"""importnumpyasnpimportpandasaspddefmc_chi2(arr):#arr：频数统计表assert(arr.ndim==2
python实现连续变量最优分箱详解--CART算法程序员adny python教程
今天小编就为大家分享一篇python实现连续变量最优分箱详解–CART算法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基
ChiMerge 算法氵冫丶机器学习
基本思想ChiMerge是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考参考：1.ChiMerge:Discretizat
ChiMerge 算法: 以鸢尾花数据集为例 yinlung 机器学习数据挖掘 Python
ChiMerge是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考：1.ChiMerge:Discretizationofn
python实现连续变量最优分箱--CART算法贾杰森 python 数据分析
关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基于CART算法对连续变量进行最优分箱由于CART是决策树分类算法，所以相当于是单变量决策树分类。简单介绍下理论：CART是二叉树，每次仅进
【数据建模特征分箱】特征分箱的方法开心果汁数据科学--机器学习
在建模中，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。有监督的卡方分箱法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化，相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而
特征离散化（一）之卡方分箱 SkullSky 算法
离散特征在数据挖掘的过程中具有重要作用，因此特征离散化是构建特征工程的一个很常见、也很重要的环节。卡方分箱作为最经典的离散化方法之一，最近做项目需要用到时，却发现这么经典的功能python竟然没有官方的封装库。找了许多资料，感觉讲的都比较杂（一会chiMerge，一会chi2，一会单调性检验O__O”…），看的怀疑人生。最后实在不得已，只能翻出原论文ChiMerge:Discretizationo
ChiMerge 算法: 以鸢尾花数据集为例 mousever 机器学习 DM
ChiMerge是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考：1.ChiMerge:Discretizationofn
python评分卡建模-卡方分箱慢爬小蜗牛（涉及版权私聊我，让我删就删）贷前风控-风控建模
今天主要给大家讲讲卡方分箱算法ChiMerge。先给大家介绍一下经常被提到的卡方分布和卡方检验是什么。一、卡方分布卡方分布(chi-squaredistribution,χ2-distribution)是概率统计里常用的一种概率分布，也是统计推断里应用最广泛的概率分布之一，在假设检验与置信区间的计算中经常能见到卡方分布的身影。卡方分布的定义如下：若k个独立的随机变量Z1,Z2,...,Zk满足标准
数据研发学习笔记08：数据预处理 Lynn Wen 数据研发学习笔记数据分析学习总结笔记
文章目录1数据预处理基本思想2数据规范化2.1最小-最大法（min-maxnormalization）2.2零均值规范化（z-score）3数据离散化3.1等距离（equal-distance）分箱3.2等频率（equal-frequency）分箱3.3基于熵的离散化方法3.4ChiMerge方法4数据清洗4.1处理缺失数据4.2处理噪音数据5特征提取与特征选择5.1特征提取5.2特征选择1数据预
卡方分箱(Chi Merge 算法) troysps MachineLearning
卡方分箱原理及实现(ChiMerge算法)一.卡方分布卡方分布的定义:若k个独立的随机变量Z1,Z2,…,Zk满足标准正态分布N(0,1),则这k个随机变量的平方和:X=∑i=1kZi2X=\sum_{i=1}^{k}Z_{i}^2X=i=1∑kZi2为服从自由度为k的卡方分布,记做:X−χ2(k)或者记作X−χk2X-\chi^{2}(k)或者记作X-\chi^2_{k}X−χ2(k)或者记作X
离散化/分箱/分组（Discretization / binning / Interactive grouping） textboy DataAnalysis
1、监督离散化（superviseddiscretization）考虑类别信息（已知X的值和Y的值）。检验方法如：卡方检验（ChiMerge慢、Chi-square、Chi2、CAIM、CACC、ameva），信息增益，基尼指数，最短描述长度原则（MDLP，基于熵），WoE等。（1）最优准则：基于“树结构准则”查找最佳分组（条件推理树ConditionalInferenceTrees,initia
（一）python-申请评分卡模型 flyingool 评分卡
#简介本文通过使用LendingClub的数据，采用卡方分箱（ChiMerge）、WOE编码、计算IV值、单变量和多变量（VIF）分析，然后使用逻辑回归模型进行训练，在变量筛选时也可尝试添加L1约束或通过随机森林筛选变量，最后进行模型评估。######关键词：卡方分箱，WOE，IV值，变量分析，逻辑回归####一、数据预处理数据清洗：数据选择、格式转换、缺失值填补由于贷款期限（term）有多个种类
python实现连续变量最优分箱详解--CART算法程序员arlly python爬虫 python 编程语言
今天小编就为大家分享一篇python实现连续变量最优分箱详解–CART算法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基
【数据建模特征分箱】特征分箱的方法 Ten_Minutes
在建模中，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。有监督的卡方分箱法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化，相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而
（一）python-申请评分卡模型乘物以游心
简介本文通过使用LendingClub的数据，采用卡方分箱（ChiMerge）、WOE编码、计算IV值、单变量和多变量（VIF）分析，然后使用逻辑回归模型进行训练，在变量筛选时也可尝试添加L1约束或通过随机森林筛选变量，最后进行模型评估。关键词：卡方分箱，WOE，IV值，变量分析，逻辑回归一、数据预处理数据清洗：数据选择、格式转换、缺失值填补由于贷款期限（term）有多个种类，申请评分卡模型评估的
连续变量最优分箱--基于CART算法 cyydjt
关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基于CART算法对连续变量进行最优分箱由于CART是决策树分类算法，所以相当于是单变量决策树分类。简单介绍下理论：CART是二叉树，每次仅进
连续变量最优分箱--基于CART算法 cyydjt 机器学习算法
关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基于CART算法对连续变量进行最优分箱由于CART是决策树分类算法，所以相当于是单变量决策树分类。简单介绍下理论：CART是二叉树，每次仅进
特征分箱猪逻辑公园机器学习
在建模中，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。有监督的卡方分箱法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化，相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而
ChiMerge 算法 qunxingvip ChiMerge
基本思想ChiMerge是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考参考：1.ChiMerge:Discretizat
ChiMerge算法 (java) merge
韩家炜数据挖掘概念与技术第三版习题3.12 取鸢尾花数据集iris.data作为待离散化的数据集合，使用ChiMerge算法，对四个数值属性进行离散化，对四个属性进行区间合并，最终合并区间个数剩下为6个即停：即max_interval=6。一、样本数据 iris.data数据形式为：前面4列是属性，最后一列是数据类名， 5.1,3.5,1.4,0.2,Iris-setosa 4
研一上学期各门考试吐槽---师兄只能帮你到这里了 u010454729
时间：2014年11月16日第十周周末研一上半年考试科目：《数据挖掘》考试形式：开卷内容：4道大题，全英文。答卷也要全英文。第一道：chiMerge算法。用chiMerge对某个属性的不同值合并，坑爹啊，老师只是提了下，ppt上也没，书上（《数据挖掘概念与技术原书第3版》第77页chiMerge方法）也没相关的例子，只有那么简短的介绍，咋整？平时没注意到，根本猜不到会考这算法。好吧，这道题是用来区
ChiMerge 算法: 以鸢尾花数据集为例 zhaoyl03 ChiMerge算法鸢尾花数据集数据离散化
ChiMerge是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考：1.ChiMerge:Discretizationofn
ChiMerge对鸢尾花数据的离散化处理冰雪飞扬 Iris CodePlex 鸢尾花 ChiMerge UCI
ChiMerge是监督的、自底向上的（即基于合并的）数据离散化方法。它依赖于卡方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止标准。本程序取鸢尾花数据集作为待离散的数据集合，对四个数值属性分别进行离散化，结束阈值设定为max-interval=6。其中鸢尾花数据取自UCI机器学习数据库（http://archive.ics.uci.edu/ml/dataset
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

ChiMerge 算法

基本思想

你可能感兴趣的:(ChiMerge)