元宇宙iwemeta

金融风控-->申请评分卡模型-->特征工程（特征分箱，WOE编码）标签：金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读评论(2) 收藏举报分类：金融风

金融风控-->申请评分卡模型-->特征工程（特征分箱，WOE编码）

标签：金融特征分箱-WOE编码

2017-07-16 21:26 4086人阅读评论(2) 收藏举报

分类：

金融风控（6）

作者同类文章 X

这篇博文主要讲在申请评分卡模型中常用的一些特征工程方法，申请评分卡模型最多的还是logsitic模型。

先看数据，我们现在有三张表：

已加工成型的信息：

Master表
idx:每一笔贷款的unique key,可以与另外2个文件里的idx相匹配。
UserInfo_*:借款人特征字段
WeblogInfo_*:Info网络行为字段
Education_Info*:学历学籍字段
ThirdParty_Info_PeriodN_*:第三方数据时间段N字段
SocialNetwork_*:社交网络字段
ListingInfo:借款成交时间
Target:违约标签(1 = 贷款违约,0 = 正常还款)

需要衍生的信息

借款人的登陆信息表
ListingInfo:借款成交时间
LogInfo1:操作代码
LogInfo2:操作类别
LogInfo3:登陆时间
idx:每一笔贷款的unique key

客户在不同的时间段内有着不同的操作，故我们最好做个时间切片，在每个时间切片内统计一些特征。从而衍生出一些特征。

时间切片:

两个时刻间的跨度

例: 申请日期之前30天内的登录次数
申请日期之前第30天至第59天内的登录次数

基于时间切片的衍生

申请日期之前180天内,平均每月(30天)的登录次数

常用的时间切片

(1、2个)月,(1、2个)季度,半年,1年,1年半,2年

时间切片的选择

不能太长:保证大多数样本都能覆盖到
不能太短:丢失信息

我们希望最大时间切片不能太长，都是最好又能包含大部分信息。那么最大切片应该多大呢？

#coding:utf-8
import pandas as pd
import datetime
import collections
import numpy as np
import random

import matplotlib.pyplot as plt

def TimeWindowSelection(df, daysCol, time_windows):
    '''
    :param df: the dataset containg variabel of days
    :param daysCol: the column of days
    :param time_windows: the list of time window，可分别取30,60,90,,,360
    :return:
    '''
    freq_tw = {}
    for tw in time_windows:
        freq = sum(df[daysCol].apply(lambda x: int(x<=tw))) ##统计在tw时间切片内客户操作的总次数
        freq_tw[tw] = freq/float(len(df))　##tw时间切片内客户总操作数占总的操作数比例
    return freq_tw


data1 = pd.read_csv('PPD_LogInfo_3_1_Training_Set.csv', header = 0)
### Extract the applying date of each applicant
data1['logInfo'] = data1['LogInfo3'].map(lambda x: datetime.datetime.strptime(x,'%Y-%m-%d'))
data1['Listinginfo'] = data1['Listinginfo1'].map(lambda x: datetime.datetime.strptime(x,'%Y-%m-%d'))
data1['ListingGap'] = data1[['logInfo','Listinginfo']].apply(lambda x: (x[1]-x[0]).days,axis = 1)
timeWindows = TimeWindowSelection(data1, 'ListingGap', range(30,361,30))
fig=plt.figure()
ax=fig.add_subplot(1,1,1)
ax.plot(list(timeWindows.keys()),list(timeWindows.values()),marker='o')
ax.set_xticks([0,30,60,90,120,150,180,210,240,270,300,330,360])
ax.grid()
plt.show()
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27
      
      
      
      28
      
      
      
      29
      
      
      
      30
      
      
      
      31
      
      
      
      32
      
      
      
      33
      
      
      
      34
      
      
      
      35

由上图可以看出，在0-180天的时间切片内的操作数占总的操作数的95%，180天以后的覆盖度增长很慢。所以我们选择180天为最大的时间切片。凡是不超过180天的时间切片，都可以用来做个特征衍生。

选取[7,30,60,90,120,150,180]做为不同的切片,衍生变量。

那么我们来选择提取哪些有用的特征：

统计下LogInfo1和LogInfo2在每个时间切片内被操作的次数m1。
统计下LogInfo1和LogInfo2在每个时间切片内不同的操作次数m2。
统计下LogInfo1和LogInfo2在每个时间切片内m1/m2的值。

time_window = [7, 30, 60, 90, 120, 150, 180]
var_list = ['LogInfo1','LogInfo2']
data1GroupbyIdx = pd.DataFrame({'Idx':data1['Idx'].drop_duplicates()})
for tw in time_window:
    data1['TruncatedLogInfo'] = data1['Listinginfo'].map(lambda x: x + datetime.timedelta(-tw))
    temp = data1.loc[data1['logInfo'] >= data1['TruncatedLogInfo']]
    for var in var_list:
        #count the frequences of LogInfo1 and LogInfo2
        count_stats = temp.groupby(['Idx'])[var].count().to_dict()
        data1GroupbyIdx[str(var)+'_'+str(tw)+'_count'] = data1GroupbyIdx['Idx'].map(lambda x: count_stats.get(x,0))
        # count the distinct value of LogInfo1 and LogInfo2
        Idx_UserupdateInfo1 = temp[['Idx', var]].drop_duplicates()
        uniq_stats = Idx_UserupdateInfo1.groupby(['Idx'])[var].count().to_dict()
        data1GroupbyIdx[str(var) + '_' + str(tw) + '_unique'] = data1GroupbyIdx['Idx'].map(lambda x: uniq_stats.get(x,0))
        # calculate the average count of each value in LogInfo1 and LogInfo2
        data1GroupbyIdx[str(var) + '_' + str(tw) + '_avg_count'] = data1GroupbyIdx[[str(var)+'_'+str(tw)+'_count',str(var) + '_' + str(tw) + '_unique']].\
            apply(lambda x: x[0]*1.0/x[1], axis=1)

   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18

数据清洗

对于类别型变量

        删除缺失率超过50%的变量
        剩余变量中的缺失做为一种状态

对于连续型变量

        删除缺失率超过30%的变量
        利用随机抽样法对剩余变量中的缺失进行补缺

注:连续变量中的缺失也可以当成一种状态

特征分箱（连续变量离散化或类别型变量使其更少类别）
分箱的定义

将连续变量离散化
将多状态的离散变量合并成少状态

分箱的重要性及其优势

离散特征的增加和减少都很容易，易于模型的快速迭代；
稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；
离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；
特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。
可以将缺失作为独立的一类带入模型。
将所有变量变换到相似的尺度上。

特征分箱的方法
　

这里我们主要讲有监督的卡方分箱法(ChiMerge)。

　　自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
　　基本思想:对于精确的离散化，相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。

分箱步骤：

这里需要注意初始化时需要对实例进行排序，在排序的基础上进行合并。

卡方阈值的确定：

　　根据显著性水平和自由度得到卡方值
　　自由度比类别数量小1。例如：有3类,自由度为2，则90%置信度(10%显著性水平)下，卡方的值为4.6。

阈值的意义

　　类别和属性独立时,有90%的可能性,计算得到的卡方值会小于4.6。
　　大于阈值4.6的卡方值就说明属性和类不是相互独立的，不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的区间数量少、区间大。
　　
注:
1,ChiMerge算法推荐使用0.90、0.95、0.99置信度,最大区间数取10到15之间.
2,也可以不考虑卡方阈值,此时可以考虑最小区间数或者最大区间数。指定区间数量的上限和下限,最多几个区间,最少几个区间。
3,对于类别型变量,需要分箱时需要按照某种方式进行排序。

按照最大区间数进行分箱代码：

def Chi2(df, total_col, bad_col, overallRate):
    '''
    :param df: the dataset containing the total count and bad count
    :param total_col: total count of each value in the variable
    :param bad_col: bad count of each value in the variable
    :param overallRate: the overall bad rate of the training set
    :return: the chi-square value
    '''
    df2 = df.copy()
    df2['expected'] = df[total_col].apply(lambda x: x*overallRate)
    combined = zip(df2['expected'], df2[bad_col])
    chi = [(i[0]-i[1])**2/i[0] for i in combined]
    chi2 = sum(chi)
    return chi2


### ChiMerge_MaxInterval: split the continuous variable using Chi-square value by specifying the max number of intervals
def ChiMerge_MaxInterval_Original(df, col, target, max_interval = 5):
    '''
    :param df: the dataframe containing splitted column, and target column with 1-0
    :param col: splitted column
    :param target: target column with 1-0
    :param max_interval: the maximum number of intervals. If the raw column has attributes less than this parameter, the function will not work
    :return: the combined bins
    '''
    colLevels = set(df[col])
    # since we always combined the neighbours of intervals, we need to sort the attributes
    colLevels = sorted(list(colLevels))　## 先对这列数据进行排序，然后在计算分箱
    N_distinct = len(colLevels)
    if N_distinct <= max_interval:  #If the raw column has attributes less than this parameter, the function will not work
        print "The number of original levels for {} is less than or equal to max intervals".format(col)
        return colLevels[:-1]
    else:
        #Step 1: group the dataset by col and work out the total count & bad count in each level of the raw column
        total = df.groupby([col])[target].count()
        total = pd.DataFrame({'total':total})
        bad = df.groupby([col])[target].sum()
        bad = pd.DataFrame({'bad':bad})
        regroup =  total.merge(bad,left_index=True,right_index=True, how='left')##将左侧，右侧的索引用作其连接键。
        regroup.reset_index(level=0, inplace=True)
        N = sum(regroup['total'])
        B = sum(regroup['bad'])
        #the overall bad rate will be used in calculating expected bad count
        overallRate = B*1.0/N　##　统计坏样本率
        # initially, each single attribute forms a single interval
        groupIntervals = [[i] for i in colLevels]## 类似于[[1],[2],[3,4]]其中每个[.]为一箱
        groupNum = len(groupIntervals)
        while(len(groupIntervals)>max_interval):   #the termination condition: the number of intervals is equal to the pre-specified threshold
            # in each step of iteration, we calcualte the chi-square value of each atttribute
            chisqList = []
            for interval in groupIntervals:
                df2 = regroup.loc[regroup[col].isin(interval)]
                chisq = Chi2(df2, 'total','bad',overallRate)
                chisqList.append(chisq)
            #find the interval corresponding to minimum chi-square, and combine with the neighbore with smaller chi-square
            min_position = chisqList.index(min(chisqList))
            if min_position == 0:## 如果最小位置为0,则要与其结合的位置为１
                combinedPosition = 1
            elif min_position == groupNum - 1:
                combinedPosition = min_position -1
            else:## 如果在中间，则选择左右两边卡方值较小的与其结合
                if chisqList[min_position - 1]<=chisqList[min_position + 1]:
                    combinedPosition = min_position - 1
                else:
                    combinedPosition = min_position + 1
            groupIntervals[min_position] = groupIntervals[min_position]+groupIntervals[combinedPosition]
            # after combining two intervals, we need to remove one of them
            groupIntervals.remove(groupIntervals[combinedPosition])
            groupNum = len(groupIntervals)
        groupIntervals = [sorted(i) for i in groupIntervals]　## 对每组的数据安从小到大排序
        cutOffPoints = [i[-1] for i in groupIntervals[:-1]]　## 提取出每组的最大值，也就是分割点
        return cutOffPoints

   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27
      
      
      
      28
      
      
      
      29
      
      
      
      30
      
      
      
      31
      
      
      
      32
      
      
      
      33
      
      
      
      34
      
      
      
      35
      
      
      
      36
      
      
      
      37
      
      
      
      38
      
      
      
      39
      
      
      
      40
      
      
      
      41
      
      
      
      42
      
      
      
      43
      
      
      
      44
      
      
      
      45
      
      
      
      46
      
      
      
      47
      
      
      
      48
      
      
      
      49
      
      
      
      50
      
      
      
      51
      
      
      
      52
      
      
      
      53
      
      
      
      54
      
      
      
      55
      
      
      
      56
      
      
      
      57
      
      
      
      58
      
      
      
      59
      
      
      
      60
      
      
      
      61
      
      
      
      62
      
      
      
      63
      
      
      
      64
      
      
      
      65
      
      
      
      66
      
      
      
      67
      
      
      
      68
      
      
      
      69
      
      
      
      70
      
      
      
      71
      
      
      
      72
      
      
      
      73

以卡方阈值作为终止分箱条件：

def ChiMerge_MinChisq(df, col, target, confidenceVal = 3.841):
    '''
    :param df: the dataframe containing splitted column, and target column with 1-0
    :param col: splitted column
    :param target: target column with 1-0
    :param confidenceVal: the specified chi-square thresold, by default the degree of freedom is 1 and using confidence level as 0.95
    :return: the splitted bins
    '''
    colLevels = set(df[col])
    total = df.groupby([col])[target].count()
    total = pd.DataFrame({'total':total})
    bad = df.groupby([col])[target].sum()
    bad = pd.DataFrame({'bad':bad})
    regroup =  total.merge(bad,left_index=True,right_index=True, how='left')
    regroup.reset_index(level=0, inplace=True)
    N = sum(regroup['total'])
    B = sum(regroup['bad'])
    overallRate = B*1.0/N
    colLevels =sorted(list(colLevels))
    groupIntervals = [[i] for i in colLevels]
    groupNum  = len(groupIntervals)
    while(1):   #the termination condition: all the attributes form a single interval; or all the chi-square is above the threshould
        if len(groupIntervals) == 1:
            break
        chisqList = []
        for interval in groupIntervals:
            df2 = regroup.loc[regroup[col].isin(interval)]
            chisq = Chi2(df2, 'total','bad',overallRate)
            chisqList.append(chisq)
        min_position = chisqList.index(min(chisqList))
        if min(chisqList) >=confidenceVal:
            break
        if min_position == 0:
            combinedPosition = 1
        elif min_position == groupNum - 1:
            combinedPosition = min_position -1
        else:
            if chisqList[min_position - 1]<=chisqList[min_position + 1]:
                combinedPosition = min_position - 1
            else:
                combinedPosition = min_position + 1
        groupIntervals[min_position] = groupIntervals[min_position]+groupIntervals[combinedPosition]
        groupIntervals.remove(groupIntervals[combinedPosition])
        groupNum = len(groupIntervals)
    return groupIntervals

   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27
      
      
      
      28
      
      
      
      29
      
      
      
      30
      
      
      
      31
      
      
      
      32
      
      
      
      33
      
      
      
      34
      
      
      
      35
      
      
      
      36
      
      
      
      37
      
      
      
      38
      
      
      
      39
      
      
      
      40
      
      
      
      41
      
      
      
      42
      
      
      
      43
      
      
      
      44
      
      
      
      45
      
      
      
      46

无监督分箱法:

等距划分、等频划分

等距分箱
　　从最小值到最大值之间,均分为 N 等份, 这样, 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界，每个等份里面的实例数量可能不等。
　　
等频分箱
　　区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。
　　
以上两种算法的弊端
　　比如,等宽区间划分,划分为5区间,最高工资为50000,则所有工资低于10000的人都被划分到同一区间。等频区间可能正好相反,所有工资高于50000的人都会被划分到50000这一区间中。这两种算法都忽略了实例所属的类型,落在正确区间里的偶然性很大。

我们对特征进行分箱后，需要对分箱后的每组（箱）进行woe编码，然后才能放进模型训练。

WOE编码

WOE(weight of evidence, 证据权重)

一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值

优势
　　将特征的值规范到相近的尺度上。
　　(经验上讲,WOE的绝对值波动范围在0.1~3之间)。
　　具有业务含义。
　　
缺点
　　需要每箱中同时包含好、坏两个类别。

特征信息度

IV(Information Value), 衡量特征包含预测变量浓度的一种指标

　特征信息度解构：
　
　其中Gi,Bi表示箱i中好坏样本占全体好坏样本的比例。
　WOE表示两类样本分布的差异性。
　(Gi-Bi)：衡量差异的重要性。

　特征信息度的作用
　选择变量：

非负指标
高IV表示该特征和目标变量的关联度高
目标变量只能是二分类
过高的IV,可能有潜在的风险
特征分箱越细,IV越高
常用的阈值有:
< =0.02: 没有预测性,不可用
0.02 to 0.1: 弱预测性
0.1 to 0.2: 有一定的预测性
0.2 +: 高预测性

注意上面说的IV是指一个变量里面所有箱的IV之和。

计算WOE和IV代码：

def CalcWOE(df, col, target):
    '''
    :param df: dataframe containing feature and target
    :param col: 注意col这列已经经过分箱了，现在计算每箱的WOE和总的IV。
    :param target: good/bad indicator
    :return: 返回每箱的WOE(字典类型）和总的IV之和。
    '''
    total = df.groupby([col])[target].count()
    total = pd.DataFrame({'total': total})
    bad = df.groupby([col])[target].sum()
    bad = pd.DataFrame({'bad': bad})
    regroup = total.merge(bad, left_index=True, right_index=True, how='left')
    regroup.reset_index(level=0, inplace=True)
    N = sum(regroup['total'])
    B = sum(regroup['bad'])
    regroup['good'] = regroup['total'] - regroup['bad']
    G = N - B
    regroup['bad_pcnt'] = regroup['bad'].map(lambda x: x*1.0/B)
    regroup['good_pcnt'] = regroup['good'].map(lambda x: x * 1.0 / G)
    regroup['WOE'] = regroup.apply(lambda x: np.log(x.good_pcnt*1.0/x.bad_pcnt),axis = 1)
    WOE_dict = regroup[[col,'WOE']].set_index(col).to_dict(orient='index')
    IV = regroup.apply(lambda x: (x.good_pcnt-x.bad_pcnt)*np.log(x.good_pcnt*1.0/x.bad_pcnt),axis = 1)
    IV = sum(IV)
    return {"WOE": WOE_dict, 'IV':IV}
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24

那么可能有人会问，以上都是有监督的分箱，有监督的WOE编码，如何能将这些有监督的方法应用到预测集上呢？
　　
　　我们观察下有监督的卡方分箱法和有监督的woe编码的计算公式不难发现，其计算结果都是以一个比值结果呈现（卡方分箱法：(坏样本数量-期望坏样本数量)/期望坏样本数量的比值形式；有监督的woe类似），比如我们发现预测集里面好坏样本不平衡，需要对坏样本进行一个欠采样或者是好样本进行过采样，只要是一个均匀采样，理论上这个有监督的卡方分箱的比值结果是不变的，其woe的比值结果也是不变的。即预测集上的卡方分组和woe编码和训练集上一样。
　　
　　那么，在训练集中我们对一个连续型变量进行分箱以后，对照这这个连续型变量每个值，如果这个值在某个箱中，那么就用这个箱子的woe编码代替他放进模型进行训练。

　　在预测集中类似，但是预测集中的这个连续型变量的某个值可能不在任一个箱中，比如在训练集中我对[x1,x2]分为一箱，[x3,x4]分为一箱，预测集中这个连续变量某个值可能为(x2+x3)/2即不在任意一箱中，如果把[x1,x2]分为一箱，那么这一箱的变量应该是x1<=x< x2；第二箱应该是x2<=x< x4等等。即预测集中连续变量某一个值大于等于第i-1个箱的最大值，小于第ｉ个箱子的最大值，那么这个变量就应该对应第ｉ个箱子。这样分箱就覆盖所有训练样本外可能存在的值。预测集中任意的一个值都可以找到对应的箱，和对应的woe编码。
　　

def AssignBin(x, cutOffPoints):
    '''
    :param x: the value of variable
    :param cutOffPoints: 每组的最大值，也就是分割点
    :return: bin number, indexing from 0
    for example, if cutOffPoints = [10,20,30], if x = 7, return Bin 0. If x = 35, return Bin 3
    '''
    numBin = len(cutOffPoints) + 1
    if x<=cutOffPoints[0]:
        return 'Bin 0'
    elif x > cutOffPoints[-1]:
        return 'Bin {}'.format(numBin-1)
    else:
        for i in range(0,numBin-1):
            if cutOffPoints[i] < x <=  cutOffPoints[i+1]:
                return 'Bin {}'.format(i+1)
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16

　　
　　如果我们发现分箱以后能完全能区分出好坏样本，那么得注意了这个连续变量会不会是个事后变量。

分箱的注意点

对于连续型变量做法:

使用ChiMerge进行分箱
如果有特殊值，把特殊值单独分为一组，例如把-1单独分为一箱。
计算这个连续型变量的每个值属于那个箱子，得出箱子编号。以所属箱子编号代替原始值。

def AssignBin(x, cutOffPoints):
    '''
    :param x: the value of variable
    :param cutOffPoints: the ChiMerge result for continous variable
    :return: bin number, indexing from 0
    for example, if cutOffPoints = [10,20,30], if x = 7, return Bin 0. If x = 35, return Bin 3
    '''
    numBin = len(cutOffPoints) + 1
    if x<=cutOffPoints[0]:
        return 'Bin 0'
    elif x > cutOffPoints[-1]:
        return 'Bin {}'.format(numBin-1)
    else:
        for i in range(0,numBin-1):
            if cutOffPoints[i] < x <=  cutOffPoints[i+1]:
                return 'Bin {}'.format(i+1)
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16

检查分箱以后每箱的bad_rate的单调性，如果不满足，那么继续进行相邻的两箱合并，知道bad_rate单调为止。(可以放宽到U型)

## determine whether the bad rate is monotone along the sortByVar
def BadRateMonotone(df, sortByVar, target):
    # df[sortByVar]这列数据已经经过分箱
    df2 = df.sort([sortByVar])
    total = df2.groupby([sortByVar])[target].count()
    total = pd.DataFrame({'total': total})
    bad = df2.groupby([sortByVar])[target].sum()
    bad = pd.DataFrame({'bad': bad})
    regroup = total.merge(bad, left_index=True, right_index=True, how='left')
    regroup.reset_index(level=0, inplace=True)
    combined = zip(regroup['total'],regroup['bad'])
    badRate = [x[1]*1.0/x[0] for x in combined]
    badRateMonotone = [badRate[i]1] for i in range(len(badRate)-1)]
    Monotone = len(set(badRateMonotone))
    if Monotone == 1:
        return True
    else:
        return False
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18

　　上述过程是收敛的,因为当箱数为2时,bad rate自然单调

检查最大箱，如果最大箱里面数据数量占总数据的90%以上，那么弃用这个变量

def MaximumBinPcnt(df,col):
    N = df.shape[0]
    total = df.groupby([col])[col].count()
    pcnt = total*1.0/N
    return max(pcnt)
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5

对于类别型变量：

当类别数较少时,原则上不需要分箱
否则，当类别较多时，以bad rate代替原有值，转成连续型变量再进行分箱计算。

def BadRateEncoding(df, col, target):
    '''
    :param df: dataframe containing feature and target
    :param col: the feature that needs to be encoded with bad rate, usually categorical type
    :param target: good/bad indicator
    :return: the assigned bad rate to encode the categorical fature
    '''
    total = df.groupby([col])[target].count()
    total = pd.DataFrame({'total': total})
    bad = df.groupby([col])[target].sum()
    bad = pd.DataFrame({'bad': bad})
    regroup = total.merge(bad, left_index=True, right_index=True, how='left')
    regroup.reset_index(level=0, inplace=True)
    regroup['bad_rate'] = regroup.apply(lambda x: x.bad*1.0/x.total,axis = 1)
    br_dict = regroup[[col,'bad_rate']].set_index([col]).to_dict(orient='index')
    badRateEnconding = df[col].map(lambda x: br_dict[x]['bad_rate'])
    return {'encoding':badRateEnconding, 'br_rate':br_dict}
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17

否则，检查最大箱，如果最大箱里面数据数量占总数据的90%以上，那么弃用这个变量
当某个或者几个类别的bad rate为0时,需要和最小的非0bad rate的箱进行合并。

### If we find any categories with 0 bad, then we combine these categories with that having smallest non-zero bad rate
def MergeBad0(df,col,target):
    '''
     :param df: dataframe containing feature and target
     :param col: the feature that needs to be calculated the WOE and iv, usually categorical type
     :param target: good/bad indicator
     :return: WOE and IV in a dictionary
     '''
    total = df.groupby([col])[target].count()
    total = pd.DataFrame({'total': total})
    bad = df.groupby([col])[target].sum()
    bad = pd.DataFrame({'bad': bad})
    regroup = total.merge(bad, left_index=True, right_index=True, how='left')
    regroup.reset_index(level=0, inplace=True)
    regroup['bad_rate'] = regroup.apply(lambda x: x.bad*1.0/x.total,axis = 1)
    regroup = regroup.sort_values(by = 'bad_rate')
    col_regroup = [[i] for i in regroup[col]]
    for i in range(regroup.shape[0]):
        col_regroup[1] = col_regroup[0] + col_regroup[1]
        col_regroup.pop(0)
        if regroup['bad_rate'][i+1] > 0:
            break
    newGroup = {}
    for i in range(len(col_regroup)):
        for g2 in col_regroup[i]:
            newGroup[g2] = 'Bin '+str(i)
    return newGroup
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27

当该变量可以完全区分目标变量时,需要认真检查该变量的合理性。（可能是事后变量）

单变量分析

用IV检验该变量有效性（一般阈值区间在(0.0.2，0.8)）

iv_threshould = 0.02
## k,v分别表示col,col对应的这列的IV值。
varByIV = [k for k, v in var_IV.items() if v > iv_threshould]
## WOE_dict字典中包含字典。
WOE_encoding = []
for k in varByIV:
    if k in trainData.columns:
        trainData[str(k)+'_WOE'] = trainData[k].map(lambda x: WOE_dict[k][x]['WOE'])
        WOE_encoding.append(str(k)+'_WOE')
    elif k+str('_Bin') in trainData.columns:
        k2 = k+str('_Bin')
        trainData[str(k) + '_WOE'] = trainData[k2].map(lambda x: WOE_dict[k][x]['WOE'])
        WOE_encoding.append(str(k) + '_WOE')
    else:
        print "{} cannot be found in trainData"
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15

连续变量bad rate的单调性(可以放宽到U型)
单一区间的占比不宜过高（一般不能超过90%，如果超过则弃用这个变量）

多变量分析

变量的两两相关性，当相关性高时,只能保留一个:

可以选择IV高的留下
或者选择分箱均衡的留下（后期评分得分会均匀）

#### we can check the correlation matrix plot
col_to_index = {WOE_encoding[i]:'var'+str(i) for i in range(len(WOE_encoding))}
#sample from the list of columns, since too many columns cannot be displayed in the single plot
corrCols = random.sample(WOE_encoding,15)
sampleDf = trainData[corrCols]
for col in corrCols:
    sampleDf.rename(columns = {col:col_to_index[col]}, inplace = True)
scatter_matrix(sampleDf, alpha=0.2, figsize=(6, 6), diagonal='kde')

#alternatively, we check each pair of independent variables, and selected the variabale with higher IV if they are highly correlated
compare = list(combinations(varByIV, 2))## 从varByIV随机的进行两两组合
removed_var = []
roh_thresould = 0.8
for pair in compare:
    (x1, x2) = pair
    roh = np.corrcoef([trainData[str(x1)+"_WOE"],trainData[str(x2)+"_WOE"]])[0,1]
    if abs(roh) >= roh_thresould:
        if var_IV[x1]>var_IV[x2]:## 选IV大的留下
            removed_var.append(x2)
        else:
            removed_var.append(x1)
   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21

多变量分析：变量的多重共线性
　通常用VIF来衡量，要求VIF<10:
　

import numpy as np
from sklearn.linear_model  import LinearRegression


selected_by_corr=[i for i in varByIv if i not in removed_var]
for i in range(len(selected_by_corr)):
    x0=trainData[selected_by_corr[i]+'_WOE']
    x0=np.array(x0)
    X_Col=[k+'_WOE' for k in selected_by_corr if k!=selected_by_corr[i]]
    X=trainData[X_Col]
    X=np.array(X)
    regr=LinearRegression()
    clr=regr.fit(X,x0)
    x_pred=clr.predit(X)
    R2=1-((x_pred-x0)**2).sum()/((x0-x0.mean())**2).sum()
    vif=1/(1-R2)
    print "The vif for {0} is {1}".format(selected_by_corr[i],vif)

   
   
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18

当发现vif>10时，需要逐一剔除变量，当剔除变量Xk时，发现vif<10时，此时剔除{Xi,Xk}中IV小的那个变量。
通常情况下，计算vif这一步不是必须的，在进行单变量处理以后，放进逻辑回归模型进行训练预测，如果效果非常不好时，才需要做多变量分析，消除多重共线性。

本篇博文总结：
　

你可能感兴趣的:(金融风控-->申请评分卡模型-->特征工程（特征分箱，WOE编码）标签：金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读评论(2) 收藏举报分类：金融风)

2023 睿抗机器人开发者大赛CAIP-编程技能赛-本科组（省赛） Harold0895 算法 c语言 c++
2023睿抗机器人开发者大赛CAIP-编程技能赛-本科组（省赛）RC-u1亚运奖牌榜题意给定两个国家/地区的金银铜牌的获得记录,输出他们的金银铜牌的具体记录，并输出哪个国家/地区排名高思路直接读入后比较即可代码#includeusingnamespacestd;inta[5],b[5];voidsolve(){intn;cin>>n;for(inti=1;i>wh>>op;if(wh==0)a[o
华为OD机试 2025B卷 - 士兵过河 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机考2025A卷华为OD2025B卷华为OD机试2025B卷华为OD机考2025B卷
士兵过河2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD2025B卷200分题型题目描述一支N个士兵的军队正在趁夜色逃亡，途中遇到一条湍急的大河。敌军在T的时长后到达河面，没到过对岸的士兵都会被消灭。现在军队只找到了1只小船，这船最多能同时坐上2个士兵。当1个士兵划船过河，用时为a[i]；0<=i
Spring MVC 架构详解 Java廖志伟 Java场景面试宝典 Spring MVC Web Application Development MVC Architecture
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
AI技术正在深度重构全球产业格局，其影响已超越工具属性，演变为推动行业变革的核心引擎。
一、AI如何重塑AI的工作与行业（AI助手领域）能力升级理解与生成：基于LLM（大语言模型），AI能处理开放式问题、撰写报告、翻译代码，替代部分人类知识工作。个性化交互：通过用户历史对话分析，提供定制化建议（如学习计划、投资策略）。多模态扩展：结合图像/语音识别（如GPT-4V），实现图文分析、医学影像解读等跨模态任务。行业变革客服行业：AI客服处理70%+常规咨询（如阿里小蜜），人力转向复杂问题
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
运维工程师发展路线 SZHCI 运维
一、运维工程师发展路线1.传统运维侧重点是解决具体的问题。要求具备扎实的底层的知识储备，如网络、linux、数据库、硬件设备调试、服务部署等。以及一定的故障处理能力和经验，能够快速解决问题，实施变更。能够处理突发故障，顺利完成服务的部署，变更的实施。2.云计算运维侧重点是开源技术方案的使用，为云服务的稳定提供保证。随着业务不断发展，服务器规模扩大，就需要具备大规模服务器的批量管理能力。要求对开源技
如何在 Ubuntu 22.04 上使用 LEMP 安装 WordPress 教程 vvw& 技术文章 Linux 开源项目推荐 ubuntu linux 运维服务器 wordpress LEMP php
简介：本教程旨在指导你如何在Ubuntu22.04上使用LEMP栈安装WordPress。WordPress是一个用PHP编写的开源内容管理系统。LEMP栈是Linux，NGINX，MySQL和PHP的缩写。WordPress非常用户友好，并提供了多种选项，例如不同的插件和具有精美设计的各种主题，使其成为用户最可定制的CMS。以下段落将介绍安装WordPress之前LEMP安装的所有步骤。在Ubu
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
【论文笔记】GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
原文链接：https://arxiv.org/abs/2506.00034v1简介：现有的多传感器融合方法多使用基于注意力的拉直(flatten)融合或通过几何变换的BEV融合，但前者可解释性差，后者计算开销大（如下图(a)(b)所示）。本文提出GaussianFusion（下图(c)），一种基于高斯的多传感器融合框架，用于端到端自动驾驶。使用直观而紧凑的高斯表达，聚合不同传感器的信息。具体来说，
扩散模型（Diffusion Model）简介
参考：Diffusionmodel—扩散模型-CSDN博客；由浅入深了解DiffusionModel-知乎；https://arxiv.org/abs/2308.093881.概述扩散模型是一种生成模型。可用在视觉生成任务上，如图像超分辨率、去模糊、JPEG伪影移除、阴影移除、去雾/霾/雨等等。扩散模型分为前向（扩散）过程和逆过程。前向过程逐步为图像增加逐像素噪声，直到图像满足高斯噪声；逆
GC393低功耗双电压比较器：精准、高效的信号处理解决方案 Jason13510238356 芯麦信号处理单片机嵌入式硬件智能家居音响蓝牙音箱
芯片概述GC393是一款双通道精密电压比较器，具有低至±1mV的输入失调电压（典型值）和宽电源电压范围（单电源2V~36V/双电源±1V~±18V）。该芯片采用独立设计，输入共模范围包含地电平，特别适合电池供电设备和工业控制系统。核心特性超低功耗：静态电流仅0.4mA（5V供电时）高精度：输入失调电压：±1mV（典型值）输入偏置电流：25nA（典型值）宽电压兼容：支持TTL/DTL/ECL/MOS
【思考】对“私有化利润，公有化风险”现象的思考海绵波波107 其他的思考学习
如果万达破产，谁的钱会受到影响？如果万达集团申请破产，不同相关方的资金和资产将受到不同程度的影响，具体取决于破产类型（清算或重组）、债务结构以及法律管辖。以下是主要受影响方及影响程度分析：1.债权人（最直接受影响）（1）优先债权人有抵押债权人（银行等金融机构）万达通过资产抵押获得的贷款（如商业地产抵押），债权人有权通过拍卖抵押物优先受偿。但若资产贬值，可能无法全额回收。例如：某银行持有万达广场的抵
TypeScript 两年半.倸枸前端 typescript javascript 开发语言
一、简介1、TS是什么？以JS为基础构建的语言，一个JS的超集。可以在任何支持JS的平台中执行；TS扩展了JS，并添加了类型；TS不能被JS解析器直接执行，需要将TS编译为JS；2、TS增加了什么增加了类型、支持ES新特性、添加了ES不具备的新特性、配置选项。二、环境搭建1、安装Node.js2、安装TS：npmi-gtypescript3、创建一个TS文件4、使用TSC对TS文件进行编译：tsc
12行脚本实现duckdb自动完成tpch测试 l1t 数据库编程语言软件工程数据库 sql github
核心思想：利用duckdbtpch插件内置的tpch_queries()表函数输出查询Sql语句到qs.txt，然后读入生成的qs.txt,将结果输出到res.txt,在控制台输出计时。autotpch.txt脚本如下：LOADtpch;PRAGMAdisable_progress_bar;CALLdbgen(sf=0.3);.outputqs.txt.modelist.headeroffsele
大模型——什么是 Vibe Coding？从零开始学习 AI 辅助编程不二人生大模型学习人工智能大模型辅助编程
大模型——什么是VibeCoding？从零开始学习AI辅助编程VibeCoding：代码消失，直觉驱动的软件开发新浪潮？生成式人工智能的指数级增长正不断重塑各个行业，软件开发领域也不例外。大约在2025年初，一股源自美国硅谷的新思潮开始引起关注：开发者似乎可以借助AI工具，在几乎不直接编写代码的情况下构建产品。这种依赖直觉、跳脱传统编码苦役的开发方式，被赋予了一个颇具时代感的名字——VibeCod
CMake基础：条件判断详解
目录1.简介2.核心判断类型及示例2.1.变量相关判断2.2.数值判断2.3.文件/路径判断2.4.目标/组件判断2.5.系统与编译器判断2.6.逻辑组合（与/或/非）2.7.括号分组（优先级控制）2.8.判断某个元素是否在列表中3.常见实用场景4.注意事项相关链接1.简介CMake的条件判断是通过if()/elseif()/else()/endif()结构实现流程控制的核心，常用于根据环境、配置
Gemini vs DeepSeek：Transformer 架构下的技术路线差异与企业级选择 charles666666 transformer 架构深度学习语言模型产品经理人工智能
一、引言：从商业价值切入Gemini和DeepSeek都基于Transformer架构，但在技术路线和应用场景上各有侧重。本文将解密同源Transformer下的技术分野，帮助企业做出更明智的大模型选型决策。二、Transformer核心机制精要Transformer架构是现代大语言模型的基础，其核心机制包括自注意力机制和前馈神经网络。自注意力机制使模型能够捕捉序列中元素的全局依赖关系，但也是GP
沃丰科技和印尼MAP集团战略合作，智能化服务印尼2.8亿消费者沃丰科技科技人工智能大数据
在东南亚零售市场风起云涌之际，印尼综合性零售巨头MAP集团与智能客户服务领域领军企业（Udesk）达成深度战略合作，共同启动一项具有里程碑意义的数字化转型工程——通过AI赋能MAP集团旗下客户忠诚度计划平台，为印尼2.8亿消费者打造全场景、个性化的智能客户服务体验。此次合作不仅标志着印尼零售业智能化升级的加速，更将重塑企业与消费者之间的情感连接。一.MAPClub：零售忠诚度战略要地MAP集团：在
【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！
系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
指针的const应用颖川守一算法 c++
分为三个一、const修饰指针我允许你更换存储的门牌号，但是这个里面住户的数据布局不许改#includeusingnamespacestd;intmain(){inta=10,b=20,c=10;constint*p=&a;//const修饰指针*p=10;//不允许const对于p指针指向的"值"修改p=&b;//允许const对于p指针指向的修改system("pause");return0
Unity Netcode自定义数据传输——结构体及其序列化未来的中科院院士 unity 游戏引擎
在UnityNetcode中，要实现自定义数据的网络传输，确实需要两个关键部分：✅两个必需组件：数据结构定义publicstructPlayerState:INetworkSerializable{publicintid;//字段1：玩家IDpublicboolisReady;//字段2：准备状态//...其他字段}作用：定义要传输的数据内容本质：声明"要传输什么"序列化方法实现publicvoi
java组件化设计_构建之路—谈谈组件化后端构建和实现
前言这一篇文章，准备了很久，构思了很久，草稿了很久。从个人编程至今，历经了C，C++，Java，到现如今的NodeJS。也后端到前端，再回到后端。更从学校里的学生信息管理系统到大型商业系统构建，是的，我曾一直以为编程也就是如此了，由瀑布模型，敏捷开发，设计模式等等组成的软件工程大致就是如此了。相信可能很多人也会有和我类似的想法，是否也都曾迷茫过？幸运的是，伴随着对前端的接触和深入，云雾散开。前端组
从 callTool 到思考型调用：月影 Resolver 颠覆传统 MCP 的三板斧 weixin_55007223 月影陪伴智能体 AI编程语言模型人工智能
3ms与2s——这是Resolver用两条完全不同的路径给出的答案。当大多数MCP集成还停留在callTool(…)的机械时代，月影把“工具调用”推进了一格：让语义去找工具，让工具自己组队。这不是一次简单的工程优化，而是我们对“人机协作边界”的一次重新提问。我们相信——工具不只是工具，而是智能的触角；而Resolver，是月影整个意识系统中最冷静、最精准的那个判断节点。结果也在验证这一点：95%日
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
C语言易错点整理（一） WangJiaLeLeLeLe c语言算法数据结构
1、对于字符数组而言，只是将这些字符放进我们所开辟的空间里，不能直接用strlen计算，因为没有"\0"，会导致出现随机值，例如一下代码chararr[]={'b','i','t'};printf("%d",strlen(arr));2、switch语句中，关键字包含case、break、default，但是不包含continue（不执行其下面的语句直接返回判断条件判断）3、在不同作用域中可以有相
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
来，C语言刷题(中)（保姆式详解）白子寰 C语言题集 c语言算法
目录关于VS2022调试技巧步骤一步骤二步骤三关于Debug和Release版本区别编程题1.计算求和2.水仙花数3.打印菱形4.喝汽水问题递归题组（1）关于递归的描述（2）打印一个整数的每一位（3）求阶层①递归方式②非递归方式(4)计算一个数的每位之和(5)n的k次方操作符讲解（1）进制位的转化（2）原码，反码，补码（3）按位异或^（4）按位或与&编程题（1）交换两个变量(2)统计二进制中1的个
前端如何实现大文件上传行云＆流水 Vue3 前端 typescript 前端
一、基础技术实现文件分片（切片上传）将大文件按固定大小（如2MB/片）切割为多个Blob分片，通过file.slice()实现。优势：避免单次请求超时，支持断点续传。并发控制与异步上传使用Promise.all控制并发，避免浏览器请求阻塞。关键点：上传失败需自动重试。代码实现切片上传importaxiosfrom"axios";import{onMounted}from"vue";function
KTO（Kahneman-Tversky Optimization）技术详解与工程实现 DK_Allen 大模型深度学习 pytorch 人工智能 KTO
KTO（Kahneman-TverskyOptimization）技术详解与工程实现一、KTO核心思想KTO是基于行为经济学前景理论（ProspectTheory）的偏好优化方法，突破传统偏好学习需要成对数据的限制，仅需单样本绝对标注（好/坏）即可优化模型。其创新性在于：损失函数设计：将人类对"收益"和"损失"的非对称心理反应量化数据效率：无需构建偏好对（y_w>y_l），直接利用松散标注二、KT
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

金融风控-->申请评分卡模型-->特征工程（特征分箱，WOE编码） 标签： 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类： 金融风

你可能感兴趣的:(金融风控-->申请评分卡模型-->特征工程（特征分箱，WOE编码） 标签： 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类： 金融风)

金融风控-->申请评分卡模型-->特征工程（特征分箱，WOE编码）标签：金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读评论(2) 收藏举报分类：金融风

你可能感兴趣的:(金融风控-->申请评分卡模型-->特征工程（特征分箱，WOE编码）标签：金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读评论(2) 收藏举报分类：金融风)