happy5205205

python卡方分箱自动化脚本

import sys
import numpy as np
import pandas as pd
import math
import os
from tqdm import tqdm

pd.set_option('display.float_format', lambda x: '%.3f' % x)

"""
    1.自定义缺失值处理函数
		1.1 缺失值计算

"""


def missing_cal(df):
    """
		计算特征数据缺失占比
        :param df: 数据集
        :param threshold:
        :return: 每个变量的缺失率
    """
    missing_series = df.isnull().sum() / df.shape[0]  # 此处需要修改
    missing_df = pd.DataFrame(missing_series).reset_index()
    missing_df = missing_df.rename(columns={
     'index': 'col',
                                            0: 'missing_pct'})
    missing_df = missing_df.sort_values('missing_pct', ascending=False).reset_index(drop=True)
    return missing_df


"""
	1.2 按特征（列）删除
		若字段数据缺失严重，可先检查字段特性，是业务层面设计需求，或者是数据抓取异常
		如无上述问题，建议删除缺失值占比大于设定阈值的字段
		常见阈值为90%以上或者40%~50%以上，根据特征是否对应明确的业务含义而决定是否保留
"""


def missing_delete_var(df, threshold=None):
    """
    :param df: 数据集
    :param threshold: 确实率删除的阈值
    :return: 删除后的数据集
    """
    df2 = df.copy()
    missing_df = missing_cal(df)
    missing_col_num = missing_df[missing_df.missing_pct >= threshold].shape[0]
    missing_col = list(missing_df[missing_df.missing_pct >= threshold].col)
    df2 = df2.drop(missing_col, axis=1)
    return df2


def missing_delete_user(df, threshold=None):
    df2 = df.copy()
    missing_series = df.isnull().sum(axis=1)
    missing_list = list(missing_series)
    missing_index_list = []
    for i, j in enumerate(missing_list):
        if j >= threshold:
            missing_index_list.append(i)
    df2 = df2[~(df2.index.isin(missing_index_list))]
    return df2


"""
	2. 自定义常变量处理函数
		同值化较严重的字段，如无特殊业务含义，某一数据占比超过阈值时，建议删除
"""


def const_delete(df, col_list, threshold=None):
    """

    :param df: 数据集
    :param col_list: 变量list集合
    :param threshold: 同值化处理的阈值
    :return: 处理后的数据
    """
    df2 = df.copy()
    const_col = []
    for col in col_list:
        const_pct = df2[col].value_counts().iloc[0] / df2[df2[col].notnull()].shape[0]
        if const_pct >= threshold:
            const_col.append(col)
    df2 = df2.drop(const_col, axis=1)
    return df2


"""
    3. 自定义data_processing函数，执行完整数据预处理步骤：
        1、导入数据
        2、删除缺失值（自定义函数）
        3、删除常变量（自定义函数）
          1）常变量（自定义函数）
          2）方差为0
    4、缺失值填充
          1）分类型特征填充（自定义函数）
          2）连续型特征填充（自定义函数）
"""


def data_processing(df, target):
    """
    :param df: 包含了label（target）和特征的宽表
    :param target: label（target）
    :return: 清洗后的数据集
    """
    # 特征缺失处理
    df = missing_delete_var(df, threshold=0.8)
    # 样本缺失处理
    df = missing_delete_user(df, threshold=int(df.shape[1] * 0.8))
    col_list = [x for x in df.columns if x != target]
    # 常变量处理
    df = const_delete(df, col_list, threshold=0.9)
    desc = df.describe().T
    # 剔除方差为0的特征
    std_0_col = list(desc[desc['std'] == 0].index)
    if len(std_0_col) > 0:
        df = df.drop(std_0_col, axis=1)
    df.reset_index(drop=True, inplace=True)

    # 缺失值计算和填充
    miss_df = missing_cal(df)
    cate_col = list(df.select_dtypes(include=['O']).columns)
    num_col = [x for x in list(df.select_dtypes(include=['int64', 'float64']).columns) if x != 'label']

    # 分类型特征填充
    cate_miss_col1 = [x for x in list(miss_df[miss_df.missing_pct > 0.05]['col']) if x in cate_col]
    cate_miss_col2 = [x for x in list(miss_df[miss_df.missing_pct <= 0.05]['col']) if x in cate_col]
    num_miss_col1 = [x for x in list(miss_df[miss_df.missing_pct > 0.05]['col']) if x in num_col]
    num_miss_col2 = [x for x in list(miss_df[miss_df.missing_pct <= 0.05]['col']) if x in num_col]
    for col in cate_miss_col1:
        df[col] = df[col].fillna('未知')
    for col in cate_miss_col2:
        df[col] = df[col].fillna(df[col].mode()[0])
    for col in num_miss_col1:
        df[col] = df[col].fillna(-999)
    for col in num_miss_col2:
        df[col] = df[col].fillna(df[col].median())

    return df, miss_df


###############################################################################################################
"""
	三、特征分箱
		分箱逻辑：
			1、类别型特征
			  1）类别数在5个以下，可以直接根据类别来分箱 (binning_cate)
			  2）类别数在5个以上，建议做降基处理，再根据降基后的类别做分箱
			2、数值型特征
			  1）离散型数值特征（特征value的变动幅度较小）：
			    若特征value的非重复计数在5个以下，可以直接根据非重复计数值来分箱(binning_cate)
			    若特征value的非重复计数在5个以上，建议根据业务解释或者数据分布做自定义分箱(binning_self)
			  2）连续型数值特征（特征value的变动幅度较大）：
			    可以用卡方分箱或自定义分箱。(binning_num,binning_self)
			    PS:一些特征用卡方分可能会报错，建议这些特征改为手动自定义分箱
			3、特征有缺失
			  1）缺失率在5%以下，可以先对缺失做填充处理再分箱(binning_num)
			  2）缺失率在5%以上，建议将缺失当作一个类别来分箱(binning_sparse_col)
			4、稀疏特征分箱
			  建议将稀疏值（一般为0）单独分为一箱，剩下的值做卡方或者自定义分箱(binning_sparse_col)
"""

"""
	1.自定义指标评估函数
		KS、precision、 tpr、 fpr
"""


def cal_ks(df, col, target):
    """

    :param df: 数据集
    :param col:输入特征
    :param target:好坏标记的字段名
    :return: KS值, precision准确率, tpr召回率, fpr打扰率
    """

    bad = df[target].sum()
    good = df[target].count() - bad
    value_list = list(df[col])
    label_list = list(df[target])
    value_count = df[col].nunique()

    items = sorted(zip(value_list, label_list), key=lambda x: x[0])

    value_bin = []
    ks_list = []
    if value_count <= 200:
        for i in sorted(set(value_list)):
            value_bin.append(i)
            label_bin = [x[1] for x in items if x[0] < i]
            badrate = sum(label_bin) / bad
            goodrate = (len(label_bin) - sum(label_bin)) / good
            ks = abs(goodrate - badrate)
            ks_list.append(ks)
    else:
        for i in range(1, 201):
            step = (max(value_list) - min(value_list)) / 200
            idx = min(value_list) + i * step
            value_bin.append(idx)
            label_bin = [x[1] for x in items if x[0] < idx]
            badrate = sum(label_bin) / bad
            goodrate = (len(label_bin) - sum(label_bin)) / good
            ks = abs(goodrate - badrate)
            ks_list.append(ks)
    ks = round(max(ks_list), 3)

    ks_value = [value_bin[i] for i, j in enumerate(ks_list) if j == max(ks_list)][0]
    precision = df[(df[col] <= ks_value) & (df[target] == 1)].shape[0] / df[df[col] <= ks_value].shape[0]
    tpr = df[(df[col] <= ks_value) & (df[target] == 1)].shape[0] / bad
    fpr = df[(df[col] <= ks_value) & (df[target] == 0)].shape[0] / good

    return ks, precision, tpr, fpr


"""
	2.自定义卡方分箱函数
		2.1 变量分割点
"""


def split_data(df, col, split_num):
    """
	先用卡方分箱输出变量的分割点
    :param df: 原始数据
    :param col: 需要分箱的变量
    :param split_num: 分割点的数量
    :return:
    """
    df2 = df.copy()
    count = df2.shape[0]  # 总样本数
    n = math.floor(count / split_num)  # 按照分割点数目等分后每组的样本数
    split_index = [i * n for i in range(1, split_num)]  # 分割点的索引
    values = sorted(list(df2[col]))  # 对变量的值从小到大进行排序
    split_value = [values[i] for i in split_index]  # 分割点对应的value
    split_value = sorted(list(set(split_value)))  # 分割点的value去重排序
    return split_value


def assign_group(x, split_bin):
    n = len(split_bin)
    if x <= min(split_bin):
        return min(split_bin)  # 如果x小于分割点的最小值，则x映射为分割点的最小值
    elif x > max(split_bin):  # 如果x大于分割点的最大值，则x映射为分割点的最大值
        return 10e10
    else:
        for i in range(n - 1):
            if split_bin[i] < x <= split_bin[i + 1]:  # 如果x在两个分割点之间，则x映射为分割点较大的值
                return split_bin[i + 1]


"""
	2.2 计算违约率
"""


def bin_bad_rate(df, col, target, grantRateIndicator=0):
    """

    :param df: 原始数据
    :param col: 原始变量/变量映射后的字段
    :param target:目标变量的字段
    :param grantRateIndicator:是否输出整体违约率
    :return:
    """
    total = df.groupby([col])[target].count()
    bad = df.groupby([col])[target].sum()
    total_df = pd.DataFrame({
     'total': total})
    bad_df = pd.DataFrame({
     'bad': bad})
    regroup = pd.merge(total_df, bad_df, left_index=True, right_index=True, how='left')
    regroup = regroup.reset_index()
    regroup['bad_rate'] = regroup['bad'] / regroup['total']  # 计算根据col分组后每组的违约率
    dict_bad = dict(zip(regroup[col], regroup['bad_rate']))  # 转为字典形式
    if grantRateIndicator == 0:
        return (dict_bad, regroup)
    total_all = df.shape[0]
    bad_all = df[target].sum()
    all_bad_rate = bad_all / total_all  # 计算总体的违约率
    return (dict_bad, regroup, all_bad_rate)


"""
	2.3 计算卡方值
"""


def cal_chi2(df, all_bad_rate):
    df2 = df.copy()
    df2['expected'] = df2['total'] * all_bad_rate  # 计算每组的坏用户期望数量
    combined = zip(df2['expected'], df2['bad'])  # 遍历每组的坏用户期望数量和实际数量
    chi = [(i[0] - i[1]) ** 2 / i[0] for i in combined]  # 计算每组的卡方值
    chi2 = sum(chi)  # 计算总的卡方值
    return chi2


def assign_bin(x, cutoffpoints):
    bin_num = len(cutoffpoints) + 1  # 箱体个数
    if x <= cutoffpoints[0]:  # 如果x小于最小的cutoff点，则映射为Bin 0
        return 'Bin 0'
    elif x > cutoffpoints[-1]:  # 如果x大于最大的cutoff点，则映射为Bin(bin_num-1)
        return 'Bin {}'.format(bin_num - 1)
    else:
        for i in range(0, bin_num - 1):
            if cutoffpoints[i] < x <= cutoffpoints[i + 1]:  # 如果x在两个cutoff点之间，则x映射为Bin(i+1)
                return 'Bin {}'.format(i + 1)


"""
	2.4 卡方分箱（干货）
"""


def ChiMerge(df, col, target, max_bin=5, min_binpct=0):
    col_unique = sorted(list(set(df[col])))  # 变量的唯一值并排序
    n = len(col_unique)  # 变量唯一值得个数
    df2 = df.copy()
    if n > 100:  # 如果变量的唯一值数目超过100，则将通过split_data和assign_group将x映射为split对应的value
        split_col = split_data(df2, col, 100)  # 通过这个目的将变量的唯一值数目人为设定为100
        df2['col_map'] = df2[col].map(lambda x: assign_group(x, split_col))
    else:
        df2['col_map'] = df2[col]  # 变量的唯一值数目没有超过100，则不用做映射
    # 生成dict_bad,regroup,all_bad_rate的元组
    (dict_bad, regroup, all_bad_rate) = bin_bad_rate(df2, 'col_map', target, grantRateIndicator=1)
    col_map_unique = sorted(list(set(df2['col_map'])))  # 对变量映射后的value进行去重排序
    group_interval = [[i] for i in col_map_unique]  # 对col_map_unique中每个值创建list并存储在group_interval中

    while (len(group_interval) > max_bin):  # 当group_interval的长度大于max_bin时，执行while循环
        chi_list = []
        for i in range(len(group_interval) - 1):
            temp_group = group_interval[i] + group_interval[i + 1]  # temp_group 为生成的区间,list形式，例如[1,3]
            chi_df = regroup[regroup['col_map'].isin(temp_group)]
            chi_value = cal_chi2(chi_df, all_bad_rate)  # 计算每一对相邻区间的卡方值
            chi_list.append(chi_value)
        best_combined = chi_list.index(min(chi_list))  # 最小的卡方值的索引
        # 将卡方值最小的一对区间进行合并
        group_interval[best_combined] = group_interval[best_combined] + group_interval[best_combined + 1]
        # 删除合并前的右区间
        group_interval.remove(group_interval[best_combined + 1])
        # 对合并后每个区间进行排序
    group_interval = [sorted(i) for i in group_interval]
    # cutoff点为每个区间的最大值
    cutoffpoints = [max(i) for i in group_interval[:-1]]

    # 检查是否有箱只有好样本或者只有坏样本
    df2['col_map_bin'] = df2['col_map'].apply(lambda x: assign_bin(x, cutoffpoints))  # 将col_map映射为对应的区间Bin
    # 计算每个区间的违约率
    (dict_bad, regroup) = bin_bad_rate(df2, 'col_map_bin', target)
    # 计算最小和最大的违约率
    [min_bad_rate, max_bad_rate] = [min(dict_bad.values()), max(dict_bad.values())]
    # 当最小的违约率等于0，说明区间内只有好样本，当最大的违约率等于1，说明区间内只有坏样本
    while min_bad_rate == 0 or max_bad_rate == 1:
        bad01_index = regroup[regroup['bad_rate'].isin([0, 1])].col_map_bin.tolist()  # 违约率为1或0的区间
        bad01_bin = bad01_index[0]
        if bad01_bin == max(regroup.col_map_bin):
            cutoffpoints = cutoffpoints[:-1]  # 当bad01_bin是最大的区间时，删除最大的cutoff点
        elif bad01_bin == min(regroup.col_map_bin):
            cutoffpoints = cutoffpoints[1:]  # 当bad01_bin是最小的区间时，删除最小的cutoff点
        else:
            bad01_bin_index = list(regroup.col_map_bin).index(bad01_bin)  # 找出bad01_bin的索引
            prev_bin = list(regroup.col_map_bin)[bad01_bin_index - 1]  # bad01_bin前一个区间
            df3 = df2[df2.col_map_bin.isin([prev_bin, bad01_bin])]
            (dict_bad, regroup1) = bin_bad_rate(df3, 'col_map_bin', target)
            chi1 = cal_chi2(regroup1, all_bad_rate)  # 计算前一个区间和bad01_bin的卡方值
            later_bin = list(regroup.col_map_bin)[bad01_bin_index + 1]  # bin01_bin的后一个区间
            df4 = df2[df2.col_map_bin.isin([later_bin, bad01_bin])]
            (dict_bad, regroup2) = bin_bad_rate(df4, 'col_map_bin', target)
            chi2 = cal_chi2(regroup2, all_bad_rate)  # 计算后一个区间和bad01_bin的卡方值
            if chi1 < chi2:  # 当chi1
                cutoffpoints.remove(cutoffpoints[bad01_bin_index - 1])
            else:  # 当chi1>=chi2时,删除bin01对应的cutoff点
                cutoffpoints.remove(cutoffpoints[bad01_bin_index])
        df2['col_map_bin'] = df2['col_map'].apply(lambda x: assign_bin(x, cutoffpoints))
        (dict_bad, regroup) = bin_bad_rate(df2, 'col_map_bin', target)
        # 重新将col_map映射至区间，并计算最小和最大的违约率，直达不再出现违约率为0或1的情况，循环停止
        [min_bad_rate, max_bad_rate] = [min(dict_bad.values()), max(dict_bad.values())]

    # 检查分箱后的最小占比
    if min_binpct > 0:
        group_values = df2['col_map'].apply(lambda x: assign_bin(x, cutoffpoints))
        df2['col_map_bin'] = group_values  # 将col_map映射为对应的区间Bin
        group_df = group_values.value_counts().to_frame()
        group_df['bin_pct'] = group_df['col_map'] / n  # 计算每个区间的占比
        min_pct = group_df.bin_pct.min()  # 得出最小的区间占比
        while min_pct < min_binpct and len(cutoffpoints) > 2:  # 当最小的区间占比小于min_pct且cutoff点的个数大于2，执行循环
            # 下面的逻辑基本与“检验是否有箱体只有好/坏样本”的一致
            min_pct_index = group_df[group_df.bin_pct == min_pct].index.tolist()
            min_pct_bin = min_pct_index[0]
            if min_pct_bin == max(group_df.index):
                cutoffpoints = cutoffpoints[:-1]
            elif min_pct_bin == min(group_df.index):
                cutoffpoints = cutoffpoints[1:]
            else:
                minpct_bin_index = list(group_df.index).index(min_pct_bin)
                prev_pct_bin = list(group_df.index)[minpct_bin_index - 1]
                df5 = df2[df2['col_map_bin'].isin([min_pct_bin, prev_pct_bin])]
                (dict_bad, regroup3) = bin_bad_rate(df5, 'col_map_bin', target)
                chi3 = cal_chi2(regroup3, all_bad_rate)
                later_pct_bin = list(group_df.index)[minpct_bin_index + 1]
                df6 = df2[df2['col_map_bin'].isin([min_pct_bin, later_pct_bin])]
                (dict_bad, regroup4) = bin_bad_rate(df6, 'col_map_bin', target)
                chi4 = cal_chi2(regroup4, all_bad_rate)
                if chi3 < chi4:
                    cutoffpoints.remove(cutoffpoints[minpct_bin_index - 1])
                else:
                    cutoffpoints.remove(cutoffpoints[minpct_bin_index])
    return cutoffpoints


"""
	3. 自定义变量分箱函数
		3.1 类别型特征
"""


def binning_cate(df, col, target):
    """

    :param df: 数据集
    :param col: 输入特征
    :param target: 好坏标记的字段名
    :return: bin_df 特征的评估结果
    """
    total = df[target].count()
    bad = df[target].sum()
    good = total - bad
    d1 = df.groupby([col], as_index=True)
    d2 = pd.DataFrame()
    d2['样本数'] = d1[target].count()
    d2['黑样本数'] = d1[target].sum()
    d2['白样本数'] = d2['样本数'] - d2['黑样本数']
    d2['逾期用户占比'] = d2['黑样本数'] / d2['样本数']
    d2['badattr'] = d2['黑样本数'] / bad
    d2['goodattr'] = d2['白样本数'] / good
    d2['WOE'] = np.log(d2['badattr'] / d2['goodattr'])
    d2['bin_iv'] = (d2['badattr'] - d2['goodattr']) * d2['WOE']
    d2['IV'] = d2['bin_iv'].sum()

    bin_df = d2.reset_index()
    bin_df.drop(['badattr', 'goodattr', 'bin_iv'], axis=1, inplace=True)
    bin_df.rename(columns={
     col: '分箱结果'}, inplace=True)
    bin_df['特征名'] = col
    bin_df = pd.concat([bin_df['特征名'], bin_df.iloc[:, :-1]], axis=1)
    return bin_df


"""
	3.2 数值型特征
		3.2.1 离散型数值特征
"""


def binning_self(df, col, target, cut=None, right_border=True):
    """

    :param df: 数据集
    :param col: 输入的特征
    :param target: 好坏标记的字段名
    :param cut: 总定义划分区间的list
    :param right_border: 设置左开右闭，左闭右开
    :return: bin_df 特征的评估结果
    """

    total = df[target].count()
    bad = df[target].sum()
    good = total - bad
    bucket = pd.cut(df[col], cut, right=right_border)
    d1 = df.groupby(bucket)
    d2 = pd.DataFrame()
    d2['样本数'] = d1[target].count()
    d2['黑样本数'] = d1[target].sum()
    d2['白样本数'] = d2['样本数'] - d2['黑样本数']
    d2['逾期用户占比'] = d2['黑样本数'] / d2['样本数']
    d2['badattr'] = d2['黑样本数'] / bad
    d2['goodattr'] = d2['白样本数'] / good
    d2['WOE'] = np.log(d2['badattr'] / d2['goodattr'])
    d2['bin_iv'] = (d2['badattr'] - d2['goodattr']) * d2['WOE']
    d2['IV'] = d2['bin_iv'].sum()

    bin_df = d2.reset_index()
    bin_df.drop(['badattr', 'goodattr', 'bin_iv'], axis=1, inplace=True)
    bin_df.rename(columns={
     col: '分箱结果'}, inplace=True)
    bin_df['特征名'] = col
    bin_df = pd.concat([bin_df['特征名'], bin_df.iloc[:, :-1]], axis=1)

    ks, precision, tpr, fpr = cal_ks(df, col, target)
    bin_df['准确率'] = precision
    bin_df['召回率'] = tpr
    bin_df['打扰率'] = fpr
    bin_df['KS'] = ks

    return bin_df


"""
	3.2.2 连续型数值特征
"""


def binning_num(df, target, col, max_bin=None, min_binpct=None):
    """

    :param df: 数据集
    :param target: 好坏标记的字段名
    :param col: 输入的特征
    :param max_bin: 最大分箱个数
    :param min_binpct: 区间内样本所占总体的最小比
    :return:
    """
    total = df[target].count()
    bad = df[target].sum()
    good = total - bad
    inf = float('inf')
    ninf = float('-inf')

    cut = ChiMerge(df, col, target, max_bin=max_bin, min_binpct=min_binpct)
    cut.insert(0, ninf)
    cut.append(inf)
    bucket = pd.cut(df[col], cut)
    d1 = df.groupby(bucket)
    d2 = pd.DataFrame()
    d2['样本数'] = d1[target].count()
    d2['黑样本数'] = d1[target].sum()
    d2['白样本数'] = d2['样本数'] - d2['黑样本数']
    d2['逾期用户占比'] = d2['黑样本数'] / d2['样本数']
    d2['badattr'] = d2['黑样本数'] / bad
    d2['goodattr'] = d2['白样本数'] / good
    d2['WOE'] = np.log(d2['badattr'] / d2['goodattr'])
    d2['bin_iv'] = (d2['badattr'] - d2['goodattr']) * d2['WOE']
    d2['IV'] = d2['bin_iv'].sum()

    bin_df = d2.reset_index()
    bin_df.drop(['badattr', 'goodattr', 'bin_iv'], axis=1, inplace=True)
    bin_df.rename(columns={
     col: '分箱结果'}, inplace=True)
    bin_df['特征名'] = col
    bin_df = pd.concat([bin_df['特征名'], bin_df.iloc[:, :-1]], axis=1)

    ks, precision, tpr, fpr = cal_ks(df, col, target)
    bin_df['准确率'] = precision
    bin_df['召回率'] = tpr
    bin_df['打扰率'] = fpr
    bin_df['KS'] = ks

    return bin_df


"""
	3.3 特征分箱
"""


def binning_sparse_col(df, target, col, max_bin=None, min_binpct=None, sparse_value=None):
    """

    :param df: 数据集
    :param target: 好坏标记的字段名
    :param col: 输入的特征
    :param max_bin: 最大分箱个数
    :param min_binpct: 区间内样本所占总体的最小比
    :param sparse_value: 单独分为一箱的values值
    :return: 特征的评估结果
    """

    total = df[target].count()
    bad = df[target].sum()
    good = total - bad

    # 对稀疏值0值或者缺失值单独分箱
    temp1 = df[df[col] == sparse_value]
    temp2 = df[~(df[col] == sparse_value)]

    bucket_sparse = pd.cut(temp1[col], [float('-inf'), sparse_value])
    group1 = temp1.groupby(bucket_sparse)
    bin_df1 = pd.DataFrame()
    bin_df1['样本数'] = group1[target].count()
    bin_df1['黑样本数'] = group1[target].sum()
    bin_df1['白样本数'] = bin_df1['样本数'] - bin_df1['黑样本数']
    bin_df1['逾期用户占比'] = bin_df1['黑样本数'] / bin_df1['样本数']
    bin_df1['badattr'] = bin_df1['黑样本数'] / bad
    bin_df1['goodattr'] = bin_df1['白样本数'] / good
    bin_df1['WOE'] = np.log(bin_df1['badattr'] / bin_df1['goodattr'])
    bin_df1['bin_iv'] = (bin_df1['badattr'] - bin_df1['goodattr']) * bin_df1['WOE']

    bin_df1 = bin_df1.reset_index()

    # 对剩余部分做卡方分箱
    cut = ChiMerge(temp2, col, target, max_bin=max_bin, min_binpct=min_binpct)
    cut.insert(0, sparse_value)
    cut.append(float('inf'))

    bucket = pd.cut(temp2[col], cut)
    group2 = temp2.groupby(bucket)
    bin_df2 = pd.DataFrame()
    bin_df2['样本数'] = group2[target].count()
    bin_df2['黑样本数'] = group2[target].sum()
    bin_df2['白样本数'] = bin_df2['样本数'] - bin_df2['黑样本数']
    bin_df2['逾期用户占比'] = bin_df2['黑样本数'] / bin_df2['样本数']
    bin_df2['badattr'] = bin_df2['黑样本数'] / bad
    bin_df2['goodattr'] = bin_df2['白样本数'] / good
    bin_df2['WOE'] = np.log(bin_df2['badattr'] / bin_df2['goodattr'])
    bin_df2['bin_iv'] = (bin_df2['badattr'] - bin_df2['goodattr']) * bin_df2['WOE']

    bin_df2 = bin_df2.reset_index()

    # 合并分箱结果
    bin_df = pd.concat([bin_df1, bin_df2], axis=0)
    bin_df['IV'] = bin_df['bin_iv'].sum().round(3)

    bin_df.drop(['badattr', 'goodattr', 'bin_iv'], axis=1, inplace=True)
    bin_df.rename(columns={
     col: '分箱结果'}, inplace=True)
    bin_df['特征名'] = col
    bin_df = pd.concat([bin_df['特征名'], bin_df.iloc[:, :-1]], axis=1)

    ks, precision, tpr, fpr = cal_ks(df, col, target)
    bin_df['准确率'] = precision
    bin_df['召回率'] = tpr
    bin_df['打扰率'] = fpr
    bin_df['KS'] = ks

    return bin_df


"""
	四. 自定义get_feature_result函数，执行完整数据预处理步骤：
		1、数据预处理，调用data_processing函数
		2、变量分箱
		  1）类别型变量分箱
		  2）数值型变量分箱
		  2）卡方分箱报错的变量分箱
		3、得到分箱结果feature_result及其评估指标
		   order_col = ['特征名', '分箱结果', '样本数', '黑样本数', '白样本数', '逾期用户占比', 'WOE', 'IV', '准确率', '召回率', '打扰率', 'KS']
"""


def get_feature_result(df, target):
    """

    :param df: 含有特征和标签的宽表
    :param target: 好坏标签字段名
    :return: 每个特征的评估结果
    """
    if target not in df.columns:

        print('请将特征文件关联样本好坏标签(字段名label)后再重新运行!')

    else:

        print('数据清洗开始')
        df, miss_df = data_processing(df, target)
        print('数据清洗完成')

        cate_col = list(df.select_dtypes(include=['O']).columns)
        num_col = [x for x in list(df.select_dtypes(include=['int64', 'float64']).columns) if x != 'label']

        # 类别性变量分箱

        bin_cate_list = []
        for col in cate_col:
            bin_cate = binning_cate(df, col, target)
            bin_cate['rank'] = list(range(1, bin_cate.shape[0] + 1, 1))
            bin_cate_list.append(bin_cate)

        # 数值型特征分箱
        num_col1 = [x for x in list(miss_df[miss_df.missing_pct > 0.05]['col']) if x in num_col]
        num_col2 = [x for x in list(miss_df[miss_df.missing_pct <= 0.05]['col']) if x in num_col]

        print('特征分箱开始')
        bin_num_list1 = []
        err_col1 = []
        for col in tqdm(num_col1):
            try:
                bin_df1 = binning_sparse_col(df, 'label', col, min_binpct=0.05, max_bin=4, sparse_value=-999)
                bin_df1['rank'] = list(range(1, bin_df1.shape[0] + 1, 1))
                bin_num_list1.append(bin_df1)
            except (IndexError, ZeroDivisionError):
                err_col1.append(col)
            continue

        bin_num_list2 = []
        err_col2 = []
        for col in tqdm(num_col2):
            try:
                bin_df2 = binning_num(df, 'label', col, min_binpct=0.05, max_bin=5)
                bin_df2['rank'] = list(range(1, bin_df2.shape[0] + 1, 1))
                bin_num_list2.append(bin_df2)
            except (IndexError, ZeroDivisionError):
                err_col2.append(col)
            continue

        # 卡方分箱报错的特征分箱
        err_col = err_col1 + err_col2
        bin_num_list3 = []
        if len(err_col) > 0:
            for col in tqdm(err_col):
                ninf = float('-inf')
                inf = float('inf')
                q_25 = df[col].quantile(0.25)
                q_50 = df[col].quantile(0.5)
                q_75 = df[col].quantile(0.75)

                cut = list(sorted(set([ninf, q_25, q_50, q_75, inf])))

                bin_df3 = binning_self(df, col, target, cut=cut, right_border=True)
                bin_df3['rank'] = list(range(1, bin_df3.shape[0] + 1, 1))
                bin_num_list3.append(bin_df3)
        print('特征分箱结束')

        bin_all_list = bin_num_list1 + bin_num_list2 + bin_num_list3 + bin_cate_list

        feature_result = pd.concat(bin_all_list, axis=0)
        feature_result = feature_result.sort_values(['IV', 'rank'], ascending=[False, True])
        feature_result = feature_result.drop(['rank'], axis=1)
        order_col = ['特征名', '分箱结果', '样本数', '黑样本数', '白样本数', '逾期用户占比', 'WOE', 'IV', '准确率', '召回率', '打扰率', 'KS']
        feature_result = feature_result[order_col]
        return feature_result


"""
	五. 导入数据，运行函数，实现自动化特征评估功能
"""


def main():
    # if len(sys.argv)==1:
    #     print('请数据特征数据文件：')
    #     sys.exit()
    # feature_file = sys.argv[1]
    # file_path=os.getcwd()
    # if 'xlsx' in feature_file or 'xls' in feature_file:
    #     df = pd.read_excel(file_path+'/'+feature_file,encoding='gbk')
    # else:
    #     df = pd.read_csv(file_path+'/'+feature_file, encoding='gbk')

    df = pd.read_csv('gm_model.csv')

    # df_feature = df.drop(['name', 'idcard', 'mobile','input_timestamp'], axis=1)
    df_feature = df.drop(['id_card_no', 'card_name', 'loan_date'], axis=1)
    result_bin = get_feature_result(df_feature, 'label')
    result_bin.to_csv('estimate_result.csv', sep=',', encoding='gbk', index=False)


if __name__ == '__main__':
    main()

注意力池化层：从概念到实现及应用专业发呆业余科研深度模型底层原理 python 人工智能 transformer 深度学习自然语言处理图像处理
引言在现代深度学习模型中，注意力机制已经成为一个不可或缺的组件，特别是在处理自然语言和视觉数据时。多头注意力机制（MultiheadAttention）是Transformer模型的核心，它通过多个注意力头来捕捉序列中不同部分之间的关系。然而，在多模态模型中，如何有效地将图像特征和文本特征结合起来一直是一个挑战。注意力池化层（AttentionPoolingLayer）提供了一种有效的解决方案，通
深入解析昇腾AI CPU算子开发：基于AI CPU引擎的自定义算子实现与优化快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析昇腾AICPU算子开发：基于AICPU引擎的自定义算子实现与优化随着深度学习模型复杂性的不断提升，AI处理器需要更强大的算力和更高效的计算架构来支撑模型的训练和推理。在华为昇腾AI处理器的架构中，AICPU承担着重要的计算任务，特别是针对标量和向量等通用计算的支持。AICPU算子开发成为开发者优化模型性能的重要步骤，而TBE（TensorBoostEngine）工具也为开发者提供了便捷的算
WPF—常用控件、属性、事件、详细介绍 _Csharp WPF wpf hadoop 大数据
WPF—常用控件、属性、事件、详细介绍WPF（WindowsPresentationFoundation）是微软推出的基于Windows的用户界面框架，属于.NETFramework3.0的一部分。它提供了统一的编程模型、语言和框架，真正做到了分离界面设计人员与开发人员的工作；同时它提供了全新的多媒体交互用户图形界面。本篇就为大家分享一下WPF中常用的控件和属性以及事件的详细介绍，非常适合初学者，
GraphRAG 本地 Ollama - 知识图谱 ericliu2017 知识图谱人工智能
欢迎来到GraphRAGLocalOllama！这个存储库是对微软的GraphRAG的激动人心的改编，旨在支持使用Ollama下载的本地模型。告别昂贵的OpenAPI模型，拥抱使用Ollama进行高效、具有成本效益的本地推理！研究论文有关GraphRAG实现的更多详细信息，请参阅GraphRAG论文。论文摘要使用检索增强生成（RAG）从外部知识源中检索相关信息，使大型语言模型（LLMs）能够回答关
【AI系统】混合并行 ZOMI酱人工智能
混合并行混合并行（HybridParallel）是一种用于分布式计算的高级策略，它结合了数据并行和模型并行的优势，以更高效地利用计算资源，解决深度学习中的大模型训练问题。混合并行不仅能提高计算效率，还能在有限的硬件资源下处理更大的模型和数据集。在深度学习中，数据并行和模型并行各自有其适用的场景和局限性。数据并行适用于训练样本较多而模型较小的情况，通过将数据集分割成多个子集并在不同的设备上同时训练来
【ER-NeRF数字人】手把手教用ER-NeRF实现实时交互数字人刘承卓经验方法分享实时互动实时音视频人工智能
ER-NeRF数字人模型快速入手模型介绍模型对比完成定制数字人你可能还需要什么？1.克隆项目、安装依赖环境2.下载面部解析模型3.准备3DMM所需文件4.下载3DMM模型5.将要训练人物模型（视频文件）放在data目录下。以data//.mp4明明。例如：chinese.mp4就放在ER-NeRF/data/chinese/chinese.mp46.使用data_utils/process.py脚
【机器学习实战入门项目】基于机器学习的鸢尾花分类项目精通代码大仙数据挖掘 python 深度学习机器学习分类人工智能大数据数据挖掘算法 python
基于机器学习的鸢尾花分类项目介绍：本项目利用机器学习模型对鸢尾花进行分类。鸢尾花数据集是一个著名的机器学习数据集，包含三种类别的花朵：Setosa、Versicolor和Virginica，每种类别由四个特征描述：萼片长度、萼片宽度、花瓣长度和花瓣宽度。什么是机器学习？机器学习是关于从数据中学习预测或提取知识的过程。它是人工智能的一个子领域。机器学习算法基于样本数据（即训练数据）构建模型，并根据训
10 大中文医学数据集汇总：涵盖神农中医药、中医药古籍、医学推理、医学问答……
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发，再到个性化医疗，数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样，涵盖了不同维度和领域的数据资源。例如，在疾病诊断领域，像RJUA-QA这样的问答数据集推动了复杂医学知识的自动化应用；而在中医药领域，神农中医药数据集整合了传统中医药文献、临床案例和药方数据。针对于此，本文整理了医学领域的1
WPF如何跨线程更新界面硅谷调试员 C#基础 wpf c#.net
WPF如何跨线程更新界面在WPF中，类似于WinForms，UI控件只能在UI线程（即主线程）上进行更新。WPF通过Dispatcher机制提供了跨线程更新UI的方式。由于WPF的界面基于Dispatcher线程模型，当你在非UI线程（例如后台线程）上执行操作时，直接更新UI会导致InvalidOperationException异常。为了避免这个问题，WPF提供了Dispatcher类来让我们在
BladeDISC++：Dynamic Shape AI 编译器下的显存优化技术人工智能机器学习分布式阿里云
近年来，随着深度学习技术的迅猛发展，越来越多的模型展现出动态特性，这引发了对动态形状深度学习编译器(DynamicShapeAICompiler)的广泛关注。本文将介绍阿里云PAI团队近期发布的BladeDISC++项目，探讨在动态场景下如何优化深度学习训练任务的显存峰值，主要内容包括以下三个部分：DynamicShape场景下显存优化的背景与挑战BladeDISC++的创新解决方案Llama2模
LTX-Video 高效视频生成模型，一键处理图片&文字
LTX-Video是由Lightricks在2024年开发的一种视频生成模型，这种模型采用了transformer和Video-VAE技术，能够高效生成高分辨率视频。此外，LTX-Video支持多种视频生成方式，包括从文本到视频和从图像到视频。教程链接：https://go.openbayes.com/K15J2使用云平台：OpenBayeshttp://openbayes.com/console
Electron 开发者的 Tauri 2.0 实战指南：安全实践
在桌面应用开发中，安全性至关重要。相比Electron，Tauri2.0提供了更严格的安全模型和更完善的权限系统。本文将帮助你理解和实践Tauri的安全特性。权限系统对比Electron的安全模型在Electron中，我们通常这样处理安全：//main.jsconst{app,BrowserWindow}=require('electron')functioncreateWindow(){cons
Text2SQL的三种实现方法 AI科技分享算法线性回归回归深度学习 rnn
传统BI工具通常分为数据接入层、分析工具层和基于该工具平台的各种行业应用层面，大模型可以在这些环节发挥作用。在数据处理层面，大模型可以帮助传统的ETL过程简化难度，提高实时交互效率。在数据分析层面，大模型可以替代拖拽交互方式，让业务用户用更简单、更高效的方式以自然语言形式与底层数据交互，构建需要的报表和看板。在行业应用层面，大模型可以真正发挥对行业知识的理解能力，与具体数据结合，形成具针对客户、特
text2sql框架-DB-GPT使用总结 adrninistrat0r text2sql ai
1.说明DB-GPT是一个开源的AI原生数据应用开发框架官方地址是：https://www.yuque.com/eosphoros/dbgpt-docs/2.项目下载使用源码安装DB-GPT，DB-GPT的Python项目下载地址为https://github.com/eosphoros-ai/DB-GPT3.安装huggingface客户端DB-GPT需要使用huggingface中的模型，需要
AI Agent成大模型落地“接盘侠”，百度、智谱AI等国内巨头齐发力，你了解多少？ RPAdaren 人工智能百度
在AI领域，大模型的热潮已经持续了一段时间，但许多人发现，尽管讨论声不断，真正火起来的新应用却寥寥无几。然而，有一个领域却异常火热，那就是AIAgent（智能体）。从2023年开始，这个词频繁出现在AI大佬们的口中，甚至被微软创始人比尔·盖茨誉为将颠覆软件行业和人机交互方式的存在。他曾在2023年11月13日撰写千字博文，预言谁能主宰个人助理Agent，谁就能让人们不再依赖搜索网站、生产力网站和亚
案例分享｜快速了解实时湖仓集一体技术如何助力企业降本增效 mysql
1.替代TD仓、Hadoop湖，助力农商行构建一体化数据平台某农商行最初构建了Teradata数据仓库、Oracle小数据平台以及Hadoop数据湖。多平台混合架构开发运维高，存在冗余存储、数据搬迁一致性、跨平台流转数据实时性低等问题。该农商行基于星环科技实时湖仓集一体平台，替代了Teradata数仓、Oracle数据平台和Hadoop数据湖三个平台，一体化架构同时满足数据湖海量汇集、复杂数仓模型
第79期 | GPTSecurity周报 aigcgpts
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
无涯应用实践 | 快速构建组织内部的专属知识库，让大模型快速落地数据库
在数字化时代，企业的知识管理正面临前所未有的挑战。如何高效地构建和管理知识库，保护数据隐私，同时又能灵活地运用公私域知识，成为了企业竞争力的关键。现在，让我们揭开新一代知识管理平台的面纱，探索无涯问知如何帮助企业实现这些目标。知识库构建，像云盘一样简单知识库管理支持文档、表格、图片、音视频等多模态文件的一键导入，自动切片及向量化，无需任何手动配置，还能对知识库进行文件夹管理，方便后续进一步勾选使用
最新｜2024中国算力发展报告：算力发展将迈向新高度运维
算力作为信息产业的重要组成部分，是衡量数字经济发展水平的关键指标。近年来，随着数字化成为全球共识，算力产业迎来了高速发展期。截至2023年底，全球算力总规模已达到910EFLOPS（FP32），同比增长40%，呈现出高速增长态势。这一增长背后，以大模型为主的智算爆发成为主要驱动力，引领了新一波算力发展浪潮。然而，全球算力产业发展也面临诸多现实阻力。技术封锁、贸易紧张局势、碳中和要求以及国家安全等复
官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake 阿里云大模型
2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（MachineLearning,AI,BigDataSystemsLab）联合发布了以KVCache为中心的大模型推理架构Mooncake。通过使用以KVCache为中心的PD分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#
数智化转型 | 星环科技助力构建企业级AI知识库，驱动企业创新发展数据库人工智能图像识别
客户需求各大企事业单位内部往往积累了大量的内外部知识，包括各类规章制度、产品手册、工程实施文档、课程视频、重要会议录音等。随着单位规模的扩大，知识的体量得以迅速增长，并零散分布在各个部门、系统和甚至员工个人电脑中，检索和协调知识需要花费大量的时间和人力；并且由于这些文件的格式与模态均并不相同，员工难以高效从已有的知识中获取想要了解的信息，因此亟需一款基于大模型的知识平台对海量知识进行统一管理并提供
KDD 2024 | 美团技术团队精选论文解读 & 论文分享会预告美团机器学习深度学习
ACMSIGKDD（KnowledgeDiscoveryandDataMining，简称KDD）是数据挖掘领域的国际顶级会议。KDDCup比赛是由SIGKDD主办的数据挖掘研究领域的国际顶级赛事，从1997年开始，每年举办一次，是目前数据挖掘领域最有影响力的赛事。本文精选了美团技术团队被KDD2024收录的5篇长文进行解读，覆盖了用户意图感知、机器学习&运筹优化、在线控制实验、联合广告模型、实时调
Camel-AI项目模块详解 UFO上的可乐人工智能深度学习 pycharm python ipython pip conda
前提内容快捷键在Pycharm中使用ctrl+F12查看类中所有方法查看某一个类中的方法的实现类：鼠标点到方法名字上右键→goto→Implementationscamel项目目录如下：camel/├──agents/#智能体相关代码├──models/#模型集成与管理├──tools/#工具集成与使用├──conversations/#对话管理与处理├──data/#数据处理与管理├──exam
【PCL】Segmentation 模块—— 圆柱模型分割（Cylinder model segmentation） old_power PCL 计算机视觉 3D c++
1、简介PCL（PointCloudLibrary）中的圆柱模型分割CylinderModelSegmentation是一种从点云数据中提取圆柱体模型的技术。它通过识别点云中符合圆柱体几何形状的部分，将圆柱体从其他几何形状中分离出来。1.1主要步骤预处理：对点云进行去噪、下采样等操作，以减少数据量并提升处理效率。法线估计：计算点云中每个点的法线，用于后续的模型拟合。模型拟合：使用RANSAC（随机
llama.cpp部署法号：行颠机器学习机器学习
llama.cpp介绍部署介绍大模型的研究分为训练和推理两个部分：训练的过程，实际上就是在寻找模型参数，使得模型的损失函数最小化；推理结果最优化的过程；训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。llama.cpp主要解决的是推理过程中的性能问题。主要有两点优化：llama.cpp使用的是C语言写的机器学习张量库ggmlllama.cpp提供了模型量化的工具计算类
whisper.cpp 学习笔记法号：行颠机器学习 whisper 学习笔记
whisper.cppwhisper.cpp学习笔记whisper介绍源码下载源码编译支持的模型优化/加速生成库文件使用whispe.cpp的demo参考文献whisper.cpp学习笔记whisper介绍whisper是基于OpenAI的自动语音识别（ASR）模型。他可以识别包括英语、普通话等在内多国语言。whisper分为whisper（python版本）和whisper.cpp（C/C++版
Unity学习记录——UI设计 XiaoChen04_3 unity 学习 ui
Unity学习记录——UI设计前言本文是中山大学软件工程学院2020级3d游戏编程与设计的作业8编程题：血条制作1.相关资源本次项目之中的人物模型来自StarterAssets-ThirdPersonCharacterController|必备工具|UnityAssetStore此处使用了以下路径的PlayerArmature预制，这个预制人物模型可以进行行走奔跑跳跃等动作，很适合血条的演示由于这
Kubeflow：云原生机器学习工作流自动化开源框架详解 gs80140 AI 基础知识科谱人工智能 Kubeflow
Kubeflow是一个开源的机器学习（ML）工作流自动化平台，旨在将机器学习工作流部署到Kubernetes之上，实现从实验到生产的一站式解决方案。它提供了针对容器化机器学习任务的工具链，能够自动化地管理、部署和监控模型的整个生命周期。Kubeflow的核心组件Notebooks（交互式开发环境）支持JupyterNotebooks，通过Kubernetes集群进行计算资源的扩展和管理。Pipel
共生地球(高清3D地球卫星地图软件,堪比谷歌地球) 北十南五电脑
共生地球，是一款高清卫星地图、外业测量地图、钓鱼户外地图，专业的3d世界地图软件，类似于谷歌地球。使用方便的卫星地图工具，功能类似谷歌地球，但是提供了许多实用功能，除了日常导航和地图查询，还可以进行户外探索，3d模型等。软件特色1、高清卫星地图：拥有高清高分辨卫星地图，您设置可以看到路上在跑的汽车。2、实景地图：支持全国超多地方实景街景地图，街景直接看更贴近。3、多地图源支持：多种地图源支持，您可
# RAG 框架 | 技术栈 #一文读懂Xinference架构！优秀开源项目技术栈分析向日葵花籽儿 RAG 优秀开源项目技术栈分析架构人工智能 AIGC RAG
这是原文内容这是知识点解读一、概述Xinference是一个利用actor编程框架Xoscar来管理机器、设备和模型推理进程的系统。每个actor都是模型推理的基本单元，可以集成多种推理后端。它支持多种推理引擎和硬件，并且具有异步和非阻塞的特性。RESTfulAPI：使用FastAPI实现，提供了一个示例API/status对应函数get_status。命令行：通过Click实现，允许用户在终端与
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

python卡方分箱自动化脚本

你可能感兴趣的:(评分卡模型,风控模型)