一直在路上ing

使用xgboost建立评分卡

1. 特征工程

1.1 数据维度

1.2 特征衍生

1.3 离散处理

1.3.1 one-hot编码

1.3.2 WOE编码

1.4 特征筛选

1.4.1 solveKS

1.4.2 solvePSI

1.4.3 迭代特征筛选

1.4.4 自动化调参

2. 模型训练

3.模型检验

3.1 生成模型报告

4.映射分数

基于梅老师《智能风控原理、算法与工程实践》的理解。

1. 特征工程

信用评分模型的主要目的是衡量一个用户的信用风险。因此，特征的构造也要围绕着反映用户信用等级的数据展开。特征构造主要是时间维度的聚合统计及跨时间维度的特征比较。比如，计算一个用户的历史消费数据，可能会分别统计借款时间点之前的每一个月用户的消费金额，然后再计算最近一个月相比于之前几个月的均值是否有显著变化；或者计算历史6个月内，用户每个月的消费金额的增长量，从而得到5个特征，用来度量用户某一维度特征的稳定性。

1.1 数据维度

通常衡量一个用户的还款能力和还款意愿，主要从以下几个角度出发：

个人基本信息：个人基本信息是每个场景下都一定会有的数据，比较典型的信息有年龄、性别、家庭情况等。基本思路是年龄太小和太大都有风险，因为太小没有收入来源，太大有寿命风险。对于性别，女性通常还款意愿强。对于家庭情况，亲戚朋友少的人，逾期时较难向其施压。

金融信息：直接反映用户偿还能力的数据，比如收入、家庭资产等。

多头信息：多头是指用户在多家借款平台贷款的情况。当用户借款平台较多时，会被判断为有负债严重的倾向，这类人通常被认为偿还能力较差。这些可能会被作为策略使用。达到或超过某一阈值，比如15家借款平台，这样的用户是无法通过申请的。

消费信息：典型的消费信息有电商数据、出行数据、外卖数据、点评数据等，这反映了用户在某一段时间内的消费水平。可以尝试计算用户过去一个月在每一种消费上所付出的金额，从而计算出他的购买力。还可以与用户的收入进行对比来估计用户的负债情况。消费过高或过低，或者近期有大幅度开销的情况都需要引起注意。

历史平台表现：用户在借款平台上可能会有一些历史表现。比如，在B卡中，用户有历史还款表现，这是可以直接体现用户还款意愿的特征。可以通过计算用户历史最大、最小逾期天数，以及历史借款的金额之和来估计用户的情况。

埋点数据：App埋点数据也是使用较多的数据之一，用于记录用户点击App上每一个按钮的具体时间和频次。据此可以做一些聚合特征，或者计算不同点击之间的时间间隔。类似的字段在欺诈检测中使用得尤为频繁。

外部征信数据：市场上有很多种征信数据，这些数据对于衡量用户的信用风险会比较有帮助。通常征信公司不会将具体的征信分计算逻辑告诉甲方公司。这里通常直接提取征信分数作为特征，还可以将多条历史征信数据取出来计算均值方差，或者估计增降趋势。

稳定性：除了通过一些固定的维度来看用户的近期表现外，还可将用户上述的每一种维度的变化趋势做成特征，用来衡量用户现在处于生命周期的哪个阶段。比如，电商数据中用户每个月购买总金额的方差一直比较小，就说明客户处于一个稳定的状态。如果贷款前期突然有了巨大开销，那么最近一周消费总金额除以最近一个月消费总金额所得的特征值就会显著增大，这可能会被识别为信用降低的信号。类似的特征还有很多，比如每两个月之间特征的比值，最近一个月单项特征与之前6个月单项特征的均值的比值，等等。

数据密度：在用户的多头记录中，一个用户在一天之内在10家公司贷款和10天每天在一家公司贷款是两种完全不同的概念，按照月份粗粒度统计是不能体现这种信息的。这时候就可以考虑用数据密度来衡量用户的借贷密集程度。数据密度是一种特殊的特征构造方式。比如对多头数据进行月度聚合，可以衍生出另外几个字段：一个月内有多头数据的天数/30，一个月内申请的多头数量/一个月内有申请的天数，等等。这本质上是希望将用户的行为活动所覆盖的时间维度考虑进来。

1.2 特征衍生

特征衍生方案有以下两种：

通过算法自动进行特征交叉，虽然不可以解释但是可以将特征挖掘得较为深入和透彻。可以很轻松地从基础的几百维度衍生至任意维度，比如可以通过XGBoost对特征进行离散，或者通过FM算法进行特征交叉，也可以通过神经网络进行表征学习，然后将内部的参数取出来作为模型的输入。总之，只要是升高了特征维度，再和原始特征合并一起建模，都可以看成是特征衍生。

通过一些跨时间维度的计算逻辑对特征进行时间维度的比较，从而衍生出具有业务含义的特定字段。这种做法会具有更强的解释性，是早些年银行或者信用卡中心惯用的衍生方法之一。例如，现在计算每个用户的额度使用率，记为特征ft。按照时间轴以月份为切片展开，得到申请前30天内的额度使用率ft1，申请前30～60天内的额度使用率ft2，申请前60～90天内的额度使用率ft3，…，申请前330～360天内的额度使用率ft12，于是得到一个用户的12个特征。

1.3 离散处理

将描述性变量（性别、学历……）转换为数值变量。

1.3.1 one-hot编码

对特征类别进行编码，一般一个类别为k个的特征（无序变量）需要编码为一组k-1个衍生哑变量。（避免引起多重共线性）

1.3.1.1 有序分类变量

若分类变量是有序的，直接转换为数值

import pandas as pd
from sklearn import preprocessing
le = preprocessing.LabelEncoder()

df = pd.DataFrame([  
            ['green' , 'A'],   
            ['red'   , 'C'],   
            ['blue'  , 'B']])  
df.columns = ['color',  'class'] 

#将描述变量自动转换为数值型变量，并将转换后的数据附加到原始数据上
def to_num(data,cat_vars):
    for col in cat_vars:
        tran = le.fit_transform(data[col].tolist())
        tran_df = pd.DataFrame(tran,columns=['num_'+col])
        print('{col}经过转化为{num_col}'.format(col=col,num_col='num_'+col))
        data = pd.concat([data, tran_df], axis=1)
        del data[col] #删除原来的列
    return data

cat_vars = ['class']
df = to_num(df,cat_vars)
df

结果：

1.3.1.2 无序分类变量

1）使用onehot方法

# 先用LabelEncoder把color、class，这个属性列里面的离散属性用数字来表示
import pandas as pd
df = pd.DataFrame([  
            ['green' , 'A'],   
            ['red'   , 'C'],   
            ['blue'  , 'B']])  

df.columns = ['color',  'class'] 
df

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

for col in df.columns:
    le = LabelEncoder()
    le_col = le.fit(df[col])
    label = le_col.transform(df[col])
    df[col] = label
df
#再用one-hot
ohe = OneHotEncoder()
ohe.fit_transform(df).toarray()

结果：

2）使用get_dummies()方法

import pandas as pd
df = pd.DataFrame([  
            ['green' , 'A'],   
            ['red'   , 'B'],   
            ['blue'  , 'C']])  

df.columns = ['color',  'class'] 
df
#get_dummies(),法二
for col in df.columns.to_list():
    onehot_tran1 = pd.get_dummies(df[col],prefix=col)
    onehot_tran2 = pd.get_dummies(df[col],prefix=col,drop_first = True)
    df2 = df.join(onehot_tran2)#将one-hot后的数据添加到data中
    del df2[col]#删除原来的列
df2

结果：

         one-hot编码方式很直观，但是有两个缺点：
        1）维度爆炸。矩阵的每一维长度都是字典的长度，例如字典包含10 000个单词，那么每个单词对应的one-hot向量就是1×10 000的向量，而这个向量只有一个位置为1，其余都是0，浪费空间。这种高维稀疏数据很多风控领域常用的模型都难以学习，在第7章中会介绍一种对稀疏数据不敏感的模型。
        2）关系丢失。one-hot矩阵相当于只简单地给每个单词编了个号，单词和单词之间的关系完全体现不出来。

1.3.2 WOE编码

WOE（Weight of Evidence，证据权重）是一种对原始自变量进行编码的形式。它的定义为：

        其中，pyi是这个分组中响应客户占样本中所有响应客户的比例，pni是这个分组中未响应客户占样本中所有未响应客户的比例。
        WOE实际上表示的是“当前分组中响应客户占样本中所有响应客户的比例”和“当前分组中没有响应的客户占样本中所有没有响应的客户的比例”之间的差异。
        WOE也可以理解为，当前分组中响应客户和未响应客户的比值与所有样本中这一比值之间的差异。这个差异是用对这两个比值的比值取对数来表示的。WOE越大，这种差异越大，这个分组里的样本响应的可能性就越大；WOE越小，差异越小，这个分组里的样本响应的可能性就越小。
        在对短文本类型的变量进行转换时，WOE映射的效果相比于one-hot编码和词嵌入（Embedding）技术要更有效。其实在最早的评分卡中，无论是对字符型变量还是对数值型变量都要进行WOE映射。对数值型变量进行WOE映射主要是为了弱化极值影响、增加模型鲁棒性。但树模型对极值和变量分布波动并不敏感，因此在XGBoost评分卡中只对字符型变量进行WOE映射。

在实现WOE映射的过程中，最重要的一点是分箱的逻辑，显然分箱不同，得到的WOE映射值会有很大不同。这里使用基于负样本占比差异最大化的分箱原则。所期望得到的分箱结果应该是，箱的总数在5箱以内（可以适当调整，通常不超过10箱），并且每一箱之间的负样本占比差值尽可能大（箱合并原则），每一箱的样本量不能小于整体样本的5%（可以自己根据分箱结果调整，原则是不要太小）。换言之，主要通过控制划分后的总箱数，来迭代进行箱的合并。分箱个数以及最小样本占比需要使用者根据实际情况进行微调。
由于实际建模过程中通常使用3个数据集——训练集（Develop）、测试集（Valuation）、时间外样本集（Out of Time，OOT），所以在本章中默认使用3个数据集进行建模，并通过数据集之间的指标对比进行特征调整与模型调优。需要注意的是，在数据量足够大的情况下，百分比采样得到的测试集和训练集没有明显差异，实际建模中不一定需要保留。

XGBoost等树模型只关心数值的排序，对变量的分布和取值范围并不敏感，所以不需要过多地进行归一化处理。为保证树模型的精度，本案例对数值型变量也未做分箱处理。

1.4 特征筛选

直接根据XGBoost算法的特征重要度少于某一阈值对特征进行筛选，有一定的不合理性：当某些低重要度特征被删除后，其余低重要度特征的重要度会有所上升。本节首先介绍两个用于评价模型表现的函数solveKS和solvePSI，然后使用一种基于迭代思想的特征筛选方法来完成特征筛选的第一个环节。这样做的目的是削弱特征间的相互影响。

1.4.1 solveKS

solveKS函数用来计算当前模型在某数据集上的KS。KS值对模型的评价不受样本不均衡问题的干扰，但仅限于模型评价。如果想获得表现更好的模型，还需要针对不均衡问题进行优化。

def sloveKS(self, model, X, Y, Weight):  
    Y_predict = [s[1] for s in model.predict_proba(X)]  
    nrows = X.shape[0]  
    #还原权重  
    lis = [(Y_predict[i], Y.values[i], Weight[i]) for i in range(nrows)]
    #按照预测概率倒序排列  
    ks_lis = sorted(lis, key=lambda x: x[0], reverse=True)        
    KS = list()  
    bad = sum([w for (p, y, w) in ks_lis if y > 0.5])  
    good = sum([w for (p, y, w) in ks_lis if y <= 0.5])  
    bad_cnt, good_cnt = 0, 0  
    for (p, y, w) in ks_lis:  
        if y > 0.5:  
            #1*w 即加权样本个数  
            bad_cnt += w                
        else:  
            #1*w 即加权样本个数  
            good_cnt += w               
        ks = abs((bad_cnt/bad)-(good_cnt/good))  
        KS.append(ks)  
    return max(KS)

1.4.2 solvePSI

solvePSI函数在本例中用于计算模型在训练集与时间外样本集上的稳定度指标（Population Stability Index，PSI）。风控从业者经常使用PSI衡量模型或特征的稳定性。PSI还是一种主要的模型监控指标。因为模型部署上线后，模型的拒绝率越高，其线上KS值越低，也就越无法体现模型的真实效果，所以通常使用PSI监控线上模型与线下模型的差异，从侧面展示模型真实效果与预期效果的偏差。
PSI的计算中同样涉及分箱，实践证明，等频分箱的效果要好于等距分箱，因此本书中PSI的计算使用等频分箱，即首先在参照分布（训练集）上等频分箱，然后计算测试集与时间外样本集，相比于参照分布的PSI。

def slovePSI(self, model, dev_x, val_x):  
    dev_predict_y = [s[1] for s in model.predict_proba(dev_x)]  
    dev_nrows = dev_x.shape[0]  
    dev_predict_y.sort()  
    #等频分箱成10份  
    cutpoint = [-100] + [dev_predict_y[int(dev_nrows/10*i)] 
                         for i in range(1, 10)] + [100]  
    cutpoint = list(set(cutpoint))  
    cutpoint.sort()
    val_predict_y = [s[1] for s in list(model.predict_proba(val_x))]  
    val_nrows = val_x.shape[0]  
    PSI = 0  
    #每一箱之间分别计算PSI  
    for i in range(len(cutpoint)-1):  
        start_point, end_point = cutpoint[i], cutpoint[i+1]  
        dev_cnt = [p for p in dev_predict_y 
                                 if start_point <= p < end_point]  
        dev_ratio = len(dev_cnt) / dev_nrows + 1e-10  
        val_cnt = [p for p in val_predict_y 
                                 if start_point <= p < end_point]  
        val_ratio = len(val_cnt) / val_nrows + 1e-10  
        psi = (dev_ratio - val_ratio) * math.log(dev_ratio/val_ratio)
        PSI += psi  
    return PSI

1.4.3 迭代特征筛选

因为风控建模本身是一种极度不平衡的场景，需要使用一些方法对模型进行调优。这部分在后续章节中进行介绍。本方案中的样本权重weight与代价敏感学习中的权重作用并不相同。考虑到通常建模中会对样本进行抽样，为了反映真实场景下的KS值和PSI，需要使用采样比例的倒数作为权重，进行样本量还原。因此本方案中权重只参与KS值和PSI的计算，不参与模型训练。

本初步筛选方案的精华在于，使用min_score参数控制每一次删除的特征重要性，使用max_del_var_nums控制每一次循环删除特征的个数。这在一定程度上避免了特征之间的干扰。

除了基于模型贡献度的筛选方式外，业务同样需要模型具备一定的稳定性。因为信用评分模型的稳定性很大程度上取决于模型中每个变量分布的稳定性，为保证模型上线后的稳定性，需要对模型中稳定性较差的变量进行筛选。在传统评分卡中，通常还会根据三个建模数据集上每一个特征的信息值（Information Value，IV）、最大信息系数（Maximal Information Coefficient，MIC）、PSI等指标对特征进行筛选（PSI既可用于模型评价又可用于特征筛选，当单变量PSI值大于0.02时，需要对该特征做调整或者直接删除此特征）。XGBoost模型中同样可以使用这些方法。

需要注意的是，IV通常用于衡量单特征对区分任务的贡献程度，并不考虑特征的组合效果。因此在XGBoost这种具备特征交叉能力的模型中，IV值通常只用于粗筛选。

import xgboost as xgb  
from xgboost import plot_importance  
  
class xgBoost(object):  
    def __init__(self, datasets, uid, dep, weight, 
                                  var_names, params, max_del_var_nums=0):
        self.datasets = datasets  
        #样本唯一标识，不参与建模  
        self.uid = uid       
        #二分类标签  
        self.dep = dep     
        #样本权重  
        self.weight = weight      
        #特征列表  
        self.var_names = var_names    
        #参数字典，未指定字段使用默认值  
        self.params = params     
        #单次迭代最多删除特征的个数  
        self.max_del_var_nums = max_del_var_nums    
        self.row_num = 0  
        self.col_num = 0  
  
    def training(self, min_score=0.0001, modelfile="", output_scores=list()):  
        lis = self.var_names[:]  
        dev_data = self.datasets.get("dev", "")  #训练集  
        val_data = self.datasets.get("val", "")  #测试集  
        off_data = self.datasets.get("off", "")  #跨时间验证集
                #从字典中查找参数值，没有则使用第二项作为默认值  
        model = xgb.XGBClassifier(
                           learning_rate=self.params.get("learning_rate", 0.1),
              n_estimators=self.params.get("n_estimators", 100),  
              max_depth=self.params.get("max_depth", 3),  
              min_child_weight=self.params.get("min_child_weight", 1),subsample=self.params.get("subsample", 1),  
              objective=self.params.get("objective", 
                                                             "binary:logistic"),
              nthread=self.params.get("nthread", 10),  
              scale_pos_weight=self.params.get("scale_pos_weight", 1),
              random_state=0,  
              n_jobs=self.params.get("n_jobs", 10),  
              reg_lambda=self.params.get("reg_lambda", 1),  
              missing=self.params.get("missing", None) )  
        while len(lis) > 0:   
            #模型训练  
            model.fit(X=dev_data[self.var_names], y=dev_data[self.dep])  
            #得到特征重要性  
            scores = model.feature_importances_     
            #清空字典  
            lis.clear()      
            ''' 
            当特征重要性小于预设值时， 
            将特征放入待删除列表。 
            当列表长度超过预设最大值时，跳出循环。 
            即一次只删除限定个数的特征。 
            '''  
            for (idx, var_name) in enumerate(self.var_names):  
                #小于特征重要性预设值则放入列表  
                if scores[idx] < min_score:    
                    lis.append(var_name)  
                #达到预设单次最大特征删除个数则停止本次循环  
                if len(lis) >= self.max_del_var_nums:     
                    break  
            #训练集KS  
            devks = self.sloveKS(model, dev_data[self.var_names],
                                       dev_data[self.dep], dev_data[self.weight])
            #初始化ks值和PSI  
            valks, offks, valpsi, offpsi = 0.0, 0.0, 0.0, 0.0 
            #测试集KS和PSI  
            if not isinstance(val_data, str):  
                valks = self.sloveKS(model,
                                                      val_data[self.var_names], 
                                                      val_data[self.dep], 
                                                      val_data[self.weight])  
                valpsi = self.slovePSI(model,
                                                        dev_data[self.var_names],
                                                        val_data[self.var_names])
            #跨时间验证集KS和PSI  
            if not isinstance(off_data, str):  
                offks = self.sloveKS(model,
                                                  off_data[self.var_names],
                                                  off_data[self.dep],
                                                  off_data[self.weight])  
                offpsi = self.slovePSI(model,
                                                     dev_data[self.var_names],
                                                     off_data[self.var_names])  
            #将三个数据集的KS和PSI放入字典  
            dic = {"devks": float(devks), 
                                 "valks": float(valks),
                                  "offks": offks,  
                 "valpsi": float(valpsi),
                                  "offpsi": offpsi}  
            print("del var: ", len(self.var_names), 
                                       "-->", len(self.var_names) - len(lis),
                                       "ks: ", dic, ",".join(lis))
        self.var_names = [var_name for var_name in self.var_names if var_name not in lis]
        plot_importance(model)  
        #重新训练，准备进入下一循环  
        model = xgb.XGBClassifier(
                             learning_rate=self.params.get("learning_rate", 0.1),
               n_estimators=self.params.get("n_estimators", 100),
                 max_depth=self.params.get("max_depth", 3),  
                 min_child_weight=self.params.get("min_child_weight",1),
               subsample=self.params.get("subsample", 1),  
               objective=self.params.get("objective", 
                                                        "binary:logistic"),  
               nthread=self.params.get("nthread", 10),  
               scale_pos_weight=self.params.get("scale_pos_weight",1),
               random_state=0,  
               n_jobs=self.params.get("n_jobs", 10),  
               reg_lambda=self.params.get("reg_lambda", 1),  
               missing=self.params.get("missing", None))

1.4.4 自动化调参

业内普遍使用的调参策略是基于随机搜索、遗传算法、贝叶斯优化等形式实现的，本节则介绍一种基于业务指标实现调参的思路，并通过代码实现自动化的参数搜索。
注意，本节中的函数均建立在上一步中的xgBoost类之下，代码中的self均指代由父类xgBoost定义的self。

1.4.4.1 自动化调参策略

业务期望模型的训练集KS值和时间外样本集KS值足够接近，且时间外样本集的KS值足够大。前者用于保证模型的跨时间稳定性不会很差，而后者用于保证模型的精度足够高。因此给出调参目标为两者的组合。

def target_value(self,old_devks,old_offks,target,devks,offks,w=0.2):  
    '''  
    如果参数设置为"best"，使用最优调参策略， 
    否则使用跨时间测试集KS最大策略。 
    '''  
    if target == "best":  
        return offks-abs(devks-offks)*w
    else:  
        return offks

注意，KS值的分配权重w可以根据实际情况进行调节。比如当业务稳定性较差时，应更多关注两者KS值的差值，因此需要将w从默认的0.2改为一个更大的值。

1.4.4.2 参数搜索方案

参数搜索方案使用的是一种针对目标KS值的贪心搜索方法。每一次只考虑单个参数，进行前向和后向搜索，当对目标KS值有提高时，继续搜索，否则停止该方向的搜索。

def check_params(self, dev_data, off_data, params, param, train_number, step, target, 
                                                            targetks, old_devks, old_offks):  
    ''' 
    当前向搜索对调参策略有提升时， 
    继续前向搜索。 
    否则进行后向搜索 
    '''  
    while True:  
        try:  
            if params[param] + step > 0:  
                params[param] += step  
                model = xgb.XGBClassifier(
                                   max_depth=params.get("max_depth", 3),
                                   learning_rate=params.get("learning_rate", 0.05),
                                   n_estimators=params.get("n_estimators", 100),
                                   min_child_weight=params.get(
                                                       "min_child_weight", 1),
                                   subsample=params.get("subsample", 1),  
                                   scale_pos_weight=params.get(
                                   "scale_pos_weight", 1),
                                   nthread=10,n_jobs=10, random_state=0)  
                model.fit(dev_data[self.var_names],
                                              dev_data[self.dep],
                                              dev_data[self.weight])  
                devks = self.sloveKS(model, 
                                                       dev_data[self.var_names], 
                                                       dev_data[self.dep], 
                                                       dev_data[self.weight])  
                offks = self.sloveKS(model, 
                                                       off_data[self.var_names], 
                                                       off_data[self.dep], 
                                                       off_data[self.weight])  
                train_number += 1  
                targetks_n = self.target_value(
                                                      old_devks=old_devks, 
                                                      old_offks=old_offks, 
                                                      target=target,  
                                                      devks=devks, 
                                                      offks=offks)  
                if targetks < targetks_n:  
                    targetks = targetks_n  
                    old_devks = devks  
                    old_offks = offks  
                else:  
                    break  
            else:  
                break  
        except:  
            break  
    params[param] -= step  
    return params, targetks, train_number  

def auto_choose_params(self, target="offks"):  
    """ 
    "mzh1": offks + (offks - devks) * 0.2 最大化   
        "mzh2": (offks + (offks - devks) * 0.2)**2 最大化 
        其余取值均使用跨时间测试集offks  最大化
    当业务稳定性较差时，应将0.2改为更大的值 
    """  
    dev_data = self.datasets.get("dev", "")  
    off_data = self.datasets.get("off", "")  
    #设置参数初始位置  
    params = {  
        "max_depth": 5,  
        "learning_rate": 0.09,  
        "n_estimators": 120,  
        "min_child_weight": 50,  
        "subsample": 1,  
        "scale_pos_weight": 1,  
        "reg_lambda": 21  
    }  
    model = xgb.XGBClassifier(max_depth=params.get("max_depth", 3),  
                                  learning_rate=params.get("learning_rate", 0.05),
                 n_estimators=params.get("n_estimators", 100),
                 min_child_weight=params.get("min_child_weight",1),
                 subsample=params.get("subsample", 1),
                 scale_pos_weight=params.get("scale_pos_weight",1),
                 reg_lambda=params.get("reg_lambda", 1),
                 nthread=8, n_jobs=8, random_state=7)  
    model.fit(dev_data[self.var_names], 
                      dev_data[self.dep],
                      dev_data[self.weight])  
    devks = self.sloveKS(model, 
                               dev_data[self.var_names], 
                               dev_data[self.dep], 
                               dev_data[self.weight])  
    offks = self.sloveKS(model,
                                    off_data[self.var_names], 
                                    off_data[self.dep], 
                                    off_data[self.weight])  
    train_number = 0  
    #设置调参步长  
    dic = {  
        "learning_rate": [0.05, -0.05],  
        "max_depth": [1, -1],  
        "n_estimators": [20, 5, -5, -20],  
        "min_child_weight": [20, 5, -5, -20],  
        "subsample": [0.05, -0.05],  
        "scale_pos_weight": [20, 5, -5, -20],  
        "reg_lambda": [10, -10]  
    }  
    #启用调参策略  
    targetks = self.target_value(old_devks=devks, 
                                       old_offks=offks, target=target, 
                                       devks=devks, offks=offks)  
    old_devks = devks  
    old_offks = offks  
    #按照参数字典，双向搜索最优参数  
    while True:  
        targetks_lis = []  
        for (key, values) in dic.items():  
            for v in values:  
                if v + params[key] > 0:  
                    params, targetks, train_number = \
                                                       self.check_params(dev_data, 
                                                       off_data, params, 
                                                       key, train_number,  
                            v, target, targetks, 
                                                       old_devks, old_offks)  
                    targetks_n = self.target_value(
                                                         old_devks=old_devks, 
                                                         old_offks=old_offks, 
                                                         target=target,  
                             devks=devks, offks=offks)
                    if targetks < targetks_n:  
                        old_devks = devks  
                        old_offks = offks  
                        targetks_lis.append(targetks)  
        if not targetks_lis:  
            break  
    print("Best params: ", params)  
    model = xgb.XGBClassifier(max_depth=params.get("max_depth", 3),  
                   learning_rate=params.get("learning_rate", 0.05),
                  n_estimators=params.get("n_estimators", 100),
                 min_child_weight=params.get("min_child_weight",1),
                 subsample=params.get("subsample", 1),  
                 scale_pos_weight=params.get("scale_pos_weight",1),
                 reg_lambda=params.get("reg_lambda", 1),  
                 nthread=10, n_jobs=10, random_state=0)  
    model.fit(dev_data[self.var_names], 
                  dev_data[self.dep], dev_data[self.weight])

def auto_delete_vars(self):  
    dev_data = self.datasets.get("dev", "")  
    off_data = self.datasets.get("off", "")  
    params = self.params  
    model = xgb.XGBClassifier(max_depth=params.get("max_depth", 3),  
                 learning_rate=params.get("learning_rate", 0.05),
                 n_estimators=params.get("n_estimators", 100),
                 min_child_weight=params.get("min_child_weight",1),
                  subsample=params.get("subsample", 1),  
                  scale_pos_weight=params.get("scale_pos_weight",1),
                 reg_lambda=params.get("reg_lambda", 1),  
                 nthread=8, n_jobs=8, random_state=7)  
    model.fit(dev_data[self.var_names], 
                  dev_data[self.dep], dev_data[self.weight])  
    offks = self.sloveKS(model, off_data[self.var_names], 
                               off_data[self.dep], off_data[self.weight])  
    train_number = 0  
    print("train_number: %s, offks: %s" % (train_number, offks))  
    del_list = list()  
    oldks = offks  
    while True:  
        bad_ind = True  
        for var_name in self.var_names:  
            #遍历每一个特征  
            model=xgb.XGBClassifier(
                                  max_depth=params.get("max_depth", 3),  
                 learning_rate=params.get("learning_rate",0.05),
                 n_estimators=params.get("n_estimators", 100), 
                 min_child_weight=params.get("min_child_weight",1),
                 subsample=params.get("subsample", 1),  
                 scale_pos_weight=params.get("scale_pos_weight",1),
                 reg_lambda=params.get("reg_lambda", 1),  
                 nthread=10,n_jobs=10,random_state=7)  
            #将当前特征从模型中去掉  
            names = [var for var in self.var_names 
                                    if var_name != var]  
            model.fit(dev_data[names], dev_data[self.dep], 
                                  dev_data[self.weight])  
            train_number += 1  
            offks = self.sloveKS(model, off_data[names], 
                                     off_data[self.dep], off_data[self.weight])
            ''' 
            比较KS是否有提升， 
            如果有提升或者武明显变化， 
            则可以将特征去掉 
            '''  
            if offks >= oldks:  
                oldks = offks  
                bad_ind = False  
                del_list.append(var_name)  
                self.var_names = names  
            else:  
                continue
        if bad_ind:  
            break  
    print("(End) train_n: %s, offks: %s del_list_vars: %s" 
                  % (train_number, offks, del_list))

2. 模型训练

import xgboost as xgb 
data = pd.read_csv(r'G:\02_金融风控\数据集\02_A卡数据集\Acard.txt') 
df_train = data[data.obs_mth != '2018-11-30'].reset_index().copy()  
val = data[data.obs_mth == '2018-11-30'].reset_index().copy()  
lst = ['person_info','finance_info','credit_info','act_info']  
  
train = data[data.obs_mth != '2018-11-30'].reset_index().copy()  
evl = data[data.obs_mth == '2018-11-30'].reset_index().copy()  
  
x = train[lst]  
y = train['bad_ind']  
  
evl_x =  evl[lst]  
evl_y = evl['bad_ind']  

#定义XGB函数  
def XGB_test(train_x,train_y,test_x,test_y):  
    from multiprocessing import cpu_count  
    clf = xgb.XGBClassifier(
        boosting_type='gbdt', num_leaves=31, 
                reg_Ap=0.0, reg_lambda=1,  
        max_depth=2, n_estimators=800,
                max_features = 140,  
        subsample=0.7, colsample_bytree=0.7, subsample_freq=1,  
        learning_rate=0.05, min_child_weight=50,
                random_state=None,n_jobs=cpu_count()-1,  
        num_iterations = 800 #迭代次数  
    )  
    clf.fit(train_x, train_y,eval_set=[(train_x, train_y),(test_x,test_y)],
                eval_metric='auc',early_stopping_rounds=100)  
    return clf  

#模型训练
xgb_model= XGB_test(x,y,evl_x,evl_y)

3.模型检验

3.1 KS、AUC

#训练集预测并计算KS
y_pred = xgb_model.predict_proba(x)[:,1]  
fpr_xgb_train,tpr_xgb_train,_ = roc_curve(y,y_pred)  
train_ks = abs(fpr_xgb_train - tpr_xgb_train).max()  
print('train_ks : ',train_ks)

#跨时间验证集预测并计算KS
y_pred = xgb_model.predict_proba(evl_x)[:,1]  
fpr_xgb,tpr_xgb,_ = roc_curve(evl_y,y_pred)  
evl_ks = abs(fpr_xgb - tpr_xgb).max()  
print('evl_ks : ',evl_ks)  

#画出ROC曲线
from matplotlib import pyplot as plt  
plt.plot(fpr_xgb_train,tpr_xgb_train,label = 'train LR')  
plt.plot(fpr_xgb,tpr_xgb,label = 'evl LR')  
plt.plot([0,1],[0,1],'k--')  
plt.xlabel('False positive rate')  
plt.ylabel('True positive rate')  
plt.title('ROC Curve')  
plt.legend(loc = 'best')  
plt.show()  

# 计算AUC
print ("AUC Score (Testing): %.3g" % metrics.roc_auc_score(val_y,y_pred))

3.1 生成模型报告

- 模型报告所需字段：KS值、负样本个数、正样本个数、负样本累计个数、正样本累计个数、捕获率、负样本占比
- KS值取得最大值的箱越靠前，表示该模型越好
- 负样本占比一般呈递减趋势，如果出现波动的箱编码越靠前，说明模型的排序能力越弱

model = lr_model  
bins = 20  # 分成20个箱子
Y_predict = model.predict_proba(val_x)[:,1]
Y = val_y    
lis = list(zip(Y_predict,Y)) # 打包为元组，再转为列表
ks_lis = sorted(lis, key=lambda x: x[0], reverse=True)  # 按照预测概率进行排序，倒序
nrows = Y.shape[0] #计算总共有多少个样本
bin_num = int(nrows/bins+1)  # 计算每组的样本数量，int()向下取整
bad = sum(val_y)  # 统计总样本集中的负样本数量
good = sum([1 for (p, y) in ks_lis if y == 0])  # 统计总样本集中的正样本数量
bad_cnt, good_cnt = 0, 0  
KS = []  
CUT = [] # 阈值
BAD = []  
GOOD = []  
BAD_CNT = [] #累计负样本
GOOD_CNT = [] #累计正样本
BAD_PCTG = []  
BADRATE = []  
dct_report = {}  
for i in range(bins):  
    ds = ks_lis[i*bin_num: min((i+1)*bin_num, nrows)]  # 对原数据进行切片，分为bins个组
    cut = round(ks_lis[min((i+1)*bin_num, nrows)-1][0],3) # 阈值，概率大于此阈值则预测为1
    bad1 = sum([1 for (p, y) in ds if y == 1]) # 统计分组中的负样本数量 
    good1 = sum([1 for (p, y) in ds if y == 0])  # 统计分组中的正样本数量
    bad_cnt += bad1  
    good_cnt += good1  
    bad_pctg = round(bad_cnt/bad,3) # 捕获率，当前箱的负样本累计个数除以负样本总数
    badrate = round(bad1/(bad1+good1),3)  # 负样本占比，当前箱的负样本数量除以当前箱样本数量
    #KS值，每个分组中，累计负样本占所有负样本的比例 - 累计正样本占所有正样本的比例，再取绝对值
    ks = round(abs((bad_cnt / bad) - (good_cnt / good)),3) 
    KS.append(ks)  
    CUT.append(cut)
    BAD.append(bad1)  
    GOOD.append(good1)  
    BAD_CNT.append(bad_cnt)  
    GOOD_CNT.append(good_cnt)  
    BAD_PCTG.append(bad_pctg)  
    BADRATE.append(badrate)  
dct_report['KS'] = KS  
dct_report['CUT'] = CUT  
dct_report['负样本个数'] = BAD  
dct_report['正样本个数'] = GOOD  
dct_report['负样本累计个数'] = BAD_CNT  
dct_report['正样本累计个数'] = GOOD_CNT  
dct_report['捕获率'] = BAD_PCTG  
dct_report['负样本占比'] = BADRATE  
val_report = pd.DataFrame(dct_report)  
val_report

结果：

from pyecharts.charts import *  
from pyecharts import options as opts  
from pylab import *  
mpl.rcParams['font.sans-serif'] = ['SimHei']  
np.set_printoptions(suppress=True)  
pd.set_option('display.unicode.ambiguous_as_wide', True)  
pd.set_option('display.unicode.east_asian_width', True)  
line = (  
  
    Line()  
    .add_xaxis(list(val_repot.index))  
    .add_yaxis(  
        "分组坏人占比",  
        list(val_repot.负样本占比),  
        yaxis_index=0,  
        color="red",  
    )  
    .set_global_opts(  
        title_opts=opts.TitleOpts(title="行为评分卡模型表现"),  
    )  
    .extend_axis(  
        yaxis=opts.AxisOpts(  
            name="累计坏人占比",  
            type_="value",  
            min_=0,  
            max_=0.5,  
            position="right",  
            axisline_opts=opts.AxisLineOpts(  
                linestyle_opts=opts.LineStyleOpts(color="red")  
            ),  
            axislabel_opts=opts.LabelOpts(formatter="{value}"),  
        )  
  
    )  
    .add_xaxis(list(val_repot.index))  
    .add_yaxis(  
        "KS",  
        list(val_repot['KS']),  
        yaxis_index=1,  
        color="blue",  
        label_opts=opts.LabelOpts(is_show=1),  
    )  
)  
line.render_notebook()

结果：

4.映射分数

# 生成分数，并计算基于分数的ks
def score(pred):   
    score = 600+50*(math.log2((1- pred)/ pred))  
    return score  
evl['xbeta'] = model.predict_proba(evl_x)[:,1]     
evl['score'] = evl.apply(lambda x : score(x.xbeta) ,axis=1) 
evl.head()
fpr_lr,tpr_lr,_ = roc_curve(evl_y,evl['score'])  
evl_ks = abs(fpr_lr - tpr_lr).max()  
print('val_ks : ',evl_ks)

你可能感兴趣的:(机器学习,风控,机器学习,数据挖掘)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
下一站深圳默琊
昨天已经买好3/15到深圳的机票了，原本上周还有点拖延症发作，不太积极，所以昨天就直接逼迫自己买机票，然后在订房，下周就是确认行业和把具体的面谈日程定下来。行业的选择上目前没有太大的偏好，上一份工作主要是风控和客服，客服部分也算是个小组长，有负责培训和一些案件SOP流程的制定等工作。总感觉客服这个职位的职涯发展只能是垂直的往更高的管理层走，对于横向发展似乎不容易，而鉴于做客服1年的感受，我不太喜欢
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul