此昵称已存在4848

申请者评分模型(A卡)开发（基于逻辑回归）

1项目背景

申请者评分模型应用在信贷场景中的贷款申请环节，主要是以申请者的历史信息为基础，预测未来放款后逾期或者违约的概率，为银行客户关系管理提供数据依据，从而有效的控制违约风险。

2开发流程

本次建模基本流程：
1.数据准备：收集并整合在库客户的数据，定义目标变量，排除特定样本。
2.探索性数据分析：评估每个变量的值分布情况，处理异常值和缺失值。
3.数据预处理：变量筛选，变量分箱，WOE转换、分割训练集测试集。
4.模型开发：逻辑回归拟合模型。
5.模型评估：常见几种评估方法，ROC、KS等。
6.生成评分卡

标准评分卡开发流程如下图所示（基于逻辑回归）：

3数据准备

3.1样本选取

首先根据准入规则(如年龄、在网时长等)、行内黑名单过滤客户，再通过反欺诈模型过滤客户，得到用于建立信用评分卡的样本。

3.2数据说明

本次建模数据一共用到三个表：
“CreditFirstUse”：客户首次使用信用卡时间信息表
“CreditSampleWindow”：客户历史违约信息表（基于客户编号）
“Data_Whole”:客户基本信息表

3.3定义目标变量

申请者评分模型需要解决的问题是未来一段时间（如12个月）客户出现违约（如至少一次90天或90天以上逾期）的概率。在这里“12个月”为“观察时间窗口”，“至少一次90天或90天以上逾期”为表现时间窗口即违约日期时长，那么我们如何确定观察时间窗口和违约日期时长（如M2算违约，还是M3算违约）呢？

3.3.1定义违约日期时长（表现时间窗口）

sample_window=pd.read_csv("CreditSampleWindow.csv")
sample_window.head()
sample_window.shape

#查看缺失值所占比例
sample_window.isnull().sum()/sample_window.shape[0]

# 选取某一个ID查看数据结构
sample_record = sample_window[sample_window.CID == sample_window.iat[4,0]]
sample_record.sort_values('START_DATE')

#去掉重复值
sample_window.drop_duplicates(inplace=True)

#去掉没有逾期阶段记录的信息
sample_window.dropna(subset=['STAGE_BEF','STAGE_AFT'],inplace=True)
sample_window.shape

#取每个 ID 每个月份的最高逾期记录也就是STAGE_AFT作为该月份的逾期指标
sample_window['START_MONTH']=sample_window.START_DATE.apply(lambda x: int(x//100))  #取年月
sample_window['CLOSE_MONTH']=sample_window.CLOSE_DATE.apply(lambda x: int(x//100))
sample_window['AFT_FLAG']=sample_window.STAGE_AFT.apply(lambda x:int(x[-1]))  #取数字
sample_window.head()

#因为选取数据的时间是有一个节点的，由于系统原因，截至时间节点为0了
#所以将 CLOSE_DATE 为0的数据填补为 201806（根据缺失的业务背景确定）
sample_window.loc[sample_window.CLOSE_MONTH==0,'CLOSE_MONTH']=201806

# 提取 ID、月份、月份对应状态作为新的数据
overdue = sample_window.loc[:,["CID","START_MONTH","AFT_FLAG"]]\
.rename(columns={"START_MONTH":"CLOSE_MONTH"})\
.append(sample_window.loc[:,["CID","CLOSE_MONTH","AFT_FLAG"]],ignore_index=True)

# 生成每个订单的逾期信息，以表格形式。提取当月最差的状态
overdue = overdue.sort_values(by=["CID","CLOSE_MONTH","AFT_FLAG"])\
.drop_duplicates(subset=["CID","CLOSE_MONTH"],keep="last")\
.set_index(["CID","CLOSE_MONTH"]).unstack(1)  #unstack索引的级别,level=1
overdue.columns = overdue.columns.droplevel()   #删除列索引上的levels
overdue.head(2)

构建转移矩阵，横坐标（行）表示转移前状态，纵坐标（列）表示下一个月状态（转移后） , 选取连续两个月的有记录的，记录逾期阶段迁移，计算 count 录入转移矩阵。

import collections

def get_mat(df):
    trans_mat=pd.DataFrame(data=0,columns=range(10),index=range(10))
    counter=collections.Counter()
    for i,j in zip(df.columns,df.columns[1:]):
        select = (df[i].notnull()) & (df[j].notnull()) #选取连续两个月有记录的
        counter += collections.Counter(tuple(x) for x in df.loc[select, [i,j]].values)  #连续两个月的预期阶段转移

    for key in counter.keys():
        trans_mat.loc[key[0],key[1]]=counter[key]  #将对应的值放进转移矩阵

    trans_mat['all_count']=trans_mat.apply(sum,axis=1) #对行进行汇总

    bad_count = []
    for j in range(10):
        bad_count.append(trans_mat.iloc[j,j+1:10].sum()) #计算转坏的数量，行表示上个月，列表示这个月
    trans_mat['bad_count']=bad_count     

    trans_mat['to_bad']=trans_mat.bad_count/trans_mat.all_count  #计算转坏的比例
    return trans_mat

get_mat(overdue)

仅仅从转移矩阵来看，在逾期阶段到了 M2 时，下一阶段继续转坏的概率达到了 67%，逾期阶段到达 M3 阶段时，下一阶段继续转坏的概率为 86%，可根据业务需要（营销、风险等等）来考虑定义进入 M2 或M3 阶段的用户为坏客户。这里由于数据的原因我们暂定为 M4。

3.3.2定义观察时间窗口

first_use=pd.read_csv("CreditFirstUse.csv",encoding="utf-8")
first_use.set_index("CID",inplace=True)
first_use["FST_USE_MONTH"]=first_use.FST_USE_DT.map(lambda x:x//100)

#计算每一笔订单第一次出现逾期 M2的月份的索引的位置
def get_first_overdue(ser):
    array=np.where(ser>=2)[0]
    if array.size>0:
        return array[0]
    else:
        return np.nan


OVER_DUE_INDEX=overdue.apply(get_first_overdue,axis=1)
first_use['OVERDUE_INDEX']=OVER_DUE_INDEX
 
# FST_USE_MONTH在over_due的列索引中的index
first_use["START_INDEX"] =first_use.FST_USE_MONTH.map({k:v for v,k in   enumerate(overdue.columns)})
first_use.loc[first_use.OVERDUE_INDEX.notnull()].head()

#查看异常数据
first_use.loc[first_use.OVERDUE_INDEX

 
   
  #逾期月份累计分布
month_count.cumsum().plot()
 
  
 理想情况下，累计分布曲线会在某个月开始收敛。
 在这里不收敛，根据业务通常定义24个月。 
  3.3.4好坏客户标签（y）的定义 
  我们定义在24个月逾期90天的客户为坏客户。 
  4探索性数据分析 
  4.1异常值 
  通过表查看异常值 
  train_data=pd.read_csv("Data_Whole.csv",index_col=0)
train_data.describe().T
 
  
 （1）分析RevolvingUtilizationOfUnsecuredLines
 一般情况下为0-1.有大于1的情况:
 1.主动申请提额后额度回调，一般不会大于2
 2.高风险欠款后贷款额度被调的很低时，这个比例会变大
 （2）分析age
 age最小值为0，去看age=0的有多少 
  (train_data.age==0).sum()
train_data=train_data[train_data.age>0]  #只有一条数据，删除
 
  通过箱线图查看异常值 
  columns = ["NumberOfTime30-59DaysPastDueNotWorse",
"NumberOfTime60-89DaysPastDueNotWorse",
"NumberOfTimes90DaysLate"]
train_data[columns].plot.box(vert=False)
 
  
 删除异常值 
   for col in columns:
        train_data = train_data[train_data[col]<90]
 
  4.2缺失值 
  缺失值大于50%或者70%的变量，不考虑这个变量。
 缺失值特别小，0.1%，删除缺失值。 
  缺失值补全的方法：
 1.单一值补全
 数值型变量：样本均值或中位数
 分类型变量：新增一个类别
 2.分组补全（利用与其相关性较强的变量）
 数值型变量：各分组均值或各分组中位数
 3.模型预测
 各种变量：利用多变量组合模型预测缺失值
 4.WOE补全
 各种变量：直接计算WOE（仅限于LR模型） 
  train_data.notnull().sum()/train_data.shape[0]

#查看皮尔逊相关系数
train_data.corr()
 
  4.2.1单一值补全 
  def single_value_imp(df, var, fill):
    
    # df: 输入数据名
    # var: 需要补全的变量名
    # fill: 填充种类 （1. mean； 2. median)
    
    out = df.copy()
    cnt = len(var)
    
    for i in range(cnt):
       x = var[i] 
       if fill[i] == 1:
           out[x].loc[out[x].isnull()] = out[x].describe()[1] 
       if fill[i] == 2:
           out[x].loc[out[x].isnull()] = out[x].describe()[5]
    
    return out   
    
temp_1 = single_value_imp(train_data, ['NumberOfDependents' , 'MonthlyIncome'], [2, 2])
temp_1.isnull().sum()
 
  4.2.2分组补全 
  def grp_value_imp(df, var, col, bins, fill):
    
    # df: 输入数据名
    # var: 需要补全的变量名
    # col: 分组的变量
    # bins：变量分组cutoff
    # fill: 填充种类 （1. mean； 2. median)
    
    temp = df.copy()
    
    #分箱
    temp[col + '_grp'] = pd.cut(temp[col], bins)
        
    #组内统计
    if fill == 1:
        grp_stat = pd.DataFrame(temp.groupby(col + '_grp')[var].mean()).rename(columns = {var: var + '_fill'})

    if fill == 2:
        grp_stat = pd.DataFrame(temp.groupby(col + '_grp')[var].median()).rename(columns = {var: var + '_fill'})
    
    #分组补全
    temp = pd.merge(temp, grp_stat, how = 'left', left_on = col + '_grp', right_index = True)
    temp[var] = temp[var].fillna(temp[var + '_fill'])
    
    result = temp.drop([col + '_grp', var + '_fill'], axis = 1)
    
    return result

train_data['age'].describe().T
sub_1 = grp_value_imp(df = train_data, var = 'NumberOfDependents', col = 'age', bins = [-np.inf, 30, 40, 50, 60, 70, np.inf], fill = 2)

train_data['NumberRealEstateLoansOrLines'].describe([.90, .95, .99]).T
temp_2 = grp_value_imp(df = sub_1, var = 'MonthlyIncome', col = 'NumberRealEstateLoansOrLines', bins = [-np.inf, 0, 1, 2, 3, np.inf], fill = 2)
temp_2.isnull().sum()
 
  4.2.3模型预测补全 
  import lightgbm as lgb
def fill_missing(data, to_fill, fill_type):

# data: 输入数据名
# to_fill: 需要补全的变量名
# fill_type: 填充种类 （1. 分类； 2. 回归)

df = data.copy()
columns = data.columns.values.tolist()
columns.remove(to_fill)
X = df.loc[:,columns]
y = df.loc[:,to_fill]
X_train = X.loc[df[to_fill].notnull()]
X_pred = X.loc[df[to_fill].isnull()]
y_train = y.loc[df[to_fill].notnull()]
if fill_type == 1:
    model = lgb.LGBMClassifier()
else:
    model = lgb.LGBMRegressor()
model.fit(X_train,y_train)
pred = model.predict(X_pred).round()
df.loc[df[to_fill].isnull(), to_fill] = pred
return df
 
  4.2.4三种补全方法的比较 
  print(pd.DataFrame({'Original': train_data['NumberOfDependents'].describe([.9, .95, .99]),
                    'Single_value': temp_1['NumberOfDependents'].describe([.9, .95, .99]),
                    'Group_value': temp_2['NumberOfDependents'].describe([.9, .95, .99]),
                    'Model_Prediction': temp_3['NumberOfDependents'].describe([.9, .95, .99])}))

print(pd.DataFrame({'Original': train_data['MonthlyIncome'].describe([.9, .95, .99]),
                    'Single_value': temp_1['MonthlyIncome'].describe([.9, .95, .99]),
                    'Group_value': temp_2['MonthlyIncome'].describe([.9, .95, .99]),
                    'Model_Prediction': temp_3['MonthlyIncome'].describe([.9, .95, .99])}))
 
  
 如果不希望改变原始数据的分布，选择模型补全的方法。 
  5数据预处理 
  5.1数据集划分 
  原始数据集已经分好
 
  
  OOT = temp_3[temp_3.Sample == 2].drop(['Sample'], axis = 1)
DEV = temp_3[temp_3.Sample == 0].drop(['Sample'], axis = 1)
OOS = temp_3[temp_3.Sample == 1].drop(['Sample'], axis = 1)

#导出
DEV.to_csv("C:\Work Station\CDA\Spyder\Data\dev.csv")  
OOS.to_csv("C:\Work Station\CDA\Spyder\Data\oos.csv")  
OOT.to_csv("C:\Work Station\CDA\Spyder\Data\oot.csv")  
 
  5.2变量筛选 
  5.2.1IV值筛选 
  dev = pd.read_csv("dev.csv", index_col = 0, engine = "python")
from auto_bin import auto_bin
## 对每一个变量进行分析，选择合适的分箱个数
model_data.columns

# 自动分箱的添加
auto_col_bins = {"RevolvingUtilizationOfUnsecuredLines": 10,
                 "age": 7,
                 "DebtRatio": 10,
                 "MonthlyIncome": 9}

# 用来保存每个分组的分箱数据
bins_of_col = {}

# 生成自动分箱的分箱区间和分箱后的 IV 值
for col in auto_col_bins:
    # print(col)
    bins_df = auto_bin(dev, col, "SeriousDlqin2yrs",
                   n = auto_col_bins[col],
                   iv=False,detail=False,q=20)
    bins_list = list(sorted(set(bins_df["min"])\
                .union(bins_df["max"])))
    # 保证区间覆盖使用 np.inf 替换最大值 -np.inf 替换最小值
    bins_list[0],bins_list[-1] = -np.inf,np.inf
    bins_of_col[col] = bins_list

# 手动分箱的添加
# 不能使用自动分箱的变量
hand_bins = {
  "NumberOfTime30-59DaysPastDueNotWorse": [0, 1, 2, 3],
  "NumberOfOpenCreditLinesAndLoans": [0, 1, 3],
  "NumberOfTimes90DaysLate": [0, 1],
  "NumberRealEstateLoansOrLines": [0],
  "NumberOfTime60-89DaysPastDueNotWorse": [0, 1],
  "NumberOfDependents":[0, 1, 2, 3]}

# 保证区间覆盖使用 np.inf 替换最大值 以及  -np.inf 
hand_bins = {k:[-np.inf,*v, np.inf] for k,v in hand_bins.items()}

# 合并手动分箱数据
bins_of_col.update(hand_bins)
 
  # 计算分箱数据的 IV 值
def get_iv(df,col,y,bins):
    df = df[[col,y]].copy()
    df["cut"] = pd.cut(df[col],bins)
    bins_df = df.groupby("cut")[y].value_counts().unstack()
    bins_df["br"] = bins_df[1] / (bins_df[0] + bins_df[1])
    bins_df["woe"] = np.log((bins_df[0] / bins_df[0].sum()) /
                    (bins_df[1] / bins_df[1].sum()))
    iv = np.sum((bins_df[0] / bins_df[0].sum() -
    bins_df[1] / bins_df[1].sum())*bins_df.woe)
    return iv ,bins_df

# 保存 IV 值信息
info_values = {}
# 保存 woe 信息
woe_values = {}
for col in bins_of_col:
    iv_woe = get_iv(dev,col,
        "SeriousDlqin2yrs",
        bins_of_col[col])
    info_values[col], woe_values[col] = iv_woe

#画IV值直方图    
def plt_iv(info_values):
    keys,values = zip(*info_values.items())
    nums = range(len(keys))
    plt.barh(nums,values)
    plt.yticks(nums,keys)
    for i, v in enumerate(values):
        plt.text(v, i-.2, f"{v:.3f}")
plt_iv(info_values)
 
   
  删除iv值小于0.03的变量，这里不需要删除。 
  # DebtRatio为U型
#分析DebtRatio分布
sc.Eq_Bin_Plot(train_data = dev, test_data = dev, col = "DebtRatio", target = 'SeriousDlqin2yrs' , k = 10, special = 9999)
# For DebtRatio <= 1
sc.Eq_Bin_Plot(train_data = dev[dev.DebtRatio <= 1], test_data = dev[dev.DebtRatio <= 1], col = "DebtRatio", target = 'SeriousDlqin2yrs' , k = 5, special = 9999)   #单调上升
# For DebtRatio > 1
sc.Eq_Bin_Plot(train_data = dev[dev.DebtRatio > 1], test_data = dev[dev.DebtRatio > 1], col = "DebtRatio", target = 'SeriousDlqin2yrs' , k = 5, special = 9999)   #单调下降
# Sample Bias caused problem - DebtRatio资产负债越大风险越小？
#  资产负债高的已经在前面拒绝掉了，只能剔除此变量
 
  #分箱并WOE赋值
dev_woe = dev.copy()
for col in bins_of_col:
    dev_woe[col + '_woe'] = pd.cut(dev[col], bins_of_col[col])\
        .map(woe_values[col]["woe"])

oos = pd.read_csv('oos.csv', encoding="utf8", index_col = 0, engine = "python")
oos_woe = oos.copy()
for col in bins_of_col:
    oos_woe[col + '_woe'] = pd.cut(oos[col], bins_of_col[col])\
        .map(woe_values[col]["woe"])

oot = pd.read_csv('oot.csv', encoding="utf8", index_col = 0, engine = "python")
oot_woe = oot.copy()
for col in bins_of_col:
    oot_woe[col + '_woe'] = pd.cut(oot[col], bins_of_col[col])\
        .map(woe_values[col]["woe"])
       
dev_woe.to_csv("dev_woe.csv")
oos_woe.to_csv("oos_woe.csv")
oot_woe.to_csv("oot_woe.csv")
 
  5.2.2PSI筛选 
  dev_woe = pd.read_csv("dev_woe.csv", index_col = 0)
oos_woe = pd.read_csv("oos_woe.csv", index_col = 0)
oot_woe = pd.read_csv("oot_woe.csv", index_col = 0)

def PSI_Cal(df1,df2,var,grp):
    A=pd.DataFrame(df1.groupby(by=grp)[var].count()).rename(columns={var:var+'_1'})
    B=pd.DataFrame(df2.groupby(by=grp)[var].count()).rename(columns={var:var+'_2'})
    C=pd.merge(A,B,how='left',left_index=True,right_index=True)
    PSI_df=C/C.sum()
    PSI_df['log']=np.log(PSI_df[var+'_1'])/PSI_df[var+'_2']
    PSI_df['PSI']=(PSI_df[var+'_1']-PSI_df[var+'_2'])*PSI_df['log']
    return PSI_df['PSI'].sum()
    #变量名单
    v_list = dev.drop(['SeriousDlqin2yrs'], axis = 1).columns

#计算PSI
psi_list = []
for col in v_list:   
        psi = PSI_Cal(dev_woe, oos_woe, col, col + '_woe')
        psi_list.append(psi)
psi_df = pd.DataFrame(psi_list).rename(columns = {0: 'PSI'})
psi_df.index = v_list 
psi_df
 
  
 可以看出这些变量在不同的样本中都是比较稳定的。 
  6logistic模型的建立 
  6.1建立线性回归模型 
  import statsmodels.api as sm
# 只保留WOE数据
ll = []
for col in dev_woe.columns:
    if col.endswith("_woe"):
        ll.append(col)
data = dev_woe.loc[:,ll]
data["SeriousDlqin2yrs"] = dev_woe["SeriousDlqin2yrs"]
# Pearson Correlation
x_corr = data.drop('SeriousDlqin2yrs', axis = 1).corr()


import statsmodels.api as sm


Y = data['SeriousDlqin2yrs']
x_exclude = ["SeriousDlqin2yrs"]
x=data.drop(x_exclude,axis=1)
X=sm.add_constant(x)  #添加一个截距的列到现存的矩阵
result=sm.Logit(Y,X).fit()
result.summary()
 
  
 
 从上表可以看出，NumberOfOpenCreditLinesAndLoans_woe系数是正数，是多重共线性导致的，删除该变量。 
  x_exclude = ["SeriousDlqin2yrs","NumberOfOpenCreditLinesAndLoans_woe"]
x=data.drop(x_exclude,axis=1)
X=sm.add_constant(x)  #添加一个截距的列到现存的矩阵
result=sm.Logit(Y,X).fit()
result.summary()
 
  
 NumberOfDependents_woe>0.05,要不要删除呢？
 不需要。因为0.05本身只是约定俗成的，不是大于0.05就一定重要，模型重不重要是由人来确定的；对于预测型模型重点关注预测的结果、是否过拟合等问题，对变量本身的重要性不是很关心。 
  6.2检查多重共线性，VIF 
  from statsmodels.stats.outliers_influence import variance_inflation_factor
vif = {}
for i in range(x.shape[1]):
    vif[x.columns[i]] = variance_inflation_factor(np.array(x), i)
vif
 
  
 VIF都很小，其实VIF在这里检查不出来多重共线性。很多传统的方法，用到大数据上会失效。
 在回归中，为什么不能有多重共线性？
 因为在回归中，有个很大的假设，回归中的某个自变量X1系数w1表示挡其他自变量不变时，x1每增加1，因变量增加w1
 但是在实际中，多重共线性很普遍
 在树的模型中就不用考虑多重共线性 
  7模型评估 
  7.1ROC曲线&KS 
  def app_pred(df, x_list,y_col,result):
     '''
    :param df: 包含目标变量的数据集,dataframe
    :param x_list: 所有自变量的列名
    :param y_col: 目标变量,str
    :param result:返回包含预测值'prob'的df
    :return: KS值
    '''
    df=df.copy()
    ll = []
    for col in df.columns:
        if col.endswith("_woe"):
            ll.append(col)
    data = df.loc[:,ll]
    data[y_col] = df[y_col]
    x=data.drop([y_col],axis=1)
    x1=sm.add_constant(x)
    result=result.predict(x1)
    df['prob']=result
    return df
def KS(df, score, target):
    '''
    :param df: 包含目标变量与预测值的数据集,dataframe
    :param score: 得分或者概率,str
    :param target: 目标变量,str
    :return: KS值
    '''
    total = df.groupby([score])[target].count()
    bad = df.groupby([score])[target].sum()
    all = pd.DataFrame({'total':total, 'bad':bad})
    all['good'] = all['total'] - all['bad']
    all[score] = all.index
    all.index = range(len(all))
    all = all.sort_values(by=score,ascending=False)
    all['badCumRate'] = all['bad'].cumsum() / all['bad'].sum()
    all['goodCumRate'] = all['good'].cumsum() / all['good'].sum()
    KS = all.apply(lambda x: x.badCumRate - x.goodCumRate, axis=1)
    return max(KS)


import scikitplot as skplt
def ROC_plt(df, score, target):
    '''
    :param df: 包含目标变量与预测值的数据集,dataframe
    :param score: 得分或者概率,str
    :param target: 目标变量,str
    '''
    proba_df=pd.DataFrame(df[score])
    proba_df.columns=[1]
    proba_df.insert(0,0,1-proba_df)
    skplt.metrics.plot_roc(df[target], #y真实值
                       proba_df,  #y预测值
                      plot_micro=False, #绘制微平均ROC曲线
                      plot_macro=False); ##绘制宏观平均ROC曲线

#训练集预测
dev_woe.drop(["NumberOfOpenCreditLinesAndLoans_woe",'NumberOfOpenCreditLinesAndLoans'],axis=1,inplace=True)
dev_pred = app_pred(dev_woe, x_list,"SeriousDlqin2yrs",result)

#计算KS（Compare TPR and FPR - 不同阈值下检测出坏样本比例和检测错的好样本比例）
#We'd like TRP to be large and FRP otherwise
print(KS(dev_pred, "prob", "SeriousDlqin2yrs"))

#画ROC图，并计算AUC
ROC_plt(dev_pred, "prob", "SeriousDlqin2yrs")
 
  
 为什么有两条线呢？
 看你如何去定义好坏，1是好还是0是好 
  #测试集预测


oos_woe.drop(["NumberOfOpenCreditLinesAndLoans_woe",'NumberOfOpenCreditLinesAndLoans'],axis=1,inplace=True)
oos_pred = app_pred(oos_woe, x_list, "SeriousDlqin2yrs", result)

# 计算OOS的KS
print(KS(oos_pred, "prob", "SeriousDlqin2yrs"))

# 预测结果为对应 1 的概率，转换为数组用于绘图
ROC_plt(oos_pred, "prob", "SeriousDlqin2yrs")
 
  
 从同时间的测试集无法看出模型是否过拟合，还要看跨时间的测试集。 
  #跨时间测试集


oot_woe.drop(["NumberOfOpenCreditLinesAndLoans_woe",'NumberOfOpenCreditLinesAndLoans'],axis=1,inplace=True)
oot_pred = app_pred(oot_woe, x_list, "SeriousDlqin2yrs", result)
    
# 计算OOT的KS
print(KS(oot_pred, "prob", "SeriousDlqin2yrs"))
    
# 预测结果为对应 1 的概率，转换为数组用于绘图
ROC_plt(oot_pred, "prob", "SeriousDlqin2yrs")
 
  
 在现实中，跨时间测试集的Gini系数下降在10%以内，都是正常的。 
  8阈值选择 
  from sklearn.metrics import confusion_matrix,accuracy_score,precision_score,recall_score,f1_score
    #根据通过率选阈值
def ar_select(df,prob,ar):
    loc=int(df.shape[0]*ar)
    ordered=df.sort_values([prob]).reset_index()
    return ordered.loc[loc,prob]
#根据坏账率选阈值
def br_select(df,target,prob,br,ar=0.3,close=0.001):
    cutoff_list=sorted(list(set(df[prob])))
    ar_cutoff=ar_select(df,prob,ar)
    loc=cutoff_list.index(ar_cutoff)
    
    for i in range(loc,len(cutoff_list)):
        cutoff=cutoff_list[i]
        p=np.where(df[prob]>=cutoff,1,0)
        cm=confusion_matrix(df[target],p)
        bad_rate=cm[1][0]/(cm[0][0]+cm[1][0])
        if abs(bad_rate-br) cut_off1, 1, 0)  
cm(dev_pred, "SeriousDlqin2yrs", p_dev)
 
   
  #根据坏账率选择阈值
cut_off2 = br_select(dev_pred, "SeriousDlqin2yrs", 'prob', br = 0.03, close = 0.005) #0.03的坏账率
cut_off2
p_dev2 = np.where(dev_pred['prob'] > cut_off2, 1, 0)
cm(dev_pred, "SeriousDlqin2yrs", p_dev2)




#画通过率和坏账率的图
def plt_a_b(df,target,prob):
app_rate=np.linspace(0,0.99,100)
cut_off_list=[]
bad_rate=[]
for i in range(len(app_rate)):
    loc=int(df.shape[0]*app_rate[i])
    ordered=df.sort_values([prob]).reset_index()
    sub_cut_off=ordered.loc[loc,prob]
    cut_off_list.append(sub_cut_off)
    pre=np.where(df[prob]>=sub_cut_off,1,0)
    cm=confusion_matrix(df[target],pre)
    sub_bad_rate=cm[1][0]/(cm[0][0]+cm[1][0])
    bad_rate.append(sub_bad_rate)
data={'cut_off':cut_off_list,'app_rate':app_rate,'bad_rate':bad_rate}
ab_table=pd.DataFrame(data)
#设置rc动态参数
plt.rcParams['font.sans-serif']=['Simhei']  #显示中文
plt.rcParams['axes.unicode_minus']=False    #显示负号   
plt.plot(app_rate,bad_rate)
plt.xlabel("通过率")
plt.ylabel("坏账率")
return ab_table

cut_off_tab = plt_a_b(dev_pred, "SeriousDlqin2yrs", 'prob')
 
  
 
 根据业务部门期望的通过率或者是能够忍受的坏账率来选择对应的cut_off
 在这里选择通过率为73%，坏账率接近2%的cut_off2 = 0.057394
 注意：为了与业务相联系，通常坏账率转换为金额。 
  #计算测试集
def apply_cutoff(df,target,prob,cut_off):
    df=df.copy()
    pre=np.where(df[prob]>=cut_off,1,0)
    df['pre']=pre
    return df

cut_off2 = 0.057394
apply_cutoff(dev_pred, "SeriousDlqin2yrs", 'prob', cut_off2)
apply_cutoff(oos_pred, "SeriousDlqin2yrs", 'prob', cut_off2)
apply_cutoff(oot_pred, "SeriousDlqin2yrs", 'prob', cut_off2)

#测试集画通过率和坏账率的图
LR_ab_tab = plt_a_b(oos_pred, "SeriousDlqin2yrs", 'prob')

LR_ab_tab.to_csv("ab_tab_LR.csv")
 
   
  9信用评分 
   
   score=A-B*log(odds) 
   求解A,B需要两个假设: 
   1.特定违约概率下的预期分值 
   2.指定违约概率翻倍的分数PDO 
   
  base_odds=1/40
base_score=700
PDO=40
B=PDO/np.log(2)
A=base_score+B*np.log(base_odds)


del woe_values['NumberOfOpenCreditLinesAndLoans']

b_score = A - B*result.params["const"]

para=result.params[1:]
para.index=para.index.map(lambda x:x[:-4])


file = "ScoreData1.csv"
with open(file,"w") as fdata:
    fdata.write(f"base_score,{base_score}\n")
for col in para.index:
    score = woe_values[col]["woe"] * (-B*para[col])
    score.name = "Score"
    score.index.name = col
    score.to_csv(file,header=True,mode="a")

【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
几率odds与逻辑回归元气小地瓜
https://www.jianshu.com/p/aa73938f32ee几率odds从Odds角度理解LogisticRegression模型的参数13December20151.引言无论在学术界，还是在工业界，LogisticRegression(LR,逻辑回归)模型[1]是常用的分类模型，被用于各种分类场景和点击率预估问题等，它也是MaxEntropy(ME,最大熵)模型[2]，或者说So
分类算法可视化方法 dundunmm 数据挖掘分类数据挖掘人工智能可视化
可视化方法可以用于帮助理解分类算法的决策边界、性能和在不同数据集上的行为。下面列举几个常见的可视化方法。1.决策边界可视化这种方法用于可视化不同分类算法在二维特征空间中如何分隔不同类别。对于理解决策树、支持向量机（SVM）、逻辑回归和k近邻（k-NN）等模型的行为非常有用。importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasets
【机器学习】广义线性模型（GLM）的基本概念以及广义线性模型在python中的实例（包含statsmodels和scikit-learn实现逻辑回归） Lossya 机器学习 python scikit-learn 线性回归人工智能逻辑回归
引言GLM扩展了传统的线性回归模型，使其能够处理更复杂的数据类型和分布文章目录引言一、广义线性模型1.1定义1.2广义线性模型的组成1.2.1响应变量（ResponseVariable）1.2.2链接函数（LinkFunction）1.2.3线性预测器（LinearPredictor）1.3常见的广义线性模型1.3.1线性回归1.3.2逻辑回归1.3.3泊松回归1.4GLM的特性1.5广义线性模型
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
亦菲喊你来学机器学习（20） --PCA数据降维方世恩机器学习人工智能深度学习 python 算法 sklearn
文章目录PCA数据降维一、降维二、优缺点三、参数四、实例应用1.读取文件2.分离特征和目标变量3.使用PCA进行降维4.打印特征所占百分比和具体比例5.PCA降维后的数据6.划分数据集7.训练逻辑回归模型8.评估模型性能总结PCA数据降维主成分分析（PrincipalComponentAnalysis,PCA）是一种常用的数据降维技术，它可以在保留数据集中最重要的特征的同时，减少数据的维度。PCA
R语言多项逻辑回归-因变量是无序多分类医学和生信笔记医学统计学 r语言医学统计学
因变量是无序多分类资料（＞2）时，可使用多分类逻辑回归（multinomiallogisticregression）。使用课本例16-5的数据，课本电子版及数据已上传到QQ群，自行下载即可。某研究人员欲了解不同社区和性别之间居民获取健康知识的途径是否相同，对2个社区的314名成人进行了调查，其中X1是社区，社区1用0表示，社区2用1表示；X2是性别，0是男，1是女，Y是获取健康知识途径，1是传统大
备战2024数学建模国赛（模型三十）：遗传算法优秀案例（三）变循环发动机部件法建模及优化 2024年数学建模国赛备战2024数学建模国赛 2024数学建模（不代写论文请勿盲目订阅）数学建模 2024年数学建模国赛备战数学建模国赛算法遗传算法 2024
专栏内容(赛前预售价99，比赛期间299):2024数学建模国赛期间会发布思路、代码和优秀论文。（本专栏达不到国一的水平，适用于有一点点基础冲击省奖的同学，近两年有二十几个国二，但是达不到国一，普遍获得省奖，请勿盲目订阅）python全套教程（一百篇博客）：从新手到掌握使用python，可以对数学建模问题进行建模分析。35套模型算法（优秀论文示例）：马尔科夫模型、遗传算法、逻辑回归、逐步回归、蚁群
R实现线性回归逻辑回归 weixin_55475210 r语言线性回归逻辑回归
线性回归基本模型Y=β0+β1X1+β2X2+⋯+βmXm+ϵY=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_mX_m+\epsilonY=β0+β1X1+β2X2+⋯+βmXm+ϵYYY为因变量X1,X2,…,XmX_1,X_2,\ldots,X_mX1,X2,…,Xm为m个自变量ϵ\epsilonϵ为残差lm()函数用于完成多元线性回归系数估计，回归系
备战2024数学建模国赛（模型十五）：模糊综合评价优秀案例（一）确定汽车装配顺序问题的算法 2024年数学建模国赛备战2024数学建模国赛 2024数学建模（持续更新耐心等待）数学建模汽车算法 2024数学建模国赛备战2024数学建模国赛模糊综合评价模型
专栏内容(赛前预售价99，比赛期间299):2024数学建模国赛期间会发布思路、代码和优秀论文。（本专栏达不到国一的水平，适用于有一点点基础冲击省奖的同学，近两年有二十几个国二，但是达不到国一，普遍获得省奖，请勿盲目订阅）python全套教程（一百篇博客）：从新手到掌握使用python，可以对数学建模问题进行建模分析。35套模型算法（优秀论文示例）：马尔科夫模型、遗传算法、逻辑回归、逐步回归、蚁群
备战2024数学建模国赛（模型十九）：排队论优秀案例（一）火车票购票网站优化 2024年数学建模国赛备战2024数学建模国赛备战2024数学建模数学建模 2024年数学建模国赛 2024 数学建模国赛马尔科夫模型排队论
专栏内容(赛前预售价99，比赛期间299):2024数学建模国赛期间会发布思路、代码和优秀论文。（本专栏达不到国一的水平，适用于有一点点基础冲击省奖的同学，近两年有二十几个国二，但是达不到国一，普遍获得省奖，请勿盲目订阅）python全套教程（一百篇博客）：从新手到掌握使用python，可以对数学建模问题进行建模分析。35套模型算法（优秀论文示例）：马尔科夫模型、遗传算法、逻辑回归、逐步回归、蚁群
备战2024数学建模国赛（模型二十五）：微分方程优秀案例（一）基于非稳态导热的高温作业专用服装设计 2024年数学建模国赛备战2024数学建模国赛备战2024数学建模数学建模人工智能备战2024数学建模国赛深度学习数学建模国赛 2024
专栏内容(赛前预售价99，比赛期间299):2024数学建模国赛期间会发布思路、代码和优秀论文。（本专栏达不到国一的水平，适用于有一点点基础冲击省奖的同学，近两年有二十几个国二，但是达不到国一，普遍获得省奖，请勿盲目订阅）python全套教程（一百篇博客）：从新手到掌握使用python，可以对数学建模问题进行建模分析。35套模型算法（优秀论文示例）：马尔科夫模型、遗传算法、逻辑回归、逐步回归、蚁群
备战2024数学建模国赛（模型四）：动态规划优秀案例（一）基于蒙特卡洛模拟的眼科病床安排排队模型 2024年数学建模国赛备战2024数学建模国赛备战2024数学建模数学建模动态规划算法 2024 2024年数学建模国赛备战数学建模竞赛 matlab
专栏内容(赛前预售价99，比赛期间299):2024数学建模国赛期间会发布思路、代码和优秀论文。（本专栏达不到国一的水平，适用于有一点点基础冲击省奖的同学，近两年有二十几个国二，但是达不到国一，普遍获得省奖，请勿盲目订阅）python全套教程（一百篇博客）：从新手到掌握使用python，可以对数学建模问题进行建模分析。35套模型算法（优秀论文示例）：马尔科夫模型、遗传算法、逻辑回归、逐步回归、蚁群
推荐Rerank二次重排序算法陈敬雷-充电了么-CEO兼CTO 算法人工智能 hadoop 机器学习人工智能大数据数据挖掘编程语言
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】推荐Rerank二次重排序算法前言推荐的Rerank排序有两种情况，一个是离线计算的时候为每个用户提前用Rerank排序算法算好推荐结果，另一个是在实时在线Web推荐引擎里做二次融合排序的时候。但不管哪一种用到的算法是一样的。比如用逻辑回归、随机森
数据分析项目——物流数据行业数据分析 ~在杰难逃~ 数据分析数据挖掘 python numpy pandas 大数据
提升自己，掌握数据分析的能力，最快的方式就是实践！这里又是一个经典的数据分析项目——物流数据行业数据分析，有需要项目配套数据集的可以关注私信我免费获取(●'◡'●)PS：本文中全部代码都在JupyterNotebook中编写完成，可以使用JupyterNotebook或者JupyterLab直接运行。数据来源：某企业销售的6种商品所对应的送货及用户反馈数据首先我们还是确定下我们需要做些什么一、解决
【摸鱼笔记】python 提取和采集 finereport 未绑定目录的报表模板 The_Singing_Towers 笔记 python 开发语言
背景在企业应用过程中，报表一般会按照数据分析的主题、项目将多个报表放在一处，一些图表类报表会有通过超链接等方式，跳转到对应的明细报表中。并且在正式的使用中，这些报表不会绑定到目录。在梳理数据分析项目使用情况时这些报表会难以辨认所属的项目，因为即使按照很标准的方式【将同一项目的报表放在同一目录】也会有数据分析项目相互包含的问题影响梳理的工作量。同时在finelogDB的访问记录中displayNam
python logistic regression_机器学习算法与Python实践之逻辑回归（Logistic Regression） weixin_39702649 python logistic regression
机器学习算法与Python实践这个系列主要是参考下载地址：https://bbs.pinggu.org/thread-2256090-1-1.html一、逻辑回归(LogisticRegression)Logisticregression(逻辑回归)是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测，也就是根据某广告被用户点击的可能性，把
Logistic分类算法原理及Python实践 doublexiao79 数据分析与挖掘分类 python 数据挖掘
一、Logistic分类算法原理Logistic分类算法，也称为逻辑回归（LogisticRegression），是机器学习中的一种经典分类算法，主要用于解决二分类问题。其原理基于线性回归和逻辑函数（Sigmoid函数）的组合，能够将输入特征的线性组合映射到一个概率范围内，从而进行分类预测。以下是Logistic分类算法的主要原理：1.线性组合首先，对于输入的n个特征，我们将其表示为一个n维的列向
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
备战2024数学建模国赛（模型十八）：拟合模型优秀案例（二）高温作业服设计 2024年数学建模国赛备战2024数学建模国赛备战2024数学建模数学建模 2024年数学建模国赛数学建模国赛算法拟合模型
专栏内容(赛前预售价99，比赛期间299):2024数学建模国赛期间会发布思路、代码和优秀论文。（本专栏达不到国一的水平，适用于有一点点基础冲击省奖的同学，近两年有二十几个国二，但是达不到国一，普遍获得省奖，请勿盲目订阅）python全套教程（一百篇博客）：从新手到掌握使用python，可以对数学建模问题进行建模分析。35套模型算法（优秀论文示例）：马尔科夫模型、遗传算法、逻辑回归、逐步回归、蚁群
备战2024数学建模国赛（模型六）：多元回归优秀案例（一）颜色与物质浓度的辨识问题 2024年数学建模国赛备战2024数学建模国赛备战2024数学建模数学建模多元回归 2024数学建模国赛 2024 matlab 备战数学建模国赛国赛思路代码
专栏内容(赛前预售价99，比赛期间299):2024数学建模国赛期间会发布思路、代码和优秀论文。（本专栏达不到国一的水平，适用于有一点点基础冲击省奖的同学，近两年有二十几个国二，但是达不到国一，普遍获得省奖，请勿盲目订阅）python全套教程（一百篇博客）：从新手到掌握使用python，可以对数学建模问题进行建模分析。35套模型算法（优秀论文示例）：马尔科夫模型、遗传算法、逻辑回归、逐步回归、蚁群
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
深度学习100问13:什么是二分类问题不断持续学习ing 人工智能机器学习自然语言处理
嘿，你知道二分类问题不？这就像是一个“超级裁判”，要把东西分成两大类。一、定义及举例想象一下，生活中有很多时候我们得决定一个东西到底属于哪一边。就像判断一封邮件，是“垃圾邮件”呢，还是“正常邮件”；或者看看一个病人，是“得了某种病”呢，还是“没得病”。二、解决方法要解决二分类问题呀，我们可以找来一些“魔法工具”，也就是机器学习算法。像逻辑回归啦、支持向量机啦、决策树啦等等。这些算法就像聪明的小助手
机器学习算法深度总结(5)-逻辑回归婉妃
1.模型定义逻辑回归属于基于概率分类的学习法.基于概率的模式识别是指对模式x所对应的类别y的后验概率禁行学习.其所属类别为后验概率最大时的类别:预测类别的后验概率,可理解为模式x所属类别y的可信度.逻辑回归(logistic),使用线性对数函数对分类后验概率进行模型化:上式,分母是满足概率总和为1的约束条件的正则化项,参数向量维数为:考虑二分类问题:使用上述关系式,logistic模型的参数个数从
【ShuQiHere】从零开始实现逻辑回归：深入理解反向传播与梯度下降 ShuQiHere 代码武士的机器学习秘传逻辑回归算法机器学习
【ShuQiHere】逻辑回归是机器学习中一个经典的分类算法，尽管它的名字中带有“回归”，但它的主要用途是处理二分类问题。逻辑回归通过一个逻辑函数（Sigmoid函数）将输入特征映射到一个概率值上，然后根据这个概率值进行分类。本文将带你从零开始一步步实现逻辑回归，并深入探讨背后的核心算法——反向传播与梯度下降。逻辑回归的数学基础逻辑回归的目标是找到一个逻辑函数，能够将输入特征映射到一个(0,1)之
【ShuQiHere】《机器学习的进化史『下』：从神经网络到深度学习的飞跃》 ShuQiHere 机器学习深度学习神经网络
【ShuQiHere】引言：神经网络与深度学习的兴起在上篇文章中，我们回顾了机器学习的起源与传统模型的发展历程，如线性回归、逻辑回归和支持向量机（SVM）。然而，随着数据规模的急剧增长和计算能力的提升，传统模型在处理复杂问题时显得力不从心。在这种背景下，神经网络重新进入了研究者们的视野，并逐步演变为深度学习，成为解决复杂问题的强大工具。今天，我们将进一步探索从神经网络到深度学习的进化历程，揭示这些
机器学习（ML）算法分类活蹦乱跳酸菜鱼机器学习
机器学习（ML）算法是一个广泛而多样的领域，涵盖了多种用于数据分析和模式识别的技术。以下是一些常见的机器学习算法分类及其具体算法：一、监督学习算法监督学习算法使用标记（即已知结果）的训练数据来训练模型，以便对新数据进行预测。线性回归：用于建立连续变量之间的关系，通过拟合一条直线或超平面来预测新数据的输出值。逻辑回归：虽然名称中包含“回归”，但实际上是用于分类问题，特别是二分类问题。通过将线性回归模
机器学习——逻辑回归 wsdswzj 机器学习逻辑回归人工智能
目录一、逻辑回归1.1、模型原理1.2、损失函数二、实例2.1、定义sigmoid函数2.2、数据集2.3、梯度上升算法2.4、预测函数2.5、绘画函数三、代码运行结果：四、总结优点：缺点：一、逻辑回归逻辑回归是一种广义的线性回归分析模型，用于解决二分类或多分类问题。逻辑回归模型，尽管名字中包含“回归”二字，实际上是一种分类方法，特别是用于处理二分类问题。它通过将线性回归的结果通过某种函数映射到(
机器学习中的逻辑回归极客李华机器学习机器学习逻辑回归人工智能
机器学习中的逻辑回归简介逻辑回归是机器学习领域中一种用于二分类问题的常用算法。尽管其名字中包含"回归"一词，但实际上，逻辑回归是一种分类算法，用于估计输入特征与某个事件发生的概率之间的关系。本文将深入讲解逻辑回归的原理、实际应用以及使用Python进行实现的代码。逻辑回归的基本原理逻辑回归的目标是建立一个能够预测输出为二分类标签的模型。它采用逻辑函数（也称为sigmoid函数）将线性组合的特征映射
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

申请者评分模型(A卡)开发（基于逻辑回归）

申请者评分模型(A卡)开发（基于逻辑回归）

1项目背景

2开发流程

3数据准备

3.1样本选取

3.2数据说明

3.3定义目标变量

3.3.1定义违约日期时长（表现时间窗口）

3.3.2定义观察时间窗口

3.3.4好坏客户标签（y）的定义

4探索性数据分析

4.1异常值

4.2缺失值

4.2.1单一值补全

4.2.2分组补全

4.2.3模型预测补全

4.2.4三种补全方法的比较

5数据预处理

5.1数据集划分

5.2变量筛选

5.2.1IV值筛选

5.2.2PSI筛选

6logistic模型的建立

6.1建立线性回归模型

6.2检查多重共线性，VIF

7模型评估

7.1ROC曲线&KS

8阈值选择

9信用评分

你可能感兴趣的:(数据分析项目,评分卡,逻辑回归)