小力丸

信用标准评分卡模型开发及实现

一、信用风险评级模型的类型

信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成，其中主体评级模型可用“四张卡”来表示，分别是A卡、B卡、C卡和F卡；债项评级模型通常按照主体的融资用途，分为企业融资模型、现金流融资模型和项目融资模型等。
A卡，又称为申请者评级模型，主要应用于相关融资类业务中新用户的主体评级，适用于个人和机构融资主体。
B卡，又称为行为评级模型，主要应用于相关融资类业务中存量客户在续存期内的管理，如对客户可能出现的逾期、延期等行为进行预测，仅适用于个人融资主体。
C卡，又称为催收评级模型，主要应用于相关融资类业务中存量客户是否需要催收的预测管理，仅适用于个人融资主体。
F卡，又称为欺诈评级模型，主要应用于相关融资类业务中新客户可能存在的欺诈行为的预测管理，适用于个人和机构融资主体。
我们主要讨论主体评级模型的开发过程。

二、信用风险评级模型开发流程概述

典型的评级模型开发流程如图2.1所示。该流程中各个步骤的顺序可根据具体情况的不同进行适当调整，也可以根据需要重复某些步骤。
信用风险评级模型的主要开发流程如下：
（1）数据获取，包括获取存量客户及潜在客户的数据。存量客户是指已经在证券公司开展相关融资类业务的客户，包括个人客户和机构客户；潜在客户是指未来拟在证券公司开展相关融资类业务的客户，主要包括机构客户，这也是解决证券业样本较少的常用方法，这些潜在机构客户包括上市公司、公开发行债券的发债主体、新三板上市公司、区域股权交易中心挂牌公司、非标融资机构等。
（2） EDA（探索性数据分析）与数据描述，该步骤主要是获取样本总体的大概情况，以便制定样本总体的数据预处理方法。描述样本总体情况的指标主要有缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等。
（3）数据预处理，主要工作包括数据清洗、缺失值处理、异常值处理，主要是为了将获取的原始数据转化为可用作模型开发的格式化数据。
（4）变量选择，该步骤主要是通过统计学的方法，筛选出对违约状态影响最显著的指标。
（5）模型开发，该步骤主要包括变量分段、变量的WOE（证据权重）变换和逻辑回归估算三部分。
（6）主标尺与模型验证，该步骤主要是开发某类主体的主标尺并进行模型的验证与校准。
（7）模型评估，该步骤主要是根据模型验证和主标尺设计的结果，评估模型的区分能力、预测能力、稳定性，并形成模型评估报告，得出模型是否可以使用的结论。
（8）模型实施，即模型的部署和应用。
（9）监测与报告，该步骤主要工作是定期检测模型的使用情况，并关注和定期检验模型的区分能力与预测能力的变化及模型稳定性的变化，在出现模型可能不能满足业务需求的情况时，反馈至模型开发团队，及时进行模型更新或重新开发。

图2.1 评级模型开发流程

三、基于Logistic回归的标准评分卡模型开发实现

3.1 明确要解决的问题

在开发信用风险评级模型（包括个人和机构）之前，首先要明确我们需要解决的问题。因为，个人信用风险评级模型包括申请者评级、行为评级、催收评级、欺诈评级等几类，开发每一类评级模型所需要的数据也是不同的，例如开发个人申请者评级模型需要的是个人客户申请融资类业务时提交的数据，开发个人行为评级模型需要的是存量个人客户的历史行为数据，这两部分数据及需要解决的问题，也存在较大的差异。因此，在开发信用风险评级模型之前，我们需要明确开发模型的类型。此处以开发个人客户的申请者评级模型为例，来详细讲述此类模型的开发过程。
开发申请者评分模型所需要的数据是个人客户申请融资类业务时所需的数据，包括反映个人还款意愿的定性数据，应用申请者评分模型的目的是预测该申请客户在未来一段时间发生违约的概率。
我们做预测模型的一个基本原理是用历史数据来预测未来，申请者评分模型需要解决的问题是未来一段时间（如12个月）融资人出现违约（如至少一次90天或90天以上逾期）的概率。在这个需求中，“未来一段时间”为表现时间窗口（performance window），“融资人出现至少一次90天或90天以上逾期”为观察时间窗口（sample window）。个人主体的违约跟个人行为习惯有很大的相关性，因此我们可以通过分析个人样本总体中客户的历史我违约频率来确定表现时间窗口和观察时间窗口。这两个窗口的确定对于我们要解决的问题，有着非常重要的影响，我们将放在第二步中结合具体的数据来分析，并讲述具体的确定方法。

3.2 数据描述和探索性数据分析

数据准备和数据预处理是整个信用风险模型开发过程中最重要也是最耗时的工作了。通常情况下，数据准备和数据预处理阶段消耗的时间占整个模型开发时间的80%以上，该阶段主要的工作包括数据获取、探索性数据分析、缺失值处理、数据校准、数据抽样、数据转换，还包括离散变量的降维、连续变量的优先分段等工作。
明确了要解决的问题后，接下来我们就要搜集相关的数据了。此处，我们以互联网上经常被用来研究信用风险评级模型的加州大学机器学习数据库中的german credit data为例，来详细讲述个人客户信用风险评级模型的开发方法。
German credit data 的数据来自”klaR”包

install.packages(“klaR”)
library(“klaR”)
data(GermanCredit)
View(GermanCredit)      #查看该数据集

该数据集包含了1000个样本，每个样本包括了21个变量（属性），其中包括1个违约状态变量“credit_risk”，剩余20个变量包括了所有的定量和定性指标，分别如表3.1所示。

接下来，我们需要检查数据的质量，主要包括缺失值情况、异常值情况及其他处理方法。缺失值和异常值处理的基本原则是处理前后的分布总体保持一致。

3.21 用户数据的缺失值处理：

http://blog.csdn.net/lll1528238733/article/details/76599626

3.22 用户数据的异常值处理：

http://blog.csdn.net/lll1528238733/article/details/76599792

需要特别说明的是，在实际的样本搜集和数据预处理中，我们应该首先对个人客户的违约做出定义，并根据对违约的定义对搜集的样本进行必要的校准。一般情况下，我们搜集的数据为非标准化的数据，如表3.2所示，该表中假设搜集的是前10个客户在两年内的历史违约情况。

在表3.2所示的数据集中，如果我们假设连续出现三个月逾期可被定义为违约，则客户6至客户9可被确认为违约。然而，为了明确违约的概念，我们还需要确定基准时间和观察时间窗口。如果当前时间是2016年7月末，则只有6和7两个客户为违约，其他客户均属于正常客户，如果当前时间是2016年9月末，则只有6、7、8三个客户为违约，客户9已经自愈，则再次变成正常客户。
结合上述分析，在明确评分卡要解决的实际问题时，还应该确定表现时间窗口和观察时间窗口，而这两个窗口的确定，需要根据我们搜集的数据来具体确定。他们的确定方法，分别如下：
在确定变现时间窗口的长度时，我们通常需要客户从开始开立融资类业务时到最近时间点（或至少两年以上的历史逾期情况）的逾期表现，用图形表示，如图3.7所示。

按照图3.7所示的表现时间窗口的定义方法，我们对样本总体进行统计分析，以逾期90天定义为违约，会得出表3.3所示的统计结果。

表3.3中8月最后一列数据3.48%表示，2.1日开立的所有账户中，8个月后出现逾期90天以上的账户占样本的比重为3.48%。我们通过这样统计方法，并绘制样本总体的违约状态变化曲线，即可得到如图3.8所示的曲线。从图3.8所示的曲线中我们可以看出，在账户开立第11个月到第13个月时，客户的违约状态达到稳定状态，曲线变得非常平稳。此时，我们可以确定评分卡的表现时间窗口为11个月到13个月，即我们将违约状态变得稳定的时间段确定为表现时间窗口。这种方法可使我们开发的评分卡模型的区分能力和预测能力准确性均达到最优稳定状态。

由图3.8的曲线可以看出，客户开立融资类业务的账户的起始阶段发生违约的频率是不断增多的，但随着时间的推移发生违约的客户的占比处于稳定状态。那么，我们在开发信用风险评分卡模型时，需要选择客户违约处于稳定状态的时间点来作为最优表现时间窗口，这样既可以最大限度地降低模型的不稳定性，也可以避免低估最终的违约样本的比率。例如，当我们选择表现时间窗口为6个月时，样本总体中的违约样本占比仅为3%左右，而实际违约样本占比约为4.5%。
上例中，观察时间窗口我们确定为90天，当然也可以是60天或30天，但当观察时间窗口确定为30天时，客户的违约状态将会更快地达到稳定状态。如果我们按照某个监管协议（如巴塞尔协议）的要求开发信用风险评分卡模型，则观察时间窗口也要按照监管协议的要求确定。除此之外，观察时间窗口的确定要根据样本总体和证券公司的风险偏好综合考虑确定。但在个人信用风险评级模型开发领域，大多数将逾期90天及以上定义为个人客户的违约状态。
以上讲的都是开发申请者评分卡模型时表现时间窗口的确定方法，在开发个人客户的行为评分卡和催收评分卡模型时，表现时间窗口的确定方法也算是类似的。但开发这两类模型时，表现时间窗口的长度却跟申请者评分模型有较大不同，如催收评分卡模型的表现时间窗口通常设定为2周，甚至更短的时间。因为实际业务开展过程中，通常客户逾期超过2周，就要启动催收程序了。
个人客户的信用风险评级模型开发进行至此时，我们已经得到了没有缺失值和异常值的样本总体，违约的定义确定了，表现时间窗口和观察时间窗口也确定了。接下来，我们将进入评分卡模型开发的第三步数据集准备阶段了。

3.3 数据集准备

在缺失值和处理完成后，我们就得到了可用作信用风险评级模型开发的样本总体。通常为了验证评级模型的区分能力和预测准确性，我们需要将样本总体分为样本集和测试集，这种分类方法被称为样本抽样。常用的样本抽样方法包括简单随机抽样、分层抽样和整群抽样三种。

数据集准备：
http://blog.csdn.net/lll1528238733/article/details/76599861

3.4 变量筛选

模型开发的前三步主要讲的是数据处理的方法，从第四步开始我们将逐步讲述模型开发的方法。在进行模型开发时，并非我们收集的每个指标都会用作模型开发，而是需要从收集的所有指标中筛选出对违约状态影响最大的指标，作为入模指标来开发模型。接下来，我们将分别介绍定量指标和定性指标的筛选方法。

3.41 定量指标的筛选方法

http://blog.csdn.net/lll1528238733/article/details/76600019

3.42 定性指标的筛选方法

http://blog.csdn.net/lll1528238733/article/details/76600147

3.5 WOE值计算

对入模的定量和定性指标，分别进行连续变量分段（对定量指标进行分段），以便于计算定量指标的WOE和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段和最优分段两种方法。等距分段是指将连续变量分为等距离的若干区间，然后在分别计算每个区间的WOE值。最优分段是指根据变量的分布属性，并结合该变量对违约状态变量预测能力的变化，按照一定的规则将属性接近的数值聚在一起，形成距离不相等的若干区间，最终得到对违约状态变量预测能力最强的最优分段。
我们首先选择对连续变量进行最优分段，在连续变量的分布不满足最优分段的要求时，在考虑对连续变量进行等距分段。此处，我们讲述的连续变量最优分段算法是基于条件推理树（conditional inference trees, Ctree）的递归分割算法，其基本原理是根据自变量的连续分布与因变量的二元分布之间的关系，采用递归的回归分析方法，逐层递归满足给定的显著性水平，此时获取的分段结果（位于Ctree的叶节点上）即为连续变量的最优分段。其核心算法用函数ctree()表示。

评分卡模型开发-WOE值计算：
http://blog.csdn.net/lll1528238733/article/details/76600598

3.6 基于逻辑回归的标准评分卡实现

由逻辑回归的基本原理，我们将客户违约的概率表示为p，则正常的概率为1-p。因此，可以得到：

此时，客户违约的概率p可表示为：

评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义，即可表示为下式：

其中，A和B是常数。式中的负号可以使得违约概率越低，得分越高。通常情况下，这是分值的理想变动方向，即高分值代表低风险，低分值代表高风险。
逻辑回归模型计算比率如下所示：

其中，用建模参数拟合模型可以得到模型参数 β0，β1，…，βn。
式中的常数A、B的值可以通过将两个已知或假设的分值带入计算得到。通常情况下，需要设定两个假设：
（1）给某个特定的比率设定特定的预期分值；
（2）确定比率翻番的分数（PDO）
根据以上的分析，我们首先假设比率为x的特定点的分值为P。则比率为2x的点的分值应该为P+PDO。代入式中，可以得到如下两个等式：

假设设定评分卡刻度使得比率为{1:20}（违约正常比）时的分值为50分，PDO为10分，代入式中求得：B=14.43，A=6.78
则分值的计算公式可表示为：

评分卡刻度参数A和B确定以后，就可以计算比率和违约概率，以及对应的分值了。通常将常数A称为补偿，常数B称为刻度。
则评分卡的分值可表达为：

式中：变量 x1…xn 是出现在最终模型中的自变量，即为入模指标。由于此时所有变量都用WOE转换进行了转换，可以将这些自变量中的每一个都写 (βiωij)δij 的形式：

式中 ωij 为第i行第j个变量的WOE，为已知变量； βi 为逻辑回归方程中的系数，为已知变量； δij 为二元变量，表示变量i是否取第j个值。上式可重新表示为：

此式即为最终评分卡公式。如果 x1…xn 变量取不同行并计算其WOE值，式中表示的标准评分卡格式，如表3.20所示：
表3.20表明，变量 x1有k1行，变量x2有k2行，以此类推；基础分值等于 (A−Bβ0) ；由于分值分配公式中的负号，模型参数 β0，β1，…，βn 也应该是负值；变量 xi 的第j行的分值取决于以下三个数值：

（1）刻度因子B；
（2）逻辑回归方程的参数 βi ；
（3）该行的WOE值， ωij
综上，我们详细讲述了模型开发及生成标准评分卡各步骤的处理结果，自动生成标准评分卡的R完整代码：

library(klaR)
library(InformationValue)
data(GermanCredit)
train_kfold<-sample(nrow(GermanCredit),800,replace = F)
train_kfolddata<-GermanCredit[train_kfold,]   #提取样本数据集
test_kfolddata<-GermanCredit[-train_kfold,]   #提取测试数据集
credit_risk<-ifelse(train_kfolddata[,"credit_risk"]=="good",0,1)
#将违约样本用“1”表示，正常样本用“0”表示。
tmp<-train_kfolddata[,-21]
data<-cbind(tmp,credit_risk)
quant_vars<-c("duration","amount","installment_rate","present_residence","age",
              "number_credits","people_liable","credit_risk")
             #获取定量指标
quant_GermanCredit<-data[,quant_vars]  #提取定量指标

#逐步回归法，获取自变量中对违约状态影响最显著的指标
base.mod<-lm(credit_risk~1,data = quant_GermanCredit)
#获取线性回归模型的截距
all.mod<-lm(credit_risk~.,data = quant_GermanCredit)
#获取完整的线性回归模型
stepMod<-step(base.mod,scope = list(lower=base.mod,upper=all.mod),
              direction = "both",trace = 0,steps = 1000)
#采用双向逐步回归法，筛选变量
shortlistedVars<-names(unlist(stepMod[[1]]))
#获取逐步回归得到的变量列表
shortlistedVars<-shortlistedVars[!shortlistedVars %in%"(Intercept)"]
#删除逐步回归的截距
print(shortlistedVars)
#输出逐步回归后得到的变量
quant_model_vars<-c("duration","amount","installment_rate","age")
#完成定量入模指标
#提取数据集中全部的定性指标
factor_vars<-c("status","credit_history","purpose","savings","employment_duration",
               "personal_status_sex","other_debtors","property",
               "other_installment_plans","housing","job","telephone","foreign_worker")
               #获取所有名义变量
all_iv<-data.frame(VARS=factor_vars,IV=numeric(length(factor_vars)),
                   STRENGTH=character(length(factor_vars)),stringsAsFactors = F)
                  #初始化待输出的数据框
for(factor_var in factor_vars)
{
  all_iv[all_iv$VARS==factor_var,"IV"]<-InformationValue::IV(X=
  data[,factor_var],Y=data$credit_risk)  
  #计算每个指标的IV值
  all_iv[all_iv$VARS==factor_var,"STRENGTH"]<-attr(InformationValue::IV(X=
  data[,factor_var],Y=data$credit_risk),"howgood")  
  #提取每个IV指标的描述
}
all_iv<-all_iv[order(-all_iv$IV),]    #排序IV
qual_model_vars<-subset(all_iv,STRENGTH=="Highly Predictive")[1:5,]
qual_model_vars<-c("status","credit_history","savings","purpose","property")

#连续变量分段和离散变量降维
#1.变量duration
library(smbinning)
result<-smbinning(df=data,y="credit_risk",x="duration",p=0.05)
result$ivtable

duration_Cutpoint<-c()
duration_WoE<-c()
duration<-data[,"duration"]
for(i in 1:length(duration))
{
  if(duration[i]<=8)
  {
    duration_Cutpoint[i]<-"<= 8"
    duration_WoE[i]<--1.5670
  }
  if(duration[i]<=33&duration[i]>8)
  {
    duration_Cutpoint[i]<-"<= 33"
    duration_WoE[i]<--0.0924
  }
  if(duration[i]> 33)
  {
    duration_Cutpoint[i]<-"> 33"
    duration_WoE[i]<-0.7863
  }
}
#2.变量amount
result<-smbinning(df=data,y="credit_risk",x="amount",p=0.05)
result$ivtable
amount_Cutpoint<-c()
amount_WoE<-c()
amount<-data[,"amount"]
for(i in 1:length(amount))
{
  if(amount[i]<= 3913)
  {
    amount_Cutpoint[i]<-"<= 3913"
    amount_WoE[i]<--0.2536
  }
  if(amount[i]<= 9283&amount[i]> 3913)
  {
    amount_Cutpoint[i]<-"<= 9283"
    amount_WoE[i]<-0.4477
  }
  if(amount[i]> 9283)
  {
    amount_Cutpoint[i]<-"> 9283"
    amount_WoE[i]<-1.3109
  }
}
#3.变量age
result<-smbinning(df=data,y="credit_risk",x="age",p=0.05)
result$ivtable
age_Cutpoint<-c()
age_WoE<-c()
age<-data[,"age"]
for(i in 1:length(age))
{
  if(age[i]<= 34)
  {
    age_Cutpoint[i]<-"<= 34"
    age_WoE[i]<-0.2279
  }
  if(age[i] > 34)
  {
    age_Cutpoint[i]<-" > 34"
    age_WoE[i]<--0.3059
  }
}
#4.变量installment_rate等距分段
install_data<-data[,c("installment_rate","credit_risk")]
tb1<-table(install_data)
total<-list()
for(i in 1:nrow(tb1))
{
  total[i]<-sum(tb1[i,])
}
t.tb1<-cbind(tb1,total)
goodrate<-as.numeric(t.tb1[,"0"])/as.numeric(t.tb1[,"total"])
badrate<-as.numeric(t.tb1[,"1"])/as.numeric(t.tb1[,"total"])
gb.tbl<-cbind(t.tb1,goodrate,badrate)
Odds<-goodrate/badrate
LnOdds<-log(Odds)
tt.tb1<-cbind(gb.tbl,Odds,LnOdds)
WoE<-log((as.numeric(tt.tb1[,"0"])/700)/(as.numeric(tt.tb1[,"1"])/300))
all.tb1<-cbind(tt.tb1,WoE)
all.tb1
installment_rate_Cutpoint<-c()
installment_rate_WoE<-c()
installment_rate<-data[,"installment_rate"]
for(i in 1:length(installment_rate))
{
  if(installment_rate[i]==1)
  {
    installment_rate_Cutpoint[i]<-"=1"
    installment_rate_WoE[i]<-0.06252036
  }
  if(installment_rate[i]==2)
  {
    installment_rate_Cutpoint[i]<-"=2"
    installment_rate_WoE[i]<-0.1459539
  }
  if(installment_rate[i]==3)
  {
    installment_rate_Cutpoint[i]<-"=3"
    installment_rate_WoE[i]<--0.03937517
  }
  if(installment_rate[i]==4)
  {
    installment_rate_Cutpoint[i]<-"=4"
    installment_rate_WoE[i]<--0.1657562
  }
}
#定性指标的降维和WoE
discrete_data<-data[,c("status","credit_history","savings","purpose",
                       "property","credit_risk")]
summary(discrete_data)
#对purpose指标进行降维
x<-discrete_data[,c("purpose","credit_risk")]
d<-as.matrix(x)
for(i in 1:nrow(d))
{
  #合并car(new)、car(used)
  if(as.character(d[i,"purpose"])=="car (new)")  
  {
    d[i,"purpose"]<-as.character("car(new/used)")
  }
  if(as.character(d[i,"purpose"])=="car (used)")
  {
    d[i,"purpose"]<-as.character("car(new/used)")
  }
  #合并radio/television、furniture/equipment
  if(as.character(d[i,"purpose"])=="radio/television") 
  {
    d[i,"purpose"]<-as.character("radio/television/furniture/equipment")
  }
  if(as.character(d[i,"purpose"])=="furniture/equipment")
  {
    d[i,"purpose"]<-as.character("radio/television/furniture/equipment")
  }
  #合并others、repairs、business
  if(as.character(d[i,"purpose"])=="others")
  {
    d[i,"purpose"]<-as.character("others/repairs/business")
  }
  if(as.character(d[i,"purpose"])=="repairs")
  {
    d[i,"purpose"]<-as.character("others/repairs/business")
  }
  if(as.character(d[i,"purpose"])=="business")
  {
    d[i,"purpose"]<-as.character("others/repairs/business")
  }
  #合并retraining、education
  if(as.character(d[i,"purpose"])=="retraining")
  {
    d[i,"purpose"]<-as.character("retraining/education")
  }
  if(as.character(d[i,"purpose"])=="education")
  {
    d[i,"purpose"]<-as.character("retraining/education")
  }
}

new_data<-cbind(discrete_data[,c(-4,-6)],d)
#替换原数据集中的“purpose”指标的值
woemodel<-woe(credit_risk~.,data = new_data,zeroadj=0.5,applyontrain=TRUE)
woemodel$woe
#1.status
status<-as.matrix(new_data[,"status"])
colnames(status)<-"status"
status_WoE<-c()
for(i in 1:length(status))
{
  if(status[i]=="... < 100 DM")
  {
    status_WoE[i]<--0.8671300
  }
  if(status[i]=="0 <= ... < 200 DM")
  {
    status_WoE[i]<--0.4240681
  }
  if(status[i]=="... >= 200 DM / salary for at least 1 year")
  {
    status_WoE[i]<-0.4129033
  }
  if(status[i]=="no checking account")
  {
    status_WoE[i]<-1.2237524
  }
}
#2.credit_history
credit_history<-as.matrix(new_data[,"credit_history"])
colnames(credit_history)<-"credit_history"
credit_history_WoE<-c()
for(i in 1:length(credit_history))
{
  if(credit_history[i]=="no credits taken/all credits paid back duly")
  {
    credit_history_WoE[i]<--1.53771824
  }
  if(credit_history[i]=="all credits at this bank paid back duly")
  {
    credit_history_WoE[i]<--1.00079000
  }
  if(credit_history[i]=="existing credits paid back duly till now")
  {
    credit_history_WoE[i]<--0.09646414
  }
  if(credit_history[i]=="delay in paying off in the past")
  {
    credit_history_WoE[i]<--0.01996074
  }
  if(credit_history[i]=="critical account/other credits existing")
  {
    credit_history_WoE[i]<-0.77276102
  }
}
#3.savings
savings<-as.matrix(new_data[,"savings"])
colnames(savings)<-"savings"
savings_WoE<-c()
for(i in 1:length(savings))
{
  if(savings[i]=="... < 100 DM")
  {
    savings_WoE[i]<--0.3051490
  }
  if(savings[i]=="100 <= ... < 500 DM")
  {
    savings_WoE[i]<--0.2267733
  }
  if(savings[i]=="500 <= ... < 1000 DM")
  {
    savings_WoE[i]<-0.8340112
  }
  if(savings[i]=="... >= 1000 DM")
  {
    savings_WoE[i]<-1.1739617
  }
  if(savings[i]=="unknown/no savings account")
  {
    savings_WoE[i]<-0.7938144
  }
}
#4.property
property<-as.matrix(new_data[,"property"])
colnames(property)<-"property"
property_WoE<-c()
for(i in 1:length(property))
{
  if(property[i]=="real estate")
  {
    property_WoE[i]<-0.49346566
  }
  if(property[i]=="building society savings agreement/life insurance")
  {
    property_WoE[i]<--0.16507975
  }
  if(property[i]=="car or other")
  {
    property_WoE[i]<-0.08054425
  }
  if(property[i]=="unknown/no property")
  {
    property_WoE[i]<--0.65586969
  }
}
#5.purpose
purpose<-as.matrix(new_data[,"purpose"])
colnames(purpose)<-"purpose"
purpose_WoE<-c()
for(i in 1:length(purpose))
{
  if(purpose[i]=="car(new/used)")
  {
    purpose_WoE[i]<--0.11260594
  }
  if(purpose[i]=="domestic appliances")
  {
    purpose_WoE[i]<-0.53602528
  }
  if(purpose[i]=="others/repairs/business")
  {
    purpose_WoE[i]<--0.09146793
  }
  if(purpose[i]=="radio/television/furniture/equipment")
  {
    purpose_WoE[i]<--0.23035114
  }
  if(purpose[i]=="retraining/education")
  {
    purpose_WoE[i]<--0.43547619
  }
}
#入模定量和定性指标
model_data<-cbind(data[,quant_model_vars],data[,qual_model_vars])
#入模定量和定性指标的WOE
credit_risk<-as.matrix(data[,"credit_risk"])
colnames(credit_risk)<-"credit_risk"
model_data_WOE<-as.data.frame(cbind(duration_WoE,amount_WoE,age_WoE,
                installment_rate_WoE,status_WoE,credit_history_WoE,
                savings_WoE,property_WoE,purpose_WoE,credit_risk))
#入模定量和定性指标“分段”
model_data_Cutpoint<-cbind(duration_Cutpoint,amount_Cutpoint,age_Cutpoint,
                     installment_rate_Cutpoint,status,credit_history,
                     savings,property,purpose)
#逻辑回归
m<-glm(credit_risk~.,data=model_data_WOE,family = binomial())
alpha_beta<-function(basepoints,baseodds,pdo)
{
  beta<-pdo/log(2)
  alpha<-basepoints+beta*log(baseodds)
  return(list(alpha=alpha,beta=beta))
}
coefficients<-m$coefficients
#通过指定特定比率（1/20）的特定分值（50）和比率翻番的分数（10），来计算评分卡的系数alpha和beta
x<-alpha_beta(50,0.05,10)
#计算基础分值
basepoint<-round(x$alpha-x$beta*coefficients[1])
#1.duration_score
duration_score<-round(as.matrix(-(model_data_WOE[,"duration_WoE"]*
                                    coefficients["duration_WoE"]*x$beta)))
colnames(duration_score)<-"duration_score"
#2.amount_score
amount_score<-round(as.matrix(-(model_data_WOE[,"amount_WoE"]*
                                  coefficients["amount_WoE"]*x$beta)))
colnames(amount_score)<-"amount_score"
#3.age_score
age_score<-round(as.matrix(-(model_data_WOE[,"age_WoE"]*
                                  coefficients["age_WoE"]*x$beta)))
colnames(age_score)<-"age_score"
#4.installment_rate_score
installment_rate_score<-round(as.matrix(-(model_data_WOE[,"installment_rate_WoE"]*
                                  coefficients["installment_rate_WoE"]*x$beta)))
colnames(installment_rate_score)<-"installment_rate_score"
#5.status_score
status_score<-round(as.matrix(-(model_data_WOE[,"status_WoE"]*
                               coefficients["status_WoE"]*x$beta)))
colnames(status_score)<-"status_score"
#6.credit_history_score
credit_history_score<-round(as.matrix(-(model_data_WOE[,"credit_history_WoE"]*
                                  coefficients["credit_history_WoE"]*x$beta)))
colnames(credit_history_score)<-"credit_history_score"
#7.savings_score
savings_score<-round(as.matrix(-(model_data_WOE[,"savings_WoE"]*
                                          coefficients["savings_WoE"]*x$beta)))
colnames(savings_score)<-"savings_score"
#8.property_score
property_score<-round(as.matrix(-(model_data_WOE[,"property_WoE"]*
                                   coefficients["property_WoE"]*x$beta)))
colnames(property_score)<-"property_score"
#9.purpose_score
purpose_score<-round(as.matrix(-(model_data_WOE[,"purpose_WoE"]*
                                    coefficients["purpose_WoE"]*x$beta)))
colnames(purpose_score)<-"purpose_score"
#输出最终的CSV格式的打分卡
#1.基础分值
r1<-c("","basepoint",20)
m1<-matrix(r1,nrow = 1)
colnames(m1)<-c("Basepoint","Basepoint","Score")
#2.duration的分值
duration_scoreCard<-cbind(as.matrix(c("Duration","",""),ncol=1),
                    unique(cbind(duration_Cutpoint,duration_score)))
#View(duration_scoreCard)
#3.amount的分值
amount_scoreCard<-cbind(as.matrix(c("Amount","",""),ncol=1),
                          unique(cbind(amount_Cutpoint,amount_score)))
#View(amount_scoreCard)
#4.age的分值
age_scoreCard<-cbind(as.matrix(c("Age",""),ncol=1),
                        unique(cbind(age_Cutpoint,age_score)))
#View(age_scoreCard)
#5.installment_rate的分值
installment_rate_scoreCard<-cbind(as.matrix(c("Installment_rate","","",""),ncol=1),
                     unique(cbind(installment_rate_Cutpoint,installment_rate_score)))
#View(installment_rate_scoreCard)
#6.status的分值
status_scoreCard<-cbind(as.matrix(c("Status","","",""),ncol=1),
                                  unique(cbind(status,status_score)))
#View(status_scoreCard)
#7.credit_history的分值
credit_history_scoreCard<-cbind(as.matrix(c("Credit_history","","","",""),ncol=1),
                        unique(cbind(credit_history,credit_history_score)))
#View(credit_history_scoreCard)
#8.savings的分值
savings_scoreCard<-cbind(as.matrix(c("Savings","","","",""),ncol=1),
                                unique(cbind(savings,savings_score)))
#View(savings_scoreCard)
#9.property的分值
property_scoreCard<-cbind(as.matrix(c("Property","","",""),ncol=1),
                         unique(cbind(property,property_score)))
#View(property_scoreCard)
#10.purpose的分值
purpose_scoreCard<-cbind(as.matrix(c("Purpose","","","",""),ncol=1),
                          unique(cbind(purpose,purpose_score)))
#View(purpose_scoreCard)
scoreCard_CSV<-rbind(m1,duration_scoreCard,amount_scoreCard,age_scoreCard,
                     installment_rate_scoreCard,status_scoreCard,credit_history_scoreCard,
                     savings_scoreCard,property_scoreCard,purpose_scoreCard)
#将标准评分卡输出到项目文件中，且命名为ScoreCard.CSV，调整格式即可得到标准评分卡
write.csv(scoreCard_CSV,"C:/Users/ZL/Desktop/creditcard_model/ScoreCard.CSV")

需要特别说明的是，上述开发的信用风险评级模型只包含定量和定性两部分，在实际的使用中还要充分考虑到信用风险的特定，增加综合调整部分，以应对可能对客户信用影响较大的突发事件，如客户被刑事起诉、遭遇重大疾病等。完整的信用风险标准评分卡模型，如表3.21所示：

使用小样本开发信用风险评级模型时，通常采用交叉验证（如五折交叉验证）的方法以提高模型的稳定性。由于上述代码采用的是随机抽样，每次抽取样本总体的80%作为样本集，来进行模型开发，剩余样本总体的20%用作模型测试。模型开发过程中，只需要运行上述代码4次，并对得到的标准评分卡、模型中每项的分值取平均值，即可得到最终的标准评分卡模型。

3.7 主标尺设计及模型验证

在上一节中开发的信用风险评分卡模型，得到的是不同风险等级客户对应的分数，我们还需要将分数与违约概率和评级符号联系起来，以便差异化管理证券公司各面临信用风险敞口的客户，这就需要对证券公司各面临信用风险敞口业务中的个人客户开发一个一致的主标尺。最容易理解、最容易操作的方式就是根据违约概率从低到高分为不同的区间，这就相当于把违约概率这把尺子标上刻度，用这把尺子可以把证券公司需承担信用风险敞口的不同业务中的个人客户划分到不同的信用等级，这样各项业务中个人客户的信用等级分布差异、信用风险分布高低，就可以一目了然地展现出来了。这种违约概率和信用等级之间的映射关系就称为主尺标。
由逻辑回归方程原理的分析可知，客户的违约概率p=Odds/(1+Odds)，由式
Score=A-Blog(Odds)中得分与违约概率和Odds之间的对应关系，我们可计算出客户得分对应的违约概率。
由信用风险标准评分卡可知，该评分卡的最高分是89分，最低分是-41分。因此，我们可以计算出该评分卡所有得分范围对应的违约概率：

根据表3.22的结果可见，我们可简单地将每10分对应一个信用等级，并用每相邻得分对应的违约概率（这种方法计算得出的违约概率只能用作风险排序，而不是客户的真实违约概率）的算术平均值作为该信用风险等级对应的平均违约概率，得到最终的主尺标及其内部信用等级对照表3.23：

在主标尺和内部信用等级确定后，接下来我们需要进行模型的区分能力、预测准确度和稳定性等模型的验证工作了。回顾模型开发的过程，在模型开发时我们采用随机抽样的方法将数据分为样本集和测试集，并用样本集开发模型，用测试集做模型验证。因此，做模型验证时，我们应当首先用开发好的模型对测试集中的每一个样本评级一遍，并根据评级结果来计算模型的区分能力和预测准确度。
用已开发好的模型对测试集中所有样本重新评级一遍的代码如下：

tmp1<-test_kfolddata[,-21]
credit_risk1<-ifelse(test_kfolddata[,"credit_risk"]=="good",0,1)
data_tmp<-as.matrix(cbind(tmp1,credit_risk1))
##降维purpose（对测试集中的样本做同样的降维处理）##
for(i in 1:nrow(data_tmp))
{
  #合并car(new)、car(used)
  if(as.character(data_tmp[i,"purpose"])=="car (new)")  
  {
    data_tmp[i,"purpose"]<-as.character("car(new/used)")
  }
  if(as.character(data_tmp[i,"purpose"])=="car (used)")
  {
    data_tmp[i,"purpose"]<-as.character("car(new/used)")
  }
  #合并radio/television、furniture/equipment
  if(as.character(data_tmp[i,"purpose"])=="radio/television") 
  {
    data_tmp[i,"purpose"]<-as.character("radio/television/furniture/equipment")
  }
  if(as.character(data_tmp[i,"purpose"])=="furniture/equipment")
  {
    data_tmp[i,"purpose"]<-as.character("radio/television/furniture/equipment")
  }
  #合并others、repairs、business
  if(as.character(data_tmp[i,"purpose"])=="others")
  {
    data_tmp[i,"purpose"]<-as.character("others/repairs/business")
  }
  if(as.character(data_tmp[i,"purpose"])=="repairs")
  {
    data_tmp[i,"purpose"]<-as.character("others/repairs/business")
  }
  if(as.character(data_tmp[i,"purpose"])=="business")
  {
    data_tmp[i,"purpose"]<-as.character("others/repairs/business")
  }
  #合并retraining、education
  if(as.character(data_tmp[i,"purpose"])=="retraining")
  {
    data_tmp[i,"purpose"]<-as.character("retraining/education")
  }
  if(as.character(data_tmp[i,"purpose"])=="education")
  {
    data_tmp[i,"purpose"]<-as.character("retraining/education")
  }
}
##purpose变量降维结束##
###用R代码实现打分卡模型###
data1<-as.data.frame(data_tmp)
tot<-nrow(data1)
score<-list()
for(i in 1:tot)
{
  lst<-as.matrix(data1[i,])
  #duration
  score_duration<-NA
  if(lst[,"duration"]<=8)
  {
    score_duration<-14
  }else
  if(lst[,"duration"]>8&lst[,"duration"]<=33)
  {
    score_duration<-1
  }else
  if(lst[,"duration"]>33)
  {
    score_duration<--7
  }
  #amount
  score_amount<-NA
  if(lst[,"amount"]<=3913)
  {
    score_amount<-3
  }else
    if(lst[,"amount"]>3913&lst[,"amount"]<=9283)
    {
      score_amount<--5
    }else
      if(lst[,"amount"]>9283)
      {
        score_amount<--14
      }
  #age
  score_age<-NA
  if(lst[,"age"]<=34)
  {
    score_age<--2
  }else
    if(lst[,"age"]>34)
    {
      score_age<-3
    }
  #installment_rate
  score_installment_rate<-NA
  if(lst[,"installment_rate"]==1)
  {
    score_installment_rate<-2
  }else
    if(lst[,"installment_rate"]==2)
    {
      score_installment_rate<-5
    }else
      if(lst[,"installment_rate"]==3)
      {
        score_installment_rate<--1
      }else
        if(lst[,"installment_rate"]==4)
        {
          score_installment_rate<--6
        }
  #status
  score_status<-NA
    if(lst[,"status"]=="... < 100 DM")
    {
      score_status<--10
    }else
      if(lst[,"status"]=="0 <= ... < 200 DM")
      {
        score_status<--5
      }else
      if(lst[,"status"]=="... >= 200 DM / salary for at least 1 year")
      {
        score_status<-5
      }else
        if(lst[,"status"]=="no checking account")
        {
          score_status<-14
        }
  #credit_history
  score_credit_history<-NA
  if(lst[,"credit_history"]=="critical account/other credits existing")
  {
    score_credit_history<-8
  }else
    if(lst[,"credit_history"]=="existing credits paid back duly till now")
    {
      score_credit_history<--1
    }else
      if(lst[,"credit_history"]=="all credits at this bank paid back duly")
      {
        score_credit_history<--10
      }else
        if(lst[,"credit_history"]=="delay in paying off in the past")
        {
          score_credit_history<-0
        }else
          if(lst[,"credit_history"]=="no credits taken/all credits paid back duly")
          {
            score_credit_history<--16
          }
  #savings
  score_savings<-NA
  if(lst[,"savings"]=="... < 100 DM")
  {
    score_savings<--3
  }else
    if(lst[,"savings"]=="... >= 1000 DM")
    {
      score_savings<-13
    }else
      if(lst[,"savings"]=="500 <= ... < 1000 DM")
      {
        score_savings<-9
      }else
        if(lst[,"savings"]=="unknown/no savings account")
        {
          score_savings<-9
        }else
          if(lst[,"savings"]=="100 <= ... < 500 DM")
          {
            score_savings<--2
          }
  #property
  score_property<-NA
  if(lst[,"property"]=="unknown/no property")
  {
    score_property<--4
  }else
    if(lst[,"property"]=="real estate")
    {
      score_property<-3
    }else
      if(lst[,"property"]=="building society savings agreement/life insurance")
      {
        score_property<--1
      }else
        if(lst[,"property"]=="car or other")
        {
          score_property<-1
        }
  #purpose
  score_purpose<-NA
  if(lst[,"purpose"]=="domestic appliances")
  {
    score_purpose<-6
  }else
    if(lst[,"purpose"]=="radio/television/furniture/equipment")
    {
      score_purpose<--3
    }else
      if(lst[,"purpose"]=="car(new/used)")
      {
        score_purpose<--1
      }else
        if(lst[,"purpose"]=="retraining/education")
        {
          score_purpose<--5
        }else
          if(lst[,"purpose"]=="others/repairs/business")
          {
            score_purpose<--1
          }
  score[i]<-sum(20,score_duration,score_amount,score_age,score_installment_rate,
                score_status,score_credit_history,score_savings,
                score_property,score_purpose)
  rm(lst)
}
###用R代码实现打分卡模型结束###
#合并处理测试集样本得分，并输出到指定的CSV文件中#
score_M<-as.matrix(score,ncol=1)
score_data<-cbind(data1,score_M)
score_risk<-score_data[,c("credit_risk1","score_M")]
write.csv(as.matrix(score_risk),"C:/Users/ZL/Desktop/creditcard_model/2.csv")

运行上述代码后，我们整理测试集中200个样本的评级计算结果，如下：

从理论上说，信用评级无法给出主体是否违约的判断，只能给出主体违约的概率，而评级符号对应的就是主体发生违约的平均违约概率。但对评级结果的实际应用中，实在存在评级结果是否“准确”的质疑。那么，通常情况下如果某主体被评级为投资级（BBB及以上），但发生了违约，则被认为“不准确”或者“误判”。如果某主体被评级为投机级（BB及以下），且发生了违约，则被认为“预测准确”。如果被评级为投机级的主体没发生违约事件（并不是每个被评级为投机级的主体都会发生违约），则可以用概率去解释，那就是“大概率事件并不一定发生，小概率事件也并不一定不发生”。
我们采用ROC作为模型区分能力的验证指标，采用AR（accuracy ratio，准确率）作为模型预测准确性的验证指标，并且两者存在AR=2×ROC-1的关系式。验证模型的稳定性需要多年的历史数据，由于数据原因此处略去。
由内部等级与主尺标的对应关系可知，投资级和投机级的分界点为20分，即大于20分的主体发生了违约，我们认为是“误判”，小于20分的主体为发生违约，我们也认为是“误判”。则经统计图中的数据可知，误判的主体总数为50个，则AR=1-50/200=0.75，此时ROC=(1+AR)/2=0.875。此时模型的预测准确度和区分能力均达到了较好地要求，可以进行部署使用。
上述模型的验证方法采用的是将测试样本集中的所有样本在生成的评分卡中全部评级一遍的方法，当然也可以采用直接将WOE变量的逻辑回归方程作为评级模型的方法。此时，也需要将测试样本集中的所有入模变量计算其WOE，并代入上述逻辑回归方程。

3.8 模型实施

待模型开发和验证完毕后，紧接着就是模型的实施了。有条件的券商可借助业内先进的信用风险管理系统，来实现整个公司的信用风险统一管理。在对客户做信用评级时，应当遵守一个最基本的原则，那就是同一个客户在不同业务部门开展业务时，只能对应一个统一的评级结果。

3.9 模型监测与报告

在模型部署和实施完毕后，我们还需要定期监测模型的运行情况并形成模型监测报告。因为开发的模型是基于某一时间的特定样本的，随着时间的推移，证券公司的经验战略可能会发生变化，这将会导致样本发生变化，从而造成模型的区分能力和稳定性变差。因此，我们需要定期（通常每年至少一次）对模型的使用情况进行检测并报告模型区分能力和稳定性的变化情况，必要时应采取包括修正模型或重建模型等措施。
我们通常使用模型稳定性指数来衡量模型稳定性变化的情况，模型稳定性指数是计算实际的和预期的分数分布之间差异的一个衡量指标，具体的计算方法如表3.25所示。

表3.25中，列A（%）表示验证数据集中每十分位间距中记录的百分比，列E（%）表示建模数据集中每十分位间距中记录的百分比。列（A-E）和Ln（A/E）分别表示这两个值的差以及这两个值的比率的自然对数，指数列示（A-E）列和Ln（A/E）列的乘积，模型稳定性指数是最后一列的和。
模型稳定性指数I的定义为：

模型稳定性指数衡量的是两个离散变量间的关联性，较低的取值表明这两个变量的类别分布相似。有卡方检验的定义可知，我们可以使用自由度为r-1的卡方分布检验模型稳定性指数的显著性。R语言中可使用pchisq()函数计算出两个变量分布不同的概率：

pchisq(0.0699,df=9) #模型稳定性指数为0.0699，自由度为9
[1] 5.178963e-09

由输出结果可知，变量A和变量E分布的不同的概率为5.178963e-09，非常非常小，这说明变量A和变量E的分布是相同的。
为了得到使用模型稳定性指数衡量真实（变量A）和预期（变量E）的分值分布之间的显著性差异的准则，我们可以使用R函数qchisq()，即pchisq()函数的逆，获取显著性水平为0.65和0.997时的指数水平。结果如下所示，这两个值分别为I=0.10和I=0.25。

qchisq(0.65,df=9)       #结果为百分数
[1] 10.006
qchisq(0.997,df=9)      #结果为百分数
[1] 24.97407

根据上述计算，信用风险评级模型使用模型稳定性指数的最优实践准则如表3.26所示。

表3.26表明，根据卡方显著性计算，稳定性指数高于0.25时，两个数据集的分值分布显著不同的概率为99.7%。此时，我们需要对出现这种变化的原因进入深入调查，甚至需要新建评分卡。同样，稳定性指数小于0.1时，连个数据集的分值分布显著不同的概率为65%。此时，我们不需要采取任何行动。稳定性指数在上述两个极端值之间时，表明模型的稳定性发生了某些变化，需要对模型进行回归测试，并检查原因。

你可能感兴趣的:(信用风险评级模型的开发)

面试前您该做的事情测试者家园面试工作任务测试产品招聘
选自本人作品：《软件性能测试与LR实战》无论您是刚刚毕业的大学生朋友，还是已经有工作经验的同行，大家都不可避免的面临一个问题就是找工作或者换工作的问题。在整个应聘过程中，面试无疑是最具有决定性意义的重要环节，关系到您是否能够成功的找到合适的雇主，关系到您以后个人发展的前途等。面试也是求职者全面展示自身素质、能力、品质的最好时机，面试发挥出色，可以弥补先前笔试或是其他条件如学历、专业上的一些不足。在
打卡信奥刷题（638）用C++信奥P8218[普及组/提高] 【深进1.例1】求区间和 Loge编程生活 C++c++算法开发语言青少年编程数据结构
【深进1.例1】求区间和题目描述给定nnn个正整数组成的数列a1,a2,⋯ ,ana_1,a_2,\cdots,a_na1,a2,⋯,an和mmm个区间[li,ri][l_i,r_i][li,ri]，分别求这mmm个区间的区间和。对于所有测试数据，n,m≤105,ai≤104n,m\le10^5,a_i\le10^4n,m≤105,ai≤104输入格式第一行，为一个正整数nnn。第二行，为nnn个
MPP-大规模并行处理 quanzaiwoxin1
1、什么是MPP？MPP(MassivelyParallelProcessing)，即大规模并行处理，在数据库非共享集群中，每个节点都有独立的磁盘存储系统和内存系统，业务数据根据数据库模型和应用特点划分到各个节点上，每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。简单来说，MPP
socket网络通信基础杨枝甘露小码网络
目录一、套接字编程基本流程二、TCP流式协议及Socket编程的recv()和send()三、读写无阻塞-完美掌握I/O复用select（）函数详解poll（）函数详解epoll()函数详解一、套接字编程基本流程原文链接：Socket编程权威指南(一)打通网络通信的任督二脉_seqpacket-CSDN博客Socket进行编程通常包括以下几个步骤:创建Socket绑定Socket(绑定地址信息)监
网络技术发展的演变与未来展望大丈夫立于天地间水网络
网络技术作为信息社会的重要基石，在过去几十年中经历了快速的发展和巨大的变革。从最初的ARPANET，到现在广泛使用的互联网，再到未来多国正在积极研发的6G网络，人类社会对网络技术的依赖程度不断加深，网络技术也持续推动着社会经济生活和文化方式的转变。第一代网络技术：构造基础互联网的起源可以追溯到1960年代的美国，美国国防部DAC(AdvanceResearchProjcetsAgency)为了军事
OSPF - 路由过滤的几种方法大丈夫立于天地间 hcie笔记智能路由器网络信息与通信学习网络协议算法
1.路由引入时过滤可以通过引入路由时使用路由策略来过滤掉不想要的路由在ASBR上配置，能够直接不产生对应的5类LSAimport[外部自治系统]route-policy[路由策略名]//引入时考虑路由策略例如我现在要过滤掉从ISIS区域引入的3.3.4.4[ABSR的OSPF进程下]importisis1route-policyI2O//引入时考虑路由策略I2Oroute-policyI2Oper
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
后端学习1.4： Mybatis-plus配置多租户 Congee_porridge 后端开发学习 mybatis java spring boot 后端
功能要求Mybatis-plus配置多租户。从header中的token获取租户信息；所有userController的数据库操作*不要*配置多租户，所有工作计划相关的数据库操作*需要*配置多租户，达成数据隔离。开发工具：IDEA技术：Springboot+MabtisPlus+Postman1、什么是多租户？多租户技术（多重租赁技术，简称saas），是一种软件架构技术；可以实现同一套程序下用户数
linux服务器中的rinted端口转发yum源代理设置 Waylen_Wu 网络服务器 linux centos 运维
内网服务器统一通过可访问公网的服务器代理端口转发使用yum源文章目录前言一、国内yum源一、公网服务器rinted代理安装二、公网服务器rinted使用说明1.rinted编辑配置2.启动程序3.需要注意三、内网服务器yum源设置1.先备份源yum源2.植入网易163yum源四、修改内网服务的hosts五、内网服务器验证yum源是否正常1.ping通mirrors.163.com2.yum源正常使
Java的DatagramPacket在C#中体现 hh_fine c#java
C#创建UDP客户端和服务端在C#中，DatagramPacket是Java中用于UDP通信的一个类，而C#并没有直接对应的DatagramPacket类。不过，C#提供了类似的机制来处理基于UDP的数据报（datagram）通信，主要通过System.Net.Sockets命名空间中的UdpClient和Socket类来实现使用UDP客户端发送UdpClient是相对于Socket更高级的类，适
CMD批处理命令入门（7）——if 条件语句跑不了的你 Windows驱动 windows ddos microsoft
CMD批处理命令入门（7）——if条件语句本章主要内容判断两个字符串是否相等判断两个数值是否相等判断判断驱动器，文件或文件夹是否存在，判断变量是否已经定义，判断上个命令的反回值，本章主要内容5种if语句的基本语法：判断两个字符串是否相等，if"字符串1"=="字符串2"command语句;判断两个数值是否相等，if数值1equ数值2command语句；判断判断驱动器，文件或文件夹是否存在，ifex
CMD批处理命令入门（1）——echo,rem,cd,dir 跑不了的你 Windows驱动 ddos windows microsoft
CMD批处理命令入门（1）——echo,rem,cd,dir本章内容包含显示信息：echo输出提示信息关闭该命令的回显打开回显或关闭回显功能输出空行，即相当于输入一个回车答复命令中的提问建立新文件或增加文件内容rem目录切换：cd同一个分区的切换不同分区的切换CD的另一个用途：显示当前的完整路径，一般用通过%cd%加以引用。列文件名：dir列出`c:\windows`下的目录及文件列出`c:\`下
后端开发面试题6（附答案）来年定当除暴安良面试面试跳槽后端 golang
前言在下首语言是golang，所以会用他作为示例。原文参见@arialdomartini的:Back-EndDeveloperInterviewQuestions分布式系统相关问题1.怎么测试一个分布式系统？测试分布式系统是一项复杂且具有挑战性的任务，因为它涉及到多个组件在不同的网络环境和硬件设施上的协同工作。以下是一些测试分布式系统的关键步骤和方法：单元测试：对分布式系统中的每个独立模块进行单元
【MyBatis-Plus】实现多租户功能会飞的猪ϵ( 'Θ' )϶ spring cloud微服务 mybatis 数据库 java
一、引言多租户是一种软件架构技术，在多用户的环境下，共有同一套系统，并且要注意数据之间的隔离性。举个实际例子：小编曾经开发过一套H5程序，这套程序应用在不同医院的APP上，当医院患者下载医院APP，并且进入相对应的H5页面，APP则会把用户相关数据传输到小编这里。在传输的时候需要带上医院标识（租户ID），以便小编将数据进行隔离。当不同的租户使用同一套程序，这里就需要考虑一个数据隔离的情况。数据隔离
文献综述相关ChatGPT提示词分享 AIWritePaper官方账号 Prompt ChatGPT AIWritePaper chatgpt 人工智能数据分析 AIGC 信息可视化数据挖掘 prompt
文献综述ChatGPT可以帮助提高文献综述的有效性和全面性。ChatGPT可以高效搜索和审查与宝子们课题研究相关的文献资料来源。一些给力的插件工具还可以帮助您总结复杂的研究论文并提取信息以更快更好地消化信息。合理的运用ChatGPT和GPTs可以提高文献综述的清晰度和质量，使其更加全面和有洞察力。文献综述提示词*131.在[人工智能相关]领域中，主要发现有哪些？2.在[人工智能相关]领域中，引用次
【python | pip list】pip list导入与导出苹榆枫 #深度学习框架 pip python linux
1.导出#查看当前安装的包piplist#导出当前安装的包记录pipfreeze>./requirements.txt2.导入#用anaconda创建一个虚拟环境condacreate-npy37python=3.7#激活当前py37环境MAC/Linux:sourceactivatepy37WIndows:activatepy37#导入安装之前的包列表pipinstall-r./requirem
【AI | python】functools.partial 的作用苹榆枫 #深度学习框架人工智能 python
在代码中，partial是Pythonfunctools模块中的一个方法，用于固定函数的某些参数并返回一个新的函数。这个新的函数可以像原函数一样调用，但固定的参数不需要再次提供。代码中：self.compute_cis=partial(compute_axial_cis,dim=self.internal_dim//self.num_heads,theta=rope_theta)这里partial
下完安装好python后，想查看python的安装位置的几种方法 omofun5541 python 开发语言
查看python的路径基于windows系统，按下win+r（也就是命令提示符），输入cmd，进入查看当前的python的版本的话输入python-V1，查看当前下载的python类型和路径则可以输入py-0(加*的是你使用python的默认版本)2，还可以使用命令wherepython查看路径（这样就不会显示你python默认使用的是哪个）小技巧：如果想清除命令行的话可以输入命令cls然后ent
omfun官方版网页版下载-omofun官方版2024安卓IOS下载 omofun5541 omofun动漫 omofun 动漫 ios 动画安卓 windows
omofun关于“ROOT苹果手机”的说法实际上是一个误解，omofun动漫因为“ROOT”这个术语通常指的是获取Android设备的超级用户权限，omofun漫画而苹果手机（iPhone）使用的是iOS操作系统，获取超级用户权限的过程被称为“越狱”（Jailbreak）。omfun官方版app最新版本版下载：http://om.aunbaidu.com/下面是一篇关于如何越狱苹果手机的文章，介绍
深入浅出 SQLSugar：快速掌握高效 .NET ORM 框架 m0_74823595 .net
SQLSugar是一个高效、易用的.NETORM框架，支持多种数据库（如SQLServer、MySQL、PostgreSQL等）。它提供了丰富的功能，包括CRUD操作、事务管理、动态表名、多表联查等，开发者可以通过简单的链式操作实现复杂的数据库逻辑。本文将以完整的示例，详细介绍SQLSugar的安装、配置和功能使用，适用于.NETFramework和.NETCore项目。一、SQLSugar简介1
足球俱乐部管理系统（11293） codercode2022 spring boot spring cloud 后端 hibernate 架构 laravel actionscript
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发
Bootstrap UI 编辑器：简化前端开发的利器 lsx202406 开发语言
BootstrapUI编辑器：简化前端开发的利器引言在当今的网页设计和开发领域，Bootstrap已经成为了一个非常流行的前端框架。它以其响应式设计、简洁的代码和丰富的组件库而受到广大开发者的喜爱。然而，对于一些非技术背景的设计师或者初学者来说，直接使用Bootstrap可能会有一定的难度。这时，BootstrapUI编辑器就成为了他们的救星。本文将详细介绍BootstrapUI编辑器的概念、特点
Python3 环境搭建指南 lly202406 开发语言
Python3环境搭建指南1.引言Python是一种广泛使用的高级编程语言，以其简洁明了的语法和强大的功能而闻名。Python3是Python的最新版本，它在Python2的基础上进行了大量更新和改进。本指南将详细介绍如何在您的计算机上搭建Python3环境，以便您可以开始编写和运行Python程序。2.系统要求在开始安装Python3之前，请确保您的计算机满足以下最低系统要求：操作系统：Wind
一文学习python中编码和解码科雷learning python编程 python 开发语言
学习目录1什么是编码和解码2编解码基本原理3python的默认编码4什么是10进制/2进制/8进制/16进制？5python的字符串编解码5.1使用str.encode()编码，str.decode()解码5.2解码的乱码问题5.316进制字符串转为普通字符串6python字符串和unicode类型编码转换什么是编码和解码大家都知道计算机是二进制的世界，计算机系统只能识别数字0和1组成的一串串的数
张丽霞：对地址转换（NAT）的回顾与反思 junecauzhang 软件综合 internet 互联网网络防火墙工作 transactions
张丽霞：对地址转换（NAT）的回顾与反思PostedonFebruary24,2009byDuanHaixin作者简介：张立霞，美国UCLA计算机系教授，互联网体系结构委员会（IAB）委员，IETFIRTFRoutingResearch工作组副主席（co-chair）,ACM会员（Fellow）,曾担任ACMSIGCOMM副主席(1999-2003),IEEECommunicationSociet
使用 PyTorch 从头开始构建您自己的 Llama 3 架构子然在打码 pytorch llama 人工智能
https://www.aisolink.com/build-your-own-llama-3-architecture-from-scratch-using-pytorch全文摘要本文提供了一个详细的指南，介绍如何使用PyTorch从头开始构建Llama3模型的完整架构，并对自定义数据集进行训练和推理。文章涵盖了构建输入块、解码器块和输出块的步骤，并提供了相应的代码示例。最终目标是构建一个功能齐
ZYNQ + Linux jerwey linux zynq
ZYNQLinux操作系统移植说明文档http://xilinx.eetrend.com/content/2019/100018437.html1，组成ZYNQ上面移植Linux操作系统包括四个部分，uboot,devicetree,kernel,ramdisk.其中uboot类似于bios，负责对设备进行简单的初始化，devicetree以树的形式对zynq相连的硬件设备进行描述，kernel是
已知域名如何知道网站的ip hunter206206 网络 tcp/ip 网络协议网络
已知域名获取网站IP的方法如下：1.使用ping命令Windows:打开命令提示符，输入pingexample.com，查看返回的IP地址。macOS/Linux:打开终端，输入pingexample.com，查看返回的IP地址。2.使用nslookup命令Windows/macOS/Linux:在命令提示符或终端中输入nslookupexample.com，查看返回的IP地址。3.使用dig命令
paimon中的Branch qzWsong paimon 大数据数据库
Branchhttps://paimon.apache.org/docs/0.9/maintenance/manage-branches/paimon借鉴了git的管理机制，在我们开发代码的时候，为了不影响主分支的功能，我们一般会新建一个分支进行迭代，待新分支完善后，合并回主分支，在新的分支做任何数据操作都不会影响主分支。在paimon中，我们也可以对表创建分支，相当于在当前数据状态下复制出来了一
C语言编程数据结构编程练习-顺序栈的操作墨楠。 #C 语言数据结构研习汇 C c语言数据结构开发语言
#define_CRT_SECURE_NO_WARNINGS#include#include#include#include#include#defineMAX_SIZE20//通过数组的方式创建顺序栈出栈，入栈等操作typedefintelementType;typedefstructstack{elementTypedata[MAX_SIZE];inttop;//栈顶intbottom;//栈
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http