Andy_yang_Go

金融风控信用卡评分建模

一、引言
如何利用机器学习以及大数据技术来降低风险呢？如何建立信用评分的模型呢？本文将针对这些问题简单介绍互金行业中授信产品的风控建模过程，内容主要如下：
·信用风险定义
·信用风险评分卡类型
·信用评分模型建立的基本流程

1.信用风险定义

①风险管理的概念
风险管理最早起源于美国。1930年由美国管理协会保险部最先倡导风险管理，后面在全球流行开来，随着互联网的迅猛发展，大数据、数据挖掘和机器学习等新兴技术开始出现，让风险管理更为精准。他们通过收集银行系统本身的征信数据以及用户在互联网上的的各种数据，包括人际关系、历史消费行为、身份特征等，通过大数据“画像”技术，对用户进行全面的定位，由此来预测用户的履约能力、降低信贷风险。
②什么是信用风险？
信用风险又称违约风险，是指借款人、证券发行人或交易对方因种种原因，不愿或无力履行合同条件而构成违约，致使银行、投资者或交易对方遭受损失的可能性。即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性，它是金融风险的主要类型。
万事都有风险，但对于金融行业来讲，风险控制尤为重要。对于海量的用户数据处理，传统的人工授信方式显然是很乏力的，因此现在大多互联网金融P2P公司都采用机器学习、大数据等技术对风险进行自动化评估，来最大程度的降低风险。当然，这些技术的应用并不能百分百的保证零风险，因为有很多人为因素是不可控的，但是信用风控技术在很大程度上帮助金融企业进行了很好的风险管控，通过降低风险减少损失来间接增加利润。

2.信用风险评分卡类型
①信用评级
用过信用卡的朋友都知道，开卡需要申请（筛选好坏用户），消费了就需要定期进行债务偿还，如果不偿还就有人发短信催你。因此，信用评级可根据用户的整个使用周期分为以下四种类型：
1）申请者评级（Application）：个人客户申请相应金融产品，对用户进行筛选分类，判断时好时坏，是否通过申请（A卡）
2）行为评级（Behavier）：个人客户通过申请后在使用期间的历史行为数据进行评级，对客户可能出现的逾期、延期等行为进行预测（B卡）
3）催收评级（Collection）：对业务中存量客户是否需要催收的预测（C卡）
4）欺诈评级（Fraud）：业务中新客户可能存在的欺诈行为的预测（F卡）
每个评级阶段的模型都是不一样的，因为每个阶段的用户显现的特征都不一样，因此需要针对各个阶段进行单独的模型开发。
②信用评分卡
尽管有了评级分类，但是信用对于我们来说仍然是一个比较抽象的概念，因此可以通过量化的方式来更直观的使用信用，而分数是一种不错的量化方式，通过分数的高低来衡量风险概率，分数越高代表信用越好。信用评分卡就是通过大数据的统计分析，根据用户的各种资料信息，对用户信用进行评估（打分）。根据以上信用评级，相应的可以分为四种评分卡：
1）申请评分卡（A卡）
2）行为评分卡（B卡）
3）催收评分卡（C卡）
4）欺诈评分卡（F卡）
是一种以分数的形式来衡量风险几率的一种手段，也是对未来一段时间内违约、逾期、失联概率的预测。一般来说，分数越高，风险越小。
A卡一般可做贷款0-1年的信用分析，B卡则是在申请人有了一定行为后，有了较大数据进行的分析，一般为3-5年，C卡则对数据要求更大，需加入催收后客户反应等属性数据。每种评分卡的模型会不一样。在A卡中常用的有逻辑回归，AHP等，而在后面两种卡中，常使用多因素逻辑回归，精度等方面更好。基于个人借贷的场景，确定“违约”的定义：根据新的Basel II Capital Accord（巴塞尔二资本协议），一般逾期90天算作违约

3.信用评分建模的基本流程
通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析、挖掘数据蕴含的行为模式、信用特征，发展出预测行的模式，结合信用卡评分的构建原理，完成数据的清洗，主要包括缺失数据的填充、异常的删除和数据的分箱；调用Logistic回归模型建立信用卡评分的基础模型，借助自变量的证据权重转换（WOE）创建信用卡评分卡，并开发一个简单的信用评分系统。
在开发信用风险模型之前，首先要明确我们需要解决的问题，确定评分卡模型的类别。下面将对申请评分卡建模（主要目的是区分好坏客户）流程进行简单的介绍。
①数据获取
除了企业内部自有的数据外，还有第三方机构数据支持，比如芝麻信用，征信局等。通过大数据分析用户的各种数据来达到最终目的，数据维度很广，可以包括：用户基础属性，用户行为，用户网购，用户APP行为等。在数据质量不差的情况下，数量越多越好，能留的一个不落下，后续再进行甄别筛选。
这部分的技术栈主要有：Mysql，Hive，Hbase，Spark，Python等。
②EDA数据探索
数据探索也是很重要的一步，主要考察数据的质量，包括：数据缺失值，数据异常值，数据一致性，数据分布特征，以及数据之间的关联性等。通常可以使用描述性统计指标，如均值，中位数，众数，方差/标准差等进行宏观上的度量，也可以使用可视化方法辅助进行数据分布，以及关联性等的初步分析工作。
1）缺失值处理
根据缺失情况（是否随机，以及缺失量等）可选择使用均值，众数，中位数等填充，也可以用机器学习模型来填充缺失值（常见算法有随机森林，决策树，kNN等）。
2）异常值处理
可根据异常的情况考虑使用3∂原则，箱线图，散点图，基于距离，基于密度，基于聚类等一系列的方法进行离群点检测。对于异常值的处理可以采用移除，平均值修正，视为缺失值，或者不处理等。
3）数据分布以及关联性
可以考虑结合可视化的方法进一步的观察：数据分布是否均衡，数据特征之间的联系，以及数据特征与目标变量之间的联系等进行了解
③数据预处理
数据预处理主要包括特征转换，特征编码，特征选择，特征共线性处理，以及创建衍生变量等一系列的处理方法。
1）特征转换和编码
在信用评分模型的变量选择中，如果使用逻辑回归模型，那么就需对所有特征进行分箱离散化（一般是先细分再粗分），这样可以增加模型对非线性的表达，让模型更稳定。然后再进行woe编码，因为woe的转换公式与逻辑回归模型上非常相似，便于生成评分系统。
2）特征选择
特征选择，在数据中是非常中重要，目的在于帮助我们挑选出最有意义的特征。选择特征最终目的是挑选能区分好用户或坏用户的强相关特征。
根据所使用的模型可以通过基尼系数或信息价值IV找到显著特征项，也可以通过LASSO、LR、RF模型等对特征做重要性的筛选。当然，还有很多其它的方法，这里仅介绍这几种。
a)IV：基于woe编码，可以衡量特征信息重要程序；
b)LASSO：主要适合基于L1的正则惩罚过滤对区分好坏用户不重要的特征；
c)LR：通过拟合的参数排序得到特征的重要性程度；
d)RF：集成学习（bagging），依据算法的附加功能进行特征的重要性排序；
最后要说的是，特征选择要结合业务，根据业务的理解挑选解释型强且权重较大的特征变量。
④模型建立
模型建立会根据实际情况进行选择，比如是否要使用单模型，或者在单模型中各种模型好坏的比较而最终确认。
在信用评分卡建模中，用到最常用的方法就是逻辑回归（LR）。虽然是传统的模型，但是由于其自身特点，加上自变量进行了证据权重转换（WOE），Logistic回归的结果可以直接转换为一个汇总表，即所谓的标准评分卡格式，这对于区分好坏用户以及评分卡的建立非常适用。目前对于它的使用和部署上线等已经非常成熟，是很多企业的不二选择。
除了LR外，神经网络，Xgboost等高级模型也会被使用，不过综合考虑LR目前能够满足大部分的需求且部署上线容易。
⑤模型评估（对于离散型因变量）
针对信用评分卡应用的评估模型有很多，包括：ROC/AUC，KS，PSI，LIFT等一些评估方法，下面着重介绍两个ROC和KS值。
1）混淆矩阵
以肿瘤为例，对于实际的数据集存在两种分类，即良性和恶性，基于Logistic回归模型会预测出样本所属的类别，得到两列数据：真实地；预测的，将两个序列得到一个汇总的列联表，即混淆矩阵。0表示良性（负例），1表示恶性（正例，一般被理解为研究者所感兴趣或者关心的那个分类）
A:表示正确预测负例的样本个数，TN
A+B:表示预测负例的样本个数，PN
准确率：(A+D)/(A+B+C+D)，用来衡量模型对整体数据的预测效果，用Accuracy表示
正例覆盖率：D/(B+D)，反映模型能够在多大程度上覆盖所关心的类别，即TPR=TP/P，称为灵敏度（sensitivity）/召回率(recall)
负例覆盖率：A/(A+C)，即TNR=TN/N称为特指度（specicity）
正例命中率：D/(C+D)，即（TP+TN）/T ，表示分类器预测正确的比例称正确率（accuracy）
一般准确率、正例覆盖率、负例覆盖率越高，模型越理想

还有，FPR=FP/P称误警率（Fallout）,FNR=FP/N称为漏查率（miss）.
分类器预测错误的比例称错误率（error rate）:(FP+FN)/T

又可以定义下面两个比率： TPR又可称为查全率，表示正确分类的正例占实际正例（TP/（TP+FN））的比例，用于衡量分类器预测正例的可信程度。相对应的概念有查准率（precision），表示正确分类的正例占全部预测正例的比例(TP/(TP+FP))。

2）ROC/AUC
通常一个二值分类器可以通过ROC（Receiver Operating Characteristic）曲线和AUC值来评价优劣。

很多二元分类器会产生一个概率预测值，而非仅仅是0-1预测值。我们可以使用某个临界点/阈值（例如0.5），以划分哪些预测为1，哪些预测为0。得到二元预测值后，可以构建一个混淆矩阵来评价二元分类器的预测效果。所有的训练数据都会落入这个矩阵中，而对角线上的数字代表了预测正确的数目，即true positive + true nagetive。同时可以相应算出TPR（正例覆盖率或称为真正率或称为灵敏度）和TNR（负例覆盖率或称为真负率或称为特异度）。我们主观上希望这两个指标越大越好，但可惜二者是一个此消彼涨的关系。除了分类器的训练参数，临界点的选择，也会大大的影响TPR和TNR。有时可以根据具体问题和需要，来选择具体的临界点。

如果我们选择一系列的临界点/阈值，就会得到一系列的TPR和TNR，将这些值对应的点连接起来，就构成了ROC曲线。ROC曲线可以帮助我们清楚的了解到这个分类器的性能表现，还能方便比较不同分类器的性能。在绘制ROC曲线的时候，习惯上是使用1-TNR作为横坐标即FPR（false positive rate），TPR作为纵坐标。这是就形成了ROC曲线。

而AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

ROC基于混淆矩阵，对于数据类别不均衡有很好的效果。ROC曲线使用两个指标值进行绘制，其中x轴为1-Specificity，即负例错判率；y轴为Sensitivity，即正例覆盖率。ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高（曲线越偏左上方越好），即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别，AUC代表曲线下的面积，不依赖于阈值，AUC值越高，模型的风险区分能力越强。通常AUC在0.8以上时，模型基本可以接受了。

提升度和提升曲线
分类器分类为正例的比例称为深度（depth）：（TP+FP）/T，T是全部待判样本数量。

提升度（lift）等于TPR/depth 以深度为横轴，以提升度为纵轴绘制曲线，得到提升曲线。绘制提升曲线的思路和ROC类似。当阈值为0的时候，所有的样本都会判为正例，此时深度为1，提升为1；随阈值增大，深度减小，提升随之逐渐增大。一个好的模型要在大的深度下得到尽量大的提升。

3）KS值
KS值表示了模型正负区分开来的能力。值越大，模型的预测准确性越好。一般，KS>0.4即可认为模型有比较好的预测准确性，KS值只能反映出哪个分段是区分最大的，而不能总体反映出所有分段的效果。

具体步骤为：
按照模型计算score值，从大到小排序；
取出10%，20%，…，90%所对应的分位数，并以此作为score的阈值，计算Sensitivity和1-Specificity的值，将10%、20%、…、90%这样的分位点用作绘图的x轴，将Sensitivity和1-Specifity两个指标值用作绘图的y轴，进而得到两条曲线；
分别代表各分位点下的正例覆盖率和1-负例覆盖率，一般选用最大的KS值作为衡量指标；
KS=Sensitivity-(1-Specificity)，通常KS>0.4即可认为模型有比较好的预测准确性

下面是一个真实的在线授信产品的风控建模的流程图，可参考进行理解：

二、数据获取

1.数据描述
数据属于个人消费类贷款，只考虑评分卡最终实施时能够使用到的数据应从如下一些方面获取数据：
基本属性：包括了借款人当时的年龄。
偿债能力：包括了借款人的月收入、负债比率。
信用往来：两年内35-59天逾期次数、两年内60-89天逾期次数、两年内90天或高于90天逾期的次数。
财产状况：包括了开放式信贷和贷款数量、不动产贷款或额度数量。
贷款属性：暂无。
其他因素：包括了借款人的家属数量（不包括本人在内）。

2.数据导入以及给列重命名

rm(list = ls())
setwd(‘F:\kaggle\评分卡模型’)
getwd()
data<-read.csv(‘cs-training.csv’,header = T,stringsAsFactors = F)
str(data)
colnames(data)<-c(“id”,“y”,“x0”,“x1”,“x2”,“x3”,“x4”,“x5”,“x6”,“x7”,“x8”,“x9”)
attach(data)
summary(data)

通过summary了解数据的整体情况，可以看到x4和x9变量有缺失值，即MonthlyIncome变量和NumberOfDependents两个变量存在缺失值，monthlyincome列共有缺失值29731个，numberofdependents有3924个。

三、数据预处理

1.缺失值分析及处理
在正式分析前，我们先通过图形进行对观测字段的缺失情况有一个直观的感受。

同样得出monthlyincome（X4）列共有缺失值29731个，numberofdependents(X9)有3924个。由于MonthlyIncome（X4）缺失值达到29731条数据，比例较大，因此不能直接将缺失值删除，选择随机森林法。而NumberOfDependents（X9）的缺失较少，对数据影响不大，因此直接删除。对于缺失值的处理方法非常多，例如基于聚类的方法，基于回归的方法，基于均值的方法，在这里，我们使用mean方法对缺失值进行填补。

#保留x9中不是缺失值的数据
data<- data[!is.na(x9),]
x4_var<-c(var=“x4”,mean=mean(x4,na.rm=TRUE),median=median(x4,na.rm=TRUE),quantile(x4,c(0,0.01,0.1,0.25,0.5,0.75,0.9,0.99,1),na.rm=TRUE),max=max(x4,na.rm=TRUE),missing=sum(is.na(x4)))
View(t(x4_var))

#用mean填补x4的缺失值
x4<-ifelse(is.na(x4)==T,6670.2,x4)
#或者
library(Hmisc)
impute(x4, mean) # 均值替代

2.异常值处理
异常值是指明显偏离大多数抽样数据的数值，比如个人客户的年龄大于100或小于0时，通常认为该值为异常值。找出样本总体中的异常值，通常采用离群值检测的方法。离群值检测的方法有单变量离群值检测、局部离群值因子检测、基于聚类方法的离群值检测等方法。在本数据集中，采用单变量离群值检测来判断异常值，采用箱线图。常把低于 Q1-1.5IQR的值和高于Q3+1.5IQR的值作为异常值。通过绘制箱型图能很明显的看到异常值，
处理异常值：通常采用盖帽法，即用数据分布在1%的数据覆盖在1%以下的数据，用在99%的数据覆盖99%以上的数据。

block<-function(x,lower=T,upper=T){
if(lower){
q1<-quantile(x,0.01)
x[x<=q1]<-q1
}
if(upper){
q99<-quantile(x,0.99)
x[x>q99]<-q99
}
return(x)
}

对于age变量而言，我们认为大于100岁小于等于0岁的为异常值，由箱线图可知，异常值样本不多，故直接删除。

par(mfrow=c(2,1))
boxplot(x1,data=data,horizontal=T,frame=F,col=“lightgray”)
x1<-block(x1)
boxplot(x1,data=data,horizontal=T,frame=F,col=“lightgray”)
#col : 箱体的填充
#border : 箱体中线条的颜色，默认为黑色

可以看出经过盖帽法，大于100，小于等于0的值被删除
对于RevolvingUtilizationOfUnsecuredLines（可用额度比值x0）及DebtRatio（负债率x3）而言，箱线图如下图：

par(mfrow=c(1,2))
boxplot(x0,frame=F,ylab ="%")
abline(h=1,col=“red”)
data<-data[which(data $x 0 < = 1),] b o x p l o t (x 3, f r a m e = F, y l a b = " a b l i n e (h = 1, c o l = " r e d ") d a t a < - d a t a [w h i c h (d a t a$ x3<=1),]

因为上述两变量的数值型为百分比，故大于1的值全部删除。
对于变量x2（逾期30-59天笔数）、x6（逾期90天笔数）、x8（逾期60-89天笔数做箱线图，由图可知，有两异常值点，数值为96、98，删除。
同时会发现剔除其中一个变量的96、98值，其他变量的96、98两个值也会相应被剔除。

par(mfrow=c(1,1))
boxplot(x2,x6,x8,data=data,frame=F)
data<-data[-which(data $x 2 = = 96),] d a t a < - d a t a [- w h i c h (d a t a$ x2==98),]

四、探索性分析切分数据集

在建立模型之前，我们一般会对现有的数据进行探索性数据分析（Exploratory Data Analysis）。 EDA是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。常用的探索性数据分析方法有：直方图、散点图和箱线图等。
探索数据主要是为了分析各变量对输出结果的影响，在本项目中，主要关注的是违约客户与各变量间的关系。
1.单变量分析

hist(x1,freq = F,col=“lightgreen”)
lines(density(x1),col=“red”)

可以看到年龄变量大致呈正态分布，符合统计分析的假设。

library(ggplot2)
ggplot(data, aes(x = x4, y = …density…)) + geom_histogram(fill = “blue”, colour = “grey60”, size = 0.2, alpha = 0.2) + geom_density() + xlim(1, 20000)

月收入也大致呈正态分布，符合统计分析的需要。

2.多变量分析
我们会用经过清洗后的数据看一下变量间的相关性。注意，这里的相关性分析只是初步的检查，进一步检查模型的IV（证据权重）作为变量筛选的依据。此处较简单，在此不赘述。
总之，数据处理的过程是占据整个标准评分卡构建的最大的工作量，整体的目标是：排除异常值对模型训练的干扰，将所有变量进行量化处理，自变量对因变量有明显的解释性，变量之间无明显相关性。
建模之前需要先检验变量之间的相关性,如果变量之间具有强相关性,则会影响模型的准确性.调用R中的cor()函数来计算不同变量之间的相关系数,同时,调用corrplot包中的corrplot()函数来将相关系数可视化

cor1<-cor(data[,2:12])
library(corrplot)
corrplot(cor1)

corrplot(cor1,method = “number”)

由上图可知:各个变量之间的相关系数较小,相关性较弱,不存在明显的多重共线问题,采用logistic回归需要考虑多重共线问题,不过此处由于各变量之间的相关性较小,可以初步判断不存在多重共线问题.在建模之后也可以通过VIF(方差膨胀因子)来检验多重共线问题.如果存在多重共线性，即有可能存在两个变量高度相关，需要降维或剔除处理,需要进行降维或剔除处理.

五、切分数据集

table(y)

由上表看出，对于响应变量SeriousDlqin2yrs，存在明显的类失衡问题，SeriousDlqin2yrs等于1的观测为9879，仅为所有观测值的6.6%。数据正负比例不平衡，因此我们需要对非平衡数据进行处理，在这里可以采用SMOTE算法，smote算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本。用R对稀有事件进行超级采样。
非平衡样本的解决方法
过采样容易过拟合
欠采样容易丢失信息
SMOTE算法不能对有缺失值和类别变量做处理
SMOTE算法介绍：
采样K近邻
从K近邻中随机挑选N个样本进行随机线性插值
new=xi+rand(0,1)*(yj-xi),j=1…N
其中xi为少类中的一个观测点，yj为从K近邻中随机抽取的样本。

我们利用caret包中的createDataPartition（数据分割功能）函数将数据随机分成相同的两份。

set.seed(1234)
library(caret)
splitIndex<-createDataPartition(y,time=1, p=0.5,list=FALSE)
train<-data[splitIndex,]
test<-data[-splitIndex,]
prop.table(table(train $y)) p r o p . t a b l e (t a b l e (t e s t$ y))

两者分类后的结果是平衡的，y等于1的概率均为6.0%左右，处于良好的水平，因此，可以采用切割后的数据进行建模和预测分析。

六、建立模型

Logistic回归在信用评分卡开发中起到核心作用。由于其特点，以及对自变量进行了证据权重转换（WOE），Logistic回归的结果可以直接转换为一个汇总表，即所谓的标准评分卡格式。

2.建立模型
①首先利用glm函数对所有变量进行Logistic回归建模，模型如下

fit<-glm(y~.,train,family = “binomial”)
summary(fit)

②可以看出，利用全变量进行回归，模型拟合效果并不是很好，其中id,x7三个变量的p值未能通过检验，在此直接剔除这两个变量，利用剩余的变量对y进行回归。

fit2<-glm(y~x0+x1+x2+x3+x4+x5+x6+x8+x9,train,family = “binomial”)
summary(fit2)

第二个回归模型所有变量都通过了检验，所有模型的拟合效果更好些。
③使用逐步法剔除变量。

step(fit2, direction = “both”)

可以看到没有变量被剔除
④VIF多重共线性检验

library(car)
library(carData)
vif(fit2)

一般认为VIF值大于2的话，表明变量间存在共线性。此时没有大于2的值,各个变量间相互独立
⑤预测

train_pred <- predict(fit2, data = train , type = “response”)
test_pred <- predict(fit2, data = test , type = “response”)

⑥模型评估
下面首先利用模型对test数据进行预测，生成概率预测值

test_prob <- predict(fit2, test)

调用R语言中pROC包中的roc函数计算分类器的AUC值，可以方便的比较两个分类器，并且自动标注出最优的临界点。

install.packages(“pROC”)
library(pROC)
modelroc <- roc(test$y,test_prob)
plot(modelroc, print.auc=TRUE, auc.polygon=TRUE, grid=c(0.1, 0.2),
grid.col=c(“green”, “red”), max.auc.polygon=TRUE,
auc.polygon.col=“skyblue”, print.thres=TRUE)

如图所示：最优点FPR=1-TNR=0.778，TPR=0.732，AUC值为0.832，说明该模型的预测效果不错，正确率较高。（到这里为用户贷款预测模型）

七、特征变量选择

特征选择非常重要，好的特征能够构造出较好的模型，在此，我们采用信用卡评分模型常用的IV值筛选。
1.特征分箱
特征分箱指的是将连续变量离散化或将多状态的离散变量合并成少状态。离散特征的增加和减少都很容易，易于模型的快速迭代，离散化后的特征对异常数据有很强的鲁棒性，能够减少未离散化之前异常值对模型的干扰，同时离散化后可以进行特征交叉。此外本文所选的模型算法为逻辑回归，逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入非线性，提升模型表达能力，加大拟合，同时也降低了模型过拟合的风险。特征分箱常用的有以下几种方法：有监督的有Best-KS，ChiMerge（卡分分箱），无监督的包括等频、等距、聚类。根据数据特征，针对不同数据采用不同分箱方式。
信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。
如年龄，在外面的业务场景中年龄越小和年龄越大，违约概率都会偏大，所以这块需要做好分箱处理。

cutx1= c(-Inf,30,35,40,45,50,55,60,65,75,Inf)
plot(cut(train$x1,cutx1))

cutx2 = c(-Inf,0,1,3,5,Inf)
plot(cut(train$x2,cutx2))

cutx4 = c(-Inf,1000,2000,3000,4000,5000,6000,7500,9500,12000,Inf)
plot(cut(train$x4,cutx4))

cutx6 = c(-Inf,0,1,3,5,10,Inf)
plot(cut(train$x6,cutx6))

cutx8 = c(-Inf,0,1,3,5,Inf)
plot(cut(train$x8,cutx8))

cutx9 = c(-Inf,0,1,2,3,5,Inf)
plot(cut(train$x9,cutx9))

2.WOE值计算
在分箱的过程中，同时计算了WOE（Weight of Evidence）和IV(Information Value)，前者在建立逻辑回归模型是需要将所有的变量转为WOE，而后者则可以很好的展示变量的预测能力。这两个值的计算方式如下：

证据权重（Weight of Evidence,WOE）转换可以将Logistic回归模型转化为标准评分卡格式，引入WOE转换的目的并不是为了提高模型质量，而是由于一些变量不应该被纳入模型，或者是因为它们不能增加模型值，或者是因为与其模型相关系数有关的误差较大，其实建立标准信用评分卡也可以不采用WOE转换。这种情况下，Logistic回归模型需要处理更大数量的自变量。尽管这样会增加建模程序的复杂性，但最终得到的评分卡都是一样的。
用WOE(x)替换变量x，WOE()=ln[(违约/总违约)/(正常/总正常)]。由于模型中剔除id,x7两个变量，因此对剩下的变量进行WOE转换。
WOE分箱原则：
1.分箱数量适中，不宜过多和过少。
2.各个分箱内的记录数应该合理，不应过多或者或过少。
3.结合目标变量，分箱应该表现出明显的趋势。
4.相邻分箱的目标变量分布差异尽可能大。

#计算WOE的函数
totalgood = as.numeric(table(train $y)) [1] t o t a l b a d = a s . n u m e r i c (t a b l e (t r a i n$ y))[2]
getWOE <- function(a,p,q)
{
Good <- as.numeric(table(train $KaTeX parse error: Expected 'EOF', got '&' at position 9: y[a > p &̲ a <= q]))[1] \dots$ y[a > p & a <= q]))[2]
WOE <- log((Bad/totalbad)/(Good/totalgood),base = exp(1))
return(WOE)
}

如age变量(x1)

Agelessthan30.WOE=getWOE(train$x1,-Inf,30)

Age30to35.WOE=getWOE(train$x1,30,35)

Age35to40.WOE=getWOE(train$x1,35,40)

Age40to45.WOE=getWOE(train$x1,40,45)

Age45to50.WOE=getWOE(train$x1,45,50)

Age50to55.WOE=getWOE(train$x1,50,55)

Age55to60.WOE=getWOE(train$x1,55,60)

Age60to65.WOE=getWOE(train$x1,60,65)

Age65to75.WOE=getWOE(train$x1,65,75)

Agemorethan.WOE=getWOE(train$x1,75,Inf)

age.WOE=c(Agelessthan30.WOE,Age30to35.WOE,Age35to40.WOE,Age40to45.WOE,Age45to50.WOE,
Age50to55.WOE,Age55to60.WOE,Age60to65.WOE,Age65to75.WOE,Agemorethan.WOE)
age.WOE

3.对变量进行WOE变换
如age变量(x1)

tmp.age <- 0
for(i in 1:nrow(train)) {
if(train $x 1 [i] < = 30) t m p . a g e [i] < - A g e l e s s t h a n 30 . W O E e l s e i f (t r a i n$ x1[i] <= 35)
tmp.age[i] <- Age30to35.WOE
else if(train $x 1 [i] < = 40) t m p . a g e [i] < - A g e 35 t o 40 . W O E e l s e i f (t r a i n$ x1[i] <= 45)
tmp.age[i] <- Age40to45.WOE
else if(train $x 1 [i] < = 50) t m p . a g e [i] < - A g e 45 t o 50 . W O E e l s e i f (t r a i n$ x1[i] <= 55)
tmp.age[i] <- Age50to55.WOE
else if(train $x 1 [i] < = 60) t m p . a g e [i] < - A g e 55 t o 60 . W O E e l s e i f (t r a i n$ x1[i] <= 65)
tmp.age[i] <- Age60to65.WOE
else if(train$x1[i] <= 75)
tmp.age[i] <- Age65to75.WOE
else
tmp.age[i] <- Agemorethan.WOE
}
table(tmp.age)

tmp.age[1:10]

train$x1[1:10]

4.WOE DataFrame构建

trainWOE =cbind.data.frame(tmp.age,tmp.NumberOfTime30.59DaysPastDueNotWorse,tmp.MonthlyIncome,tmp.NumberOfTime60.89DaysPastDueNotWorse
,tmp.NumberOfTimes90DaysLate,tmp.NumberRealEstateLoansOrLines,tmp.NumberOfDependents)

5.看一下各个变量的IV值

八、评分卡的创建和实施

逻辑回归建模

#因为数据中“1”代表的是违约，直接建模预测，求的是“发生违约的概率”，log(odds)即为“坏好比”。为了符合常规理解，分数越高，信用越好，所有就调换“0”和“1”，使建模预测结果为“不发生违约的概率”，最后log(odds)即表示为“好坏比”。
trainWOE $y = 1 - t r a i n$ y
glm.fit = glm(y~.,data = trainWOE,family = binomial(link = logit))
summary(glm.fit)
coe = (glm.fit$coefficients)
p <- 20/log(2)
q <- 600-20log(15)/log(2)
Score=q + p{as.numeric(coe[1])+as.numeric(coe[2])*tmp.age +as.numeric(coe[3])tmp.NumberOfTime30.59DaysPastDueNotWorse+pas.numeric(coe[4])tmp.MonthlyIncome+pas.numeric(coe[5])tmp.NumberOfTime60.89DaysPastDueNotWorse+pas.numeric(coe[6])tmp.NumberOfTimes90DaysLate+pas.numeric(coe[7])tmp.NumberRealEstateLoansOrLines+pas.numeric(coe[8])*tmp.NumberOfDependents

个人总评分=基础分+各部分得分
基础分为:
base <- q + pas.numeric(coe[1])
base
对各变量进行打分
Agelessthan30.SCORE = pas.numeric(coe[2])Agelessthan30.WOE
Age30to35.SCORE = pas.numeric(coe[2])Age30to35.WOE
Age35to40.SCORE = pas.numeric(coe[2])Age35to40.WOE
Age40to45.SCORE = pas.numeric(coe[2])Age40to45.WOE
Age45to50.SCORE = pas.numeric(coe[2])Age45to50.WOE
Age50to55.SCORE = pas.numeric(coe[2])Age50to55.WOE
Age55to60.SCORE = pas.numeric(coe[2])Age55to60.WOE
Age60to65.SCORE = pas.numeric(coe[2])Age60to65.WOE
Age65to75.SCORE = pas.numeric(coe[2])Age65to75.WOE
Agemorethan.SCORE=pas.numeric(coe[2])*Agemorethan.WOE
Age.SCORE =c(Age30to35.SCORE,Age35to40.SCORE,Age40to45.SCORE,Age45to50.SCORE,Age50to55.SCORE,Age55to60.SCORE,Age60to65.SCORE,Age65to75.SCORE,Agemorethan.SCORE)
Age.SCORE

计算各变量分箱得分：

Agelessthan30.SCORE = getscore(2,Agelessthan30.WOE)
Age30to35.SCORE = getscore(2,Age30to35.WOE)
Age35to40.SCORE = getscore(2,Age35to40.WOE)
Age40to45.SCORE = getscore(2,Age40to45.WOE)
Age45to50.SCORE = getscore(2,Age45to50.WOE)
Age50to55.SCORE = getscore(2,Age50to55.WOE)
Age55to60.SCORE = getscore(2,Age55to60.WOE)
Age60to65.SCORE = getscore(2,Age60to65.WOE)
Age65to75.SCORE = getscore(2,Age65to75.WOE)
Agemorethan.SCORE = getscore(2,Agemorethan.WOE)
Age.SCORE = c(Agelessthan30.SCORE,Age30to35.SCORE,Age35to40.SCORE,Age40to45.SCORE,Age45to50.SCORE,Age50to55.SCORE,Age55to60.SCORE,Age60to65.SCORE,Age65to75.SCORE,Agemorethan.SCORE)
Age.SCORE

最终生成的评分卡如下:

个人评分计算案例：

所以这个人的总评分 = 基础分（base）+ 各特征分数
总评分 = 446.2841+7+47+10+38-3+62+2 = 609.2841
建立自动评分系统：

#计算每一个借款人的信用评分
#age
score.age <- 0
for(i in 1:nrow(train)) {
if(train $x 2 [i] < = 30) s c o r e . a g e [i] < - A g e l e s s t h a n 30 . S C O R E e l s e i f (t r a i n$ x2[i] <= 35)
score.age[i] <- Age30to35.SCORE
else if(train $x 2 [i] < = 40) s c o r e . a g e [i] < - A g e 35 t o 40 . S C O R E e l s e i f (t r a i n$ x2[i] <= 45)
score.age[i] <- Age40to45.SCORE
else if(train $x 2 [i] < = 50) s c o r e . a g e [i] < - A g e 45 t o 50 . S C O R E e l s e i f (t r a i n$ x2[i] <= 55)
score.age[i] <- Age50to55.SCORE
else if(train $x 2 [i] < = 60) s c o r e . a g e [i] < - A g e 55 t o 60 . S C O R E e l s e i f (t r a i n$ x2[i] <= 65)
score.age[i] <- Age60to65.SCORE
else if(train $KaTeX parse error: Expected 'EOF', got '}' at position 95: \dotsmorethan.SCORE }̲ for(i in 1:nro\dots$ creditScore<-round(creditScore,0)

本文通过对于Kaggle上项目的数据进行分析，利用逻辑回归制作了一个简单的评分卡。在建立评分卡的过程中，首先进行了数据清洗，对缺失值和异常值进行了处理并对数据分布进行了宏观展示。然后对特征值进行了处理，将连续的变量分箱，同时计算了woe和iv值，并保留了iv值较高的变量对其woe转化。最后将woe转化后的数据进行逻辑回归分析，利用得到变量系数并自行拟定了评分标准建立了评分卡。
本项目还有许多不足之处，比如分箱应当使用最优分箱或卡方分箱，减少人为分箱的随机性，此外模型采用的是逻辑回归算法，还可以多多尝试其他模型。
PS:
信用卡评分模型学习笔记总结（转）
https://blog.csdn.net/huipingx/article/details/85225711
其他代码

你可能感兴趣的:(金融风控信用卡评分建模)

2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
融开心告诉你：银行怎么靠你的信用卡赚钱骊驰商学院
办卡送礼、刷卡返现……信用卡无论办卡还是用卡，福利不要太爽哦~~很多人出于种种原因，办理了多张信用卡。然而却不知道：只要你用信用卡消费，银行就已经开始用你的卡来赚钱了。银行怎么靠你的信用卡赚钱，骊驰融开心告诉你这些：银行怎么靠你的信用卡赚钱？1、信用卡利息收入。持卡人透支信用额度所支付的利息，这一部分是信用卡收入的主要部分。如持卡人逾期、还最低还款额时，利息就产生，日息万分之五哦~~2、信用卡年费
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
新媒体运营小白，有哪些书籍可以推荐？ y耳朵
为了转行运营，我曾花了3个月的时间，看了不下百本书，可以说市面上大部分跟运营有关的书籍，我都看过了，因此关于书的推荐也有一些自己的小见解。看书不一定要多，但一定要****精，我根据豆瓣评分、推荐热度和自己的转行经历，挑出了13本值得运营小白看的书，收藏好这份书单，不需要你浪费时间去找书了。先看下统计好的书单：整理不易，看完记得点个赞哦！感谢你的支持。入门篇：1.《运营之光》（豆瓣评分：8.0)推荐
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
《疯狂的外星人》：生活本就如此荒诞，杀不死你的，终将成就你职心眼儿
文/董小琳了解电影较好的方法是知道它是如何说故事的。——法国评论家安德烈·巴顿早就听闻豆瓣评分6.4的《疯狂的外星人》，口碑两极分化——爱的人，喜欢它的搞笑，符合贺岁档合家欢的观影需求；骂的人，认为剧情牵强，漏洞百出，笑点牵强得像被人瘙痒。结果近54万观众的评分，一半以上的人只给到了及格，甚至还往下的分数。所以，《疯狂的外星人》就铁定是一部烂片了吗？今年过年，在家看了这部作品后，我想，如果电影自己
【机器人建模和控制】读书笔记 Piccab0o 机器人
机器人建模和控制——马克·斯庞A.x10=x1∙x0x^0_1=x_1\bulletx_0x10=x1∙x0，其实就是：1）x1x_1x1轴向量在O0O_0O0系下的坐标2）在x0x_0x0轴上的投影3）坐标变换矩阵的R10R_1^0R10的第一个元素B.点p在o1x1y1z1o_1x_1y_1z_1o1x1y1z1系下的坐标p1p^1p1可以表示为：p=ux1+vy1+wz1p=ux_1+vy_
Matlab在工业机器人中的运用,基于MATLAB的工业机器人建模与仿真.docx weixin_34518801
摘要：机器人运动系统作为机器人系统中最重要的组成部分之一，其重要性不言而喻，因为它影响着机器人的主要性能，因此为了提高机器人的质量，对机器人进行运动学分析和仿真是不可或缺的。本次毕业设计主要对KUKA机器人的三维仿真进行了一系列的分析，主要是以下几个内容：(1)研究了机器人运动学仿真的背景意义及发展趋势。(2)通过对齐次坐标变换理论的研究,说明了KUKA机器人结构及参数,并且建立了相应的D-H参数
MATLAB在无线通信系统测试和验证中的应用 2401_85812053 matlab 开发语言
在无线通信系统的开发过程中，测试和验证是确保系统性能满足设计要求的关键步骤。MATLAB提供了一系列的工具和功能，这些工具在无线通信系统的测试和验证中发挥着重要作用。本文将详细介绍MATLAB在无线通信系统测试和验证中的应用，包括信道建模、调制解调、射频（RF）链路分析以及硬件验证等方面。1.信道建模信道建模是无线通信系统设计中的关键环节，它影响着信号的传输质量和系统的整体性能。MATLAB提供了
2.8.5Django --8.2 单表操作寒暄_HX
Django目录：https://www.jianshu.com/p/dc36f62b3dc5Yuan先生-Django模型层（1）Django与SQLAlchemy的ORM操作本质上是一样的，但是语法略有不同，如果是用Django进行开发最好使用原生的ORM或者直接使用原生SQL。创建表app06创建模型在app06中的models.py文件内，新建一个模板。one_exa.app06.mode
年底了，积分也要清零了，该兑就兑了吧，清零就可惜了遇见yh
年底了，许多平台的积分也要清零了，信用卡、电话卡的积分也攒了不少，该兑就得兑了，如果不兑，到年底也都会被清零。所以如果你的使用的平台，现在还有积分的话，就赶快去兑换一下，如果清零就太可惜了。前几天我登录联通官网一看，上面也有1000多个积分，就去兑换了一件麦芯粉。还有支付宝积分，也可以兑换自己需要的东西，我昨天就兑了一盒脱骨鸡爪。之前还兑过一箱全麦面包，品质都不错。这些东西都是平台送的，你不去兑换
中国男篮：15万赛后评分，赵继伟第三，赵睿3.8分倒数第一体娱荒原
在某体育社交软件中，有15万人之多为中国男篮第二场比赛进行点评，我们一起来看看他们的评分排名。这场比赛有12人出场，全部球员都有得分进账。吴前9.9分，这场比赛他拿到全队最高的18分还有4篮板3助攻3抢断，虽然也有3次失误和5次犯规，但是瑕不掩瑜，特别是最后一节单节得到10分跟赵继伟的连线帮助球队逆转对手赢得一场胜利，他的发挥至关重要，要知道对手对他也有研究，基本上都是贴身防守，持球还有夹击，吴前
Day25_0.1基础学习MATLAB学习小技巧总结（25）——四维图形的可视化非常规定义M 0.1基础学习MATLAB 学习 matlab 开发语言 SIMULINK 数学建模
利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍，为了在这个过程中加深印象，也为了能够有所足迹，我会把自己的学习总结发在专栏中，以便学习交流。参考书目：1、《MATLAB基础教程(第三版)(薛山)》2、《MATLABR2020a完全自学一本通》之前的章节都是基础的数据运算用法，对于功课来说更加重要的内容是建模、绘图、观察数据趋势，接下来我会结合自己的使用经验，来为大家分享绘图、建模使用的小
聊聊一条岬的《今夜，即便这份恋情从世界消散》醉烟雨
在开始谈这本书前，我想问几个问题，那就是爱情是什么呢？如果离开这个世界，你希望留下什么？如果忘记你能让你喜欢的TA更好的生活在这世界上，你是否有勇气选择抹去所有自己存在的痕迹？2021年豆瓣评分第一名的爱情电影《花束般的恋爱》于今年二月份上映，如果可以，我希望今年七月在日本上映的电影《今夜，即使这份恋情从世界消散》也能够在国内上映。电影《今夜，即便这份恋情从世界消散》《今夜，即便这份恋情从世界消散
时评分析·话题：经济发展旻月
标题：《更好助力中小企业纾困发展》切入点：中小企业纾困结构：六段三分分析：首段介绍我国工信部联合国家发改委等17个部门对促进中小企业发展工作进行制度设计的措施与意义。第二段点明中小企业在经济发展中的重要作用，以及疫情防控期间落实的促进政策实效，潜在观点是助力中小企业纾困发展有利于恢复经济发展态势。第三段开篇点明第二段隐含观点，并进一步说明为助力中小企业纾困必须进行制度设计的原因与制度设计的具体内容
渗透测试的了解锅盖'awa' 网络安全小白之路安全性测试安全
文章目录概述一、渗透测试分类1.黑盒测试／外部测试2.白盒测试／内部测试3.灰盒测试／组合测试二、渗透测试-目标分类1、主机操作系统渗透2、数据库系统渗透3、应用系统渗透4、网络设备渗透三、渗透测试过程（七个阶段）1.前期交互阶段（Pre-EngagementInteraction）2.情报搜集阶段（InformationGathering）3.威胁建模阶段（ThreatModeling）4.漏洞
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
【大模型】triton inference server idiotyi 大模型自然语言处理语言模型人工智能
前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。本文主要是使用tritoninferenceserver部署大模型的简单流程示例。目录1.整体流程2.搭建本地仓库3.服务端代码4.启动服务5.客户端调用1.整体流程搭建模型仓库模型配置服务端调用代码docker启动服务客户端调用
精仿手表在哪里买【2024科普一下】桃朵桃朵
在2024年，随着科技的进步和互联网的普及，购买精仿手表的渠道和方式也变得越来越多样化。为了帮助大家更好地了解如何购买精仿手表，本文将科普一下相关的知识和技巧。【更多详情加薇信了解：FB2260】首先，要选择可靠的购买渠道。购买精仿手表时，一定要选择正规的商家和平台，避免购买到质量差、假冒伪劣的产品。在选择商家时，可以参考商家的信誉评分、历史评价等信息，确保选择的商家具有良好的信誉。此外，一些知名
数学建模、运筹学之非线性规划 AgentSmart 算法学习算法动态规划线性代数线性规划
数学建模、运筹学之非线性规划一、最优化问题理论体系二、梯度下降法——无约束非线性规划三、牛顿法——无约束非线性规划四、只包含等值约束的拉格朗日乘子法五、不等值约束非线性规划与KKT条件一、最优化问题理论体系最优化问题旨在寻找全局最优值（或为最大值，或为最小值）。最优化问题一般可以分为两个部分：目标函数与约束条件。该问题的进一步细分也是根据这两部分的差异。最优化问题根据变量的取值范围不同可以划分为一
深入理解单元测试元闰子单元测试 log4j
荐语本文要介绍的是2020年O’Reilly出版的书籍UnitTestingPrinciples,Practices,andPatterns，一本在豆瓣评分高达9.9的好书。作为一名软件开发工程师，你应该对单元测试（unittest）很熟悉，但单元测试的目的、Mock的正确用法、单元测试和集成测试的区别等等，你真的懂吗？书中对这些内容都做了深入的介绍，并通过实际案例教你如何写出好的单元测试。读完这
【五十五，模型加载-2 模型文件格式】 Woodlouse
Obj和mtl文件ObjObj文件是3D模型文件格式，由Alias|Wavefront公司为3D建模和动画软件AdvancedVisualizer开发的一种标准，用于3D软件模型互导。包含数据信息：顶点坐标信息顶点的纹理坐标信息顶点法向量信息mtlmtl文件定义材质信息，包含数据信息：纹理贴图环境光镜面光散射光Obj文件格式obj文件中的信息以行为单位表示一条数据，可以根据行开头的字符判断后续数据
《隐秘的角落》细思极恐的几个细节：隐藏在童话结局当中的人性善恶莫染说
《隐秘的角落》是辛爽执导，秦昊、王景春领衔主演的悬疑短剧集，豆瓣评分9.1分，一口气看完了六集，细思极恐，发现了其中很多隐秘的细节。一、张东升和朱朝阳都是高智商犯罪心理扭曲朱朝阳是张东升的前身，张东升是朱朝阳的后身，可以说朱朝阳是微缩版的张东升，他长大以后很可能成为第二个张东升。其实这两个人在很多方面是同样的人，同样是数学天才，高智商犯罪。同样不合群，人际交往孤僻，心理阴暗，朱朝阳考试时面对同学的
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
VLSI电路单元的自动布局：全局布局基础介绍 Jaaiko 数学建模算法开源图论 matlab
2024年华数杯全国大学生数学建模竞赛B题为：VLSI电路单元的自动布局。本题主要关注的是全局布局问题。学术界针对全局布局的评估模型和优化方法的研究历史悠久。本文借题顺势介绍全局布局的一些重点基础内容和相关工具/资料，以期为对EDA算法设计领域感兴趣、对数学建模感兴趣的人降低研究门槛。VLSI是超大规模集成电路的简称。完成一个VLSI设计的流程十分复杂，包含多种数据格式的转化，其中将逻辑网表转变为
每到深夜无法入眠“焦虑”“惶恐” 妞很坚强
98年的我，已婚有一个乖巧可爱的儿子，还有一个事事都包容我的老公，现在的我朝九晚五的工作，平均工资7-8千，工作压力生活的压力让我自己不知道怎么办，我瞒着我老公欠了很多钱，“60万”。2016年生我儿子的时候在家里休息了一年多，没有上班，为了想说在家里也能赚钱上网找兼职淘宝刷单被骗钱，然后平时买买东西稀里糊涂的慢慢才发现自己的信用卡欠了好多钱，2017年2月份上班做保险，可以帮客户交代保费，客户钱
2021年自我总结茄子带皮
元宵节过了，年过完了，这新的一年也开始了。对旧的一年来一个自我总结，回顾一下我的2021。2021是我最认真上班的一年。这一年我还清了分期。关掉了花呗借呗微粒贷分期乐。现在信用卡欠款还有1万多没有还完，但是我觉得我已经尽力了。之所以没有能够还完，其中也是受疫情影响，所以计划耽搁了，不然的话这1万多块钱就还完了。当你负债累累的时候，真的是要开元节流。而且现在生活中很多都是消费陷阱，提前消费，让我们透
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
MATLAB中的控制系统工具箱：深入指南与实践应用 2401_85812026 matlab
MATLAB的控制系统工具箱（ControlSystemToolbox）是一个强大的工具集，它为工程师和研究人员提供了全面的控制系统设计、分析和仿真解决方案。本文将详细介绍如何在MATLAB中使用控制系统工具箱，包括系统建模、控制器设计、系统仿真和分析等方面。1.系统建模在控制系统工具箱中，可以通过多种方式对系统进行建模，包括状态空间模型、传递函数模型和零极点模型。1.1状态空间模型状态空间模型是
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc