贷中客群评级的场景实现,来试试这些多维的实操方法

客户价值评估是信贷业务体系的典型场景,无论是针对风险控制,还是侧重策略营销,围绕客户群体的价值分层,始终是数据分析范围内一个重要且必要的话题。从信贷风控的角度来讲,客户价值评估可以贯穿贷前、贷中、贷后整个流程,现对风控不同阶段举几个细化的模型应用场景。
(1)贷前环节:对于申请进件新客户的价值评估,可以将客户群体进行流量分层,便于针对不同客群采取不同的风控策略,或者授予不同的额度定价;
(2)贷中环节:对于在贷存量客户的价值评估,可以量化贷中期间客户群体的风险异变或资质能力情况,有助于对客户完成贷中风险预警或交叉营销;
(3)贷后环节:对于贷款周期结束且全部还款的客户,通过价值评估分析,可以实现对价值较高客户进行二次营销或睡眠激活,从而提高客群的活跃度。通过以上几个细化场景示例初步可以了解到,客户群体的价值评估在信贷业务中发挥着非常关键的作用,对于风险定价、精准营销、客户画像等应用场景,具有极为重要的意义。

1、贷中客户价值评估
客户价值评估模型的重要度无需多言,但是根据实际业务需求,如何构建模型是一个有意思的话题,例如实际业务场景的理解、机器学习算法的选择、模型应用期望的效果等,都是建立客户价值评估模型的重要思考维度。本文围绕信贷业务的贷中场景,来具体描述下客户价值评估的意义所在。在贷中期间,存量客户群体虽然同属贷款生命周期内,但随着时间周期的推移,客户的行为表现必然会有一定变化,而这些特点在很大程度上可以体现出客户未来的价值度高低。我们若能采用模型来量化客户的价值等级,则可以有效的实施精准营销,也就是对于不同潜在价值的客户群体,采取差异化的营销策略,从而提升业务的综合收益。通常情况下,我们往往将客户价值评估模型单纯理解为是一种多分类问题,例如客户价值等级分为A、B、C、D,从A到D代表客户价值越低,采用LR、GBDT、XGBoost、LightGBM等机器学习算法,训练拟合多分类模型,在实际应用中通过模型对新老客户进行评估,输出AD等级的其中一类,从而实现了业务场景对客户的价值评估,也可以理解为客户群体的价值分层。当然,这个模型的应用过程与输出结果,对分析新增或存量客户的资质能力、风险定价有很好的参考价值,以上逻辑也是完全符合实际业务场景的需求,以及对客户价值评估模型的理解。但是,从模型类型或者业务问题来讲,客户价值评估模型并不是简单指多分类模型,也可以是二分类模型,还可以是回归模型,甚至可以是聚类模型,具体完全取决于建立模型的方法,以及模型输出结果的业务理解与场景应用,这些内容便是本文将要介绍的重点。围绕客户价值评估模型,我们从机器学习算法与模型场景应用的角度,大体介绍下模型类型的归属问题,以及各模型场景的原理思想,具体示例描述如下:(1)二分类问题:通过LR、GBDT、XGBoost、LightGBM、随机森林等机器学习算法,训练有监督二分类模型,模型目标变量为类别型,例如取值1、0,代表客户是、否有价值;(2)多分类问题:通过LR、GBDT、XGBoost、LightGBM、随机森林等机器学习算法,训练有监督多分类模型,模型目标变量为类别型,例如取值1、2、3、4,代表客户价值的等级,数值越大说明客户的价值越高;(3)回归问题:通过线性回归、KNN、SVR、GBDT、随机森林等机器学习算法,训练有监督回归模型,模型目标变量为连续型,例如取值0.11,代表客户价值的系数,数值越大说明客户的价值越高;(4)聚类问题:通过Kmeans、DBSCAN、BIRCH、OPTICS等机器学习算法,训练无监督聚类模型,模型无目标变量,通过聚类各簇(例如0、1、2)特征变量的统计分析描述指标(例如均值、极值等),围绕客户群体的画像描述来评估客户价值度的高低。通过以上对客户价值评估模型场景的分析,我们可以较为明确的了解到,针对客户群体的价值评估,并不局限于某一类模型问题,而是从二分类、多分类、回归、聚类各种机器学习模型类型来实现,主要关键点是在于各类模型的目标变量定义,以及模型输出结果的业务理解与应用逻辑。从另一个实用角度来讲,在很多实际业务场景,针对同样一份建模样本数据,假设需要构建客户价值评估模型,只要选定的目标变量在数据分布与业务理解等方面比较合适,我们可以从有无监督的分类、回归、聚类多个维度来实现。为了便于大家对此模型的原理思想有更全面且深入的理解,我们接下来将围绕具体实例的建模样本数据,来依次通过各类机器学习算法来完成客户价值评估模型。
2、建模样本数据介绍
本文选取的实例样本数据包含10000条样本和8个字段,具体数据样例如图1所示,其中ID(客户订单号)为样本主键,Credit_Index(信用指数)、Consum_Index(消费指数)、Travel_Index(出行指数)、Online_Index(网购指数)、Life_Index(生活指数)、Work_Index(工作指数)、Amount(利润金额)为特征变量池,Amount具体是指当前样本客户群体在一定且相同的信贷时间周期内,给信贷业务方带来的利润收益。
贷中客群评级的场景实现,来试试这些多维的实操方法_第1张图片

                                                            图1 建模数据样例

由于我们要从不同算法维度来建立有监督模型,因此首先需要明确目标变量的定义逻辑。同时,我们已知建模任务是客户价值评估模型,选取的指标来源必须可以反映出客户的资质能力、风险情况等相关特点,具体指标维度可以是一个或多个字段。按照以上对模型目标变量的理解,由于利润金额可以直接反映客户群体的价值度高低,因此我们这里可以选取特征Amount(利润金额),作为客户价值评估模型目标的直接来源或加工字段。我们来看下特征Amount(利润金额)的字段类型(连续int型)以及取值情况,具体可视化分布结果如图2所示,可知Amount是一系列从最小值304到最大值6280的连续数值。从数据分布角度理解,Amount的原始数据可以满足回归模型的目标类型需求,而对于分类模型,我们可以考虑结合实际业务情况,设置一个或多个阈值,将Amount的数据分布按照从小到大排序,然后将其划分为多个区间,每个区间可以归为一个类型。例如,二分类模型需要划分2个区间,多分类模型则划分多个区间,这样便可以将回归问题转化为分类问题,而且目标变量的原始数据都是来源于同一个特征字段,这也是本文通过多维度模型的实现方法,来构建贷中客户价值评估模型的核心思路与重要前提。
贷中客群评级的场景实现,来试试这些多维的实操方法_第2张图片

                                                            图2 Amount取值分布

3、模型目标变量定义
根据上文对客户价值评估有监督模型的理解,我们熟悉了不同算法模型(回归、二分类、多分类)的目标类型及其数据要求,在构建各模型之前,这里先简要梳理下各模型目标变量的取数逻辑。
(1)回归模型:目标变量flag1=Amount,数值越大代表客户的价值度越高。
(2)二分类模型:目标变量flag2根据Amount的数据分布划分2个区间,当Amount>=2000,则flag2=1(高价值);当Amount<2000,则flag2=0(低价值)。
(3)多分类模型:目标变量flag3根据Amount的数据分布划分4个区间,当Amount<1000,则flag3=1(低价值);当1000<=Amount<2000,则flag3=2(较低价值);当2000<=Amount<3000,则flag3=3(较高价值);当Amount>=3000,则flag3=4(高价值),从1到4数值越大代表客户价值度越高。
(4)聚类模型:无监督算法,无需定义目标变量。当各类算法模型的目标变量确定之后,我们简单了解下各目标变量的取值分布,其中回归模型标签flag1与Amount相同,二分类模型标签flag2与多分类模型标签flag3的分布情况如图3、图4所示。
在这里插入图片描述

                                                           图3二分类模型标签分布

贷中客群评级的场景实现,来试试这些多维的实操方法_第3张图片

                                                               图4 多分类模型标签分布

在明确了各类模型标签分布正常的情况下,接下来我们依次通过回归、二分类、多分类、聚类多个维度的机器学习方法,来建立贷中场景的客户价值评估模型。
4、客户价值评估回归模型
在回归模型场景下,目标变量flag1直接来源于Amount,取值分布为连续int类型。我们选取传统的线性回归算法来建立模型,模型参数均采用默认值。建模数据data通过随机拆分方式,将样本按照7:3比例分为训练集与测试集,其中训练集train用来模型拟合,测试集test用来模型预测,模型训练与预测的实现过程详见知识星球代码详情。回归模型linr针对测试集test的预测,输出标签pred_Y代表客户的预测利润金额,取值越大说明客户的价值度越高,部分数据(前10样本)结果及其可视化分布样例如图6所示。
贷中客群评级的场景实现,来试试这些多维的实操方法_第4张图片

                                                                    图6 回归模型预测

5、客户价值评估二分类模型
在二分类模型场景下,目标变量flag2根据Amount的二分区间得到。现采用传统的逻辑回归算法来建立模型,模型参数均采用默认值,与上文线性回归同理,采用70%的样本数据训练模型,采用30%的样本数据测试模型,模型训练与预测的具体详见知识星球代码详情。
二分类模型lr针对测试集test的预测,可以输出标签pred_Y(取值0/1)与概率值pred_Y_proba(范围0~1),二者的关系是根据模型默认阈值threshold(0.5),来判断pred_Y_proba从而得到标签pred_Y,也就是当proba>=threshold时pred_Y为1,否则pred_Y为0。模型预测结果为1表示当前客户为高价值,预测结果为0则为低价值,部分数据结果样例如图8所示。
贷中客群评级的场景实现,来试试这些多维的实操方法_第5张图片

                                                            图8 二分类模型预测

6、客户价值评估多分类模型
在多分类模型场景下,目标变量flag3根据Amount的4分区间得到。这里采用较流行的决策树算法XGBoost来建立模型,模型参数均采用默认值,仍然采用70%、30%的样本数据来分别训练与测试模型,具体实现过程详见知识星球代码详情。多分类模型xgb针对测试集test的预测,可以输出标签pred_Y(1/2/3/4)与概率值pred_Y_proba(范围01),二者的关系是根据pred_Y_proba的4个类别概率值,取最大值对应的类别则为标签pred_Y。模型预测结果为14,代表客户的价值度从低到高,部分数据结果样例如图10所示。
贷中客群评级的场景实现,来试试这些多维的实操方法_第6张图片
图10 多分类模型预测

7、客户价值评估聚类模型
在聚类模型场景下,由于模型属于无监督范畴,自然无目标变量Y。现采用常见的Kmeans聚类算法来完成客户群体的分类,这里的簇类数定义为3,并采用70%的样本数据来训练模型,30%的样本数据来测试模型,具体实现过程详见知识星球代码详情。聚类模型kms针对测试集test的预测,可以输出标签pred_Y(0/1/2),这里需要注意的是,预测结果0/1/2并没有等级比较关系,仅仅是聚类各簇的标识。若在聚类模型的思想下完成对客户价值的评估,需要对各簇客户群体的特征进行画像描述。虽然模型训练过程的变量池包含7个字段,但由于Amount(利润金额)最能直接体现客户的价值,因此我们以特征Amount为例,来对客户的价值度进行评估。针对聚类各簇客户群体的分布情况,我们通过图12的实现过程,来描述聚类后各簇的样本频数分布,以及特征Amount的均值结果,具体如图13所示。
贷中客群评级的场景实现,来试试这些多维的实操方法_第7张图片

                                                            图12聚类特征画像实现

贷中客群评级的场景实现,来试试这些多维的实操方法_第8张图片

                                                             图13聚类特征画像结果

通过以上输出结果可知,聚类后各簇的客户群体数量分别为1025、304、1671,其中簇类2客户群体的平均利润金额明显较高(3382),而簇类3客户群体的平均利润金额最低(818),显然最终结论是簇类3的价值度最高,簇类1次之,簇类2的价值度最低。因此,根据聚类模型来评估客户的价值,重点思路是根据聚类各簇特征的描述性统计分析,并结合实际业务理解,来实现客户群体的价值分层。综合以上介绍,我们围绕贷中期间的客户价值评估场景,从回归、二分类、多分类、聚类共4个机器学习算法维度,依次构建了客户群体的价值评估模型。同时,根据模型应用的输出结果,可以量化判断出客户的价值度高低,从而有助于信贷业务营销策略制定及其实施。为了大家对客户价值评估模型的进一步理解与熟悉,本文额外附带了与以上内容同步的python代码与样本数据,供大家参考学习,详情请移至知识星球查看相关内容。
贷中客群评级的场景实现,来试试这些多维的实操方法_第9张图片

~原创文章

你可能感兴趣的:(番茄风控大数据公众号,贷中客群评级,场景实现,实操方法)