2021全国大学生数学建模竞赛C题思路

全国大学生数学建模竞赛即将开始,思路发布在这里
https://mathmodel.lanzoui.com/s/cumcm
C题 中小微企业的信贷决
1.量化分析,即将一个目标 用 具 体的 数 值 表 示 出 来,对 应 于 第一问 就是将每个企业的信贷风险用一个具体的值表示出来。
2.《企业信息》中只给了企业名称和信誉等级(自变量),最关键的是是否违约(因变量),学过机器学习的同学应该知道,题目的言下之意很明显需要你建立一个预测模型,预测企业违约的可能性有多大。
3.但是表一给的特征非常有限,这个时候就需要从特征工程入手,从后面两张表中提取出我们所需要的特征(查询相关资料)。
给大家列举已经做出来的几个:进项有效发票数、进项作废发票数、销项有效发票数、销项作废发票数、负数发票次数、负数发票次数占比、企业交易金额、交易时长(月份),平均每月交易次数、平均每月交易金额。涉及到平均主要是因为企业交易次数少,有违约的和没有违约的,所以单从次数和金额上不好判断。其它特征小编不一一解释了,自己查资料理解。
4.有了这些特征,那我们就可以建议预测模型《企业信息》中的信息就是模型的训练样本。在这里小编推荐使用决策树、随机森林、Xgboost、LightGBM这几种模型。在编写代码的时候,设置这些模型的预测结果为企业是否违约(1或者0),并将输出结果以概率的式显示(例如:低于0.5为没有违约,高于0.5为违约)。特别提醒,一定要设置随机数,不然结果会发生改变。  5.有了第4步的结果,而且在保证预测精度的情况下,就可以将企业违约概率从高到低进行排序,再将概率值分为5级或者8级,并画出每个级别各个特征的分布情况,人工识别和制定信贷策略。  6.最后还可以根据模型,输出各个特征的重要性,如下图:    7.最后大家可以在建立模型之后在一些特征的后面加上一些随机数,再进行一次预测,从而说明建模模型的鲁棒性。  8.基础的同学,可以参考PDPBox等这个方法,用来说明各个特征变化的时候,企业违约概率的变化。这绝对会在评委眼前一亮。可解释机器学习
在实际中,由于中小微企业规模相对较小,也缺少抵押资产,因此银行通常是依据信贷政策、企业的交易票据信息和上下游企业的影响力,向实力强、供求关系稳定的企业提供贷款,并可以对信誉高、信贷风险小的企业给予利率优惠。银行首先根据中小微企业的实力、信誉对其信贷风险做出评估,然后依据信贷风险等因素来确定是否放贷及贷款额度、利率和期限等信贷策略。
某银行对确定要放贷企业的贷款额度为万元;年利率为4%15%;贷款期限为1年。附件13分别给出了123家有信贷记录企业的相关数据、302家无信贷记录企业的相关数据和贷款利率与客户流失率关系的2019年统计数据。该银行请你们团队根据实际和附件中的数据信息,通过建立数学模型研究对中小微企业的信贷策略,主要解决下列问题:
(1) 对附件1中123家企业的信贷风险进行量化分析,给出该银行在年度信贷总额固定时对这些企业的信贷策略。
问题可以简单理解为,对123家企业的信贷风险进行量化(将定类数据转化为定量数据),然后给出怎么对这些企业进行评级与分配信用贷款。
我们可以看到上图,这是银行已经对这些企业打的信用评级与确认出来的是否违约,我们需要做的就是把目前所能拿到的数据转化一个定量的数据用于评价信贷风险,然后根据这个比例来按进行分配贷款。
到这里,大家应该知道要解决什么问题了,那怎么去做这件事情呢?
这里我给大家提出一种解决方案:
Step1:对数据进行缺失值和异常值处理;
可通过MPai数据科学平台【特征工程—数据清洗—缺失值处理】、特征工程—数据清洗—异常值处理
Step2:对【是否违约】建立特征工程,以特征工程为X,以【是否违约】为Y, 建立一个信誉评级分类模型,特征工程的里的字段可以是,【信誉评级】,
(1,需要转化为数值标签,可通过MPai数据科学平台【特征工程—数据清洗—数据标签转化】
2,onehot编码,可通过MPai数据科学平台【特征工程—数据清洗—独热编码】处理)
对于【进项发票信息】,可以构造特征【金额】,【税额】,【价税合计】,【发票状态】这些明面上的指标,也可以是【对企业代号进行分组,拿到的总金额、平均金额、中位数金额】,【对企业代号进行分组,拿到的总税额、平均税额、中位数税额】,【对企业代号进行分组,拿到的总价税合计、平均价税合计、中位数价税合计】,同时还可以是【对开票日期(日周月年)进行分组,拿到开票的频数(日周月年)】,【累计开票数】,【累计有效发票个数】,【累计无效开票次数】

对于【销项发票信息】,同理与上
同时我么也可以根据企业名称来进行聚类,例如科技公司,地产公司,可以通用词向量聚类,也可以通过关键词进行聚类,这样又多了一个指标,【公司类别】
以后还有【(日周月年)均净收入,净支出】(收入发票减支出发票)
总之,尽可能扩充特征工程,就我上面列出来的就有共计50特征,当然,我们还是可以尽可能地多扩充,先不管这些特征是否存在共线性。
Step3:接着,我们需要对样本数据进行均衡处理,因为我们肉眼可以看到【是否违约】存在极大的样本不均衡,这些直接训练一个分类模型会导致模型过拟合,例如我有一百个样本,99个样本是1,那么即使我瞎分类,全部判为1,准确率也是99%,样本均衡可以通过上采样或者下采样
(可通过MPai数据科学平台【特征工程—样本均衡处理】)
Step4:由于构造的特征太多了,我们需要对特征进行筛选,这里我们需要减少特征,可以选择诸如主成分分析等降维技术进行数据降维,也可以使用递归消除特征法等筛选方法来进行特征筛选,
(1,可通过MPai数据科学平台【特征工程—数据降维处理】,
2,可通过MPai数据科学平台【特征工程—特征筛选处理】)
Step5:准备工作就绪,我们可以把他丢进一个分类模型进行序列,推荐逻辑回归或者XGBOOST与随机森林,需要对数据进行切分训练,评价指标可以选择F1,可以进行各种自由调参,保证模型的最优
查看模型输出(这里只看概率),我们可以得到每个模型的【是否违约_否】的概率,这个概率就可以作为信贷风险的量化得分,然后我们这里可以进行归一化,然后按比例分配贷款。
以上方法简单粗暴,如果想要更突出的小伙伴可以使用评分卡或者AHP模型,这里举例AHP模型,信贷风险的评价指标可以分为三个内容:信誉评级,是否违约,企业流水或收入支出比,我们可以设计2个分类模型(是否违约),一个回归模型(企业流水或收入支出比),采用AHP构建判断矩阵(用德尔菲法确定输入,可以不用),然后加权来得出来信贷风险的量化得分最后建模求解:
建模求解:(1)开票日期综合分析
在对开票日期是否存在相关的影响做分析时,绘制企业进项开票日期如图 5-1
所示,可以看出有 5 个较高的峰值,其中最高的峰值在 11 月份,此时个中小企业
进项开票处于高峰期,此时可能受环境影响因素。那么开票日期可作为一项指
标。
建模求解:在对开票日期是否存在相关的影响做分析时,绘制企业进项开票日期如图 5-1
所示,可以看出有 5 个较高的峰值,其中最高的峰值在 11 月份,此时个中小企业
进项开票处

作为一个已经毕业很多年的硕士研究生 回想起我在兰州理工上学的时候还是那么近在咫尺 数学建模其实在我看来重在历练的同时掌握方法以及弥补自己短板 我认为建模最重要的就是思路和模型如果你也想参加数模竞赛了解相关的知识可以关注作为一个已经毕业很多年的硕士研究生 回想起我在兰州理工上学的时候还是那么近在咫尺 数学建模其实在我看来重在历练的同时掌握方法以及弥补自己短板。我热爱数学建模也支持数学建模全面发展。

你可能感兴趣的:(数学建模,数学,python,c++,美国大学生数学建模竞赛)