三月份比较充实,有几百名学员报名课程。这段时间不停接受大家咨询和解决问题,公众号也有十多天没更新了。
今天对大家存在的一些问题进行汇总,谈谈机器学习模型的三个应用场景。
开门见山,机器学习应用常见三个场景为:
教学场景
模型竞赛场景
商业应用场景
教学场景对机器学习模型要求比较严格,统计指标考究。例如逻辑回归评分卡模型中,要求踢除相关性较高变量,缺失率较高变量,踢除异常值,纠正模型多重共线性问题,纠正变量不单调问题,数据非平衡问题等等。
我们在实际商业建模中,会考虑上述问题,但不会完全遵循上述要求。例如变量A缺失率达到90%,初学者一定会删除此变量。我们不会这样做,我们可以把缺失值单独作为一个分箱处理,并观察缺失数据是否有意义。
例如异常值,教科书上称异常值对模型有一定影响,的确如此,但不绝对。初学者会按照统计学箱型图查找异常值,然后从建模数据中删除异常值。我们不会这样简单处理,异常值分为有意义异常值和无意义异常值,不能粗暴删除。异常值背后隐藏诸多需要挖掘地方,需要慢慢品味,例如硬盘传输延时引起数据异常,欺诈客户引起数据异常偏高,封装模型包代码错误造成数据异常。如果简单删除异常值,欺诈客户会开香槟庆祝。
这个月有个学生坚持称A卡(申请评分卡)模型的变量不应该含有逾期变量,逾期变量属于B卡范围,应该踢除。这位学生这么偏执,是听了导师的话,导师的话让他深信不疑,态度非常偏执。在学术界,诺贝尔奖得主也会为一些理论争执,讨论学术要有包容的心。
下图是美国FICO分数的评分细节,payment history支付历史明确属于评分的重要环节,占35%。国内诸多银行信用评分系统结构和下图类似。
例如张三在借呗申请一万元贷款,借呗就会去查张三征信,查询张三是否在微粒贷,京东金融等其他平台有逾期历史。逾期变量是非常重要变量,iv值非常高。如果这学生坚持要把此变量排除A卡模型外,模型AUC,KS会很低。
还有个学生一对一论文辅导中,数据存在非平衡情况,他导师让把建模数据好坏客户占比调整到1:1。金融场景模型好坏客户比一般在1:10以下,我明确告诉学生这样做会引起模型过度拟合。但他导师不听劝,坚持教科书理论,我也没办法。非平衡数据处理时,test测试数据集效果很好,但oot样本外数据表现往往不如原始模型,因此在增加少量样本时,尽量按照最小原则,适当增加少量样本即可。
总结一下,教学理论可以参考,但实际商业建模更加灵活,不必完全遵循。
很多学生一对一机器学习项目辅导中,他们要求模型某一指标达到最高。他们思想受到模型竞赛深远影响。
例如kaggle模型竞赛,排名前十的绝对是建模高手,他们知道如果通过一切手段来提升模型单一指标,这点我深信不疑。但kaggle模型排名前十的模型并非最优模型,至少和商业模型有很大差距。
kaggle等模型竞赛追求的是单一指标最大化,这和GDP最高国家就是世界最强国家一个道理。
清朝GDP世界第一,但人均GDP,GIni系数,人均教育程度,军事装备,数理化学术发展等其他指标并不优秀。大清朝自认为GDP全世界第一,属于国中之国,结果发生火烧圆明园,老窝都保不住。
大家不要把机器学习模型想的很复杂,模型就在我们身边,存在于生活中。之前发生的历史教训也可以应用于机器学习模型中。
我们在评估模型质量时,会从模型多个角度去衡量模型综合性能,并非追求AUC或KS最高。
kaggle竞赛中,为了使一个指标最大化,往往牺牲其它指标性能,这是教科书上看不到的知识。
kaggle等模型竞赛中最大诟病是模型变量太多。诸多参赛选手为了让模型单一指标最大化,往往生成大量衍生变量。原始模型变量数量只有一百多个,衍生变量就可以搞出几千个。这样思路在商业模型是行不通的,下个章节会详细谈商业模型和kaggle模型的区别。
总结一下,kaggle模型竞赛冠军是建模高手,但模型综合质量并非绝对优秀。大家不要把kaggle模型思路应用到商业模型中。
论文涉及机器学习建模解决方案
在大型金融公司,商业模型有一套完整流程机制。模型的变量最好有业务可解释性。模型部署暗藏深坑。模型上线后线上线下分数经常不一致。
商业模型变量不应过多或过少,合适即可。如果变量太多,模型部署工作量很大,模型验证难度也高。如果模型上线后出现问题,查找问题就无从下手。
想象一下,一个摩托车坏了和一艘军舰坏了,哪个维修难度更高?同样,模型的每个变量就像一个组件,变量越多,维护成本越高,查找问题难度越高。
如果按照kaggle等模型竞赛思路,模型变量成千上万,上线后出了问题,你愿意去查找原因吗?
而且在金融领域,时间=money,变量过多,模型训练和预测时间越长,和浪费钱是一个道理。
模型存在于生活,存在于各行各业,并非计算机专业学生专利。我鼓励大家都去学习机器学习模型,这有助于提升你生活和职场成功概率。学习过程就是在提升自己的道与术,打开自己眼界,比比人看的更宽,更深,更远。
今天即兴写作,谈的内容比较广,欢迎学习更多金融风控建模相关知识《python金融风控评分卡模型和数据分析微专业课(加强版)》
python金融风控评分卡模型和数据分析(加强版)
版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。