数据分析的商业应用实践

业务理解
第一阶段要多问为什么,弄清楚业务逻辑,这其实是最重要的一部分,同时也根据具体业务的不同有不同的做法
数据理解
首先对数据的质量进行分析
借助分布图,箱线图查看数据分布情况,查看数据是都符合一般认知
结合数据的偏度和峰度辅助分析,计算算式平均值,中位数,1/4分为以及3/4分位数等常用的统计指标
然后可以进行一些简单的数据分析,相关系数矩阵,t检验,卡方检验等
数据准备
处理无效值,未知或者不合理的值
修改不合规字段
处理编码/统计口径不一致的问题
常用的数据转换方式:
单变量自身的转换
变量之间的衍生(连续→离散之间的相互转化)
汇总型指标(与整体相关的指标,均值,最大值,标准差等)
强度相对指标
比例相对指标
时间对比指标(同比,环比)
趋势型指标 (借助回归的方法查看趋势的变化)
波动指标 (标准差或者变异系数等)

建模
考虑每个模型的应用场景,并不局限于应用场景,可以考虑模型对不同问题的不同作用,尝试各种使用效果,能达到预期效果的模型就是好模型
树模型的可解释性比较好,适用于金融信用领域
神经网络的模型是黑盒的但是准确率比较高,所以要针对具体问题具体分析

评估

数据分析的商业应用实践_第1张图片
模型的准确率
(a+b)/(a+b+c+d)
模型的命中率
a/(a+b)
模型的查全率
a/(a+c)
部署

你可能感兴趣的:(数据挖掘)