数据挖掘流程

前言:1、最近三个月,个人职业有个不小的转变,从互联网行业转向保险行业,从数据开发岗转向数据挖掘岗位,终于能从事自己喜欢的职业,内心欣喜不已。13-14年曾经在coursera完整学习过吴恩达老师的机器学习课程,但一直没有项目实践。纸上得来终觉浅,绝知此事要躬行,实际项目经验很重要

2、刚到公司,业务不熟悉,开发环境不熟悉,上线流程不熟悉,所有的环境都是陌生的,一切都归零。但相信这只是开始,在整个生命历程中只是那么一丢丢。该上路的,终究会上路,只是时间问题!相信梦想终会成真,认真努力,定会水到渠成。

3、在三个月的时间里,从提取业务数据到模型打分,从模型跑数到结果整理,每天都在不断加深对业务、数据、模型的理解,每天都新的东西需要学习总结。

于是乎,本文数据挖掘项目基本流程出世。先从整体上把握数据挖掘步骤,后面再深入探讨具体细节。

一、确立业务目标

  • 首先,我们应该确定数据挖掘项目的基本目标,是预测投保人会购买哪种类型的保险?还是投保人会在下一个月参与投保的可能性多大?当确定好目标,确定好方向之后,我们才能在项目的实施过程中,始终朝这个目标努力,不偏离方向。
  • 目标确定之后,需要将整个挖掘项目的目标变量提取出来。客户是否会在下个月购买保险,那么训练模型的目标变量就是客户过去是否购买保险(二分类);客户具体会购买哪一种或几种保险,目标变量就是过去购买的保险种类代码(多分类)

二、准备特征数据

1、明确指标逻辑

  • 当确定好业务目标之后,接下来就是寻找完成目标的材料-数据。可以先查找数据指标的沉淀文档,同时自我头脑风暴提炼指标,最重要的是及时与业务方、运营人员沟通,了解必要的业务背景与流程。然后讨论确认相应的指标逻辑,形成规范的文档,什么指标从什么表取,具体取数逻辑是怎样的。(若是公司建有用户画像数据集市,尽量根据业务目标从中筛选指标参与建模)
  • 例如,随着移动互联网时代兴起,很多参与投保的用户会在app上留下行为路径,app的指标对模型建立必定有效。又比如,经常在过去一段时间内投保金额或连续投保件数,是衡量用户是否热衷于购买保险投资的特征之一,可以用此特征预测未来投保可能性。

2、提取特征数据

  • 这一步需要将上面确定的指标落地实现,形成一张大的宽表。具体就是写SQL逻辑,将多个维度上的指标集成到一起,其结果也就是一张画像宽表(可能对象是客户,也可能是商品)

3、统计分析验证

  • 这一步很关键,因为挖掘项目可能使用到很多指标,到底指标是否正确提取了,无法用肉眼一一判别,就需要对数据进行描述统计。
  • 那么描述统计分析包括哪些内容:样本总个数,缺失值统计数,缺失值占比,最小值,最大值,平均值,间隔5%的分位数等等。
  • 从指标分布中可能发现那些异常:
    • 指标缺失值占比高:例如,年龄空值缺失占比非常高,就得回去检查是否正确提取这个指标;
    • 不符合业务逻辑:年龄出现负数,缴纳费用为负等情况;
    • 不符合操作流程:按照用户路径分析,用户在下一个埋点的访问次数一定不大于上一个埋点的访问次数,当出现这种情况,也得检查检查SQL逻辑;
    • 其他问题

三、建立数据模型

编码阶段

数据清洗
数据描述
变量分箱
one-hot编码
占比分布

模型训练
跨时间验证
模型预测

网格搜索
问题:one-hot编码与网格搜索关系

四、评估模型效果

五、落地运营模型

你可能感兴趣的:(数据挖掘,大数据)