一、 提出问题
1) 哪些年龄段的客户更有可能购买此产品?
2) 业务员对客户营销的日期会对营销结果产生显著影响么?
3) 客户的信贷情况对产品营销的影响及原因有哪些?
二、 数据获取
Kaggle
https://www.kaggle.com/janiobachmann/bank-marketing-dataset
三、 数据清洗
a) 理解数据
原数据字段共17个,age(年龄)、job(职业)、marital(婚姻状况)、education(学历)、default(失信记录)、housing(房屋贷款情况)、loan(个人贷款)、balance(资产余额)、deposit(有无存款)、contact(联系方式)、month(最后一次营销的月份)、day(最后一次营销的日期)、duration(通话时间)、campaign(这次营销期间与这位客户联系的次数)、pdays(从上次营销到最后一次与客户联系的天数)、previous(在这次营销前与这位客户联系的次数)、poutcome(上次营销结果)。
以下字段可以选择隐藏:
balance(资产余额)因属于个人敏感信息,所以暂不纳入分析;
duration(通话时间)该数据由业务人员营销完后记录,所以无分析意义。
b) 删除重复值
由于此项数据集的字段都不具有唯一性,而年龄、职业等单个数据可能搜集到的正好一致,如果直接用Excel“删除重复项”会造成有效数据的缺失,因此我通过CONCATENATE函数来连接所有字段,并结合IF函数来判断是否存在两列重复的数据记录,验证后发现没有重复的数据记录。
c) 处理缺失值
可以使用COUNTA函数来判断是否存在空白缺失值,经检查,此项数据集完整无需对空白值进行填充或删除。
d) 对无效数据进行删除
经查发现,job(职业)、education(学历)、poutcome(上次营销结果)字段均有unknown(不知道)的数据,可通过筛选的方法将其清理后再作后续分析,而contact(联系方式)字段也有大量unknown(不知道)的数据,由于不影响分析结果故不作处理。
e) 数据一致化处理
检查各字段数据的内容发现,只需要对日期相关的字段进行一些格式化处理,以方便后续作进一步的分析。
将month(最后一次营销的月份)字段的内容通过MONTH函数统一转换为阿拉伯数字格式;
将day(最后一次营销的日期)字段与之前month(最后一次营销的月份)字段的内容结合,转换成周数据,并将单元格格式设置成易读的数据格式。
f) 异常值处理
从age(年龄)字段数据来看,该数据波动范围比较大,最小18岁到最大88岁,由于此分析是银行产品的营销分析,正常情况下需要客户本人亲自办理,考虑到实际的业务营销成本,此次分析只筛选出80岁以内客户的数据,并通过VLOOKUP函数,将age(年龄)字段数据划分成不同的客户群体。
四、 分析结论
1) 将营销结果数据通过年龄分组统计:
统计占比结果如下图:
老年人和青年人组的营销成功率远高于其他两个组,所以如果按既定的营销方案来继续推广产品的话,应将主要目标客户群体定位于老年人(65 结论:老年人和青年人群体接受程度高,符合产品定位,营销部门在后续的营销渠道和模式上应注重观察这两个群体的特质和喜好。 可以发现周三是非常特殊的。周六的失败率接近97%,但令人费解的是周日的失败率却又是整周最低的。 造成此异常日期数据的原因可能是多方面的因素导致: a) 在搜集日期数据是未考虑到法定节假日,法定节假日的调休日或者客户行业的特殊日; b) 数据记录错误; c) 样本不够大造成的数据偏差; d) 其他不确定的行业或者该公司的内部业务人员因素确实造成了实际营销结果的偏差。故此项异常特征需要进一步分析。 结合第一个数据分析结论,老年人和青年人群体对此产品接受程度较高,通过Excel的切片器的功能对上表数据进行筛选: 从以上两张图中可以发现老年人和青年人这两个成功率最高的分组并没有周六的数据,也就是说业务员们周六进行电话营销的客户群体恰巧都剔除了这两个群体,由此也可以部分解释这个异常值了。这个错误可以规划到样本偏差里,建议之后再搜集数据时扩大样本种类数据并再次进行分析和了解异常值产生的原因。 结论:周六营销失败率最低,周日成功率最高,随机数据样本有问题,建议扩大样本种类数据后再次进行进一步的分析。 a) 失信记录(no代表无失信记录,yes代表有过信用不良记录) 由于此数据中有失信记录的样本只有7个,建议扩大样本种类的采集。但其100%的失败率也说明了失信客户并不是此次营销活动的目标客户群体,他们没有多余自己购买银行推出的定期产品,更无法在以后为其联动推广其他银行理财产品。 b) 房屋贷款与个人贷款 由上图可知,无房屋及个人贷款客户的营销成功率为62.78%,为所有分组中最高,此类客户群体经济压力小,有较多的积蓄可以用来理财投资;单独有房屋贷款的营销成功率为29.51%,低于仅有个人贷款客户的营销成功率40.91%,这应是有房屋贷款客户的经济压力比仅有个人贷款客户的经济压力更大所导致的。 结论:银行该产品的最有价值客户应为无失信记录且无任何贷款的客户群体,其次是有个人贷款而无房屋贷款的客户群体。2) 将营销结果数据按照电话营销当天的星期数统计:
3) 客户信贷情况对产品营销的影响分析