第五届泰迪挑战赛tableau可视化

才能疏浅,就只能写自己负责的可视化部分!
可视化均以正确数据预处理后进行,使用工具是tableau

任务 2 产品营销数据可视化分析

基于短期数据分析不同指标客户与购买银行产品行为的关联性,挖掘短期客
户对银行的忠诚度。

任务 2.1 计算短期数据所有指标之间的相关性,绘制相关系数热力图,并在报告中对结果进行必要分析。

这道题相对于用tableau制图还是有点复杂,所以我选择了使用python代码。

import warnings

warnings.filterwarnings("ignore")  # 过滤掉警告的意思
from pyforest import *

data = pd.read_excel(r"result1_3.xlsx")

data.drop(['user_id'], axis=1, inplace=True)  # 删除无关的列

# 计算各变量之间的相关系数
corr = data.corr()
print(corr)

ax = plt.subplots(figsize=(16, 10))  # 调整画布大小
ax = sns.heatmap(corr, cmap="Reds", annot=True)  # 画热力图   annot=True 表示显示系数

# 设置刻度字体大小
plt.xticks(rotation=90)
plt.yticks(rotation=360)

plt.show()

第五届泰迪挑战赛tableau可视化_第1张图片

任务 2.2 在同一画布中,绘制反映两种产品购买结果下不同年龄客户量占比的分组柱状图,x 轴为年龄,y 轴为占比数值,并在报告中对结果进行必要分析。

poutcome字段为上次购买结果,y字段为本次购买结果,任务1中已经定义了poutcome字段success特征编码为0、failure特征编码为1、nonexistent特征编码为2,y字段no特征编码为0、yes特征编码为1(特征编码编写根据自己的来)。先分析下两种产品结果,即
(1)上次购买本次购买 --> poutcome=0 y=1
第五届泰迪挑战赛tableau可视化_第2张图片

(2)上次购买本次不购买 --> poutcome=0 y=0
第五届泰迪挑战赛tableau可视化_第3张图片

(3)上次不购买本次购买 --> poutcome=1、2 y=1
第五届泰迪挑战赛tableau可视化_第4张图片

(4)两次都不购买 --> poutcome=1、2 y=0
第五届泰迪挑战赛tableau可视化_第5张图片
有图可知,不管是购买还是不购买都是集中于25-50岁人群,这些人有经济实力,是个潜在的客户群体。而两次都购买的人相较于其他情况,再高龄老人群体中也占有一定比例。可以把精力资源放在30-45岁的有经济实力的人群,同时注意客户回头率。

任务 2.3 在同一画布中,绘制蓝领(blue-collar)与学生(student)的产品购买情况饼图,并设定饼图的标签,显示产品购买情况的占比。

创建计算字段:是否购买过

IF [poutcome]==0 or [y]==1 THEN 1 ELSE 0 END

蓝领(blue-collar,特殊编码为10)与学生(student,特殊编码为3)的产品购买情况如下:

第五届泰迪挑战赛tableau可视化_第6张图片
第五届泰迪挑战赛tableau可视化_第7张图片

任务 2.4 以产品购买结果为 x 轴、拜访客户的通话时长为 y 轴,绘制拜访客户的通话时长箱线图,并在报告中对结果进行必要分析。

x轴上的 0代表没有购买产品的客户,1代表购买了产品的客户
第五届泰迪挑战赛tableau可视化_第8张图片

任务 3 客户流失因素可视化分析

基于长期数据分析导致银行客户流失的因素,并进行可视化呈现。

任务 3.1 在同一画布中,绘制反映两种流失情况下不同年龄客户量占比的折线图,x 轴为年龄,y 轴为占比数值。

第五届泰迪挑战赛tableau可视化_第9张图片
从上面的图中可以看出:
1、年龄在49~60的客户,已流失的占比量多,其他年龄的客户,还未流失的占比量大。
2、已流失的客户,年龄为25~50岁的占比较多,30岁左右的的客户量占比最多。
3、还未流失的客户,年龄为35~60岁的占比较多。
4、从总体上看,还未流失的客户量占比最多,还未流失的客户占比最多的为年龄25~50岁的。

任务 3.2 在同一画布中,绘制反映两种流失情况下客户信用资格与年龄分布的散点图,x 轴为年龄,y 轴为信用资格。

第五届泰迪挑战赛tableau可视化_第10张图片
从上面的散点图可以看出:
1、信用资格高且还未流失的客户占比更多。
2、还未流失的客户中,信用高的集中年龄在20~55岁中,其他的呈分散分布。
已流失的客户中,信用高的较多在年龄35~60岁中,大部分呈分散分布。

任务 3.3 构造包含各账号户龄在不同流失情况下的客户量占比透视表,并在同一画布中绘制反映两种流失情况的客户各账号户龄占比量的堆叠柱状图,x 轴为客户的户龄,y 轴为占比量。

透视表不规定用tableau工具做哈,可以在excel里也可以制作呢
第五届泰迪挑战赛tableau可视化_第11张图片
第五届泰迪挑战赛tableau可视化_第12张图片
如有错误,请指教!!!

你可能感兴趣的:(数据分析,信息可视化,python,数据分析)