商业数据分析入门笔记——以双十一优惠券案例为例

商业数据分析应用场景

商业数据分析在各行各业都有非常广的应用范围,包括互联网、泛金融、快消、广告咨询等。

大数据的职业蓝图

话说大数据这几年非常火爆、既有营销体系的商业数据分析职位,也有研发体系的大数据开发工程师,像产品经理一样,只要你有心,都可以有自己的发展道路。

然后我默默地看了下自己的水平,目前阶段比较匹配的也只有“业务分析方向”啦,能让自己的日常工作变得哪怕高大上一丢丢,就足够我偷笑了嘿嘿

根据自己的底子,选择更适合自己的方向,当然薪资方面商业数据分析,以及技术数据科学的天花板会更高些

数据分析流程


步骤一:界定问题

业务关键指标:用户和收入,其中有一个出现了下滑,数据分析师就要出山了

三个常见的业务问题类型:

What:界定问题工作的重点

Why+How:将原本简单What背后的Why和How挖出来

步骤二:收集数据

确定所需的内外部数据源——将数据汇总成分析数据集——进行初步数据质量评估

步骤三:清洗数据

检查数据中可能存在的问题,对有错误或者问题的数据进行清洗

将数据整理成命名规范,取值格式统一的形式【工具SQL Python】

步骤四:数据可视化

可视化软件Tableau

步骤五:数据建模

变量信息输入到分析模型中,通过Python进行模型的训练与优化,最终给出能部署到业务中的数据分析结果

【 下面附上知识树一份供大家参考 】


数据分析五步骤



【理论讲完了,下面进入实操阶段】

拼多多双11优惠券例子:

拼多多搞活动,需要弄清楚哪些人会使用优惠券,他们具有怎样的特点,背后的影响因素有哪些,总结一句话就是:用户使用优惠券最核心的影响因素是什么?

首先,我们来认识下所获得的数据维度,可以将原有的数据分为用户信息、消费行为与预测结果3个类别。

用户信息:包含了用户年龄、职业与婚姻状态 3个关键信息。

消费行为:包含了信用卡是否违约、是否有过退货行为、是否使用信用卡、过去6个月使用优惠券数量以及过去1个月使用优惠券数量

预测结果:用户在双11是否使用了优惠券

这里我们要用机器能懂的语言,对数据做说明,所以我们引入“字典”的概念


数据维度与字典

实操:

#一键基础操作——数据导入和清洗比较复杂,所以这里暂不展开讲述,直接使用现成的

#基础操作 导包 导数据

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

%matplotlib inline

coupon = pd.read_csv('week3.tmall.csv')

#数据清洗

coupon = pd.get_dummies(coupon)#将类别型变量转换为数字型变量

coupon.drop(['job_unknown','default_no','returned_no','loan_no','ID'],axis=1,inplace=True) #去除无意义与重复变量

coupon=coupon.rename(columns={'coupon_ind':'flag'})#变量重命名

coupon.head()

【运行后出现下方表格】

其中绿色边框的数据是类别型变量,也就是说:当数据是0时,代表否当数据是1时,代表是举例:flag列的前5行数据都是0,说明这5个用户都没有在活动中使用优惠券

这里显示的是前5行数据,包括了:

用户信息:用户年龄、职业与婚姻状态 3个关键信息。

消费行为:信用卡是否违约、是否有过退货行为、是否使用信用卡、过去6个月使用优惠券数量以及过去1个月使用优惠券数量

预测结果:用户在双11是否使用了优惠券


#通过均值,观察哪些变量对用户使用优惠券影响较大

summary = coupon.groupby('flag')

summary.mean()

数据解释:以coupon_used_in_last6_month为例,在0的分组中,均值是0.26,在1的分组中,均值是0.54。说明:如果在上个月客户使用优惠券越多,那么在该次活动中使用优惠券的概率就越高

接下来,我们对表中数据进一步解释(左图数据仅用于演示,数字与运行结果不一致)。仍以coupon_used_in_last6_month为例,在0分组中,均值是2.60,在1分组中,均值是2.5。这代表:活动没有使用优惠券的人中,过去6个月平均使用2.60个优惠券活动使用优惠券的人中,过去6个月平均使用2.57个优惠券

#使用折线图,呈现coupon_used_in_last6_month与flag的关系

plt.figure(figsize=(200,200))

sns.relplot(x="coupon_used_in_last6_month", y="flag",kind='line',data=coupon)


使用折线图,呈现coupon_used_in_last6_month与flag的关系:前6个月使用优惠券越多,这次活动使用概率越低

#使用折线图,呈现coupon_used_in_last_month与flag的关系

plt.figure(figsize=(200,200))

sns.relplot(x="coupon_used_in_last_month", y="flag",kind='line',data=coupon)


使用折线图,呈现coupon_used_in_last_month与flag的关系:最近1个月使用优惠券初期会有上升趋势,优惠券使用越多,本次活动使用概率会越高;最近一个月使用优惠券超过2个时,双十一活动使用优惠券概率会下降

#使用柱状图,呈现loan_yes与flag的关系

sns.countplot(y='loan_yes',hue='flag',data=coupon)


使用柱状图,呈现loan_yes与flag的关系:没有使用花呗结账,在本次活动中使用优惠券概率会更高

#数据可视化——相关性分析

我们会发现,有非常多的因素会影响消费者是否使用优惠券,但是用户使用优惠券最核心的影响因素是什么?我们需要探寻各个影响因素之间的相关关系

#计算相关系数

coupon.corr()[['flag']].sort_values('flag',ascending=False)

可以看到, 与flag相关度最高的5个变量为:上个月的优惠券使用数量 coupon_used_in_last_month,职业是退休 job_retired,职业是学生 job_student,婚姻状况单身 marital_single,职业是管理层 job_management

#散点图

sns.scatterplot(x='coupon_used_in_last_month',y='flag',data=coupon)


使用散点图,呈现 coupon_used_in_last_month与flag相关性,由于flag只有0/1两个数值,可视化效果不明显

#热力图

q1=['flag','coupon_used_in_last_month','job_retired','marital_single']

sns.heatmap(coupon[q1].corr())


使用热力图,呈现多个变量与flag相关性:选择查看 coupon_used_in_last_month,job_retired,marital_single与flag的关系。我们发现和flag相关度最高的是coupon_used_in_last_month,其次是job_retired,最后是marital_single

【说在结尾】

这里只举了非常小的一个例子,非常感谢你看到了这里,选择和我一起从小白进入数据分析的新世界,文中如果有需要调整的地方,欢迎大佬们随时指出,也欢迎大家一起学习,共勉!

学习数据分析需要具备的一些能力总结:

1、数据思维

能够以数据分析的角度拆解业务问题,提取关键数据维度的能力。

掌握该能力,你能够洞察数据背后的关键信息,做出正确的商业决策。

2、数据处理能力

快速进行数据查询、收集和整理的能力。这里需要使用的工具是MySQL

掌握该能力,你可以使用一行代码从上千条数据中找到想要的数据。

3、数据可视化能力

将数据的结果呈现为直观、高效、可视化报表的能力,这里需要使用的工具是Tableau

掌握该能力,你可以把庞杂的大数据直观的展现到决策的面前。

4、数据挖掘能力

建立数据分析模型,以此来评估与预测未来的业务趋势的能力,这里核心使用的工具是Python

掌握该能力,你可以通过数据预测未来的业务趋势,做出商业决策。

你可能感兴趣的:(商业数据分析入门笔记——以双十一优惠券案例为例)