商业数据分析应用场景
商业数据分析在各行各业都有非常广的应用范围,包括互联网、泛金融、快消、广告咨询等。
大数据的职业蓝图
话说大数据这几年非常火爆、既有营销体系的商业数据分析职位,也有研发体系的大数据开发工程师,像产品经理一样,只要你有心,都可以有自己的发展道路。
然后我默默地看了下自己的水平,目前阶段比较匹配的也只有“业务分析方向”啦,能让自己的日常工作变得哪怕高大上一丢丢,就足够我偷笑了嘿嘿
数据分析流程
步骤一:界定问题
业务关键指标:用户和收入,其中有一个出现了下滑,数据分析师就要出山了
三个常见的业务问题类型:
What:界定问题工作的重点
Why+How:将原本简单What背后的Why和How挖出来
步骤二:收集数据
确定所需的内外部数据源——将数据汇总成分析数据集——进行初步数据质量评估
步骤三:清洗数据
检查数据中可能存在的问题,对有错误或者问题的数据进行清洗
将数据整理成命名规范,取值格式统一的形式【工具SQL Python】
步骤四:数据可视化
可视化软件Tableau
步骤五:数据建模
变量信息输入到分析模型中,通过Python进行模型的训练与优化,最终给出能部署到业务中的数据分析结果
【 下面附上知识树一份供大家参考 】
【理论讲完了,下面进入实操阶段】
拼多多双11优惠券例子:
拼多多搞活动,需要弄清楚哪些人会使用优惠券,他们具有怎样的特点,背后的影响因素有哪些,总结一句话就是:用户使用优惠券最核心的影响因素是什么?
首先,我们来认识下所获得的数据维度,可以将原有的数据分为用户信息、消费行为与预测结果3个类别。
用户信息:包含了用户年龄、职业与婚姻状态 3个关键信息。
消费行为:包含了信用卡是否违约、是否有过退货行为、是否使用信用卡、过去6个月使用优惠券数量以及过去1个月使用优惠券数量
预测结果:用户在双11是否使用了优惠券
这里我们要用机器能懂的语言,对数据做说明,所以我们引入“字典”的概念
实操:
#一键基础操作——数据导入和清洗比较复杂,所以这里暂不展开讲述,直接使用现成的
#基础操作 导包 导数据
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
coupon = pd.read_csv('week3.tmall.csv')
#数据清洗
coupon = pd.get_dummies(coupon)#将类别型变量转换为数字型变量
coupon.drop(['job_unknown','default_no','returned_no','loan_no','ID'],axis=1,inplace=True) #去除无意义与重复变量
coupon=coupon.rename(columns={'coupon_ind':'flag'})#变量重命名
coupon.head()
【运行后出现下方表格】
这里显示的是前5行数据,包括了:
用户信息:用户年龄、职业与婚姻状态 3个关键信息。
消费行为:信用卡是否违约、是否有过退货行为、是否使用信用卡、过去6个月使用优惠券数量以及过去1个月使用优惠券数量
预测结果:用户在双11是否使用了优惠券
#通过均值,观察哪些变量对用户使用优惠券影响较大
summary = coupon.groupby('flag')
summary.mean()
#使用折线图,呈现coupon_used_in_last6_month与flag的关系
plt.figure(figsize=(200,200))
sns.relplot(x="coupon_used_in_last6_month", y="flag",kind='line',data=coupon)
#使用折线图,呈现coupon_used_in_last_month与flag的关系
plt.figure(figsize=(200,200))
sns.relplot(x="coupon_used_in_last_month", y="flag",kind='line',data=coupon)
#使用柱状图,呈现loan_yes与flag的关系
sns.countplot(y='loan_yes',hue='flag',data=coupon)
#数据可视化——相关性分析
我们会发现,有非常多的因素会影响消费者是否使用优惠券,但是用户使用优惠券最核心的影响因素是什么?我们需要探寻各个影响因素之间的相关关系
#计算相关系数
coupon.corr()[['flag']].sort_values('flag',ascending=False)
#散点图
sns.scatterplot(x='coupon_used_in_last_month',y='flag',data=coupon)
#热力图
q1=['flag','coupon_used_in_last_month','job_retired','marital_single']
sns.heatmap(coupon[q1].corr())
【说在结尾】
这里只举了非常小的一个例子,非常感谢你看到了这里,选择和我一起从小白进入数据分析的新世界,文中如果有需要调整的地方,欢迎大佬们随时指出,也欢迎大家一起学习,共勉!
学习数据分析需要具备的一些能力总结:
1、数据思维
能够以数据分析的角度拆解业务问题,提取关键数据维度的能力。
掌握该能力,你能够洞察数据背后的关键信息,做出正确的商业决策。
2、数据处理能力
快速进行数据查询、收集和整理的能力。这里需要使用的工具是MySQL。
掌握该能力,你可以使用一行代码从上千条数据中找到想要的数据。
3、数据可视化能力
将数据的结果呈现为直观、高效、可视化报表的能力,这里需要使用的工具是Tableau。
掌握该能力,你可以把庞杂的大数据直观的展现到决策的面前。
4、数据挖掘能力
建立数据分析模型,以此来评估与预测未来的业务趋势的能力,这里核心使用的工具是Python。
掌握该能力,你可以通过数据预测未来的业务趋势,做出商业决策。