1:描述数据分析的统计工具
描述数据有两个关键的问题,
第一个中心度——销售额主要集中在哪个区域?
第二个是分散度——销售额有多发散,它的最大最小的点都在哪里?
1.1,数据的集中度
就是最常见的均值,中位数,众数
均值:用所有的数据的和除以数据的条数。
在营销的场景中会被定义为“均价”,用来监控顾客在买便宜的还是贵的产品。
在互联网场景中,计算每个用户的浏览时长,广告的平均点击率,微信推送的平均阅读数量。
中位数:将数据从小到大排列之后,位于中间位置的的那个数字。,在excel中函数是MED(当均值大于中位数的话,数字不太均衡,会往较大的那边偏斜,两者差的越大,数据越不均衡,)
众数;数据中出现最频繁的那个数字。用excel中的函数是(MODE)
但仅仅引用这三个指标是有缺陷的,需要引入数据的离散度进行度量
1.2,数据的离散度;(全距,四分位数,方差和标准差)
全距;数据中最大的值和最小值的差。
四分位数; 将数据从小到大排序,并将数据均分为四等分的数值,四分位数有三个;处在25%位置上的数值Q1,处在50%位置上的数值Q2,处在75%位置上的数值Q3.(在excel中的函数是QUARTILE)
方差;描述的是数据每个数据点和平均值偏离的程度。方差越大波动性越强,数据越离散。(在excel中的函数是var.p)
标准差;就是方差的开方结果。引入标准差的的原因在于,标准差更可以和业务贴合。(开平方的在excel中的函数是SQRT,在描述波动范围的时候记得开方后是正负两个值。也可以用标准差函数;STDEV.P,)
描述性统计值也可以直接在excel中点击;数据——数据分析——描述性统计,的步骤就可以得到以上的描述性统计值。
1.3,数据的相关性
数据有很对种类,研究不同数据之间的关系,可以借助散点图进行分析
数据之间是正相关的关系,A变量增大时,B 变量也随之增大。
负相关的关系,随之A的增大,B变量反而逐渐降低,
完全散乱的关系。
作为数据分析人员最关注的问题往往是是否存在因果关系,但有时候相关关系并不代表因果关系,例如冰淇凌销售状况和儿童溺水问题出现的次数。
2:概率与分布
对数据进行描述分析,通过对历史数据大量的重复观察,可以找到他们的某种规律。
概率;简单而言就是关心的事件所发生的次数除以所有发生的事件总数。
2.1二项式分布计算
只有两个结果的事件的预测(例如;扔硬币,性别男女问题)
关注的问题;如果有大量的事件时,最终产生某个特定数量事件的概率是多少?
2.2,正态分布
中将高两头低,左右对称,它是数字变量中最经典的一种概率分布。
它之所以应用广泛是由于两个属性;
1,快速计算数据的概率分布 。
2,在只知道均值和方差的情况下就可以知道数据的全部。任何正态数据都会满足以下规律;
均值±1个标准差会覆盖68.2%的数据
均值±2个标准差会覆盖95.5%的数据
均值±3个标准差会覆盖99.7%的数据
其中的68.2%,95.5%,99.7%也被称为是指置信水平。3个标准差是标准差*3
3:抽样和估计
3.1抽样
当抽样数量逐渐增大时,抽样的平均值可以作为总体平均数的预测。
而目标数据的课程范围可以用置信水平来进行估计。
3.2,假设检验;
假设检验的思路;根据经验或者其他方面的信息来假设一个总体用户可能值,再根据样本情况,使用某种工具来验证这个假设是否正确,
假设检验的主要步骤;
设定我们的初始假设;(默认假设=,对应的假设>或<,有2个拒绝默认假设的空间,这种检验也被称为双尾检验。而单尾检验则是;默认假设>=,对应的假设<有1个拒绝默认假设空间。
计算检验统计量,根据样本数据计算出Z评分。
评估假设所有的临界值,它主要由于假设类型以及显著性水平决定。
显著性水平是对应可能犯错的概率,分为I类错误和II类错误,I类问题判断的是什么样的错误范围可以接受,II类错误是针对抽样问题,显著性水平越高,原假设越容易被否定,显著性水平越低,原假设越难被否定。
显著水平的区间通常为0.01~0.1之间。
4,比较Z评分和临界值,做出决策判断。
4:主要的分析方法
4.1,聚类分析和回归分析之间的联系
聚类分析——我的用户是由哪些群体组成?这些群体之间有哪些明显的特征?
回归分析——未来销售趋势是甚麽样的?我的营销投入如何影响销售?
4.2;聚类分析
聚类分析;将相似的分析对象根据各自的特征分成不同的组别的统计方法,最常见的场景是:客户分群而衍生出的用户画像工作。
客户分群的数据维度;
消费行为习惯数据
消费者对产品的态度
消费者自身的人口统计学特征
顾客们消费行为的度量如RFM的数据
基于聚类的客户分群,能帮助我们更清楚的认识自己的客户,我们看到的是更加清晰的客户画像。这将有助于我们回答以下的关键问题
如何为不同的客户群体提供定制话的产品和服务?
如何设定品牌的主要形象和定位?
如何根据客户需求,挖掘新的产品和服务机会?
聚类分析用的是K均值聚类分析方法,它的核心是将所有的观测之间划为K个群体,使得群体和群体之间的距离尽量大,同时,群体内部的观测之间的距离最小。
对用户进行聚类后,应要问以下几个问题:
聚类之后的用户分群是否用明显的特征?
聚类之后的用户分群是否用足够数量的用户?
这些分群是否能够被触达?
做好用户分群必然要依靠充分的用户信息,一方面来自企业内部对于用户的历史购买,对营销响应情况的积累,另一方面来自与第三方的合作,积累有效的信息。
4.3,回归分析
数据中变量的相关关系为我们做预测的基本前提。
回归分析的重点落地场景:各种媒体投放广告对最终销售所产生的效果研究。可以回答的问题有
各个媒体是如何相互影响并促进销售的?
如何调整媒体组合从而最大化每一份支出收益?
如果我们同时进行两个广告营销活动,如何判断其中一个比另一个更有效?
线性回归是一直假设解释变量和因变量之间是线性关系。
但在现实中销售收入不会随着广告的投入而直线上升的。
更有可能的是广告投入到一定数额之后,对实际销售额的影响就会减少,呈现饱和态势。
所以,使用回归模型的结果,最重要的还是观察各个因素系数大大小横向对比他们对目标变量的关系。