定义[1]:描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征的一门学科。描述统计学内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
分析[2]:透过对于数据资料的进行图像化处理,将资料摘要变为图表,以直观了解整体资料分布的情况。通常会使用的工具是频数分布表(frequencydistributiontable)与图示法,如多边图(polygon)、直方图(histogram,barchart)、圆形图(piechart)、散点图(scatterplot)等。
透过分析数据资料,以了解各变量内的观察值集中与分散的情况。运用的工具有:集中量数(measureofcentrallocation),如平均数(Mean)、中位数(Median,Md)、众数(Mode,Mo)、几何平均数(Geometricmean,GM)、调和平均数(Harmonicmean,HM)。与变异量数(measureofvariation),如全距(range)、平均差(averagedeviation,AD)、标准差(standarddeviation,SD)、 变异系数、四分差(quartiledeviation)。
描述数据常用的指标:
1.平均值(算数平均)
算术平均数,又称均值,是统计学中最基本、最常用的一种平均指标,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据,但不适用品质数据。算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。比如,各种被平均化的岗位月平均薪资。
2.四分位数[3]
四分位数(Quartile)是在统计学中把所有数值由小到大排列并分成四等份够,处于三个分割点位置的数值。 多应用于统计学中的箱线图绘制。
首先确定四分位数的位置(未分组数据):
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数
Excel 中有两个四分位数的函数,QUARTILE.EXC 和QUARTILE.INC
其中QUARTILE.EXC是基于上述N+1 的方法。
四分位数的应用:
1)箱线图[4]:箱线图是由五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息。特别可以用于对几个样本的比较,比如不同城市的数据分析师的薪资水平可通过箱线图展现出来,比较可看出哪些城市的薪资水平相对较高。
对于箱线图的绘制,我们可通过后面的python学习进行绘制。
2)找出异常值:通过tukey's test方法可找出异常值。
最小估计值:Q1-k(Q3-Q1)
最大估计值:Q3+k(Q3-Q1)
k=1.5中度异常,k=3极度异常。
3.标准差
标准差(Standard Deviation)定义为方差的算术平方根,反映组内个体间的离散程度。公式如下:
标准差有单位,为计算数据的单位。标准差越大,说明数据波动越大。
4.标准分
表示某个数值距离平均值多少个标准差。计算公式如下:
可对不同样本数据进行归一化处理,比如某同学在某次考试中不同学科的比较,通过计算不同学科的标准分即可比较哪科成绩更好。当然,也可应用于判断孩子的学习成绩是进步了还是退步了。
经典案例:6西格玛质量监控[5]
数据来自淘宝和天猫上购买婴儿商品用户的数据集,本数据集包括2个excel文件
表1购买商品(sample)sam_tianchi_mum_baby_trade_history.csv)
表2婴儿信息((sample)sam_tianchi_mum_baby.csv)
阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
字段含义
1)表1购买商品字段(7个字段)
user_id:用户id(淘宝天猫用户唯一识别码);
auction_id:物品编号(item_id)也即用户购买行为;
cat_id: 商品种类ID(商品二级分类,表示商品属于哪个类别)可分析某类商品的子类别哪个更受欢迎;
cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)可分析哪类商品更受欢迎;
(cat1和cat_id分别是商品的一级分类和二级分类,比如上衣和衣服,汽车和玩具汽车这样的关系。虽然都是数字串id,但是根据这层关系,就可以用数据透视表来展示逻辑关系。比如商品大类下面,哪个分类更畅销);
property:商品属性(属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值)。对于分析天猫淘宝用户行为意义不大;但如果对于一个店铺,细分用户对于同种商品不同规格的选择的购买行为,可以帮助店铺提高采购库存数的准确性;
buy_mount:购买数量;
day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)可以分析,哪个时间段哪个商品更受欢迎,从而制定折扣促销活动;
2)表2婴儿信息表字段(3个字段)
user_id:用户id(可与表1匹配数据)
birthday:出生日期(换算成年龄分析各年龄的用户行为;同一年龄宝宝,哪类商品下单最多)
gender:性别(0女性;1男性;2未知的性别)(分析不同性别的购买行为;同一种商品,哪个性别多)
购买数量的均值、四分位数、标准差;
婴儿年龄的均值、四分位数、标准差;
不同性别购买量的箱线图比较;
某ID用户对某两种商品的购买量的标准分比较;
同类商品中的子类,哪类更受欢迎?字段选择:cat1,cat_ id,buy_mount
什么时间用户喜欢下单?字段选择:day,buy_mount
某些商品在什么时间下单最多?字段选择:day,cat_ id,buy_mount
哪种商品最受欢迎?字段选择:cat_ id,buy_mount
不同性别的婴儿用户购买偏好?字段选择:user_ id,gender,buy mount,cat_id
不同年龄的婴儿用户购买偏好?字段选择:user_ id,age,buy mount,cat_i
GO ON……