初识统计学

一、什么是描述统计学

官方定义:描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

通过四步法,收集获取数据、筛选处理数据、可视化展示数据、分析解释数据,找出数据中的规律,描述数据特征。

常用的几种指标:

1)平均值(算术平均值):

缺点:对异常数字不敏感;当数据中有异常数值时,不能用平均数

2)中位数:

中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

3)四分位数:

四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。

下界:数据集最小值

下四分位数Q1:将中位数到下界之间的数据一分为二

中位数Q2:中间的数字

上四分位数Q3:将中位数到上界之间的数据一分为二

上界:数据集最大值

四分位数计算方法:

第一步:计算中位数

如何计算中位数:

第二步:计算上下四分位数

四分位数实际可以应用在哪些场景:

1、比较数据

2、识别可能的异常值

4)标准差:

标标准差(Standard Deviation) ,是离均差平方的算术平均数的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。[4]

标准差能表示数据整体的波动。

标准差的计算公式:

数据集总体标准差:数据集除以N


样本标准差估计总体标准差时:数据集除以N-1


标准差的单位与计算数据的单位相同

标准差的缺点:如果两个数据差别比较大,那么就无法比较。用标准差除以数据集的平均值,就可以消除数据大小的差异。

(比如店铺A的销售额是1000万,店铺B的销售额是100万,两个店铺的标准差都是20万。如果说两个店铺的“波动幅度相同”,这是不对的。因为一般情况下,如果原始数据值较大,那么它的波动(标准差)也会比较大。这句话怎么理解呢?比如,20万对于1000万和100万的比例是不一样的,一个是五分之一,一个是五十分之一。)

标准差除以平均值得到的值叫作变异系数。所以,我们通常用变异系数来比较不同数据集的波动大小。

5)标准分:

标准分,是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。

用平均值与标准差计算,标准分=(数值-平均值)/标准差

表示相对排名:某个数值距离平均值距离多少个标准差

标准分为零,则该数值等于平均值

大于零则该数值大于平均值

小于零则该数值小于平均值


二、熟悉数据集:

选择的数据集:淘宝展示广告点击率预估数据集

共有4个表,分别是

raw_sample:原始的样本骨架数据集

ad_feature:广告的基本信息数据集

user_profile:用户的基本信息数据集

raw_behavior_log:用户的行为日志数据集


数据集来源:

数据集-阿里云天池​tianchi.aliyun.com


表一原始样本骨架raw_sample(114万用户8天内的广告展示/点击日志(2600万条记录)

有6个字段信息:

(1) user_id:脱敏过的用户ID;

(2) adgroup_id:脱敏过的广告单元ID;

(3) time_stamp:时间戳;

(4) pid:资源位;

(5) noclk:为1代表没有点击;为0代表点击;

(6) clk:为0代表没有点击;为1代表点击;


表二广告基本信息表ad_feature

有6个字段信息:

(1) adgroup_id:脱敏过的广告ID;

(2) cate_id:脱敏过的商品类目ID;

(3) campaign_id:脱敏过的广告计划ID;

(4) customer_id:脱敏过的广告主ID;

(5) brand:脱敏过的品牌ID;

(6) price:宝贝的价格


表三用户基本信息表user_profile

有9个字段信息:

(1) userid:脱敏过的用户ID;

(2) cms_segid:微群ID;

(3) cms_group_id:cms_group_id;

(4) final_gender_code:性别1:男,2:女;

(5) age_level:年龄层次;

(6) pvalue_level:消费档次,1:低档,2:中档,3:高档;

(7) shopping_level:购物深度,1:浅层用户,2:中度用户,3:深度用户

(8) occupation:是否大学生,1:是,0:否

(9) new_user_class_level:城市层级


表四用户的行为日志behavior_log

有9个字段信息:

(1) user:脱敏过的用户ID;

(2) time_stamp:时间戳;

(3) btag:行为类型, 包括以下四种:

ipv浏览

cart加入购物车

fav喜欢

buy购买

(4) cate:脱敏过的商品类目;

(5) brand:脱敏过的品牌词;


三、你想从该数据集中分析哪些业务问题?

1、哪种类型的广告主比较多

2、哪种类型的广告,用户点击量大

3、不同年龄、性别、层次的人群,点击的广告有什么区别?

4、不同人群展示的广告类型有什么区别?

5、不同人群的购物偏好有什么不同?

6、哪类商品在全年龄段中广受喜爱?

7、什么样的人群是购物主力?

你可能感兴趣的:(初识统计学)