一、什么是描述统计学

官方定义：描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation)，并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation)，进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

通过四步法，收集获取数据、筛选处理数据、可视化展示数据、分析解释数据，找出数据中的规律，描述数据特征。

常用的几种指标：

1）平均值（算术平均值）：

缺点：对异常数字不敏感；当数据中有异常数值时，不能用平均数

2）中位数：

中位数（Median）又称中值，统计学中的专有名词，是按顺序排列的一组数据中居于中间位置的数，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

3）四分位数：

四分位数（Quartile）也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。

下界：数据集最小值

下四分位数Q1：将中位数到下界之间的数据一分为二

中位数Q2：中间的数字

上四分位数Q3：将中位数到上界之间的数据一分为二

上界：数据集最大值

四分位数计算方法：

第一步：计算中位数

如何计算中位数：

第二步：计算上下四分位数

四分位数实际可以应用在哪些场景：

1、比较数据

2、识别可能的异常值

4）标准差：

标标准差（Standard Deviation），是离均差平方的算术平均数的算术平方根，用σ表示。标准差也被称为标准偏差，或者实验标准差，在概率统计中最常使用作为统计分布程度上的测量依据。[4]

标准差能表示数据整体的波动。

标准差的计算公式：

数据集总体标准差：数据集除以N

样本标准差估计总体标准差时：数据集除以N-1

标准差的单位与计算数据的单位相同

标准差的缺点：如果两个数据差别比较大，那么就无法比较。用标准差除以数据集的平均值，就可以消除数据大小的差异。

（比如店铺A的销售额是1000万，店铺B的销售额是100万，两个店铺的标准差都是20万。如果说两个店铺的“波动幅度相同”，这是不对的。因为一般情况下，如果原始数据值较大，那么它的波动（标准差）也会比较大。这句话怎么理解呢？比如，20万对于1000万和100万的比例是不一样的，一个是五分之一，一个是五十分之一。）

标准差除以平均值得到的值叫作变异系数。所以，我们通常用变异系数来比较不同数据集的波动大小。

5）标准分：

标准分，是一种由原始分推导出来的相对地位量数，它是用来说明原始分在所属的那批分数中的相对位置的。

用平均值与标准差计算，标准分=（数值-平均值）/标准差

表示相对排名：某个数值距离平均值距离多少个标准差

标准分为零，则该数值等于平均值

大于零则该数值大于平均值

小于零则该数值小于平均值

二、熟悉数据集：

选择的数据集：淘宝展示广告点击率预估数据集

共有4个表，分别是

raw_sample：原始的样本骨架数据集

ad_feature：广告的基本信息数据集

user_profile：用户的基本信息数据集

raw_behavior_log：用户的行为日志数据集

数据集来源：

数据集-阿里云天池tianchi.aliyun.com

表一原始样本骨架raw_sample（114万用户8天内的广告展示/点击日志（2600万条记录））

有6个字段信息：

(1) user_id：脱敏过的用户ID；

(2) adgroup_id：脱敏过的广告单元ID；

(3) time_stamp：时间戳；

(4) pid：资源位；

(5) noclk：为1代表没有点击；为0代表点击；

(6) clk：为0代表没有点击；为1代表点击；

表二广告基本信息表ad_feature

有6个字段信息：

(1) adgroup_id：脱敏过的广告ID；

(2) cate_id：脱敏过的商品类目ID；

(3) campaign_id：脱敏过的广告计划ID；

(4) customer_id:脱敏过的广告主ID；

(5) brand：脱敏过的品牌ID；

(6) price:宝贝的价格

表三用户基本信息表user_profile

有9个字段信息：

(1) userid：脱敏过的用户ID；

(2) cms_segid：微群ID；

(3) cms_group_id：cms_group_id；

(4) final_gender_code：性别1:男,2:女；

(5) age_level：年龄层次；

(6) pvalue_level：消费档次，1:低档，2:中档，3:高档；

(7) shopping_level：购物深度，1:浅层用户,2:中度用户,3:深度用户

(8) occupation：是否大学生，1:是,0:否

(9) new_user_class_level：城市层级

表四用户的行为日志behavior_log

有9个字段信息：

(1) user：脱敏过的用户ID；

(2) time_stamp：时间戳；

(3) btag：行为类型, 包括以下四种：

ipv浏览

cart加入购物车

fav喜欢

buy购买

(4) cate：脱敏过的商品类目；

(5) brand：脱敏过的品牌词；

三、你想从该数据集中分析哪些业务问题？

1、哪种类型的广告主比较多

2、哪种类型的广告，用户点击量大

3、不同年龄、性别、层次的人群，点击的广告有什么区别？

4、不同人群展示的广告类型有什么区别？

5、不同人群的购物偏好有什么不同？

6、哪类商品在全年龄段中广受喜爱？

7、什么样的人群是购物主力？

初识统计学