统计学(一)

第四章  数据的概括性度量(应用中:对样本数据,计算某些统计值,来粗略的观察样本的分布情况。)

   1. 样本:数据有不同类型,进行分析时采用不同的统计方法。数据类型有两种:取值是否有限,是否有序。

    2. 目标:主要观察的是样本的集中趋势、离散程度、偏态与峰态。

   集中趋势  (反映一组数据中心点的位置):

           1. 有限取值,众数。      前提:数据量够大。  特点: 不受极端值影响。 可能不唯一。

           2. 有序,中位数、分位数。  优点: 不受极端值影响。数据偏斜程度较大时,适合用中位数。

           3. 连续数值型, 平均数、加权平均数、几何平均数(累乘,开方)。 平均数是误差相互抵消后的必然结果。  

                当数据本身是比率形式时,适合用几何平均数。比如计算平均增长率。

                 易受异常值影响。对于偏态数据,不适合用作分析指标。

离散程度(各变量的值远离中心的程度)

            1. 分类数据: 异众比率。    非众数值的占比。

             2. 有序数据:  四分位差。  上下四分位点之差。

             3.  数值型数据:方差、标准差。 标准差是有量纲的。数值大小与原变量值自身大小相关。

             4.   相对离散程度:  变异系数。标准差/均值。 

偏态与峰态 (是否对称、偏斜程度、扁平程度)

              1. 偏态系数:excel   中  SKEW() 函数

               2. 峰态系数: 

第五章 概率与概率分布(有限值,无限值)

1. 二项分布  n次重复独立实验,每次实验只有两个结果。X ~ B(n,p) E(X)= np  D(X)=npq

2. 泊松分布  指定时间段、指定面积、指定体积之内, 某一事件出现次数的分布。

3. 正态分布  

第六章    统计量及其抽样分布

统计量:样本的函数。用来反映数据的特征。

分布:(目的都在于如何逼近最真实的分布,进而计算统计量,分析数据,参数估计,再进一步进行应用。)

          1. 抽样分布 : 

           2. 渐进分布 : 当样本量趋近于无穷大时,则抽样分布无限接近真实分布。

           3. 随机模拟得到的近似分布 : 精确分布与渐进分布都很难得到。N次,从总体重随机抽取容量为n的样本。得到n个统计量T,则得到统计量T的分布。k折、 mini-batch。

           4. 抽样方法: 分层抽样,不均衡时如何抽样,重复抽样。

重要分布

           1. 卡方分布  独立同正态分布,随机变量,平方之和。

            2. t 分布    

            3. F分布

中心极限定理:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

补充: 

        1. 抽样方法  :过采样(对数据少的类别,重复采样。改变数据分布消除不平衡,可能导致过拟合。)、欠采样(对数据多的类别,随机抽样。可能导致信息损失。)、分层采样(将抽样单位按某种特征或者某种规则划分为不同的层,然后从不同的层中独立、随机的抽取样本。将个层的样本结合起来,对总体的目标量估计)。权重调整(加大数据量小的类别的样本的权重。)

         2. k折交叉验证、 

         2. LR:误差e,是独立同分布的,服从均值为0,方差为定值的高斯分布。从这个角度,可以发现极大似然和均方误差有相同的含义。

         3. 卡方检验 : 是假设检验问题。可用来检验某两个分类变量是否相互独立。

              假设:观察频数与期望频数没有差别。

               认为: 当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。

 检验: 计算统计量(卡方值),卡方值大,则拒绝假设。卡方值小,则接受假设。

你可能感兴趣的:(统计学(一))