CDA_level01_PART 1 数据分析概述及统计学基础

PART 1 数据分析概述及统计学基础

文章目录

    • PART 1 数据分析概述及统计学基础
      • 一、数据分析概述
        • 1.1 数据分析与数据挖掘的概念
        • 1.2 强调商业数据分析中对业务的理解 && 1.3. 商业数据分析和预测的本质
        • 1.4 大数据对传统小数据分析的扩展
        • 2.1 数据分析目标的意义、过程及其本质
        • 2.2 数据挖掘方法论
          • 2.2.1 CRISP-DM方法论
          • 2.2.2 SEMMA方法论
        • 2.3 数据分析中不同人员角色与职责
      • 二、描述性统计分析
        • 1.1 数据的计量尺度-类型
        • 1.2 数据描述及其典型应用
          • 1.2.1 分类变量
          • 1.2.2 顺序变量
          • 1.2.3 连续变量
        • 1.3 统计图形绘制、图形元素调整、可视化效果应用
      • 三、推断性统计分析-抽样分布及参数估计
        • 1.1 随机试验、随机事件、随机变量的概念
          • 1.1.1 随机试验
          • 1.1.2 随机事件
          • 1.1.3 随机变量
        • 1.2 总体与样本的概念
        • 1.3 正态分布及三大分布的函数形式和图像形式
        • 1.4 中心极限定理
        • 2.1 点估计和区间估计
      • 四、推断性统计分析 - 假设检验
        • 1.1 假设检验的基本概念、假设检验的基本步骤与两类错误
          • 1.1.1 假设检验的基本步骤(以两个总体均值的假设检验为例)
          • 1.1.2 假设检验的两类错误
          • 1.2 假设检验的基本思想及遵循这样的思想、步骤等过程对业务与数据分析流程的指导作用
        • 2.1 统计量( z 、 t 、 F 、 χ 2 z、t、F、\chi^2 ztFχ2 )的函数形式、利⽤P值进行检验的步骤
        • 2.2 P P P值的计算
        • 3.1 SPSS中相关对话框实现的功能分析
          • 3.1.2 两个独立样本 检验(小样本)
      • 五、方差分析
        • 1.1 方差分析
        • 1.2 单因素方差分析( ==显著性检验== )
        • 2.1 单因素方差分析的基本步骤
        • 2.2 计算 F F F统计量过程
          • 2.2.1 变异分解
          • 2.2.2 计算均方
          • 2.2.3 计算检验统计量 F F F
          • 2.2.4 统计决策
        • 2.3 两两比较
      • 六、⼀元线性回归分析
        • 2.1 相关系数
        • 2.2 ⼀元线性回归方程回归分析的概念和特点
          • 2.2.1 回归分析能解决什么问题
          • 2.2.2 相关与回归间的关系
        • 2.3 最小二乘法
        • 2.4 ⼀元线性回归的评价与检验
      • 七、机器学习的基本概念
        • 1.1 什么是机器学习
        • 1.2 机器学习模型构建的⼀般流程
        • 1.3 交叉验证
          • 1.3.1 训练误差与测试误差
          • 1.3.2 泛化能力
          • 1.3.3 交叉验证
        • 1.4 模型评估的方法
          • 1.4.1 混淆矩阵
          • 1.4.2 模型整体效果:准确率
          • 1.4.3 捕捉少数类的艺术:精确度,召回率和F1 score
          • 1.4.4 ROC曲线
        • 2.1 机器学习的分类
        • 2.2 常用有监督学习算法
        • 2.3 常用的无监督学习算法

一、数据分析概述

CDA_level01_PART 1 数据分析概述及统计学基础_第1张图片

1.1 数据分析与数据挖掘的概念

  • 数据分析(Data Analysis):以数据为对象,以探索数据内的有效信息为主要途径,以解决业务需求为最终目标,包含业务理解、数据清洗、数据探索、数据可视化、数据建模、模型结果可视化、分析结果的业务应用 等一整套分析流程。
  • 数据挖掘(Data Mining):是一个跨学科的计算机科学分支,是用人工智能、机器学习、统计学、数据库等交叉方法在相对大型数据集中发现模式的计算过程

1.2 强调商业数据分析中对业务的理解 && 1.3. 商业数据分析和预测的本质

  • 数据分析的八个层次:数据分析是为了发现有价值的信息、提出结论、为业务发展提供辅助决策。描述了“过去发生了什么“、”现在正在发生什么’'、“未来可能发生什么”。根据分析层次的级别不同,分为常规报表、即席查询、 多维分析(又称钻取或OLAP) 、警报、统计分析、预测(或者时间序列预测)、预测型建模和优化
  • CDA_level01_PART 1 数据分析概述及统计学基础_第2张图片

1.4 大数据对传统小数据分析的扩展

​ **数据上:**⼩数据重抽样,⼤数据重全体。**方法上:**⼩数据重实证,⼤数据重优化。**目标上:**⼩数据重解释,⼤数据重预测。

2.1 数据分析目标的意义、过程及其本质

CDA_level01_PART 1 数据分析概述及统计学基础_第3张图片

2.2 数据挖掘方法论

2.2.1 CRISP-DM方法论
  • 业务理解(Business Understanding)
  • 数据理解(Data Understanding)
  • 数据准备(Data Preparation)
  • 建模(Modeling)
  • 模型评估(Evaluation):在模型最后发布前,根据商业⽬标评估模型和检查建⽴模型的各个步骤。此阶段关键⽬的是,判断是否存在⼀些重要的商业问题仍未得到充分考虑
  • 模型发布(Deployment):模型完成后,由模型使⽤者(客户)根据当时背景和⽬标完成情况,决定如何在现场使⽤模型。比如,在网页的实时个⼈化中或营销数据的重复评分中。
2.2.2 SEMMA方法论

​ SAS公司的数据挖掘项⽬实施⽅法论,对CRISP-DM⽅法中的数据准备和建模环节进⾏了拓展,被称为SEMMA方法,如下图所示。

CDA_level01_PART 1 数据分析概述及统计学基础_第4张图片
  • 数据整理:涉及数据采集、数据合并与抽样的操作,⽬的是为了构造分析⽤到的数据。
  • 样本探索:这个步骤的主要任务是对数据质量的探索。变量质量⽅⾯涉及错误值、恰当性、缺失值、⼀致性、平稳性、重复值和及时性等方面。这部分的探索主要解决变量是错误时是否可以修改、是否可以使⽤的问题。
  • 变量修改:根据变量探索的结论,需要对数据质量问题和变量分布情况分别作变量修改
  • 建模
  • 模型检验:这⾥指模型的样本内验证,即使⽤历史数据对模型表现的优劣进⾏评估。

2.3 数据分析中不同人员角色与职责

业务问题是需求,最终需要转换成统计或数据挖掘等问题,⽤数据分析的思路来解决,因此数据分析师在业务与数据间起到协调作⽤,是业务问题能否成功转换成统计问题的关键。所以协调者、数据分析师、报告⼈的⻆⾊,决定了数据分析师是⼀名(精通数理和软件的)综合型⼈才。


二、描述性统计分析

CDA_level01_PART 1 数据分析概述及统计学基础_第5张图片

1.1 数据的计量尺度-类型

名义测量-分类变量;次序测量-顺序变量;连续变量-数值变量(可细分为间距测量和比例测量)

  • 名义测量(nominal measurement):其数值仅代表某些分类或属性
  • 次序测量(ordinal measurement):⽤于测量的数值代表了⼀些有序分类。比如,⽤来表示受教育程度⾼低的数字(1、2、3…)具有⼀定的顺序性
  • 间距测量(interval measurement):它的取值不再是类的编码,而是采⽤⼀定单位的实际测量值。可以进⾏加减运算,但不能进⾏乘除运算,因为测量等级变量所取的“0”值,不是物理上的绝对“0”。
  • 比率测量(ratio measurement):是最⾼级的测量等级,它除了具有间距测度等级的所有性质外,其0值具有物理上的绝对意义,⽽且可以进⾏加减乘除运算。例如增⻓率、收⼊等

1.2 数据描述及其典型应用

1.2.1 分类变量
  • 频次

  • 百分比

  • 累积频次与累积百分比

1.2.2 顺序变量

通常检查数据的众数、频次、百分⽐、累积频次与累积百分⽐、四分位差等。

1.2.3 连续变量

对于连续变量,通常检查中⼼⽔平、离散程度、偏度和峰度4个⽅⾯。

  • 中心水平(众数、中位数、均值)

    • 中位数
      M = { x ( n + 1 2 ) n 为奇数 1 2 ( x n 2 + x ( n 2 + 1 ) )    n 为偶数 M=\begin{cases} x_{(\frac{n+1}{2})} \quad \quad \quad \quad n为奇数\\ \frac{1}{2}({x_{\frac{n}{2}}+x_{(\frac{n}{2}+1)}})\ \ n为偶数 \end{cases} M={x(2n+1)n为奇数21(x2n+x(2n+1))  n为偶数
      其中n为数据量

    • 四分位数

      CDA_level01_PART 1 数据分析概述及统计学基础_第6张图片
    • 算术平均数

      • 样本平均数
        x ‾ = x 1 + x 2 + . . . + x n n = ∑ i = 1 n x i n \overline{x}=\frac{x_1+x_2+...+x_n}{n}=\frac{\sum^n_{i=1}x_i}{n} x=nx1+x2+...+xn=ni=1nxi

      • 总体平均数
        μ = x 1 + x 2 + . . . + x N N = ∑ i = 1 N x i N \mu=\frac{x_1+x_2+...+x_N}{N}=\frac{\sum^N_{i=1}x_i}{N} μ=Nx1+x2+...+xN=Ni=1Nxi
        这⾥的 n n n 是样本数据量, N N N 是总体数据量,样本是⽤来估计总体的。

    • 加权平均数

      • 样本加权平均
        x ‾ = x 1 f 1 + x 2 f 2 + . . . + x n f k f 1 + f 2 + . . . + f k = ∑ i = 1 k x i f i n \overline{x}=\frac{x_1f_1+x_2f_2+...+x_nf_k}{f_1+f_2+...+f_k}=\frac{\sum^k_{i=1}x_if_i}{n} x=f1+f2+...+fkx1f1+x2f2+...+xnfk=ni=1kxifi

      • 总体加权平均
        x ‾ = x 1 f 1 + x 2 f 2 + . . . + x n f k f 1 + f 2 + . . . + f k = ∑ i = 1 k x i f i N \overline{x}=\frac{x_1f_1+x_2f_2+...+x_nf_k}{f_1+f_2+...+f_k}=\frac{\sum^k_{i=1}x_if_i}{N} x=f1+f2+...+fkx1f1+x2f2+...+xnfk=Ni=1kxifi
        这⾥的 x 1 , x 2 , . . . , x k x_1,x_2,...,x_k x1,x2,...,xk 表示各组数据的组中值或数据本身, f 1 , f 2 , . . . , f k f_1,f_2,...,f_k f1,f2,...,fk表示各组频数或数据权重。

    • 几何平均数

      适用于计算比率数据的平均,主要用于计算平均增长率
      G = x 1 × x 2 × . . . × x n n = ∏ i = 1 n x i n G=\sqrt[n]{x_1\times x_2\times ...\times x_n}=\sqrt[n]{\prod^n_{i=1}x_i} G=nx1×x2×...×xn =ni=1nxi

  • 离散程度

    • 异众比率
      r = ∑ f i − f m ∑ f i = 1 − f m ∑ f i r=\frac{\sum f_i-f_m}{\sum f_i}=1-\frac{f_m}{\sum f_i} r=fififm=1fifm
      f m f_m fm表示众数的频率

    • 方差公式

      • 总体方差

      σ 2 = ∑ N i = 1 ( x i − μ ) 2 N \sigma^2=\frac{{\sum^N}{i=1}(x_i-\mu)^2}{N} σ2=NNi=1(xiμ)2

      • 样本方差
        S 2 = ∑ n i = 1 ( x i − x ‾ ) 2 n − 1 S^2=\frac{{\sum^n}{i=1}(x_i-\overline x)^2}{n-1} S2=n1ni=1(xix)2
    • 标准差

      • 总体
        σ = ∑ i = 1 N ( x i − μ ) 2 N \sigma=\sqrt{\frac{\sum^N_{i=1}(x_i-\mu)^2}{N}} σ=Ni=1N(xiμ)2

      • 样本
        S = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 S=\sqrt{\frac{\sum^n_{i=1}(x_i-\overline x)^2}{n-1}} S=n1i=1n(xix)2

    • 偏度峰度

      CDA_level01_PART 1 数据分析概述及统计学基础_第7张图片

1.3 统计图形绘制、图形元素调整、可视化效果应用

  • 条形图、盒须图(⼜称箱线图)、玫瑰图(南丁格尔玫瑰图)、
CDA_level01_PART 1 数据分析概述及统计学基础_第8张图片
  • 经验法则与切比雪夫原则
  • 切比雪夫定理(Chebyshev’s theorem):适用于任何数据集,而不论数据的分布情况如何。与平均数的距离在z个标准差之内的数值所占的比例至少为( 1 − 1 / z 2 1-1/z^2 11/z2),其中z是大于1的任意实数。
    • 至少75%的数据值与平均数的距离在z=2个标准差之内;
    • 至少89%的数据值与平均数的距离在z=3个标准差之内;
    • 至少94%的数据值与平均数的距离在z=4个标准差之内;
  • 经验法则(Empirical Rule):需要数据符合正态分布。
    • 大约68%的数据值与平均数的距离在1个标准差之内;
    • 大约95%的数据值与平均数的距离在2个标准差之内;
    • 几乎所有的99.7%数据值与平均数的距离在3个标准差之内;

三、推断性统计分析-抽样分布及参数估计

CDA_level01_PART 1 数据分析概述及统计学基础_第9张图片

1.1 随机试验、随机事件、随机变量的概念

1.1.1 随机试验

随机试验是概率论的⼀个基本概念。

  • 可以在相同的条件下重复的进⾏。
  • 每次试验的可能结果不⽌⼀个,并且能事先明确试验的所有可能结果。
  • 进⾏⼀次试验之前不能确定哪⼀个结果会出现。
1.1.2 随机事件

在概率论中,随机事件(或简称事件)指的是⼀个被赋予机率的事物集合,也就是样本空间中的⼀个⼦集。

1.1.3 随机变量

设随机试验的样本空间 S = ( e ) , X = X ( e ) S=(e),X=X(e) S=(e),X=X(e)是定义在样本空间上的单值实值函数,称为随机变量

1.2 总体与样本的概念

总体:试验的全部可能的观察值称为总体。

样本:指从全体中随机抽取的个体。

1.3 正态分布及三大分布的函数形式和图像形式

CDA_level01_PART 1 数据分析概述及统计学基础_第10张图片
CDA_level01_PART 1 数据分析概述及统计学基础_第11张图片

1.4 中心极限定理

从均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的任意一个总体 X X X中抽取容量为 n n n的样本,

n n n充分大时,样本均值 x ‾ \overline{x} x的抽样分布近似服从均值为 μ \mu μ、方差为 σ 2 / n \sigma^2/n σ2/n的正态分布

根据中心极限定理,我们知道如果做很多次抽样的话会得到很多个 x ‾ \overline{x} x,而这些 x ‾ \overline{x} x拍起来会形成正态分布,它们的平均数是 μ \mu μ ,标准差是 σ / n \sigma/\sqrt{n} σ/n

而有68%的 x ‾ \overline{x} x会落在 μ ± σ / n \mu \pm \sigma/ \sqrt{n} μ±σ/n 之间,有约95%的 x ‾ \overline{x} x会落在 μ ± 2 σ / n \mu \pm 2\sigma/ \sqrt{n} μ±2σ/n 之间,有约99.7%的 μ ± σ / n \mu \pm \sigma/ \sqrt{n} μ±σ/n 会落在 μ ± 3 σ / n \mu \pm 3\sigma/ \sqrt{n} μ±3σ/n 之间。

2.1 点估计和区间估计

⽤样本平均数 x ‾ \overline{x} x来估计总体的平均数 μ \mu μ称为点估计

用样本观察值的标准差 S S S来估计 σ \sigma σ
S 2 = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 S^2=\frac{\sum^n_{i=1}(x_i-\overline{x})^2}{n-1} S2=n1i=1n(xix)2


四、推断性统计分析 - 假设检验

image-20230621142434046.png

1.1 假设检验的基本概念、假设检验的基本步骤与两类错误

1.1.1 假设检验的基本步骤(以两个总体均值的假设检验为例)

(1)建立原假设 H 0 H_0 H0成立,备择假设 H 1 H_1 H1;原假设 H 0 H_0 H0 μ 1 = μ 2 \mu_1=\mu_2 μ1=μ2(或 μ 1 ≥ μ 2 \mu_1\ge\mu_2 μ1μ2.或 μ 1 ≤ μ 2 \mu_1\leq\mu_2 μ1μ2)备择假设 H 1 H_1 H1 μ ≠ μ 2 \mu\ne\mu_2 μ=μ2(或 μ 1 < μ 2 \mu_1<\mu_2 μ1<μ2. μ 1 > μ 2 \mu_1>\mu_2 μ1>μ2).一般假设 H 0 H_0 H0为真,对其统计检验, H 0 H_0 H0 H 1 H_1 H1对立,二者择一

(2)确定⼩概率事件的界值。⼀般情况下我们将p<0.05或p<0.01作为⼩概率的界值。(这⾥的0.05和0.01称为显著性⽔平)

(3)获取样本,即随机抽样。

(4)选择检验的⽅法,选择具体的检验统计量并计算。

(5)确定P值,并根据P值与显著性⽔平的关系得出相应结论。

1.1.2 假设检验的两类错误
CDA_level01_PART 1 数据分析概述及统计学基础_第12张图片
1.2 假设检验的基本思想及遵循这样的思想、步骤等过程对业务与数据分析流程的指导作用

假设检验的基本思想为验证性数据分析,强调先验理论在数据分析中的核⼼地位。

2.1 统计量( z 、 t 、 F 、 χ 2 z、t、F、\chi^2 ztFχ2 )的函数形式、利⽤P值进行检验的步骤

(1)⼀个总体,总体均值的假设检验,总体正态总体⽅差已知
z = x ‾ − μ 0 σ / n z=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}} z=σ/n xμ0
(2)⼀个总体,总体均值的假设检验,总体正态总体⽅差未知⼩样本(通常是指⼩于30)。
t = x ‾ − μ 0 S / n t=\frac{\overline{x}-\mu_0}{S/\sqrt{n}} t=S/n xμ0
(3)⼀个总体,总体均值的假设检验,总体为⾮正态分布总体⽅差未知⼤样本。原则上⽤⾮参数检验; n n n的样本量较⼤( 30 或50), 服从近似正态分布 (总体已知)。
z = x ‾ − μ 0 S / n z=\frac{\overline{x}-\mu_0}{S/\sqrt{n}} z=S/n xμ0
(4) χ 2 \chi^2 χ2检验统计量⽤于单个总体的⽅差检验
χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) χ2=σ2(n1)S2χ2(n1)
(5) 检验统计量⽤于两个总体的方差检验,原假设 H 0 H_0 H0: σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22 检验统计量:
F = S 1 2 / S 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F=S_1^2/S_2^2\sim F(n_1-1,n_2-1) F=S12/S22F(n11,n21)
(6)P 值是⼀种概率,当 P P P值小于显著性水平的时候,就需要拒绝原假设,否则就无法拒绝原假设。

2.2 P P P值的计算

  • 单侧检验:(以右侧检验为例) P P P值为样本统计值 X X X(将样本值代⼊检验统计量中的计算结果)右侧的面积(概率)。
    • CDA_level01_PART 1 数据分析概述及统计学基础_第13张图片
  • 双侧检验: P P P 值为样本统计值的绝对值右侧的⾯积的两倍。
    • CDA_level01_PART 1 数据分析概述及统计学基础_第14张图片

3.1 SPSS中相关对话框实现的功能分析

3.1.2 两个独立样本 检验(小样本)

⽤于检验两样本是否来⾃相同均值的总体。

  • **原理:**计算 t t t统计量

  • 公式

    • 两个总体方差相等
      t = ( x 1 ‾ − x 2 ‾ ) − ( μ 1 − μ 2 ) S p 1 n 1 + 1 n 2 t=\frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} t=Spn11+n21 (x1x2)(μ1μ2)

    • 两个总体方差不相等
      t = ( x 1 ‾ − x 2 ‾ ) − ( μ 1 − μ 2 ) S 1 2 n 1 + S 2 2 n 2 t=\frac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} t=n1S12+n2S22 (x1x2)(μ1μ2)

  • **适⽤条件:**⽤于⼩样本(例如 n < 30 n<30 n<30),且总体标准差 σ \sigma σ未知的正态分布样本。

  • **操作流程:**分析→⽐较均值→独⽴样本 t t t检验

**Levene检验:**⽤于检验⽅差是否⻬性。 F F F检验不显著( p > 0.05 p>0.05 p>0.05),则满⾜⽅差⻬(总体⽅差相

等),反之,方差不奇(总体⽅差不相等)。

  • 确定原假设和备择假设

    1、“备择假设”对应的是“拒绝域”,“原假设”对应的是“接受域”。“拒绝域”有“充分性”,而“接受域”没有“充分性”。

    2、“等号”一般是在“原假设”里。

    CDA_level01_PART 1 数据分析概述及统计学基础_第15张图片
    CDA_level01_PART 1 数据分析概述及统计学基础_第16张图片

五、方差分析

CDA_level01_PART 1 数据分析概述及统计学基础_第17张图片

1.1 方差分析

  • ⽅差分析的基本原理

指根据试验结果,鉴别各个有关因素对试验结果影响的有效⽅法。是⽅差的可加性原则。

  • ⽅差分析的基本假设
    • 每个总体都应服从正态分布
    • 各个总体的⽅差必须相同
    • 观察值是独⽴的

1.2 单因素方差分析( 显著性检验 )

指将所获得的数据按某些项⽬分类后,再分析各组数据之间有⽆差异的⽅法,其本质是检验多个总体均值是否相等,其计算过程可以理解为是变异分解过程。

2.1 单因素方差分析的基本步骤

  • 提出假设。 H 0 H_0 H0 μ 1 = μ 2 = . . . = μ k \mu_1=\mu_2=...=\mu_k μ1=μ2=...=μk,各个水平均值相等,即自变量对因变量没有显著影响

  • 构造检验统计量( F F F统计量)

  • 统计决策(根据 P P P值)

2.2 计算 F F F统计量过程

2.2.1 变异分解
  • 总体平方和SST、组间平方和SSA、组内平方和SSE

S S T = ∑ i = 1 k ∑ j = 1 n i ( X i j − X ‾ ) 2 SST=\sum^k_{i=1}\sum^{n_i}_{j=1}(X_{ij}-\overline{X})^2 SST=i=1kj=1ni(XijX)2

S S A = ∑ i = 1 k ∑ j = 1 n i ( X i ‾ − X ‾ ) 2 = ∑ i = 1 k n i ( X i ‾ − X ‾ ) 2 SSA=\sum^k_{i=1}\sum^{n_i}_{j=1}(\overline{X_i}-\overline{X})^2=\sum^k_{i=1}n_i(\overline{X_i}-\overline{X})^2 SSA=i=1kj=1ni(XiX)2=i=1kni(XiX)2

S S E = ∑ i = 1 k ∑ j = 1 n i ( X i j − X i ‾ ) 2 SSE=\sum^k_{i=1}\sum^{n_i}_{j=1}(X_{ij}-\overline{X_i})^2 SSE=i=1kj=1ni(XijXi)2

  • S S T = S S A + S S E SST=SSA+SSE SST=SSA+SSE:

∑ i = 1 k ∑ j = 1 n i ( X i j − X ‾ ) 2 = ∑ i = 1 k n i ( X i ‾ − X ‾ ) 2 + ∑ i = 1 k ∑ j = 1 n i ( X i j − X ‾ ) 2 \sum^k_{i=1}\sum^{n_i}_{j=1}(X_{ij}-\overline{X})^2=\sum^k_{i=1}n_i(\overline{X_i}-\overline{X})^2+\sum^k_{i=1}\sum^{n_i}_{j=1}(X_{ij}-\overline{X})^2 i=1kj=1ni(XijX)2=i=1kni(XiX)2+i=1kj=1ni(XijX)2

其中:
X i ‾ = ∑ j = 1 n i X i j n i   ,   i = 1 , 2 , . . . , k \overline{X_i}=\frac{\sum^{n_i}_{j=1}X_{ij}}{n_i}\ ,\ i=1,2,...,k Xi=nij=1niXij , i=1,2,...,k

X ‾ = ∑ i = 1 k ∑ j = 1 n i X i j n = ∑ i = 1 k n i X i ‾ n \overline{X}=\frac{\sum^k_{i=1}\sum^{n_i}_{j=1}X_{ij}}{n}=\frac{\sum^k_{i=1}n_i\overline{X_i}}{n} X=ni=1kj=1niXij=ni=1kniXi

其中 n = n 1 + n 2 + . . . + n k n=n_1+n_2+...+n_k n=n1+n2+...+nk

2.2.2 计算均方
  • 组间均方

M S A = S S A k − 1 MSA=\frac{SSA}{k-1} MSA=k1SSA

SSA的自由度为 k − 1 k-1 k1

  • 组内均差

M S E = S S E n − k MSE=\frac{SSE}{n-k} MSE=nkSSE

S S E SSE SSE的自由度为 n − k n-k nk

2.2.3 计算检验统计量 F F F

F = M S A M S E ∼ F ( k − 1 , n − k ) F=\frac{MSA}{MSE}\sim{F(k-1,n-k)} F=MSEMSAF(k1,nk)

2.2.4 统计决策

将统计量 F F F 的值与给定的显著性⽔平 的临界值 F α F_{\alpha} Fα进⾏⽐较(或者⽤ P P P值与 α \alpha α比较),作出对原假

H 0 H_0 H0的决策

  • F > F α F>F_{\alpha} F>Fα,(即 p < α p<\alpha p<α则拒绝原假设 H 0 H_0 H0,表明均值之间差异是显著的,所检验的因素对观察值有显著影响
  • F < F α FF<Fα,(即 p > α p>\alpha p>α则拒绝原假设 H 0 H_0 H0,表明均值之间差异是显著的,所检验的因素对观察值有显著影响

2.3 两两比较

  • 方差齐性

  • LSD:实际上是t检验的变形,只是在变异和⾃由度的计算上利⽤了整体样本的信息,仍然存在放⼤⼀类错误的问题。

  • **Scheffe法:**当各组⼈数不等,或想进⾏复杂的⽐较时,较为稳妥。

  • SNK法:是运⽤最⼴泛⼀种两两⽐较的⽅法,它采⽤student range 分布进⾏所有各组均值间的配对⽐较。

  • 方差不齐

建议games-howell稍好⼀点,但最好⽤⾮参的⽅法。

CDA_level01_PART 1 数据分析概述及统计学基础_第18张图片
  • 方差分析中的方差齐性判断

    在方差分析中,所谓方差齐性检验,就是判断两组或多组的方差是否相等。

    • 方差比(F ratio):方差比主要用于两组方差齐性的检验,求出两组方差的方差,用较大的方差除以较小的方差,得到F值。如果F值很大,则说明两组方差差别较大
    • Hartley检验: Hartley检验主要用于多组方差齐性的检验,求出各组的方差,用最大的方差除以最小的方差,得到F值。如果F值很大,则说明两组方差差别较大
      以上两种方法有一个局限性就是对正态性很敏感,如果数据偏离正态,则结果可能偏差很大。此时应该考虑使用levene检验
    • Levene检验的思想就是基于每一组内的每一观测值与各自组均值的偏离程度。这里偏离程度有两种度量方式:插值的绝对值或差值的平方,而组均值可以用平均值、中位数、截取平均数(去掉最大或最小的几个值后的平均值)
    • 最初的Levene检验只用平均数作为组均值,后来采用中位数和截取平均值,称为BF法。
      后来O‘Brien(1979)提出在Levene中的偏差加一个调节参数。该参数的作用是根据实际数据的峰度大小,调节W值的大小,使之适应实际数据的分布情况。多数软件默认为0.5。
    • 结论:
      在实际应用中,如果数据符合正态分布,则采用Barlett法(Levene法和BF法也是没问题的);但如果偏离正态,则建议采用Levene法(如果偏离不是很严重)或者采用BF法(偏离特别严重)。 当然也可以从数据的箱线图来直观的观察数据的分布情况

六、⼀元线性回归分析

CDA_level01_PART 1 数据分析概述及统计学基础_第19张图片
  • 完全线性相关

虽然所有点都在直线上,但是我们不能说两个变量是函数关系,这是因为我们看到的是样本,并且我们假设两个变量是随机变量,⽽我们需要推导的是两个总体的关系。

  • 估计标准误差与相关系数的关系

⼀元线性回归中,对于同⼀个问题,估计标准误差就意味着样本点到回归线的距离越近,那么两个变量的线性相关性就越强,相关系数越⼤

2.1 相关系数

⼀般情况下,如果不做特殊说明,指的就是线性相关。

如果相关系数是根据变量的样本数据计算的,即为了推断总体,那么则称为样本相关系数(虽然有的时候在部分资料⾥并不严格说明),记为 r r r (有的教材⾥也称为Pearson相关系数)
r = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ 2 ) × ∑ i = 1 n ( y i − y ‾ 2 ) r=\frac{\sum^n_{i=1}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum^n_{i=1}(x_i-\overline{x}^2)\times\sum^n_{i=1}(y_i-\overline{y}^2)}} r=i=1n(xix2)×i=1n(yiy2) i=1n(xix)(yiy)
与相关系数 类似, 的取值范围是[-1,1], ∣ r ∣ |r| r越接近于1则说明两个变量的相关性越强。且有以下5种情况:

  • r = 1 r=1 r=1:完全正相关
  • r = − 1 r=-1 r=1:完全负相关
  • r = 0 r=0 r=0:不存在线性相关关系(可能是非线性关系)
  • − 1 < r < 0 -11<r<0: 负相关
  • 0 < r < 1 00<r<1: 正相关

虽然没有严格的规定,但是我们往往习惯按照下⾯的⽅式对相关性强度进⾏分级:

  • ∣ r ∣ ≥ 0.8 |r|\ge0.8 r0.8:两个变量之间高度相关
  • 0.5 ≤ ∣ r ∣ < 0.8 0.5\le|r|<0.8 0.5r<0.8:中度相关
  • 0.3 ≤ ∣ r ∣ ≤ 0.5 0.3\le|r|\le0.5 0.3r0.5:低度相关
  • ∣ r ∣ < 0.3 |r|<0.3 r<0.3:两个变量之间的相关程度极弱,可视为不相关

由于 r r r只是样本线性相关系数,⽆论其数值等于多少,我们需要推断的始终是总体的相关性如何,这时候我们就需要运⽤显著性检验的知识了。我们运⽤R.A.Fisher提出的 t t t检验⽅法来检验两个变量总体之间是否存在线性相关关系

  1. 原假设 H 0 : ρ = 0 H_0:\rho=0 H0:ρ=0两变量间无直线相关关系
  2. 检验统计量:

t = ∣ r ∣ n − 2 1 − r 2 ∼ t ( n − 2 ) t=|r|\sqrt{\frac{n-2}{1-r^2}}\sim{t(n-2)} t=r1r2n2 t(n2)

  1. **适⽤条件:**数据间相互独⽴,包括观测间相互独⽴与变量间相互独⽴;变量为连续变量(积差相关的条件);两变量间的关系是线性的。
  • 散点图提供如下特征:
    • 散点的密集程度,反应相关性的⼤⼩;
    • 散点是否具有线性关系,或线性趋势,还是其他形式,如果是其他形式是否可以转换成线性形式;
    • 线性关系之外是否存在异常值及其存在与线性趋势的哪个⽅向;
    • 数据是否存在稀疏问题

2.2 ⼀元线性回归方程回归分析的概念和特点

2.2.1 回归分析能解决什么问题
  • 探索影响因变量的可能因素;

  • 利⽤回归模型进⾏预测。

2.2.2 相关与回归间的关系
  • 相关分析侧重反映散点的疏密程度。

  • 回归分析侧重反映散点的趋势程度。

2.3 最小二乘法

CDA_level01_PART 1 数据分析概述及统计学基础_第20张图片

2.4 ⼀元线性回归的评价与检验

第⼀步:总平方和分解
∑ i = 1 n ( y i − y ‾ ) 2 = ∑ i = 1 n ( y i ^ − y ‾ ) 2 + ∑ i = 1 n ( y i − y i ^ ) 2 \sum^n_{i=1}(y_i-\overline{y})^2=\sum^n_{i=1}(\hat{y_i}-\overline{y})^2+\sum^n_{i=1}(y_i-\hat{y_i})^2 i=1n(yiy)2=i=1n(yi^y)2+i=1n(yiyi^)2
S S T = S S R + S S E SST=SSR+SSE SST=SSR+SSE。其中:

  • S S T SST SST为总平方和,用于度量各变量值与均值的总误差,即因变量的波动;
  • S S R SSR SSR为回归平方和,由于 y ^ = β 0 ^ + β 1 ^ x \hat{y}=\hat{\beta_0}+\hat{\beta_1}x y^=β0^+β1^x,因此 y i ^ − y i \hat{y_i}-y_i yi^yi,即 y i ^ \hat{y_i} yi^ y ‾ \overline{y} y的误差,是由于 x x x y y y之间的线性关系引起的 y y y的取值变化所造成的
  • S S E SSE SSE为残差平方和,事实上,由回归方程公式可得由 y i − y i ^ = ε i y_i-\hat{y_i}=\varepsilon_i yiyi^=εi即第 i i i个样本的残差,反映除 x x x以外的其他因素对 y y y取值的影响。

第二步:计算判定系数 R 2 R^2 R2
R 2 = S S R S S T R^2=\frac{SSR}{SST} R2=SSTSSR
回归平⽅和总误差平⽅和的⽐例。

第三步:残差标准误

S S E SSE SSE并不适合相对客观的反映估计值与样本值的偏离程度,我们需要将 S S E SSE SSE处理成相对值。于是我们令 R S E = S S E n − 2 RSE=\sqrt{\frac{SSE}{n-2}} RSE=n2SSE ,其中 n − 2 n-2 n2是⾃由度。这个公式可以粗略的理解为,通过除以⾃由度,得到残差平⽅的均值;再开根号则可以将⽅差转化成标准差,也成为估计标准误差

第四步:线性关系检验

  • 提出假设: H 0 : β 1 = 0 H_0:\beta_1=0 H0:β1=0,即线性关系不显著

    β 1 \beta_1 β1在模型中可以理解为斜率,如果斜率等于0那么自然没有线性关系了。

  • 计算检验统计量:
    F = S S R / 1 S S E / ( n − 2 ) = M S R M S E : F ( 1 , n − 2 ) F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}:F(1,n-2) F=SSE/(n2)SSR/1=MSEMSR:F(1,n2)
    分子分母都除以自由度,这样就把“平方和”转为“均和”(字母M就是mean),其意义是比较“⾃变量与因

    变量的线性关系”(分子)和“⾃变量以外的随机因素”(分母)分别对于因变量波动的影响大小。如果分

    ⼦远大于分⺟,那么就说明线性关系对于因变量波动的显著的大,否则这说明影响不显著。

  • 设定临界值:确定显著性水平 α \alpha α并根据分子自由度1和父母自由度 n − 2 n-2 n2找出临界值 F α F_{\alpha} Fα.及其P值

  • 决策, F > F α F>F_{\alpha} F>Fα拒绝 H 0 H_0 H0,否则接受

第五步:回归系数检验

  • 提出假设: H 0 : β 1 = 0 H_0:\beta_1=0 H0:β1=0,即⾃变量与因变量没有线性关系。

  • 计算检验的统计量:
    t = β 1 ^ S β 1 ^ : t ( n − 2 ) t=\frac{\hat{\beta_1}}{S_{\hat{\beta_1}}}:t(n-2) t=Sβ1^β1^:t(n2)
    这里的KaTeX parse error: Got function '\hat' with no arguments as subscript at position 3: S_\̲h̲a̲t̲{\beta_1}是系数的标准差

  • 设定临界值:确定显著性水平 α \alpha α并根据自由度 n − 2 n-2 n2找出临界值 t α / 2 t\alpha/2 tα/2。在代码结果中,我们更关注 P P P

  • 决策:

    ∣ t ∣ > t α / 2 |t|>t\alpha/2 t>tα/2,拒绝 H 0 H_0 H0

    ∣ t ∣ < t α / 2 |t|t<tα/2,不拒绝 H 0 H_0 H0

    在代码结果中, ∣ t ∣ > t α / 2 |t|>t\alpha/2 t>tα/2,等价于 P < α P<\alpha P<α

由于⼀元线性回归问题中,只有⼀个⾃变量,因此,回归系数的显著性检验等价于线性关系的显著性检验。

2.5 线性回归模型的假设

假设1:线性关系。因变量 y y y与⾃变量 x x x之间存在线性关系。

假设2:随机抽样。我们的样本数据是来⾃于总体的随机样本,该数据代表着假设1描述的总体。

假设3:期望为0。误差项 ε \varepsilon ε是⼀个期望值为0的随机变量,即 E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0

假设4:同⽅差。给定任意的解释变量 x x x ε \varepsilon ε的⽅差 σ 2 \sigma^2 σ2都相同的。

假设5:正态性。误差项 ε \varepsilon ε独⽴于解释变量,服从 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2),且相互独⽴。


七、机器学习的基本概念

CDA_level01_PART 1 数据分析概述及统计学基础_第21张图片

1.1 什么是机器学习

  • 机器学习研究如何让计算机不需要明确的程序也能具备学习能⼒。(——Arthur Samuel,1959)

  • ⼀个计算机程序在完成了任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是⽤以衡量的P,随着E的增加⽽增加,可以称其为学习。(——Tom Mitchell,1977)

1.2 机器学习模型构建的⼀般流程

获取数据、获取一个任务、根据数据和算法进行学习(数据清洗,数据预处理,特征工程)

1.3 交叉验证

1.3.1 训练误差与测试误差
1.3.2 泛化能力

训练误差的大小,⽤来判断给定问题是不是⼀个容易学习的的问题。测试误差则反映了模型对未知数据的预测能里,测试误差小的学习⽅法具有很好的预测能⼒,如果得到的训练集和测试集的数据没有交集,通常将此预测能力称为泛化能力(generalization ability)。

1.3.3 交叉验证

交叉验证⽅法有很多,其中最常⽤的是k折交叉验证。我们知道训练集和测试集的划分会⼲扰模型的结果,因此⽤交叉验证n次的结果求出的均值,是对模型效果的⼀个更好的度量。

CDA_level01_PART 1 数据分析概述及统计学基础_第22张图片

所有的交叉验证都是在分割训练集和测试集,只不过侧重的⽅向不同,像“k 折"就是按顺序取训练集和测试集,ShuffleSplit就侧重于让测试集分布在数据的全⽅位之内,StratififiedKFold则是认为训练数据和测试数据必须在每个标签分类中占有相同的⽐例。

1.4 模型评估的方法

1.4.1 混淆矩阵
CDA_level01_PART 1 数据分析概述及统计学基础_第23张图片
1.4.2 模型整体效果:准确率
CDA_level01_PART 1 数据分析概述及统计学基础_第24张图片
1.4.3 捕捉少数类的艺术:精确度,召回率和F1 score
CDA_level01_PART 1 数据分析概述及统计学基础_第25张图片
CDA_level01_PART 1 数据分析概述及统计学基础_第26张图片
  • 精确度Precision,⼜叫查准率,表示所有被我们预测为是少数类的样本中,真正的少数类所占的比例。精确度越低,则代表我们误伤了过多的多数类。精确度是”将多数类判错后所需付出成本“的衡量。

  • 召回率Recall,⼜被称为敏感度(sensitivity),真正率,查全率,表示所有真实为1的样本中,被我们预测正确的样本所占的⽐例。召回率越⾼,代表我们尽量捕捉出了越多的少数类,召回率越低,代表我们没有捕捉出⾜够的少数类。如果我们希望不计⼀切代价,找出少数类(⽐如找出潜在犯罪者的例⼦),那我们就会追求高召回率

⽽召回率和精确度是此消彼长的,两者之间的平衡代表了捕捉少数类的需求和尽量不要误伤多数类的需求的平衡。

  • 为了同时兼顾精确度和召回率,我们创造了两者的调和平均数作为考量两者平衡的综合性指标,称之为F1 measure。两个数之间的调和平均倾向于靠近两个数中⽐较⼩的那⼀个数,因此我们追求尽量⾼的F1 measure,能够保证我们的精确度和召回率都⽐较⾼。F1 measure在[0,1]之间分布,越接近1越好。
image-20230625120933809.png
1.4.4 ROC曲线

ROC的全称是Receiver Operating Characteristic Curve,其主要的分析⽅法就是画这条特征曲线。

CDA_level01_PART 1 数据分析概述及统计学基础_第27张图片
  • 该曲线的横坐标为假正率(False Positive Rate, FPR),N是真实负样本的个数,FP是N个负样本中被分类器预测为正样本的个数。
image-20230625121309730.png
  • 纵坐标为真正率(True Positive Rate, TPR):
    T P R = T P P = 11 11 + 10 TPR=\frac{TP}{P}=\frac{11}{11+10} TPR=PTP=11+1011
    其中,P是真实正样本的个数,TP是P个正样本中被分类器预测为正样本的个数。

2.1 机器学习的分类

机器学习的⽅法是基于数据产⽣的 “模型”(model)的算法,也称 “学习算法”(learning algorithm)。包括有监督学习(supervised learning)、⽆监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)。

  • 有监督学习:分类、回归

  • ⽆监督学习:聚类、降维

  • 强化学习不同于监督学习,它将学习看作是试探评价过程,以 “试错” 的⽅式进⾏学习,并与环境进⾏交互已获得奖惩指导⾏为,以其作为评价。此时系统靠⾃身的状态和动作进⾏学习,从⽽改进⾏动⽅案以适应环境。

2.2 常用有监督学习算法

k近邻算法:KNN算法本质是通过距离判断两个样本是否相似,如果距离够近就认为他们⾜够相似属于同⼀类别。需要找到离其最近的k个样本,并将这些样本称之为「近邻」(nearest-neighbor)。对这k个近邻,查看它们的都属于何种类别(这些类别我们称作「标签」)。然后根据“少数服从多数,⼀点算⼀票”原则进⾏判断,数量最多的的标签类别就是新样本的标签类别。其中涉及到的原理是“越相近越相似”,这也是KNN的基本假设。

决策树(Decision Tree)是⼀种实现分治策略的层次数据结构。它是⼀种有效的⾮参数学习⽅法,并可以⽤于分类和回归。我们主要讨论分类的决策树。树的学习算法是 “贪⼼算法”,从包含全部训练数据的根开始,每⼀步都选择最佳划分。**决策树学习算法包含特征选择、决策树的⽣成与决策树的剪枝。**其中,特征选择运⽤的算法主要包括 “信息熵增益”、“信息增益⽐”、“基尼系数”,分别对应不同的树⽣成算法ID3、C4.5、CART。

朴素贝叶斯是⼀种直接衡量标签和特征之间的概率关系的有监督学习算法,是⼀种专注分类的算法。朴素⻉叶斯的算法根源就是基于概率论和数理统计的⻉叶斯理论,因此它是根正苗红的概率模型。
P ( Y ∣ X ) = P ( X ∣ Y ) ∗ P ( Y ) P ( X ) P(Y|X)=\frac{P(X|Y)*P(Y)}{P(X)} P(YX)=P(X)P(XY)P(Y)
P(Y|X)为后验概率,P(X|Y)为条件概率

2.3 常用的无监督学习算法

聚类算法又叫做 ”⽆监督分类“ ,其⽬的是将数据划分成有意义或有用的组(或簇)。聚类可以用于降维和⽮量化,可以将高维特征压缩到⼀列当中,常常用于图像、声⾳、视频等非结构化数据,可以大幅度压缩数据量。

本文链接:http://t.csdn.cn/kgKIG
转载请显示来源~~

你可能感兴趣的:(数据分析,数据分析,信息可视化,数据挖掘,机器学习)