四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记

目录
  • 1、数据分析概述
    • 1.1 什么是数据分析
    • 1.2 数据分析六部曲
      • 1.2.1 明确分析目的和内容
      • 1.2.2 数据收集
      • 1.2.3 数据预处理
      • 1.2.4 数据分析
      • 1.2.5 数据展现
      • 1.2.6 报告撰写
    • 1.3 数据分析方法简介
      • 1.3.1 统计分析方法简介
        • 1.3.1.1 描述性统计分析
        • 1.3.1.2 回归分析
        • 1.3.1.3 对应分析
        • 1.3.1.4 因子分析
        • 1.3.1.5 方差分析
      • 1.3.2 数据挖掘方法简介
        • 1.3.2.1 聚类分析
        • 1.3.2.2 分类分析
        • 1.3.2.3 关联规则
        • 1.3.2.4 回归分析
      • 1.3.3 统计分析与数据挖掘的区别和联系
  • 2、描述性统计分析
    • 2.1 直方图
    • 2.2 数据的计量尺度
    • 2.3 数据的集中趋势
    • 2.4 数据的离中趋势
    • 2.5 数据分布的测度
      • 2.5.1 数据偏态及其测定
      • 2.5.2 数据峰度及其测定
      • 2.5.3 数据偏度和峰度的作用
    • 2.6 数据的展示—统计图
      • 2.6.1 条形图与扇形图
      • 2.6.2 折线图
      • 2.6.3 茎叶图
      • 2.6.4 箱线图
  • 3、抽样估计
    • 3.1 抽样估计基础
      • 3.1.1 随机事件
      • 3.1.2 随机事件的概率
      • 3.1.3 随机变量及其概率分布
      • 3.1.4 随机变量的数字特征
    • 3.2 正态分布及三大分布
      • 3.2.1 正态分布的概率密度函数
      • 3.2.2 正态分布的特征
      • 3.2.3 标准正态分布
      • 3.2.4 基于正态分布的三大分布
    • 3.3 中心极限定理
      • 3.3.1 中心极限定理的提法
      • 3.3.2 中心极限定理的内容
      • 3.3.3 中心极限定理的意义与应用
    • 3.4 抽样估计
      • 3.4.1 抽样估计概述
      • 3.4.2 抽样估计的基本概念
      • 3.4.3 抽样估计的误差
      • 3.4.4 抽样估计的理论基础
      • 3.4.5 抽样估计的方法
      • 3.4.6 抽样的组织形式
      • 3.4.7 必要抽样数目的确定
  • 4、假设检验
    • 4.1 假设检验概述
      • 4.1.1 假设检验的概念
      • 4.1.2 假设检验的基本思想
      • 4.1.3 假设检验在数据分析中的作用
    • 4.2 假设检验的分析方法
      • 4.2.1 假设检验的基本步骤
      • 4.2.2 假设检验与区间估计的联系
      • 4.2.3 假设检验中的两类错误
      • 4.2.4 利用P值进行决策
      • 4.2.6 应用假设检验需要注意的问题
    • 4.3 常见的检验统计量
      • 4.3.1 z检验统计量
      • 4.3.2 t检验统计量
      • 4.3.3 χ2检验统计量
      • 4.3.4 F检验统计量
      • 4.3.5 各种检验统计量一览表
  • 5、方差分析
    • 5.1 方差分析
      • 5.1.1 方差分析的概述
      • 5.1.2 方差分析的几个概念
      • 5.1.3 单因素方差分析中的基本假定
    • 5.2 单因素方差分析
      • 5.2.1 单因素方差分析的原理
      • 5.2.2 单因素方差分析的统计量
      • 5.2.4 单因素方差分析的基本步骤
  • 6、相关与回归分析
    • 6.1 变量间的关系
      • 6.1.1 函数关系及特点
      • 6.1.2 相关关系及特点
    • 6.2 相关分析
      • 6.2.1 散点图的绘制
      • 6.2.2 相关系数
      • 6.2.3 相关系数的显著性检验
    • 6.3 一元线性回归分析
      • 6.3.1 一元回归模型及相关假定
      • 6.3.2 一元线性回归方程及求法
      • 6.3.3 回归直线的拟合优度
      • 6.3.4 回归模型的检验

说明:

  • 书名:CDA数据分析师系列—从零进阶!数据分析的统计基础
  • ISBN:978-7-121-25244-0

1、数据分析概述

1.1 什么是数据分析

  • 描述

    有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据,提炼有价值信息的一个过程。

  • 数据分析的三个方向

    • 一是目标,数据分析的关键在于设立目标,专业上叫做"有针对性"
    • 二是方法,数据分析的方法包括统计分析和数据挖掘两种
    • 三是结果,数据分析最终要得出分析的结果,结果对目标解释的强弱,结果的应用效果如何。

1.2 数据分析六部曲

数据分析的过程:

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第1张图片

1.2.1 明确分析目的和内容

  • 三个W
    1. 数据分析的对象是谁?who
    2. 数据分析的商业目的是什么?what
    3. 结果要解决什么样的业务问题?why

1.2.2 数据收集

  • 目的

    客观全面地反映所要研究的问题的真实状况。

  • 定义

    数据收集是一个按照确定的数据分析和框架内容,有目地收集、整合相关数据的过程。

  • 数据收集的方法

    1. 观察法
    2. 访谈法
    3. 问卷法
    4. 测验法
    5. ...

1.2.3 数据预处理

  • 定义

    数据预处理是指对收集到的数据进行加工、整理,以便开展数据分析,过程包括数据审查、数据清理、数据转换和数据验证四个步骤。

  • 说明

    1. 数据审查
      • 检查数据的数量(记录数)是否满足分析的最低要求
      • 字段值的内容是否与研究目的要求一致,是否全面
      • 利用描述性统计分析,检查各个字段的字段类型,字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等
    2. 数据清理
      • 针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行"清理",使"脏"数据变为"干净"数据,使得后续的分析得出可靠的结论
      • 包括对重复记录进行删除
    3. 数据转换
      • 为了实现分析对象的可比性,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化,以及属性构造等
    4. 数据验证
      • 目的是初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量
      • 利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中

1.2.4 数据分析

  • 定义

    数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。

  • 要能驾驭数据、开展数据分析

    1. 要熟悉常规数据分析方法,最基本的是要了解例如方差、回归、因子、聚类、分类、时间序列等数据分析方法的原理、使用范围、优缺点和结果的解释
    2. 要熟悉多种数据分析工具,比如Excel,python等

1.2.5 数据展现

  • 说明

    一般情况下,数据分析的结果都是通过图、表的方式来显现的,其能更直观地让数据分析师表述想要呈现的信息、观点和建议。

    常用的图表包括:

    • 饼形图
    • 折线图
    • 柱形图/条形图
    • 散点图
    • 雷达图
    • 金字塔图
    • 矩阵图
    • 漏斗图
    • 帕累托图
    • ...

1.2.6 报告撰写

  • 说明

    数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,更重要的是解决问题。

    通过分析报告,把数据分析的目的、过程、结果及方案完整呈现出来,以为达成商业目的提供参考。

1.3 数据分析方法简介

数据分析方法分为两种:

  • 一个是统计分析方法
  • 一个是数据挖掘方法

1.3.1 统计分析方法简介

序号 描述
1 描述性统计分析
2 回归分析
3 对应分析
4 因子分析
5 方差分析

1.3.1.1 描述性统计分析

  • 定义

    描述性统计分析,Description Statistics,是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。

  • 描述性统计分析分为:集中趋势分析、离中趋势分析、相关分析

    • 集中趋势分析

      集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。

    • 离中趋势分析

      离中趋势分析主要靠全g5、四分差、平均差、方差、标准差等统计指标来研究数据的离中趋势。

    • 相关分析

      相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行其相关方向及相关程度的研究,包括:

      • 两个数据之间的单一相关关系 :Y=B·X

      • 多个数据之间的多重相关关系:A = Y-B·X

      • 两个变量共同变化的紧密程度——相关系数

        有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,即所谓的回归分析。

      相关分析是一种完整的统计研究方法,它贯穿于提出假设、数据分析、数据研究的始终。

1.3.1.2 回归分析

  • 定义

    回归分析,regression,是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,它主要研究一个随机变量Y对另一个变量(X)或一组(X1,X2,X3,...Xk)变量的相依关系

  • 回归分析的分类

    • 按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析
    • 按照涉及的自变量的多少,可分为一元回归分析和多元回归分析

1.3.1.3 对应分析

  • 定义

    对应分析,correspondence analysis,又称为"关联分析"、"R-Q型因子分析",通过分析由定性变量构成的交互汇总表来揭示变量间的联系。

  • 说明

    对应分析,可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。

    对应分析的基本思想是将一个联列表的行和列中各个元素的比例结构以点的形式在较低维的空间中表示出来。

1.3.1.4 因子分析

  • 定义

    因子分析,factor analysis,是指研究从变量群中提取共性因子的统计技术。

  • 说明

    因此分析的方法有10多种,如重心法、影像分析法、最大似然解法、最小平方法、阿尔法抽因法、拉奥典型抽因法等。

1.3.1.5 方差分析

  • 定义

    方差分析,analysis of variance,简称ANOVA,又称"变异数分析","F检验",用于两个及两个以上样本均数差别的显著性检验。

  • 说明

    由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分为两类:

    • 一个是不可控的随机因素
    • 一个是研究中施加的对结果形成影响的可控因素

    方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

1.3.2 数据挖掘方法简介

序号 描述 子项
1 聚类分析
2.1 分类分析 决策树
2.2 分类分析 人工神经网络
2.3 分类分析 贝叶斯分类方法
2.4 分类分析 支持向量机
2.5 分类分析 随机森林
3 关联规则
4 回归分析

1.3.2.1 聚类分析

  • 定义

    聚类分析,cluster analysis,指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

  • 说明

    • 聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
    • 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。

1.3.2.2 分类分析

  • 决策树
  • 人工神经网络
  • 贝叶斯分类
  • 支持向量机
  • 随机森林

1.3.2.3 关联规则

  • 定义

    关联规则,association rule,关联规则数据挖掘的主要目的是找出数据集中的频繁模式(frequent pattern),即多次重复出现的模式和并发关系,即同时出现的关系,频繁和并发关系也称作关联(association)

1.3.2.4 回归分析

  • 定义

    回归分析,regression analysis,包括线性回归(linear regression)和逻辑斯蒂回归(logistic regression)。

    • 线性回归,主要指多元线性回归
    • 在数据化运营中更多使用的是逻辑斯蒂回归,它包括响应预测、分类划分等内容
  • 说明

    多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公司(回归方程)就是因变量与自变量关系的数据反映。

    因变量的变化包括两部分:系统性变化与随机变化

    • 系统性变化是由自变量引起的(自变量可以解释)
    • 随机变化是不能由自变量解释的,通常也称作残值

    在用来估算多元线性回归方差中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。

1.3.3 统计分析与数据挖掘的区别和联系

​ pass

2、描述性统计分析

2.1 直方图

  • 直方图有两种

    • 频率分布直方图:当用长方形的面积代表对应组的频数与组距的比时
    • 频数分布直方图:当用长方形的高代表对应组的频数时

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第2张图片

2.2 数据的计量尺度

  • 定义

    数据的计量尺度是指对计量对象量化时采用的具体标准,它分为四类:定类尺度、定序尺度、定距尺度和定比尺度。

  • 四种计量尺度的定义

    • 定类尺度

      定类尺度计量的数据表现为“类别”,各类之间无等级次序,数据间都不存在内部固有的大小或高低顺序,只能用来比较相等或者不相等,而不能比较大小,更不能用来进行四则算术运算,如性别、民族、职业等。

    • 定序尺度

      定序尺度也用来描述一个对象的类别,定序尺度的类别具有内在固有的大小或高低顺序,定序尺度的数据之间除比较是否相等外,还可以比较大小,如职称、健康状况、质量等级等。

    • 定距尺度

      定距尺度不仅能将事务区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。定距尺度的计量数据表现为数值,典型的定距尺度变量包括年份、摄氏温度、维度等。

      • 由于这种尺度的每一个间隔都是相等的,只要给出一个度量单位,就可以准确地指出两个计数之间地差值
      • 可以进行排序也可以比较大小,还可以进行加减运算
      • 在定距尺度上,“0”只是尺度上的一个点,不代表“不存在”
    • 定比尺度

      定比尺度也称比率尺度,它是在定距尺度的基础上还存在可以作为比较的共同起点或基数,如质量、长度和能量等都是定比尺度数据。

      • 除了具有定类、定序、定距三种计量尺度的全部特定外,可以进行乘除运算,“0”表示“没有”或“不存在”
      • 可以计算两个测度值之间的比值。
  • 数据的计算尺度一览表

    定类尺度和定序尺度数据是定性的,而定距尺度和定比尺度数据是定量的;对于定量数据,又根据数据是否可数,分为离散型数据和连续型数据。

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第3张图片

2.3 数据的集中趋势

  • 说明

    集中趋势在统计学中是指一组数据向某一中值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值。

  1. 定量数据:平均数

    平均数是描述定量数据的集中趋势最常用的一种测度值。

    • 它通过消除极端数据的差异将大量的数据浓缩成一个数据来概括,可以较好地实现数据集中趋势地度量,但是这种过度地浓缩,使其存在,容易受极端值影响的缺点。
    • 平均数随着极端值的变化而变化,而且有向极端值靠近的趋势,因此平均数容易受极端值影响。

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第4张图片

  2. 顺序数据:中位数和分位数

    • 中位数

      一组数据按大小顺序排列后,处在数列中点位置的数值,称为中位数。

      中位数主要用于测试顺序数据的集中程度,也适用于作为定量数据的集中趋势,但不适合用于分类数据。

      中位数的计算分两种情况:

    • 分位数

      分位数,主要指四分位数、十分位数和百分位数等,它们分别是用3个点、9个点和99个点将数据四等分、十等分和一百等分。

  3. 分类数据:众数

    众数是描述分类数据的集中趋势最常用的一种测度值,主要适用于分类数据,也适用于顺序数据及定量数据。

    众数的特点:

    • 一般只有在数据量较大的情况下,众数才有意义。

    • 众数是指一组数据中出现次数最多的变量值,其不受极端值影响,但是在一组数据中众数不唯一。

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第5张图片

2.4 数据的离中趋势

  • 说明

    离中趋势表明该数据组的分布偏离中心值的程度,即一组数据向某一中心值分散的程度,它反映了各个数据远离其中心点的程度。

    描述数据离散程度采用的测度值,根据所依据数据类型的不同主要有极差、四分位距、平均差、方差、标准差和离散系数。

  1. 极差

    极差(也叫全距),是一组数据中的最大值与最小值的差距。

    • 未分组或单项分组,计算公式为:

    • 统计数据已经整理过,并形成组距数列,则极差的近似值为:

    极差由两个极端值进行计算,能说明数据组中各数据值的最大变动范围,由于没有考虑到中间变量值的变动范围,所以只能作为较粗糙的离中趋势指标。

  2. 分位距

    分位距是对全距的一种改进,它是从一组数据中剔除了一部分极端值之后重新计算的类似于全距的指标。

    四分位距是第三个四分位数减去第一个四分位数的差的一半:

    四分位距排除了数列两端各25%单位标志值的影响,反映了数据组中间部分各变量值的最大数与最小数距离中位数的平均离差。

  3. 平均差

    平均差是数据组中各数据值与其算术平均数离差绝对值的算术平均数,常用符号“M.D”表示:

  4. 方差与标准差

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第6张图片

    标准差的性质:

    1. 标准差度量了偏离平均数的大小

    2. 标准差是一类平均偏差

    3. 标准差指出数列中的数离它们的平均数有多远,数列大多数项离开平均数大约1个σ左右,极少数项将离开2个或3个σ以上。

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第7张图片

  5. 离散系数

    要比较数据平均水平不同的两组数据的离中程度的大小,有必要计算它们的相对离中程度指标,即离散系数。

    常用的离散系数指标是标准差系数,标准差系数是将一组数据的标准差与其算术平均数对比的结果,以测定其相对离中程度:

2.5 数据分布的测度

在描述性统计中,一组数据的特征除了使用集中趋势和离中趋势来描述外,还使用其分布的形状来分析。

  • 正态分布

    正态分布在数轴上的形状如一个倒钟形,曲线以均数为中心,左右对称,曲线两端永远不与横轴相交,曲线的高峰位于正中央,即均数所在的位置:

  • 数据分布形态的测度主要以正态分布为标准进行衡量

    一组数据的分布形状是通过直方图将该数据分布在数轴上拟合出一条曲线,将曲线的尖峭程度和对称性与正态分布曲线相比较,其测试指标包括偏度和峰度。

2.5.1 数据偏态及其测定

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第8张图片

2.5.2 数据峰度及其测定

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第9张图片

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第10张图片

2.5.3 数据偏度和峰度的作用

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第11张图片

2.6 数据的展示—统计图

在数据分析中,把利用统计图形展现统计数据的方法叫做统计图示法。

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第12张图片

2.6.1 条形图与扇形图

  • 条形图

    条形图是一种以长方形的长度为变量的统计图表,条形图可以清楚地表明各种数量地多少,易于比较数据之间地差别。

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第13张图片

  • 扇形图

    扇形图是用整个圆表示总数的,用圆内各个扇形的大小表示各部分数量占总数地百分比。

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第14张图片

2.6.2 折线图

利用线形的升降起伏(上升或下降)来表示统计数据的增减变化的统计图,称为折线图,其不仅可以表示数量的多少,还可以反映同一事物在不同时间里的发展变化情况。

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第15张图片

2.6.3 茎叶图

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第16张图片

2.6.4 箱线图

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第17张图片

3、抽样估计

3.1 抽样估计基础

3.1.1 随机事件

  1. 随机现象

    • 定义

      在一定条件下,并不总是出现相同结果的现象称为随机现象。

    • 随机现象的特征

      重复性、明确性、随机性

  2. 样本空间

    • 定义

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第18张图片

    • 说明

      样本空间是一个集合,适用于集合的一切运算方式。

      • 当样本空间的元素是有限可列时,则称为离散样本空间。
      • 当样本空间的元素是无限不可列时,则称为连续样本空间。
  3. 随机事件

    • 定义

      样本空间中某些元素组成的集合,即由随机现象的某些基本结果组成的集合,叫随机事件。

      随机事件是样本空间的一个子集。

3.1.2 随机事件的概率

  • 定义

    随机事件的概率是随机事件出现的可能性的度量。

    随机事件的概率在 0 和 1 之间取值,该取值越大,表示该随机事件在多次重复实验时,期望发生的可能性越大。

    随机事件随机性的规律性:

    • 当随机事件的概率为0时,称该随机事件为不可能事件
    • 当随机事件的概率为1时,称该随机事件为必然事件
  1. 条件概率

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第19张图片

  2. 相互独立事件

    随机事件的独立性:一个事件发生与否并不影响另一事件发生的概率。

    在实际的数据分析中,需要根据问题的实际意义去判断两个随机事件是否独立。

3.1.3 随机变量及其概率分布

  1. 随机变量

    • 说明

    • 离散型随机变量和连续型随机变量

      如果一个随机变量仅取数轴上有限个点或可列个点,则称此随机变量为离散随机变量,或离散型随机变量

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第20张图片

      如果一个随机变量的所有可能取值充满数轴上一个区间(a,b),则称此随机变量为连续随机变量,或连续型随机变量,其中a可以是-∞,b可以是+∞。

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第21张图片
  2. 随机变量的概率分布

    • 说明

      随机变量取值的统计规律被称为概率分布,简称分布。

      认识一个随机变量X的关键就是要知道它的分布,分布包括如下两方面内容:

      1. X可能取哪些值,或在哪个区间上取值
      2. X取这些值的概率各是多少?或X在任一区间上取值的概率是多少?
    • 离散随机变量的分布

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第22张图片

    • 连续随机变量的分布

      连续随机变量X的分布可用概率密度函数P(x)来表示,也记为f(x)。

      当数据个数很多,分组很细时,连接直方图中每个矩形上边中点的折线,把纵轴改为”单位长度上的频率“,即密度尺度,此时折线就接近于一条光滑的曲线,由于频率的稳定性,用概率代替频率,将纵轴从”单位长度上的频率“变为”单位长度上的概率“,这条曲线的函数即为P(x),这条曲线就是概率密度曲线,它表示了特性值X随机取值内在的统计规律性。

      概率密度曲线,它一定位于x轴上方(即p(x)>=0),并且与x轴所夹面积恰好为1,而X在区间(x1,x2)上取值的概率P{x1 四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第23张图片

      连续随机变量分布的数学定义:

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第24张图片

3.1.4 随机变量的数字特征

  • 说明

    随机变量X的分布(概率函数或密度函数)特征:数学期望,方差和标准差,用来表示分布的集中位置(中心位置)和散步大小。

  • 随机变量的数学期望

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第25张图片

  • 随机变量的方差和标准差

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第26张图片

3.2 正态分布及三大分布

在进行数据分析时,大部分的分析对象都表现出一种正态分布的形态,正态总体的分布主要包括正态分布、卡方分布、T分布和F分布。

3.2.1 正态分布的概率密度函数

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第27张图片

3.2.2 正态分布的特征

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第28张图片

3.2.3 标准正态分布

  1. 标准正态分布的概率密度函数及图形

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第29张图片

  2. 正态分布转换为标准正态分布

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第30张图片

  3. 如何查标准正态分布

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第31张图片

  4. 标准正态分布的”3σ原则“

3.2.4 基于正态分布的三大分布

三大分布的用途:

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第32张图片

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第33张图片

3.3 中心极限定理

  • 说明

    中心极限定理表明,在一定条件下,多个相互独立随机变量的平均值(仍然是一个随机变量),服从或近似服从正态分布。

    凡是在一定条件下断定随机变量之和的极限分布是正态分布的定理,在概率论中统称为中心极限定理。

    中心极限定理所回答的问题是,独立或弱相依的随机变量之和的极限分布在什么条件下是正态的,它揭示了大部分的社会经济现象表现为正态分布的本质原因。

3.3.1 中心极限定理的提法

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第34张图片

3.3.2 中心极限定理的内容

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第35张图片

3.3.3 中心极限定理的意义与应用

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第36张图片

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第37张图片

3.4 抽样估计

3.4.1 抽样估计概述

  • 定义

    抽样估计,又叫抽样推断,也叫参数估计,包括抽样调查和抽样估计两部分。

    所谓抽样调查,是指按照随机原则从调查对象的全部单位中抽取部分单位进行调查,取得各项准确的数据。

    所谓抽样估计,是指运用数理统计原理,根据抽样调查资料,对研究对象全体的数量特征,作出具有可靠程度的估计和判断,以达到对现象总体正确认识的目的。

  • 抽样估计的特点

    1. 按照随机原则抽选调查单位是抽样估计的前提
    2. 运用概率估计法是抽样估计的特有估计方法
    3. 抽样估计的误差,可以事先计算并加以控制

3.4.2 抽样估计的基本概念

  1. 总体和样本

    • 总体

      人们研究对象的全体,它是由所研究范围内具有某种共同性质的许多单位组成的集合体。

    • 样本

      从总体中随机抽取出来,用以代表总体的部分单位的集合,具有随机性和独立性。

      • 随机性:总体中每个个体都有相同的机会进入样本
      • 独立性:从总体中抽取的每个样品对其他样本的抽取无任何影响
  2. 抽样方法

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第38张图片

  3. 样本容量与样本数目

    样本容量指样本中的单位数。

    样本数目指从总体中可能抽取的全部样本数目,又称样本可能数目。

  4. 总体指标和样本统计量

    • 总体指标

      根据总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标。

    • 统计量

      为了把零散的信息集中起来反映总体的特征,需要对样本进行加工,一种有效的方法就是构造样本的函数,不同的函数可以反映总体的不同的特征,不含未知参数的样本函数称为统计量,统计量的分布称为抽样分布。

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第39张图片

  5. 样本均值统计量的分布

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第40张图片

3.4.3 抽样估计的误差

从总体中抽取n个个体组成样本,在用样本的统计量估计总体的指标时,由于抽取过程的随机性,样本的统计量和总体指标会产生一定的差距。

  1. 抽样误差

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第41张图片

  2. 抽样平均误差

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第42张图片

  3. 抽样极限误差

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第43张图片

3.4.4 抽样估计的理论基础

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第44张图片

3.4.5 抽样估计的方法

  • 说明

  1. 点估计

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第45张图片

  2. 区间估计

    1. 抽样估计精度

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第46张图片

    2. 抽样估计的置信度

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第47张图片四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第48张图片

    3. 区间估计方法

3.4.6 抽样的组织形式

在实际的工作中,常用的抽样调查组织方式有:简单随机抽样、分层抽样、等距抽样、整群抽样和阶段抽样等。

  1. 简单随机抽样

    简单随机抽样是按随机原理直接从总体N个单位中抽取n个单位作为样本,也称为纯随机抽样。

    简单随机抽样较适用于以下几种情况:

    • 总体单位分布比较均匀,各单位变量值差异不大
    • 总体单位数较少,各单位排序无次序
    • 抽到的样本单位数较分散时,不影响调查效果
  2. 分层抽样

    分层抽样又叫类型抽样,它是先对总体各单位按主要标志加以分组,其后再从各组中按随机原则抽取一定单位构成样本的抽样方式。

    先按一定标志分组,再按各组频数占总体频数的比重来分配抽样数目,可使样本变量值的分布结构与总体变量值的分布结构完全一致,提高样本的代表性,使抽样误差进一步缩小。因此,类型抽样的优点是代表性高,抽样误差小。如果抽样误差是一定的,抽样数目可以减少。

  3. 等距抽样

    等距抽样又称机械或系统抽样,它是事先把总体的全部单位按某一标志排列,然后按固定顺序和间隔来抽取调查单位的一种抽样方式。

  4. 整群抽样

    整群抽样是先将总体各单位划分成若干群组,然后以群为单位从中随机抽取一些群,对选中群的所有单位进行全面调查的抽样方式。

  5. 阶段抽样

    阶段抽样是先将总体各单位划分成若干阶段,逐步抽样的方式。

3.4.7 必要抽样数目的确定

  1. 估计总体均值时,必要的抽样数目

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第49张图片

  2. 总体比例估计时,必要的抽样数目

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第50张图片

  3. 影响抽样数目的因素

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第51张图片

4、假设检验

4.1 假设检验概述

在实际的数据分析过程中,根据历史经验假定总体指标的值,然后根据样本数据,使用某种尺度去检验这种假定是否正确,从而实现对总体指标的分析。这种从总体出发用样本尺度去检验,实现对总体指标分析的过程,就是假设检验。

4.1.1 假设检验的概念

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第52张图片

4.1.2 假设检验的基本思想

  • 假设检验的基本思想

    对总体指标进行某种假设,以小概率事件不发生为基准,运用反证法的思想,按照总体的假设,并根据所获样本的数据,通过样本统计量的分布,得出小概率事件在某一次抽样中发生的错误现象,从而对总体指标的假设做出拒绝的判断。

  • 假设检验的两个重要要素

    • 要素一:反证法

      首先假设某命题不成立(在原命题的条件下,结论不成立),然后推理出明显矛盾的地方,从而下结论说原假设不成立,原命题得证。

    • 要素二:小概率事件

      在大量的重复试验中事件发生的频率接近于它的概率,如果一个事件出现的概率很小,则它出现的频率也很小,即概率很小的随机事件在一次随机试验中可以认为几乎是不会发生的,于是把“小概率事件在一次试验中发生了”看成是不合理的现象,这就是假设检验最终要得出的反证结论。

4.1.3 假设检验在数据分析中的作用

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第53张图片

4.2 假设检验的分析方法

4.2.1 假设检验的基本步骤

假设检验一般包括四个步骤,以一个具体的例子来阐述这一过程:

  • 例子

  • 分析

  • 一个典型的假设检验问题,其步骤如下:

    1. 建立假设

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第54张图片

    2. 选择检验统计量

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第55张图片

    3. 寻找检验的拒绝域

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第56张图片

    4. 计算样本统计量的值,根据拒绝域作出判断

      四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第57张图片

4.2.2 假设检验与区间估计的联系

假设检验是从对总体进行假设,使用样本数据进行检验;而区间估计是从样本数据出发,估计总体的参数;但两者从本质上看是一致的。

如果使用样本数据对总体参数进行区间估计,则在一定的置信水平下,总体参数就应该落在这个区间中,如果假设的总体参数不在该区间中,则有理由拒绝该假设, 这样就从区间估计出发完成了假设检验的工作内容。

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第58张图片

4.2.3 假设检验中的两类错误

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第59张图片

4.2.4 利用P值进行决策

P值是进行假设检验决策的另一个依据,是最常用的一个统计学指标,统计和计量软件输出结果都有P值,如SAS、SPSS等,随着统计分析软件的普及,通过比较检验统计量与临界值的大小的检验方法逐渐被P值检验所取代。

  1. P值的含义

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第60张图片

  2. P值的计算

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第61张图片

  3. P值的意义

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第62张图片

  4. 使用P值进行决策

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第63张图片

  5. 利用P值进行检验分析的优越性

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第64张图片

4.2.6 应用假设检验需要注意的问题

4.3 常见的检验统计量

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第65张图片

4.3.1 z检验统计量

z检验也称u检验,在原假设成立时,检验统计量服从标志正态分布,故称z检验。

  1. 单个正态总体均值的检验

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第66张图片

  2. 两个正态总体均值之差的检验

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第67张图片

4.3.2 t检验统计量

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第68张图片

4.3.3 χ2检验统计量

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第69张图片

4.3.4 F检验统计量

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第70张图片

4.3.5 各种检验统计量一览表

  1. 单个正态总体的均值与方差的假设检验

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第71张图片

  2. 两个正态总体的均值差与方差比的假设检验

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第72张图片

5、方差分析

5.1 方差分析

5.1.1 方差分析的概述

方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

5.1.2 方差分析的几个概念

  • 每次抽样为一个试验
  • 所要检验的对象称为因素或因子
  • 因子所处的状态称为因子的水平,表示不同的类型,如A1,A2
  • 试验中所考察的指标通常用Y表示,它是一个随机变量

5.1.3 单因素方差分析中的基本假定

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第73张图片

5.2 单因素方差分析

5.2.1 单因素方差分析的原理

单因素方差分析用来检验根据某一个分类变量得到的多个分类总体的均值是否相等。

5.2.2 单因素方差分析的统计量

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第74张图片

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第75张图片

5.2.4 单因素方差分析的基本步骤

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第76张图片

6、相关与回归分析

6.1 变量间的关系

变量间的关系一般可分为两类:确定性关系和非确定性关系。

6.1.1 函数关系及特点

  • 定义

    确定性关系,也叫函数关系,它是指在两个变量中,一个变量值(自变量)确定后,另一个变量值(因变量)也能够确定,其确定性关系可以表示成一个函数形式。

  • 函数关系的特点

    1. 是一一对应的确定关系,变量间表现为一种函数形式,当给定自变量的值时,有唯一的因变量的值和它对应
    2. 当把自变量和因变量投放到坐标轴上时,各观测点落在一条直线或曲线上

6.1.2 相关关系及特点

  • 定义

    非确定性关系,也叫相关关系,它是指在两个变量中,当给定一个变量值后,另一个变量值可以在一定范围内变化,称这种不确定的关系为相关关系。

  • 相关关系的特点

    1. 一个变量的取值不能由另一个变量唯一确定,两者是一种互相说明的关系
    2. 对大量的数据观察研究,可以发现许多变量之间存在着一定的客观规律
    3. 当把自变量和因变量投放到坐标轴上时,各观测点分布在直线或曲线的周围

6.2 相关分析

  • 定义

    相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度的方法,是研究随机变量之间的相关关系的一种统计分析方法。

    相关分析可以在影响某个变量的诸多变量中判断哪些是显著的,哪些是不显著的。

  • 相关性分析的步骤

    1. 绘制两个变量的散点图
    2. 计算变量之间的相关系数
    3. 相关系数的显著性检验

6.2.1 散点图的绘制

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第77张图片

6.2.2 相关系数

  1. 相关系数的定义

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第78张图片

  2. 相关系数的性质

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第79张图片

6.2.3 相关系数的显著性检验

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第80张图片

6.3 一元线性回归分析

当两个变量间存在线性相关关系时,两个相关变量间的定量关系的表达即是一元线性回归方程。将两个变量的值绘制到散点图,从散点图上看,n个点在一条直线附近波动,一元线性回归方程便是对这条直线的一种估计。当估计出这条直线后,就可以利用这一直线方程,根据给定的自变量来预测因变量。

6.3.1 一元回归模型及相关假定

  1. 建立一元回归模型

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第81张图片

  2. 回归模型成立的四个假设

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第82张图片

6.3.2 一元线性回归方程及求法

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第83张图片

6.3.3 回归直线的拟合优度

6.3.4 回归模型的检验

由于回归分析也是从样本数据估计总体的参数的分析方法,因此回归方程得出以后,需要对得出的估计和之前的假设进行检验,从而确认所作的分析是有效的。

回归模型的检验包括三个方面的内容:1、F检验;2、t检验;3、残差分析

  1. 回归方程的显著性检验(F检验)

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第84张图片

  2. 回归方程的显著性检验(t检验)

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第85张图片

  3. 残差分析

    四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记_第86张图片

你可能感兴趣的:(大数据,数据挖掘,机器学习,人工智能,数据分析)