o饼图:体现基本比例
o条形图:更精确
•垂直条形图:展现数值型数据,若类别名称不长,也可用于体现类别数据
•水平条形图展现类别数据,尤其在类别名称太长的时候
。若只有百分数而没有频数,或只有频数而没有百分数,需小心再隐藏基础数据真实情况
。注意标度单位及起点
•堆积条形图:比较频数
•分段条形图:同时体现频数和百分数
o类别与数字
•类别数据(定性数据):不能将数据值理解为数字 —— 表述和质量
•数值型数据(定量数据)—— 数字和数量
o频数密度:分组数据中频数的密集度
频数密度=频数/组距
o直方图:体现分组数据
•与条形图的区别是,直方图中每条长方形的高度等于频数密度,而不是频数
•长方形宽度与分组宽度(“组距”)成正比例。长方形按照连续的数字标度绘制
•每个组的频数为长方形面积
•长方形之间无间隔
o累积频数:某个数值的累积频数即到这个数值为止(包括这个数值在内)的频数总和
o折线图:常用于显示随时间变化的数值,只用于展示数值型数据,不应用于类别数据
•时间序列图师折线图的一种,是以时间区间为关注点
•累积频数图也是折线图的一种
•展示总体趋势时,折线图效果更好;比较数值或类别时,条形图效果更好
o均值:平均数的一般度量 μ=(∑x)/n
o中位数
o众数
如果数据向右偏斜,则均值位于中位数右侧(较大) | 如果数据向左偏斜,则均值位于中位数左侧(较小) |
---|---|
o全距(极差):最大值、最小值之间的差值一描述了数据的宽度,没有描述数据在上下界
之间的分布形态
•上界、下界
o四分位数
•Q1:下四分位数(第一四分位数)
•Q2:中位数
•Q3:上四分位数(第三四分位数)
•IQR:四分位距,每两个四分位数之间的距
四分位距=上四分位数-下四分位数
。可用于剔除异常值
求一个数据集的四分位数的过程与求中位数的过程非常相似。如果将所有数值按照升序排列,中位数就是正好位于中央的数值。如果有个数,则中位数是位于(n+1)÷2位置的数值,如果这个位置处于两个数字之间,则要取这两个数的平均值。
如果进一步将这些数据分为四份,四分位数就是处于每个分制位置的数值。最小值为下四分位数,最大值为上四分位数。
求四分位数的位置比求中位数的位置稍微棘手一点儿,因为我们需要确保所选择的数值能按正确的比例划分整批数据。不过还是有办法的:让我们从下四分位数算起。
。求下四分位数的位置
①首先计算n÷4
②如果结果为整数,则下四分位数位于“÷4”这个位置和下一个位置的中间,取这两个位置上的数值的平均值,即得下四分位数
③如果“n÷4”不是整数,则向上取整,所得结果即为下四分位数的位置。
例如,如果你有6个数,首先计算6÷4,得到1.5,向上取整得到2,这表示下四分位数的位置为2。
。求上四分位数的位置
①首先计算3n÷4。
②如果结果为整数,则上四分位数位于“3÷4”这个位置和下一个位置的中间,将这两个位置上的数加起来,然后除以2。
③如果“3÷4”不是整数,则向上取整,所得到的新数字即为上四分位数的位置。
o百分位数
第k百分位数即位于数据范围k%处的数值,记为 P_k
o箱线图一一绘制“距”:能在同一张图上体现多个距和四分位数,“箱”显示出四分位数和
四分位距的位置,“线”则显示出上下界。
o方差一一描述数据分散性
方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
(∑(X-μ)^2 )/n
o标准差:标准差越小,数值离均值越近。标准差可能得到的最小数值为0一度量数据的分散性
o标准分(z分)一对不同数据集的数据进行比较
通过整个数据集的均值和标准差可求出一个特定数值的标准分。标准分通常以字母“z”表示,为了求出特定数值x的标准分,可用下式进行计算:
z=(x-μ)/σ
分子分母是数值x所在的数据集的均值、标准差
•标准分的作用是将几个数据集转换为一个理论上的新分布,这个分布均值为0,标准差为1
•标准分=距离均值的标准差个数
•正的z分表示数值高于均值,负的z分表示低于均值
求一个事件A的概率,算法如下:
P(A)=n(A)/n(S)
发生事件A的概率=发生事践A的可能数目/所有可能结果S的数目
S:概率空间,样本空间,表示所有可能结果的集合。可能发生的时间都是S的子集。
维恩图:(概率的图像表示):
事件 | 释义 | 维恩图 |
---|---|---|
对立事件A’ | A’是A的对立事件,即时间A不可能发生的事件.它的概率为:P(A’)=1-P(A) | |
互斥事件 | 如果两个事件是互斥事件,则只有其中一个事件发生 | |
相交事件 | 如果两个事件相交,则这两个事件有可能同时发生 | |
交集∩ | 可以把∩理解为“与”,她求出不同事件的共同要素 | |
并集∪ | 可以把∪理解为“或”,它包含属于A及B的所有要素 |
•重要统计量 (A或B):
为了求出以事件A或B为结果的概率,可以使用以下算法:
P(A∪B)=P(A)+P(B)-P(A∪B)
•条件概率(重要):
以事件B为已知条件的事件A的概率(假定B已发生,根据这个假设算出事件A的发生概率):
P(A│B)=(P(A∩B))/(P(B))
如果A与B互斥,那么P(A∪B)=0且P(A│B)=0
•全概率公式(根据条件概率计算一个特定事件的全概率):
如果有两个事件A和B,则:
P(B)=P(B∩A)+P(B∩A’)
=P(A)*P(B│A)+P(A^’ )*P(B|A’)
全概率公式是贝叶斯定理的分母。
•贝叶斯定理(计算逆条件概率):
如果你有n个互斥且穷举的事件:A_1至A_n,而B是另一个事件,则:
P(A│B)=(P(A)*P(B|A))/(P(A)*P(B│A)+P(A’ )*P(B|A’))
事件 | 释义 |
---|---|
相关事件 | 如果几个事件互有影响,则为相关事件 |
独立事件 | 如果几个事件互不影响,则为独立事件 |
对于独立事件来说:
P(A│B)=P(A)(独立性检验)
P(A∩B)=P(A)*P(B)
如果A、B是互斥事件,则二者不会是独立事件;如果A、B是独立事件,则二者不会是互斥事件。(互斥意味着相关)
概率分布描述了一个给定变量的所有可能结果的概率。
•期望:
期望即所期望的长期平均结果,以E(X)或μ表示。
计算式为:E(X)=∑xP(X=x)
X的函数的期望为:E(f(X))=∑f(x)P(X=x)
•方差:
概率分布的方差算式为:D(X)=E(X-μ)^2
•标准差:
概率分布的标准差算式为:σ=√(D(X))
•线性变换通用公式:
当变量X按照ax+b的形式发生变换(其中a和b都是常数),则为线性变换。
其方差和期望计算式为:
E(aX+b)=aE(X)+b
D(aX+b)=a^2 D(X)
•独立观测值速算法:
X的独立观测值与X不同,每个观测值都具有相同的概率分布,但结果各不一样。如果X1,X2,⋯,Xn是X的独立观测值,则:
E(X_1+X_2+⋯+X_n )=nE(X)
D(X_1+X_2+⋯+X_n )=nD(X)
•独立随机变量加减运算:
如果X和Y是独立随机变量,则:
E(X+Y)=E(X)+E(Y)
E(X-Y)=E(X)-E(Y)
D(X+Y)=D(X)+D(Y)
D(X-Y)=D(X)+D(Y) 独立随机变量做减法运算,方差依旧增大
•X和Y的线性变换的期望和方差用下列各式进行计算:
E(aX+b)=aE(X)+b
E(aX-b)=aE(X)-b
D(aX+b)=a^2 D(X)
D(aX-b)=a^2 D(X)
排列:从给定个数的元素中取出指定个数的元素进行排序。
组合:从给定个数的元素中仅仅取出指定个数的元素,不考虑排序。
排列定义:从n个不同的元素中,取r个不重复的元素,按次序排序,称为从n个中取r个无重复排序。排列的全体组成的集合用A(n,r)表示。排列计算公式:
组合定义:从n个不同元素中取r个不重复的元素组成一个子集,而不考虑其元素的排序,称为从n个中取r个的无重组合。组合的个数用C(n,r)表示。组合计算公式:
按类型排位:
如果要为n个对象排位,其中包括第一类对象k个,第二类对象j个,第三类对象m个……则排位方式数目的计算式为:
•几何分布:
进行一些相互独立的试验,每一次试验都既有成功可能与失败可能,且单次试验的成功概率相同,求解取得第一次成功需要试验多少次。
求出X取特定数值r的概率: X~Geo§;
在第r次试验时取得第一次成功的概率:
需要试验r次以上才能取得第一次成功的概率:
需要试验r次或不到r次即可取得第一次成功的概率:
期望:E(X)=1/p ; 方差:D(X)=(1-p)/p^2
p为成功的概率,(1-p)为失败的概率。为了在第r次试验时取得成功,首先要失败(r-1)次
几何分布的形状十分特殊。当r=1时,P(X=r)达到最大值,随着r增大,P(X=r)逐渐下降。注意,取得成功的概率在第一次试验时最大,也就是说,任何几何分布的众数都永远是1,因为1是具有最大概率的数。
•二项分布:
进行一些相互独立的试验,每一次试验都既有成功可能与失败可能,且单次试验的成功概率相同,试验次数固定,求成功或失败一定次数的概率。
用X表示“n次试验中的成功次数”,为了求出取得r次成功的概率,用下列算式:
根据n与p的不同数值,二项分布的形状会发生变化,p越接近0.5,图形越对称。一般情况下,当p小于0.5时,图形向右偏斜;当p大于0.5时,图形向左偏斜。
•泊松分布:
单独时间在给定区间内随机、独立地发生,给定区间可以是时间或空间;已知该区间内的事件平均发生次数(发生率),且为有限数值。
在遇到独立事件时(例如机器在给定区间内发生故障),若已知λ(即给定时间区间内的事件平均发生次数)且你感兴趣的是一个特定时间区间内的发生次数,这时可使用泊松分布。
用X表示给定区间内的事件发生次数,例如一个星期内的损坏次数。如果x符合泊松分布,且每个区间内平均发生λ次,或者说发生率为λ,则写作:
泊松分布的形状随着λ的数值变化。λ小,则分布向右偏斜,随着λ变大,分布逐渐变得对称。
如果λ是一个整数,则有两个众数,λ和λ-1,如果λ不是整数,则众数为λ。
连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
连续随机变量的概率为概率密度函数下方介于特定数值范围之间的面积。线下总面积为1。
正态分布是连续数据的“理想”模型,它的形态看起来合乎理想,正态分布具有钟形曲线,曲线对称,中央部位的概率密度最大。越是偏离均值,概率密度减小。均值和中位数均位于中央,具有最大概率密度。
正态分布通过μ和σ^2 进行定义。μ指出曲线的中央位置,σ指出分散性。如果一个连续随机变量X符合均值μ、标准差σ的正态分布,则通常写作X~N(μ,σ^2)
•正态概率计算一般分三步:
1.确定分布于范围:
确定均值μ和方差σ^2
确定数值范围
2.使其标准化
求出标准分:Z=(X-μ)/σ, Z~N(0,1)
3.查找概率
Z保留两位小数,使用概率表查找数值。查找概率时,需要用第一行和第一列定位,第一列为z值(保留一位小数),第一行为第二位小数,交点即为概率。
通过概率表查找的是P(Z
•如果独立随机变量X和Y都分别符合正态分布,那么X+Y也符合正态分布(变量相互独立,不影响)
•线性变化的分布:
•如果是独立观察结果的方差和期望
•二项分布的近似:
对于二项分布,u=np, 且σ^2=npq ,将这两个数值作为正态分布的参数。
如果X~B(n,p),且np>5,nq>5,
则可以使用X~N(np,npq)近似代替二项分布。
某些情况下(n>50,p<0.1),泊松分布可以近似代替二项分布,此时λ=np
某些情况下(np>5,nq>5),正态分布也可以代替二项分布,此时X~N(np,npq)
某些情况下(λ)15),正态分布也可以近似代替泊松分布,此时X~N(λ,λ)
•连续性修正:
使用正态分布近似代替二项分布或者泊松分布,为了确保结果正确,有一个技巧,即务必进行合适的连续性修正。
≤型概率的求解 | ≥型概率的求解 | “介于”型概率的求解 |
---|---|---|
总体:指的是准备对其进行测量、研究或分析的整个群体。
样本:一个统计样本就是从总体中选取的一小部分对象
仅对总体的一个样本进行的研究获调查称为样本调查。
抽样方法:
抽样方法 | 具体方法 |
---|---|
简单随机抽样 | 通过随机过程选取一个大小为n的样本,所有大小为n的可能样本被选中的可能性都相同 包括:1.重复抽样 2.不重复抽样 |
分层抽样 | 将总体分割为几个相似的组,每个组具有类似的特性,这些特性或者组就被称为层。然后对每一个层进行简单随机抽样,确保最终样本中具有每一个组的代表篇。为此需要查看每个层在总体中所占比例,然后按照比例从每个层中抽取抽样单位。 |
整群抽样 | 当总体中包括大量相似的组或群时,可以对群进行简单随机抽样,然后对每一个群中的各种特性进行调查。 |
系统抽样 | 按照某种顺序列出总体名单,然后每k个单位进行一次调查,其中k为一个特定数字。 |
•样本 → 总体(样本预测总体)
点估计量是根据样本数据得出的对总体统计量的最佳猜测值。
可以用点估计量估计总体均值、方差或一定比例的精确值
点估计量由样本数据得出,是对总体参数的估计。
在讨论总体参数的点估计量时,会为总体参数添上一个^符号。例如μ的点估计量写作μ ̂。
计算样本的均值用x ̅表示,样本的均值可用下列公式进行计算:x ̅=(∑X)/n 其中x代表各个样本的数值,n为样本的个数。
通过计算x ̅可得到总体均值的点估计量,即:u ̂=x ̅ 这说明,如果想十分近似地估计总体均值的真值,可以使用样本均值。
样本 | 点估计量 | 总体 |
---|---|---|
样本均值x ̅ | 点估计量u ̂ | 总体均值μ |
样本方差s^2 | 点估计量σ^2 | 总体方差σ^2 |
样本比例p_s | 点估计量p ̂ | 总体比例p |
样本数据直接计算得到的方差会小于实际总体方差,因为总体的里量更大(n),方差也更大。
总体方差的点估计量如下:
总体比例用p表示,即总体的成功比例。
P的点估计量为P_s,其中P_s为样本的成功比例。 p ̂=P_s
P_s的计算方法是:用样本中的成功数目除以样本数目。P_s=成功数目/样本数目
•总体 → 样本(通过总体了解样本)
点估计量是有价值的,但也许存在小小的误差。如果所用的样本无偏,则此估计量可能接近总体的真值。由于点估计量的推导依赖于样本的无偏,所以用置信区间来代替点估计量进行估算。
置信区间是一种估计总体统计量的方法——一种考虑了不确定性的办法。
为总体均值指定一个区间,不指定一个确切的数值,而指定两个数值—期望数值介于这两个数值之间。让均值的点估计量处于这个区间的中央,并将这个区间的上下限设定为这个点估计量加上或减去某个误差。
区间选择结果具有特定概率。例如希望选择a和b,使得该区间中包含总体均值的几率为95%。即所选择的a和b使得:
P(a<μ 用(a,b)表示这个区间,由于a和b的确切数值取决于你自己对于该区间包含总体均值“这一结果具有的可信程度”这一结果具有的可信程度,因此,(a,b)被称为置信区间。
求解置信区间四步骤:
假设检验六步骤:
有时候事实与期望并不相符。利用χ^2分布分析结果,排除可疑结果。
用χ^2检验评估差异
卡方分布通过一个检验统计量来比较期望结果和实际结果之间的差别,然后得出观察频数极值的发生概率。
求检验统计量:
即对于概率分布中的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望频数,然后将所有结果相加。
如果χ2值很小,说明观察频数和期望频数之间的差别不显著;χ2越大,差别越显著。
卡方分布的两个主要用途:
1检验拟合优度
也就是可以检验一组给定的数据与指定分布的吻合程度。例如,可以用它检验收益的观察频率与我们所期望的分布的吻合程度。
2检验两个变量的独立性
X通过这个方法可以检查变量之间是否存在某种关联。
卡方分布用到一个参数v,v表示自由度,影响概率分布的形状:
当v等于1或2 | 当v大于2 |
---|---|
当v等于1或2时,卡方分布为一条先高后低的平滑曲线,其形状像一个倒立的J,检验统计量等于较小数值的概率远远高于等于较大数值的概率,这就是说,观察频数有可能接近期望频数 | 当v大于2时,卡方分布的形状发生改变一一随着χ^2递增,图形先低,后高,再低,其外形沿着正向扭曲。但当v很大时,图形接近正态分布。 |
为了算出v,取所计算过的信息的数目,减去所受到的限制的数目
v=(组数)-(限制数)
利用卡方分布指出频数和期望之间的差异显著性,取决于显著性水平。
用卡方分布进行的检验为单尾检验,右尾被作为拒绝域。于是,通过查看检验统计量是否位于右尾的拒绝域以内,你就可以判定根据期望分布得出的结果的可能性如果用显著性水平仅进行检验,则可以写作: |
用χ^2分布进行假设检验的几大步骤:
其中O指的是观察频数,E指的是期望频数。
如果在X^2 分布中用X^2 检验统计量,则写作:
其中v为自由度,a为显著性水平。
在拟合优度检瞼中,v等于组数减去限制数。
在两个变的独立性检验中,若列联表为h行k列,则:v=(h-1)*(k-1)
相关性即变量之间的数学关系,通过散点图上的点的独特构成模式,可以识别出散点图上的各种相关性。如果散点图上的点几乎呈现直线分布,则相关性为线性。
正性相关:当x轴上的低端值对应y轴上的低端值,同时x轴上的高端值对应y轴上的高端值且呈直线分布时,为正线性相关。即随着x增长,y也呈现增长趋势 | |
负线性相关:当x轴上的低端值对应y轴上的高端值,同时x轴上的高端值对应y轴上的低端值且呈直线分布时,为负线性相关。即随着x增长,y呈现下降趋势。 | |
不相关:如果x和y的数值呈现出一种随机模式,则我们说二者不相关。 |
相关性并不等于因果关系:两个变量之间存在相关关系并不一定意味着一个变量会影响另一个变量,也不意味着二者存在实际关系。如下图,只能说咖啡店数目增加的同时,唱片店的数目减少了。
用相关系数衡量直线与数据的拟合度:
相关系数是介于-1和1之间的一个数,描述了备个数据点与直线的偏离程度。通过它可以量度回归线与数据的拟合度,通常用字母r表示。
如果r等于-1,则数据为完全负线性相关,所有数据点都在一条直线上;如果r等于1,则数据完全正线性相关。如果r等于0,则不存在相关性。
相关系数r有专用的计算公式:
要点:
单变量数据仅涉及一个变量,二变数据涉及两个变量。
散点图显示出二变量教据的模式。
相关性是变量之间的数学关系,但并不意味着一个变量一定与另一个变量相关。线性相关即两变量间为直线的相关关系。
正线性相关即x的低端值对应于y的低端值,×的高端值对应于y的高端值;负线性相关即x的低端值对应于y的高端值,×的高端值对应于y的低端值。如果×和y的数值分布表现出随机模式,则它们不存在相关性。
与数据点拟合程度最高的线称为最佳拟合线。
线性回归法是一种求最佳拟合线y=a+bx的数学方法.
误差平方和SSE的计算式为: