五、相关与回归分析

变量间关系的度量

一、变量间的关系

变量间的关系形态可分为两种类型:函数关系、相关关系。
函数关系:一 一对应的确定关系。
相关关系:变量之间存在的不确定的数量关系,即 一个变量的取值不能由另一个变量唯一确定。

二、相关关系的描述与测度

相关分析是对两个变量之间线性关系的描述与度量,解决的问题
  1、如果存在关系,它们之间是什么样的关系?
  2、变量之间的关系强度如何?
  3、样本所反映的变量之间的关系能否代表总体变量之间的关系?
  
步骤如下:
  绘制散点图来判断变量之间的关系形态,如果是线性关系,利用相关系数测度两个变量之间的关系强度,最后对相关系数进行显著性检验,以判断样本所反应的关系能否用来代表两个变量总体上的关系。

(一)散点图
散点图:用坐标的水平轴代表自变量X,纵轴代表因变量Y,每组数据在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及散点形成的二维数据坐标图。
散点图描述了两个变量之间的大致关系形态以及关系强度。
  如果变量之间的关系近似地表现为一条直线,称线性相关
  如果变量之间的关系近似地表现为一条曲线,称非线性或者曲线相关
  如果两个变量的观测点狠分散,无任何规则,则表示变量之间没有相关关系
  在线性相关中,两个变量的变动方向相同----正相关
  在线性相关中,两个变量的变动方向相反----负相关

不同形态的散点图如下:
五、相关与回归分析_第1张图片
eg:不良贷款与以下因素是否有关,以及关系。
五、相关与回归分析_第2张图片
五、相关与回归分析_第3张图片
五、相关与回归分析_第4张图片
五、相关与回归分析_第5张图片
五、相关与回归分析_第6张图片
  从以上的各散点图可知,不良贷款与贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间具有一定的线性相关。与贷款余额的线性关系比较密切。
  
(二)相关系数
为准确度量两个变量之间关系的密切程度,需计算相关系数
相关系数:根据样本数据计算的对两个变量之间线性关系强度的度量值,r表示。
在这里插入图片描述
相关系数的性质如下:
  (1)r的取值范围是[-1,1],0   (2)对称性,rxy=ryx;
  (3)r的数值大小与x、y的原点、尺度无关;
  (4)r仅能描述线性关系,不能用于非线性关系。r=0只能说明2个变量不存在线性相关关系,不能说明它们不相关,可能存在非线性相关关系;
  (5)相关关系不代表因果关系;
根据经验,将|r|≥0.8视为高度相关,将0.5≤|r|≤0.8视为中度相关,将0.3≤|r|<0.5视为低度相关,将|r|<0.3视为不相关。
这种解释必须建立在对相关系数的显著性进行检验的基础上。
五、相关与回归分析_第7张图片
从相关矩阵中,不良贷款与贷款余额的相关系数最大,与固定资产投资额的相关系数最小。

一元线性回归

相关分析的目的在于测度变量之间的关系的密切程度,使用工具相关系数。回归分析侧重考察变量之间的数量伴随关系,通过数学表达式将这种关系描述出来,进而确定自变量对因变量的影响程度。
解决问题:
  ①从一组数据出发,确定出变量之间的数学关系式;
  ②对关系式的可信程度进行各种统计检验
  ③找出某一变量在诸多变量中哪些是显著的
  ④利用关系式,来预测另一个特定变量的取值,并给出估计或者预测的置信度

一、一元线性回归模型

(一)回归模型
因变量:在回归分析中,被预测或者被解释的变量 y表示
自变量:在回归分析中,用来预测或者用来解释因变量的一个或多个变量 x表示
一元回归:在回归分析中,涉及一个自变量的回归。若y与x之间为线性关系,称一元线性回归。
回归模型:描述因变量y如何依赖于自变量x和误差项ε的方程。
只涉及一个自变量的一元线性回归模型表示:在这里插入图片描述
ε是被称为误差项的随机变量,反映了变量线性关系外的随机因素对y的影响
(二)估计的回归方程
估计的回归方程:利用最小二乘法,根据样本数据求出的回归方程的而估计。
  总体回归参数β0和β1是未知的,需要用样本数据去估计。一元线性回归的估计的回归方程形式为:
在这里插入图片描述

二、参数的最小二乘估计

最小二乘法:使因变量的观察值与估计值之间的离差平方和达到最小来求得β的方法。实际数据的误差比其他任何直线都小
五、相关与回归分析_第8张图片
  估计方程:y=-0.8295+0.037895x 回归系数:0.037895,表示贷款余额每增加1亿元,不良贷款平均增加0.037895亿元。

excel进行回归分析 图1.1
五、相关与回归分析_第9张图片

三、回归方程的拟合优度

回归直线在一定程度上描述了变量之间的数量关系,根据自变量x取值估计y的取值, 但是估计的精度取决于回归直线对观测数据的拟合程度。我们把回归直线与各观测点的接近程度称为回归直线对数据的拟合优度,为说明直线的拟合优度,我们需要计算判定系数。
(一)判定系数
判定系数:回归平方和占总平方和的比例。对估计的回归方程拟合优度的度量,需要对因变量y的取值的变差进行研究
  y的取值的波动称为变差,它来自两个方面:一是x的取值不同;二是除x以外的其它因素。一个具体的观测值的变差为y−y¯,它可以分解为:
在这里插入图片描述
变差分解图表示:
五、相关与回归分析_第10张图片
五、相关与回归分析_第11张图片
总平方和SST=回归平方和SSR+残差平方和SSE
由图1.1 SST=312.6504、 SSR=22.4860 、SSE=90.1644
=0.7116=71.16%在这里插入图片描述
或者r平方=(0.8435710.843571)=71.16%
  *判定系数的实际意义:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中没有71.16%是由贷款余额决定的,也就是说不良贷款取值的差异有2/3以上是由贷款余额决定的,可见不良贷款与贷款余额之间有较强的线性关系。

  
(二)估计标准误差
   判定系数用来度量回归直线的拟合程度,相关系数也可以起到类似作用。估计标准误差是用来测度各实际观测点在直线周围的散布状况;实际意义:用估计的回归方程预测因变量y时预测误差的大小。从另一个方面说明回归直线的拟合优度。
估计标准差:各观察点在直线周围分散程度的一个度量值
在这里插入图片描述
由图1.1
=√90.1644/(25-2)=1.9799在这里插入图片描述
即标准误差=1.9799。根据贷款余额来估计不良贷款时,平均的估计误差为1.9799亿元。

四、显著性检验

回归分析的主要目的是根据所建立的估计方程,用自变量x来估计或者预测因变量y的取值。由于估计方程时样本数据得出,是否能真实反应变量x y之间的关系,还需要通过验证。
回归分析的显著性检验有:线性关系的检验;回归系数的检验
(一)线性关系的检验
五、相关与回归分析_第12张图片
线性关系检验的步骤:
1、提出假设
2、计算检验统计量F
3、作出决策。确定显著水平α,并根据分子自由度df1=1和分母自由度df2=n-2查F分布表,找到相应的临界值Fα。若F>Fα,拒绝H0,表明两个变量之间的线性关系是显著的;若F

eg:图1.1
方法一:
检验不良贷款与贷款余额之间的线性关系的显著性(α=0.05)
  第一步:提出假设。
H0:β1=0 两个变量之间的线性关系不显著
  第二步:计算检验统计量F。
F=(222.48598÷1)/90.164421÷(25-2)=56.753844
  第三步:作出决策。
根据显著水平α=0.05,分子自由度df1=1和分母自由度df2=25-2=23查F分布表,找到相应的临界值Fα=4.28。由于F>Fα,拒绝H0,表明不良贷款与贷款余额之间的线性关系是显著的。
方法二:
  Significance F与给定的显著水平α的值进行比较,Significance F<α,拒绝原假设H0,y 与x 之间有显著的线性关系;Significance F>α,不能拒绝原假设H0, y 与 x没有显著的线性关系。
Significance F=1.18349E-0.7<α=0.05 说明,不良贷款与贷款余额之间的线性关系是显著的。

(二)回归系数的检验
五、相关与回归分析_第13张图片五、相关与回归分析_第14张图片
eg:图1.1,检验回归系数的显著性(α=0.05)
方法一:
  第一步:提出检验。
H0:β1=0 H1:β1≠0
  第二步:计算检验的统计量t。
t=斜率/标准误差 =0.037895/0.005030=7.533515
  第三步:作出决策。
根据给定的显著性水平α=0.05,自由度=n-2=23,查t分布表,得tα/2=t0.025=2.0687。由于t=7.533515>t0.025=2.0687,拒绝原假设H0,即 贷款余额是影响不良贷款得一个显著性因素。
方法二:
  检验得P值(P-value),检验时,直接将P值与给定得显著性水平α进行比较,若P值<α,则拒绝原假设H0.若P值>α,则不拒绝原假设。本例中P=0.000<α=0.05,所以拒绝原假设H0。

两种假设的区别:
  在一元线性回归中,由于变量只有一个,即F检验和t检验得等价的。在多元回归分析中,两种检验的意义是不同的,F检验只用来检验总体回归关系的显著性,而t检验则用来检验各个回归系数的显著性。

利用回归方程进行估计和预测

回归分析主要目的是根据所建立的估计的回归方程进行预测或者控制。在回归方程同各种检验后,我们就可以利用它来达到这一目的了,用x 取值来预测y的值。控制则与预测恰好相反,它根据一个想要的y值,求得所要求的x值。根据估计方程进行估计和预测的方法,包括点估计和区间估计

一、点估计

点估计:利用估计的回归方程,对于x的一个特定值x0,求y的一个估计值。
平均值的点估计:利用估计的回归方程,对于x的一个特定值x0,求出y的平均值的一个估计值E(y0)。
个别值得点估计:利用估计的回归方程,对于x的一个特定值x0,求出y的得一个个别值得估计值y0。

二、区间估计

区间估计:利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计区间。
置信区间估计:对x的一个给定值x0,求出y的平均值的区间估计
预测区间估计:对x的一个给定值x0,求出y的个别值的区间估计
(一)y的平均值的置信区间估计
  置信区间估计是对x的一个给定值x0,求出y的平均值的估计区间,这一区间称为置信区间。
五、相关与回归分析_第15张图片
(二)y的个别值的预测区间估计
  预测区间估计是对x的一个给定值x0,求出y的一个个别值的估计区间,这一区间称为预测区间。
五、相关与回归分析_第16张图片
五、相关与回归分析_第17张图片

总结

  相关关系,变量之间存在不确定的数量关系。描述相关关系的方法散点图,测度变量之间关系密切程度方法是相关系数r,其取值范围[-1,1],|r|越趋近于1,关系越密切;0   在一元线性回归分析中,
回归模型,描述因变量y如何依赖于x和误差项的方程;
回归方程,描述y的平均值或者期望值如何依赖于x的方程
估计的回归方程,在估计回归方程的参数时,根据样本数据建立的方程
  对回归方程中参数的估计采用的是最小二乘法,它使实际观测值与回归估计值的离差平方和达到最小。
  为评价回归方程的拟合程度,给出判定系数,可根据相关系数的平方求得。估计标准误差也可以作为回归方程拟合程度的度量
  利用回归方程进行估计的方法有点估计和区间估计。

参考:https://www.cnblogs.com/zm-pop-pk/p/11466552.html

你可能感兴趣的:(统计基础)