相关分析
相关分析定义
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。
[编辑本段]
1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。
-正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;一般地,
·|r|>0.95 存在显著性相关;
·|r|≥0.8 高度相关;
·0.5≤|r|
·0.3≤|r|
·|r|
负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r
无线性相关:r=0。
如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1<r><p>r的计算有三种:</p> <p>·Pearson相关系数:对定距<b>连续变量</b>的数据进行计算。</p> <p>·Spearman和Kendall相关系数:对<b>分类变量</b>的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。</p> <p>2、偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。</p> <p>3、距离分析:是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。分为观测量之间距离分析和变量之间距离分析。</p> <p>- 不相似性测度:</p> <p>·a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等。</p> <p>·b、对计数数据使用卡方。</p> <p>·c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。</p> <p>- 相似性测度:</p> <p>·a、等间隔数据使用统计量Pearson相关或余弦。</p> <p>·b、测度二元数据的相似性使用的统计量有20余种。</p> <p>[<a href="http://baike.baidu.com/view/325793.htm">编辑本段</a>]</p> <p><a name="3"></a><b>相关分析与回归分析的关系</b><b></b></p> <p> 相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。</p> <p>[<a href="http://baike.baidu.com/view/325793.htm">编辑本段</a>]</p> <p><a name="4"></a><b>复相关</b><b></b></p> <p>研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为</p> <p>R0.12…n的取值范围为0≤R0.12…n≤1。复相关系数值愈大,变量间的关系愈密切。</p> <p> 偏相关 研究在多变量的情况下,当控制其他变量影响后,两个变量间的直线相关程度。又称净相关或部分相关。例如,偏相关系数 r13.2表示控制变量x2的影响之后,变量 x1和变量x3之间的直线相关。偏相关系数较简单直线相关系数更能真实反映两变量间的联系。</p> <p><b>回归分析</b></p> <p><b>目录</b>[<a href="">隐藏</a>]<b></b></p> <p><a href="http://baike.baidu.com/view/145440.htm#1">回归分析</a></p> <p><a href="http://baike.baidu.com/view/145440.htm#2">回归分析的应用</a></p> <p>[<a href="http://baike.baidu.com/view/145440.htm">编辑本段</a>]</p> <p><b>回归分析</b><b></b></p> <p> 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和<a href="http://baike.baidu.com/view/1536255.htm">多元回归</a>分析;按照自变量和因变量之间的关系类型,可分为<a href="http://baike.baidu.com/view/449540.htm">线性回归</a>分析和<a href="http://baike.baidu.com/view/1159484.htm">非线性回归</a>分析。如果在回归分析中,只包括一个<a href="http://baike.baidu.com/view/379564.htm">自变量</a>和一个<a href="http://baike.baidu.com/view/324030.htm">因变量</a>,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为<a href="http://baike.baidu.com/view/1380349.htm">多元线性回归</a>分析。</p> <p> 方差齐性</p> <p><a href="http://baike.baidu.com/view/91595.htm">线性关系</a></p> <p> 效应累加</p> <p> 变量无测量<a href="http://baike.baidu.com/view/40051.htm">误差</a></p> <p> 变量服从多元<a href="http://baike.baidu.com/view/45379.htm">正态分布</a></p> <p> 观察独立</p> <p> 模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)</p> <p> 误差项独立且服从(0,1)正态分布。</p> <p> 现实数据常常不能完全符合上述假定。因此,<a href="http://baike.baidu.com/view/50313.htm">统计学</a>家研究出许多的<a href="http://baike.baidu.com/view/962884.htm">回归模型</a>来解决线性回归模型假定过程的约束。</p> <p> 研究一 个或多个<a href="http://baike.baidu.com/view/45329.htm">随机变量</a>Y1 ,Y2 ,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法。又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是<a href="http://baike.baidu.com/view/631016.htm">随机误差</a>,通常假定随机误差的<a href="http://baike.baidu.com/view/1052684.htm">均值</a>为0,<a href="http://baike.baidu.com/view/172036.htm">方差</a>为σ^2(σ^2大于0)σ2与X的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,差有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的<a href="http://baike.baidu.com/view/15061.htm">函数</a>,其中函数形式已知,但含一些未知<a href="http://baike.baidu.com/view/327406.htm">参数</a>;另一部分是由于其他未被考虑的因素和<a href="http://baike.baidu.com/view/606111.htm">随机性</a>的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的<a href="http://baike.baidu.com/view/392135.htm">非线性</a>函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。</p> <p> 回归分析的主要内容为:①从一组数据出发确定某些变量之间的定量关系式,即建立<a href="http://baike.baidu.com/view/76167.htm">数学模型</a>并估计其中的未知参数。估计参数的常用方法是<a href="http://baike.baidu.com/view/139822.htm">最小二乘法</a>。②对这些关系式的可信程度进行检验。③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计<a href="http://baike.baidu.com/view/600107.htm">软件包</a>使各种回归方法计算十分方便。</p> <p>[<a href="http://baike.baidu.com/view/145440.htm">编辑本段</a>]</p> <p><b>回归分析的应用</b><b></b></p> <p><a href="http://baike.baidu.com/view/325793.htm">相关分析</a>研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。</p> <p> 一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。</p> <p> 例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X。根据图8-3的<a href="http://baike.baidu.com/view/1323662.htm">散点图</a>,可以建立下面的线性关系:</p> <p>Y=A+BX+§</p> <p> 式中:A和B为待定参数,A为<a href="http://baike.baidu.com/view/939038.htm">回归直线</a>的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于用户满意度的随机误差项。</p> <p> 在SPSS软件里可以很容易地实现线性回归,回归方程如下:</p> <p>y=0.857+0.836x</p> <p> 回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。</p> <p>740)this.width=740"></p> <p> 上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍。此外,在SPSS的结果输出里,还可以汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以下,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性。同样地,T检验可以通过显著性水平或查表来确定。在上面所示的例子中,各参数的意义如表8-2所示。</p> <p><b>表</b><b>8</b><b>-</b><b>2 </b><b>线性回归方程检验</b> </p> <table border="1" cellspacing="0" cellpadding="0"><tbody> <tr> <td valign="top" width="100"> <p>指标</p> </td> <td valign="top" width="100"> <p>显著性水平</p> </td> <td valign="top" width="100"> <p>意义</p> </td> <td width="100"></td> </tr> <tr> <td valign="top" width="100"> <p>R</p> </td> <td valign="top" width="100"> <p>0.89</p> </td> <td valign="top" width="100"></td> <td valign="top" width="100"> <p>“质量”解释了89%的“用户满意度”的变化程度</p> </td> </tr> <tr> <td valign="top" width="100"> <p>F</p> </td> <td valign="top" width="100"> <p>276.82</p> </td> <td valign="top" width="100"> <p>0.001</p> </td> <td valign="top" width="100"> <p>回归方程的线性关系显著</p> </td> </tr> <tr> <td valign="top" width="100"> <p>T</p> </td> <td valign="top" width="100"> <p>16.64</p> </td> <td valign="top" width="100"> <p>0.001</p> </td> <td valign="top" width="100"> <p>回归方程的系数显著</p> </td> </tr> </tbody></table></r>
示例 SIM手机用户满意度与相关变量线性回归分析
我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程如下:
用户满意度=0.008×形象+0.645×质量+0.221×价格
对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。
方程各检验指标及含义如下:
指标 |
显著性水平 |
意义 |
|
R2 |
0.89 |
“质量”和“形象”解释了89%的“用户满意度”的变化程度 |
|
F |
248.53 |
0.001 |
回归方程的线性关系显著 |
T(形象) |
0.00 |
1.000 |
“形象”变量对回归方程几乎没有贡献 |
T(质量) |
13.93 |
0.001 |
“质量”对回归方程有很大贡献 |
T(价格) |
5.00 |
0.001 |
“价格”对回归方程有很大贡献 |
从方程的检验指标来看,“形象”对整个回归方程的贡献不大,应予以删除。所以重新做“用户满意度”与“质量”、“价格”的回归方程如下:
用户满意度=0.645×质量+0.221×价格
对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;用户对价格的评价每提高1分,其满意度将提高0.221分(在本示例中,因为“形象”对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多)。
方程各检验指标及含义如下:
指标 |
显著性水平 |
意义 |
|
R |
0.89 |
“质量”和“形象”解释了89%的“用户满意度”的变化程度 |
|
F |
374.69 |
0.001 |
回归方程的线性关系显著 |
T(质量) |
15.15 |
0.001 |
“质量”对回归方程有很大贡献 |
T(价格) |
5.06 |
0.001 |
“价格”对回归方程有很大贡献 |
扩展阅读:
1.简明农业词典 科学出版社 1978年8月 188页
2.农业试验设计与统计方法一百例 陕西科学技术出版社 1987年9月 473页,569页
3.http://www.dina.com.cn/ShowInfoContent4.asp?ID=106
回归分析与相关分析的区别与联系
区别:
1、相关分析研究的两个变量是对等关系,回归分析研究的两个变量不是对等关系
2、相关分析的两个变量都是随机变量,回归分析自变量是可以设定和控制的普通变量,因变量是随机变量
3、回归方程在进行预测估计时,只能由自变量的数值来估计因变量的可能值,不能由因变量来推测自变量
联系:
1、相关分析是回归分析的基础
2、回归分析是相关分析的继续