如上所述,为了易于确定回归函数μ(x)中的未知参数,我们来讨论变量Y与x之间存在着线性相关关系的情形
散布在某一条直线的周围.于是,我们可以用线性回归方程
来描述Y与x之间的相关关系,并假设相应的误差(称为随机误差)
服从正态分布,其中 都是不依赖于x的未知参数,参数b 称为回归系数
对Y作这样的假设, 相当于假设对于x (在某个区间内)的每一个值,都有
于是对x 与Y的每一组独立试验(或样本)
也有
式(5. 8)或式(5.10)称为一元(正态)线性回归模型.若将试验观测值(5.6)代入,则
可获得随机误差的一组观测值
对于一元线性回归模型,需要研究下面几个问题:
(1)根据样本(5. 9)估计参数,从而建立线性回归模型;
(2)线性相关关系的显著性检验;
(3)利用所获得的线性回归模型对变量Y的取值进行预测.
对于一元线性回归模型(5. 10),这时的离差平方和(5.4)为
为了使s取得最小值,按最小二乘法,分别求s对a及b的偏导,有
令这两个偏导数为零,得
整理,得
或者
其中
分别为样本的各种矩,方程组(5. 13) 或方程组(5. 14) 称为正规方程(组).解此正规
方程可得a与b的估计值(分别记作和)
其中
是的二阶中心矩.
`` 与式(5.16)相对应的估计量可表示为
作为正规方程的解,估计量a与b自然应满足正规方程(5. 13)和方程组(5.14),即
或
这时残差平方和(即s的最小值)可表示为
将通过式(5. 16)计算得到的a 与b 的值代入方程(5.7),就可得到Y对x 的(经验)线性回归方程
和相应的回归值(或拟合值)
方程(5.22)的图形称为(经验)线性回归直线.
该式表明,经验回归直线过由点集(5.6)构成的散点图的几何中心
下面讨论估计量的分布.由估计量(5.18)的第一式知
所以是随机变量的线性组合.再注意到的非随机
性及Y1 ,Y2, …,Y"是独立的正态随机变量,且
则可知也服从正态分布,且有
故是b的无偏估计.同样,我们可算得
这样,我们已经证明并获得了
定理5.2.1 在上述记号下,估计量是b的无偏估计,且
其中
同理可证
是a的无偏估计(见习题5.1,由读者自己证明),并且有下述定理.
定理5.2.2 估计量是a的无偏估计,且
5.2.2 参数的无偏估计及其分布
为了获得的无偏估计,我们作离差分解
由式(5. 19)知上式的最后两个和式均为0,故有
其中右端第一项正是式(5. 21)定义的残差平方和
于是我们得到
其中右端三项的自由度分别为又由于
且相互独立,故由定理1. 2. 2可得如下的定理.
定理5.2.3 在上述记号下, 相互独立且
由于卡方分布的期望是它的自由度,故由式(5. 32)
因此
是的无偏估计.在此记号下,定理5.2. 3又可改写成如下形式.
为了计算无偏估计,将
代入式(5.33),得
再注意到式(5.18)的第一式,有
并引进计算器容易获得其值的二阶中心矩的记号
则有
式(5.38)中的,也可利用表5.1及计算器的统计功能方便地获得.