知识点:
1、变量间的关系分为函数关系与相关关系。
相关系数是对变量间线性相关程度的度量。
2、现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究,回归的实质是由解释变量去估计被解释变量的平均值。
3、总体回归函数(PRF)是将总体被解释变量Y的条件均值表现为解释变量X的某种函数。
样本回归函数(SRF)是将被解释变量Y的样本条件均值表示为解释变量X的某种函数。
总体回归函数与样本回归函数的区别与联系。
4、随机扰动项是被解释变量实际值与条件均值的偏差,代表排除在模型以外的所有因素对Y的影响。
5、简单线性回归的基本假定:对模型和变量的假定、对随机扰动项u的假定(零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定)
6、普通最小二乘法(OLS)估计参数的基本思想及估计量;OLS 估计量的分布性质及期望、方差和标准误差;OLS估计式是最佳线性无偏估计量。
(1)总体线性相关系数
如果 X和 Y总体的全部数据都已知,X和 Y的方差和协方差也已知,则X和Y的总体线性相关系数:
特点:
●总体相关系数只反映总体两个变量 和 的线性相关程度
●对于特定的总体来说, 和 的数值是既定的,总体相关系
数 是客观存在的特定数值。
●总体的两个变量 和 的全部数值通常不可能直接观测,所
以总体相关系数一般是未知的。
(2) 样本线性相关系数
如果只知道 X 和 Y 的样本观测值,则X和Y的样本线性
相关系数为:
注意:
1)线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系
2)样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是随抽样而变动的随机变量,其统计显著性还有待检验
被解释变量Y的条件分布和条件概率:当解释变量X取某固定值时(条件),Y 的值不确定,Y的不同取值会形成一定的分布,这是 Y 的条件分布。 X取某固定值时,Y 取不同值的概率称为条件概率。
被解释变量 Y 的条件期望:对于 X 的每一个取值, 对 Y 所形成的分布确定其期望或均值,称 为 Y 的条件期望或条件均
值,用E(Y|Xi) 表示。
回归线:对于每一个X的取值 Xi,都有Y的条件期望E(Y|Xi) 与之对应,代表Y的条件期望的点的轨迹形成的直线或曲线称为回归线。
回归函数:被解释变量Y的条件期望E(Y|Xi)随解释变量X的变化而有规律的变化,如果把Y的条件期望表现为 X 的某种函数 E(Y|Xi) = f(Xi)。
回归函数分为:总体回归函数(PRF)和样本回归函数(SRF)。
PRF:假如已知所研究的经济现象的总体的被解释变量Y
和解释变量X的每个观测值(通常这是不可能的!),那
么,可以计算出总体被解释变量Y的条件期望E(Y|Xi,并将其表现为解释变量X的某种函数 E(Y|Xi) = f(Xi),称为总体回归函数。
SRF: 对于X的一定值,取得Y的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。
随机扰动项ui:若只有 X的影响,Y与 E(Y|Xi)不应有偏差。若偏差ui存在,说明还有其他影响因素。
ui实际代表了排除在模型以外的所有因素对 Y 的影响。
(1)引入原因:
● 是未知影响因素的代表(理论的模糊性)
● 是无法取得数据的已知影响因素的代表(数据欠缺)
● 是众多细小影响因素的综合代表(非系统性影响)
● 模型可能存在设定误差(变量、函数形式的设定)
● 模型中变量可能存在观测误差(变量数据不符合实际)
● 变量可能有内在随机性(人类经济行为的内在随机性)
(2)性质
ui 是其期望为 0 有一定分布的随机变量
(1) 对模型和变量的假定
假定模型设定是正确的(变量和模型无设定误差)
假定解释变量X在重复抽样中取固定值。
假定解释变量X是非随机的,或者虽然X是随机的,但与扰动项u是不相关的。(从变量X角度看)
(2) 对随机扰动项的假定
零均值假定:在给定X的条件下,ui的条件期望为零
同方差假定:在给定X的条件下,ui的条件方差为某个常数
无自相关假定:随机扰动项 ui 的逐次值互不相关 ,即E(ui,uj)= 0
与解释变量不相关假定:解释变量Xi是非随机的,或者虽然 Xi是随机的,但与扰动项 ui不相关,即cov(ui,X)= 0
正态分布假定:假定ui服从均值为零、方差为6^2的正态分布
(3) 在对 ui 的基本假定下 Y 的分布性质
b1、b2和 X是非随机的,u是随机变量,因此Y是随机变量。u的分布性质决定了 Y的分布性质。因此,对u 的一些假定可以等价地表示为对Y的假定:
理想的估计结果应使估计的Y与真实的Y的差(即剩余e)越小越好 。因而根据如下表达式,进行e与b1,b2进行偏导,求出b1,b2
数学性质:
(1)OLS回归线通过样本均值
(2)估计值 Y的均值等于实际观测 值 Y的均值
(3)被解释变量估计值Y 与剩余项 e不相关
(4)解释变量X 与剩余项e不相关
统计性质:
(1)无偏性(重复抽样,计算得到的n个b得到的均值与实际b相等)
(2)一致性
(3)有效性(方差最小)
总结:在古典假定条件下,OLS估计量是最佳线性无偏估计量(BLUE)
样本回归线是对样本数据的一种拟合。不同的模型(不同函数形式)可拟合出不同的样本回归线,相同的模型用不同方法去估计参数,也可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度,可称为拟合优度。
拟合优度的度量建立在对 Y 的总变差分解的基础上
TSS:被解释变量Y的观测值与其平均值的离差平方和(总平方和)(说明 Y 的总变动程度)
ESS:被解释变量Y的估计值与其平均值的离差平方和(解释了的平方和)
RSS:被解释变量观测值与估计值之差的平方和(未解释的平方和)
为此拟合优度(可决系数可以表示为)
或者
可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测值的拟合程度越差。
区间估计和假设检验都是建立在确定参数估计值 b 概率分布性质的基础上。
(1)区间估计
利用 参数标准化后统计量的分布性质去寻求方差 :
(2)假设检验
小概率思想:在事先做出的某种原假设成立的条件下,可确定统计量的抽样分布,给定显著性水平α,可构造一个大概率事件,利用样本构造的适当统计量(一次抽样的结果),如果在一次抽样中该小概率事件竟然发生,就认为原假设不真实,从而拒绝原假设(这时犯第一类错误弃真的概率为α),不拒绝备择假设。反之,如果大概率事件发生,则不拒绝原假设。
通过t值,p值来识别接受原假设还是没有足够理由接受。