在给定一列数据 ( x 1 , y 1 ) , . . . , ( x n , y n ) (x_1, y_1), ...,(x_n, y_n) (x1,y1),...,(xn,yn)时,如果认为它满足线性模型:
y = a + b x + ϵ y=a + bx + \epsilon y=a+bx+ϵ
则可以用不同方法估计参数来拟合直线。
最小二乘法是大家平时用的最多的拟合线性模型的方法,它使:
R S S ( a , b ) = ∑ i = 1 n [ y i − ( a + b x i ) ] 2 RSS(a, b)=\sum_{i=1}^n[y_i-(a+bx_i)]^2 RSS(a,b)=i=1∑n[yi−(a+bxi)]2
最小,这样得出的 a ^ , b ^ \hat{a}, \hat{b} a^,b^称为简单最小二乘估计。在假定响应变量为独立正态分布之后,对回归参数进行的最大似然估计和最小二乘估计是相同的。
思想:寻求斜率 b b b使得所有观测值对 ( x i , y i ) (x_i, y_i) (xi,yi)与 ( x j , y j ) (x_j, y_j) (xj,yj)拟合回归直线后的残差之差的正负符合的个数相等。
b ^ \hat{b} b^的估计为:
b ^ = m e d i a n b i j = m e d i a n Y j − Y i X j − X i \hat{b}=median b_{ij}=median\frac{Y_j-Y_i}{X_j-X_i} b^=medianbij=medianXj−XiYj−Yi
a ^ \hat{a} a^的估计为:
a ^ = m e d i a n ( Y j − b ^ X j , j = 1 , . . . , n ) \hat{a}=median(Y_j-\hat{b}X_j, j=1,...,n) a^=median(Yj−b^Xj,j=1,...,n)
Theil回归的优点在于:首先,它不假定所有的误差都仅仅在因变量的方向,其次它不假定误差是正态分布的,再者,它较少地受离群点的影响,也就是说,它是个较稳健的方法。
Siegel重复中位数(Siegel repeated medians)更加稳健。它计算每个样本点和其它点的斜率,然后求其中位数。这样得到 n n n个中位数,再取其中位数作为斜率的估计,截距用类似方法求。
Theil回归和Siegel回归都可以用R包mblm计算。
它寻求 a ^ , b ^ \hat{a}, \hat{b} a^,b^满足:
m i n { m e d i a n ( [ y i − ( a + b x i ) ] 2 ) } min\{median([y_i-(a+bx_i)]^2)\} min{median([yi−(a+bxi)]2)}
也就是说使残差平方的中位数最小。
对OLS回归稍加改造,不考虑极端的值,则有最小截尾二乘(LTS)回归,它
寻求 a ^ , b ^ \hat{a}, \hat{b} a^,b^满足:
m i n { ∑ i = 1 q ( [ y i − ( a + b x i ) ] 2 ) } min\{\sum_{i=1}^q([y_i-(a+bx_i)]^2)\} min{i=1∑q([yi−(a+bxi)]2)}
这里 i = 1 , . . . , q i=1,...,q i=1,...,q为取前 q q q个最小的残差,至于取多大的 q q q,需要根据具体情况而定。
S估计对回归系数的选择使得方程
∑ i = 1 n χ ( y i − x i b c 0 s ) = ( n − p ) b \sum_{i=1}^n\chi(\frac{y_i-x_ib}{c_0s})=(n-p)b i=1∑nχ(c0syi−xib)=(n−p)b
的解有最小的 s s s。这里函数 χ \chi χ通常选用Tukey的双平方函数
χ ( u ) = { u 6 − 3 u 4 + 3 u 2 , ∣ u ∣ ≤ 1 1 , ∣ u ∣ > 1 \chi(u)=\begin{cases} u^6-3u^4+3u^2 , |u|\leq1 \\1, |u|>1\end{cases} χ(u)={u6−3u4+3u2,∣u∣≤11,∣u∣>1
最小中位数二乘回归、最小截尾二乘回归和S估计都属于稳健回归,它们都不容易受到异常值的影响。最小二乘回归适用于很“干净”的数据。稳健回归方法实际上是把远离数据主体的点给忽略了。
几种方法的回归结果比较:
(图未找到,先留坑)
注:如无特殊说明,以上内容均节选自吴喜之的《非参数统计》书籍。