统计学习基础——第七章 非线性模型

目录

一、多项式回归

1、定义

(1)特点

(2)与线性回归模型的异同

二、阶梯函数

1、定义

2、作用

3、与分段函数区别

4、步骤

三、基函数

1、原理

四、回归样条

1、分段多项式

(1) 定义

(2)结点

2、约束条件与样条

(1)约束条件的作用

(2)样条

3、样条基函数

(1)定义

(2)截断幂基函数

(3)自然样条

四、确定结点个数和位置

1、结点位置

2、结点个数

五、与多项式回归对比

1、回归样条得到的结果比多项式回归更好。

2、回归样条得到更稳定的估计结果。


一、多项式回归

1、定义

y_i=\beta_0+\beta_1x_i+\beta_2x_i^2+\cdots+\beta_dx_i^d+\varepsilon _i

(1)特点

①阶数:次数,对于阶数较大的d,多项式回归呈现明显的非线性曲线。但是d的选择不宜过大,一般不大于3或4(因为d越大,多项式曲线越光滑,甚至会在X变量定义域的边界处呈现异常形状);

\beta_0,\beta_1,\cdots,\beta_d:回归系数;

③估计方法:最小二乘法;

④响应变量与预测变量之间是非线性关系;

⑤若\beta_2=\beta_3=\cdots=\beta_d=0,则变为一元线性回归函数,即一元线性回归是多项式函数的特例。

(2)与线性回归模型的异同

  • 相同点

①用于反映响应变量和预测变量之间的关系;

②都使用最小二乘法;

  • 不同点

①一个是线性关系,一个非线性关系;

②线性模型的阶数为1,而多项式回归模型阶数大于1;

③d=1时,多项式回归退化为线性回归模型。

二、阶梯函数

1、定义

将X的取值范围分成一些区间,每个区间拟合一个不同的常数。

2、作用

(1)得到局部模型;

(2)将连续变量转换成有序的分类变量。

3、与分段函数区别

分段函数是函数,但阶梯函数是常数

4、步骤

step1.设置初值,创建分割点c1,c2,···,ck;

step2.构造示性函数 I( · ),Ck(X)=I(ck≤X),得到C0,C1,···,Ck;

step3.对C0,C1,···,Ck进行拟合;

step4.判断拟合效果。

注:①条件成立时,示性函数返回1,不成立返回0;

②由于X只能落入某一个区间,于是对任意X的取值,C(X)+C1(X)+···+Ck(X)=1;

③对于X的一个给定值,C(X),C1(X),···,Ck(X)中至多只有一项系数非0;

④当X

当cj

三、基函数

1、原理

变换函数b_k(X_i)替换X_i^kC_k(X_i),变换函数是包含多项式、阶梯函数的集合体。

四、回归样条

1、分段多项式

(1) 定义

在X的不同区域拟合独立的低阶多项式函数,以此取代在X全部取值范围内拟合高阶多项式。

(2)结点

系数发生变换的临界点,采用更多的结点可以得到更光滑的分段多项式。

2、约束条件与样条

(1)约束条件的作用

①确保拟合曲线是连续的;

②有效的释放自由度,降低了模型的复杂度。

(2)样条

样条可以分为直线样条和曲线样条,先在每个区域内拟合,再验证结点处是否连续。

3、样条基函数

(1)定义

使用基函数模型来表示回归样条,并通过选择合适的基函数b1,b2,···,b(k+3),一个有k个结点的三次样条函数可表示为:

y_i=\beta_0+\beta_1b_1(x_i)+\beta_2b_2(x_i)+\cdots+\beta_{k+3}b_{k+3}(x_i)+\varepsilon _i

(2)截断幂基函数

①定义

h(x,\xi )=(x-\xi)^3=\left\{\begin{matrix} (x-\xi)^3,x>\xi \\ 0 \end{matrix}\right.

其中,\xi是结点。

②性质

  • 再添加一项会使得三次多项式在结点处的三阶导数不连续;
  • 在每个结点,函数本身、一阶导数、二阶导数都连续。

③不足

样条在预测变量之外的区域,即当X取较大值或较小值时,有较大的方差。

(3)自然样条

附加了边界约束的回归样条。

四、确定结点个数和位置

1、结点位置

①方法:令结点在数据上呈现均匀分布;

②实现方式:首先确定需要的自由度,任何依靠软件自动在数据的均匀分位数上设置相应个数的结点。

2、结点个数

①尝试多个不同的结点个数,从中选择拟合的”形状最理想“的曲线;

②交叉验证法。

五、与多项式回归对比

1、回归样条得到的结果比多项式回归更好。

样条函数通过增加结点个数但保持自由度固定的方法使结果变光滑。

2、回归样条得到更稳定的估计结果。

样条函数允许在函数f变动较快的区域设置多个结点,在函数f较稳定的地方设置较少的结点来保证光滑性。

你可能感兴趣的:(统计学习导论,回归,统计学,r语言,统计模型,线性回归)