Smoothing Splines 平滑样条

  1. Wang Y. Smoothing Splines: Methods and Applications (Chapman & Hall CRC Monographs on Statistics & Applied Probability) [Internet]. 1st ed. Chapman and Hall/CRC; 2011. Available from: http://gen.lib.rus.ec/book/index.php?md5=2EFF745DDEB91107DC1030287CB70BED

前言

统计分析通常涉及建立检查依赖变量和自变量之间的关系的数学模型。这本书是关于一般类的强大而灵活的建模技术,即样条平滑。平滑样条模型的研究近年来引起了人们的极大关注,并且该方法已经在许多领域得到广泛应用。本书提供了一些基本平滑样条线模型的介绍,包括多项式,周期,球面,薄板,L-和部分样条,以及更高级模型的概述,包括平滑样条线ANOVA,扩展和广义平滑样条ANOVA,矢量样条,非参数非线性回归,半参数回归和半参数混合效应模型。还介绍了模型选择和推理的方法。本书中非参数/半参数线性/非线性固定/混合平滑样条模型的一般形式为估计,推理和软件实现提供了统一的框架。本书借鉴了再现核Hilbert空间(RKHS)的理论,以统一的方式呈现各种平滑样条模型。另一方面,在RKHS和正则化的背景下的平滑样条的主题通常被认为是技术和困难的。我的主要目标之一是使基于RKHS的高级平滑样条法更易于从业者和学生访问。考虑到这一点,本书侧重于方法,计算,实现,软件和应用。它为RKHS提供了温和的介绍,将理论保持在最低水平,并提供了有关如何使用RKHS构建样条模型的细节。用户友好的软件是任何统计方法的常规使用的关键。
R中的辅助库实现本书中提出的用于拟合各种非参数/半参数线性/非线性固定/混合平滑样条模型的方法。辅助库可以在http://www.r-project.org获得。大部分的说明是基于对实例的分析。
这些示例不是形式分析,而是用于说明样条平滑方法的功能和多样性。所有数据分析在R中执行,其中大多数使用辅助库中的函数。与本书相关的所有示例和进一步发展的代码将公布在网页http://www.pstat.ucsb.edu/faculty/yuedong/book.html
本书面向那些想了解平滑样条曲线的人。它可以是需要先进和灵活的建模技术的统计学家和科学家的参考书。它也可以作为一个高级研究生课程的文本。事实上,第1章到第4章的主题在加州大学圣塔芭芭拉分校和中国科学技术大学的四分之一课程中讨论。我确实幸运地学到了平滑样条
GraceWahba,他的先驱工作为许多研究工作铺平了道路,使本书成为可能。我非常感谢我的前学生和合作者Chunlei Ke开发的辅助包。特别感谢刘安娜仔细阅读草稿,纠正了许多错误。几个人帮助我写了这本书的各个阶段:创业,郭文生,大卫恒克利,平马和温迪迈林。我必须感谢我的编辑David Grubbes的耐心和鼓励。最后,我要感谢几位研究人员分享他们的数据集以纳入本书;他们被引用到他们的数据被引入。

第1章简介

1.1参数和非参数回归

回归分析构建检验因变量与一个或多个自变量的关系的数学模型。这些模型可以用于预测自变量的未观察值和/或未来值的响应。在简单情况下,从属变量y和独立变量x都是标量变量,给定对于i = 1,...的观察值(xi,yi)。 。 。 ,n,回归模型关联依赖和自变量如下:
其中f是回归函数,ei是具有共同方差σ2的零均值独立随机误差。回归分析的目的是构建f的模型,并基于噪声数据进行估计。
例如,对于黄石国家公园的老忠实喷泉,考虑使用先前喷发的长度预测下一次喷发的等待时间的问题。图1.1(a)显示了来自旧忠实喷泉的272次观测的等待时间到下一次喷发(y =等待)对先前喷发持续时间(x =持续时间)的散点图。目标是建立一个数学模型,将等待时间与先前喷发的持续时间相关联。第一次尝试可能是通过直线近似回归函数f
最小二乘直线拟合如图1.1(a)所示。没有明显的缺乏适应的迹象。此外,在图1.1(b)中的残差图中没有明显的可见趋势。通常f在x中是非线性的。处理非线性关系的常见方法是通过阶m的多项式近似f
图1.2显示了模拟摩托车碰撞实验对冲击头盔的功效的加速度(y =加速度)对冲击后时间(x =时间)的散点图。很明显,直线不能解释加速度和时间之间的关系。多元醇,m = 1,。 。 。 ,20被拟合到数据,并且图1.2示出了由Akaike的信息标准(AIC)选择的最佳拟合。在范围的两端的拟合曲线中存在波浪。即使考虑到高达20阶的多项式,拟合仍然不能完全令人满意。与线性回归模型(1.2)不同,除了小m,模型(1.3)中的系数不再有很好的解释。
一般来说,参数回归模型假定f的形式是已知的,除了有限多个未知参数。 f的具体形式可以来自科学理论和/或在一些简化假设下的力学近似。这些假设可能太限制,并且对于一些应用,近似可能太粗糙。不适当的模型可能导致系统偏差和误导性结论。在实践中,应该总是检查函数f的假设形式
获得f的特定功能形式通常是困难的,即使不是不可能的。非参数回归模型不采用预定义形式。相反,它对f的定性性质做出假设。例如,可以愿意假设f是“平滑的”,其不会减少到具有有限数量的参数的特定形式。相反,它通常导致一些无限维函数集合。非参数回归的基本思想是让数据自己说话。这就是让数据决定哪个函数最适合,而不在f上强加任何特定的形式。因此,非参数方法通常更灵活。它们可以揭示数据中可能被遗漏的结构
为了说明,我们将三次样条拟合到间歇数据。三次样条是一个特殊的非参数回归模型,将在1.2节中介绍。对来自线性模型(1.2)的残差的三次样条拟合显示出图1.3(a)中的非零趋势。这提出了一个简单的线性回归模型是否适合间歇泉数据的问题。对原始数据的三次样条拟合如图1.3(b)所示。它揭示了在自变量中有两个聚类,并且每个聚类可能需要不同的线性模型。第2.10,3.8和3.9节包含对间歇泉数据的更多分析。摩托车数据的三次样条拟合如图1.4所示。它比多项式模型更好地拟合数据。第2.10,3.8,5.4.1和6.4节包含了对摩托车数据的更多分析。
上述简单的说明表明,非参数回归技术可以应用于回归分析中的不同步骤:数据探索,建模,测试参数模型和诊断。事实上,如整个书中所示,样条平滑是用于建立统计模型以利用数据中的结构的强大且通用的工具。

1.2多项式样条

多项式(1.3)是一个全局模型,使其对局部变化的适应性较差。个人观察可能对偏远地区的适应有不当影响。例如,在摩托车数据中,平均函数的行为从一个区域到另一个区域急剧变化。
这些局部变化导致在多项式拟合的范围的两端的振荡。克服这种限制的一个自然方法是使用分段多项式,多项式样条曲线的基本思想。令a a和tk + 1 = b。粗略地说,多项式样条是在结处平滑连接在一起的分段多项式。形式上,阶数r的多项式样条是[a,b],f(t)上的实值函数,使得
(i)f是阶数r on [ti,ti + 1)的分段多项式,i = 0,1,..., 。 。 ,k;
(ii)f具有r -2个连续导数,并且(r -1)st导数是具有节点跳跃的阶跃函数
现在考虑甚至表示为r = 2m的订单。如果除了(i)和(ii)之外,函数f是2m的自然多项式样条,其满足自然边界条件
(iii)f(j)(a)= f(j)(b)= 0,j = m。 。 。 ,2m-1。
自然边界条件意味着f是在两个外部子间隔[a,t1]和[tk,b]上的阶m的多项式。用节点t1,表示2m的自然多项式样条函数空间。 。 。 ,tk作为NS2m(t1,...,tk)。一种被称为回归样条的方法是使用多项式样条或自然多项式样条近似f。为了获得良好的效果,需要决定结的数量和位置。本书涵盖了一种称为平滑样条的不同方法。它从f的一个明确定义的模型空间开始,并引入一个惩罚,以防止过度拟合。我们现在描述这种多项式样条的方法。考虑回归模型(1.1)。假设f是“平滑的”。具体来说,假设f∈Wm2[a,b]其中为Sobolev空间。

你可能感兴趣的:(Smoothing Splines 平滑样条)