基于Origin系统分段回归的有效实现
徐海云1,2 涂雄苓2 罗付岩2
(1. 中南财经政法大学信息学院 湖北 武汉 430060;
2. 桂林工学院数理系 广西 桂林 541004)
摘要 结合案例介绍了利用Origin系统实现分段回归的有效方法,该方法具有简便易行且直观性强等特点。克服了以往从数据直接到回归模型时确立分段点和回归模型类型的诸多障碍,因此对加速分段回归和Origin系统的应用以及提高模型拟合精度有着很重要的意义。
关键词 统计软件,拟合,应用
0 引言
回归分析已广泛用于揭示两变量或多变量之间的数量关系,包括线性回归与非线性回归方法。在有些实际问题中,很难甚至无法找到合适的拟合曲线,即使用多项式回归有时也不能得到令人满意的结果。如果作残差分析,会发现残差是系统的,而不是随机的,此时曲线往往在一些区间内与另一些区间内有较大的差别,因此有时想用一种曲线函数来拟合整个数据区域是不适宜的。在这种情况下,一般可以按曲线特征将其分成几个区间,然后在每个区间内分别作回归分析,即所谓分段回归。然而在分段回归中,准确地确立拐点是保证拟合效果十分关键的一步,从数理上要求使相邻的两个函数在拐点处光滑连续,即两个函数在拐点有相同的函数值和相同的q阶导数。然而在不完全清楚变量间作用机理的情况,仅凭数据本身的表现,拐点在实践中是不易准确把握的。从目前相关文献来看,此问题并没有得到很好的解决。目前,随着软件技术的快速发展,国内外已有不少优秀的统计软件,如SAS、SPSS、S-Plus、Origin与R等,而各自特点鲜明,在解决一些具体问题时均有各自的长处,需充分挖掘与加以利用,以提高实践操作的效率。本论文根据作者多年从事统计教学与实践的经验,介绍利用Origin系统解决此障碍一种有效实现方法,旨意于提高模型拟合精度和加速Origin系统的应用研究。
1 Origin系统简介
Origin是Microcal公司推出的数据分析和绘图软件,适用于Windows 9X及以上操作系统,目前最高版本为7.5。Origin功能强大,在各国科技工作者中应用较为普遍,当前全世界有数以万计的科学和工程技术人员在使用,我国则以高校研究生使用较多。Origin被公认为是最快、最灵活、使用最容易的数据分析和绘图软件。有如此强大的生命力,自然有其不同于其它软件和语言的特点。Fortran 及C等高级语言使人们摆脱了直接对计算机硬件资源进行操作的阶段,而Matlab 等专业软件提供了丰富的函数资源,使编程人员从繁琐的程序代码中解放出[1]。Origin 最突出的优点是使用简单,它采用直观的、图形化的、面向对象的窗口菜单和工具操作,全面支持鼠标右键操作、支持拖放式绘图等,甚至在完成一项任务时不需要用户编写任何代码,它带给用户的是最直观、最简单的数据分析和绘图环境[2]。集数据处理与图形绘制为一体的软件包。它和Word和Excel等一样,是一个多文档界面软件,它在工作时,将文件以OPJ的形式保存,该文件可以同时拥有多个子窗口,如工作表窗口、图形窗口、矩阵窗口、函数窗口和版面设计窗口等。这些窗口之间相互关联,可以随时对所有工作表窗口中的数据进行更新。一旦数据表发生变化,相关的子窗口中可以立即看到结果,所见即所得。
2 案例与操作
为了介绍方便,特结合下面的案例来进行同步说明。案例:我国1978年至2005年以为煤炭总产量的时间序列,原始数据列于表1。王志宏和赵爱国[3]分别采用一元线性回归、自回归模型和干预分析模型对此进行了拟合并用于预测,其结果均不理想,与实际情况有很大的出入。原因很简单,因煤炭产量在整个过程并没有保持平稳的线性关系,这点从后文中的图3中可以看出, 我国的煤炭生产过程大致能分为三个阶段,第一阶段,表现为原煤总产量呈现出平稳增长的态势, 在第二阶段表现为原煤产量迅速下降的形态, 而在第三阶段原煤总产量整体呈现急剧的增长。在散点序列中能明显可以看存在两个拐点,这正也为分段回归提供了必要,也恰好发挥Origin系统的优势,下面分步骤地介绍操作过程。
表1:我国煤炭总产量历年数据
年度(年) |
1978 |
1979 |
1980 |
1981 |
1982 |
1983 |
1984 |
1985 |
1986 |
1987 |
1988 |
1989 |
1990 |
1991 |
总产量(亿吨) |
3.42 |
5.29 |
5.06 |
4.95 |
6.66 |
7.14 |
7.90 |
8.72 |
8.94 |
9.29 |
8.80 |
10.53 |
10.79 |
10.85 |
年度(年) |
1992 |
1993 |
1994 |
1995 |
1996 |
1997 |
1998 |
1999 |
2000 |
2001 |
2002 |
2003 |
2004 |
2005 |
总产量(亿吨) |
11.15 |
11.51 |
12.3 |
12.92 |
13.74 |
13.25 |
12.32 |
10.44 |
9.99 |
11.06 |
14.16 |
17.28 |
19.56 |
21.10 |
2.1 数据录入
从[开始]菜单启动Origin,建立一个新的数据文件,其默认设置是打开一个Worksheet窗口,缺省为两列,分别为A(X)、B(Y),分别代表自变量和因变量,在本案例中也就是采样年度和对应的煤炭总产量。单击第一列标头,再单击鼠标右键,并在下拉菜单中选择“Properties”,这样可以对列的宽度、数据显示格式、列名称和列标识等列的属性进行设置。本例中仅需重设列标识,即在两列“Column Label”对话匡中分别输入“年度”和“总产量”。这样就可以在该工作表中直接键入相应的数据或拷入,可以得到如图1所示的部分数据表的界面。
2.2 绘制散点图
单击系统主界面中的“Plot”,将显示Origin可以绘制的各种图形,包括直线图、散点图、向量图、柱状图、饼图等各式统计图的下拉菜单,在本例中选择“Scatter”,弹出一个询问框,直接回车即可,最后进入绘图对应数据列的选择对话框,即Select Columns for Plotting。再分别选择此对话框左边中的A(X)和B(Y),通过移入按钮分别将其移入右边的Column框中,即完成横坐
图1:原始数据导入界面 |
标与纵坐标数据列的选择,如图2所示。最后单击“OK”,弹出一个绘图窗口,显示煤炭与时间之间的关系图,正如图3的所示。如需知道图中某点(如拐点、奇异点)的数据,可以在绘图窗口中单击工具中的“Draw Data”按鈕,然后在图中单击所要查询的点位,该点的数据将会在“Data Display”窗口中以黑底绿字的形式显示出来。
2.3 分段拟合
而正如文中导言部分所述,准确把握曲线中的拐点十分关键,因此拟合之前必须确立拐点的位置,在本例中可以清楚分离出两个拐点,这正是从图形到回归方程相比从数据到方程的独到之处。两个拐点也就意味着,如使用直线回归,三段拟合能大大提高精度。具体软件操作如下:单击绘图窗口左侧的工具栏中的“Data selector”按钮 ,系统将自动在散点轨迹的首、末两端产生数据标识符,如图3的A所示,为了形成对比,先对全段散点轨迹进行拟合,单击主界面中的“Analysis”,在下拉菜单中选择“Fit Linear”,系统将默认根据最小二乘原理自动进行线性回归拟合,画出拟合线,如图3的B所示,并在右下角窗口输出模型的参数估计量及其它重要的统计量;为了分段和保持界面的清晰,先将全段拟合线删除,即选中再按“delete”键,再利用“Data selector”按钮将末端标识符台手动移到第一个拐点,如图3的C,这样就可以进行第一段的拟合。然后,并按全段拟合相同的操作,得出拟合线,如图3的D所示;接下来进行第二段的拟合,同样单击 “Data selector”按钮,手动地将散点轨迹首端的数据标识符移至第二个拐点,如图3的E所示,再进行一次拟合,如图3的F;同理,可以完成第三段的回归拟合,图3的G、H。过程可参考图3,各段回归分析的各项参数均列于表2, 且各项参数估计量均达了统计上的显著水平, 明显优于整个区间的线性回归的结果, 因为从表中的决定系数与P值的变化可知, 在分段中这两个值均有大幅度的优化。这样,就完成本案例的全部分段拟合的有效操作。
图2:绘图对应数据列的选择对话框 |
表2:各段模型及参数估计值
段号 |
模型 |
决定系数R |
样本容量 |
显著水平P |
全段 |
|
0.8950 |
28 |
|
1 |
|
0.98476 |
19 |
|
2 |
|
-0.9763 |
5 |
0.0044 |
3 |
|
0.9919 |
6 |
|
二次曲线段 |
|
0.9332 |
9 |
|
A |
D |
G |
H |
E |
B |
C |
F |
图3:分段拟合过程图序 |
I |
3结语与讨论
众所周知,不同的数据处理软件的功能与特点有一定的差异,即使知名度很高的软件仍有其从未涉足之处,因此在对一特定统计资料进行处理分析时,往往会借助几个不同软件,发挥各自的优势,以保证问题的有效解决或提高操作的效率。文章着重介绍利用Origin系统有效实现分段回归的方法,操作简单而且通俗易懂。为Origin在统计分析领域的应用奠定了一定的基础,同时又对以往有关Origin在统计学、应用数学及其它工程学教科书内容做好很好的补充。
过程中可以发现这种从图形到回归的方法有很多独到之处,首先能清晰展示变量之间的曲线关系和发展态势,为回归拟合辅以轮廓;能避免传统的从数据到回归的方法在确立拐点时的复杂性,直观简便地实现分段回归[4,5];同时在实践中常常无法取得数据资料,而只能收集变量间的关系曲线的图片资料,这种情形下要拟合出回归模型,那从直接数据到回归模型几乎不可能。行之有效的方法则应将曲线矢量化,再进行回归,而曲线矢量化恰恰又Origin系统的又一特点,相关操作可参考文献[6],所以面对仅有图片资料也能利用Origin系统一气呵成地完成分段拟合。最后分段回归不仅是为解决变量间数量关系为目的,在几何分形研究中也有重要价值,如求计盒维数,但一般在应用研究中需计算大量的遍地分形维数,以揭示事物的分形特征,那么利用Origin系统能有效地解决这一实际操作。文中虽然仅以线性分段回归为实例,但并不排除非线性分段拟合的实现,其实线性回归与非线性回归在Origin中的操作的类似的,在确立曲线拐点即文中定义的回归临界点的方法完全一样,只是在选择拟合类型是有细微差异,即在“Analysis”,的下拉菜单中选择“Fit Polynomial”。本案例中可以在第一点拐点左侧拟合成直线,之后拟合成二次曲线,图3的I所示,二次曲线部分拟合参数列于表2。本文主要目的不是探讨分段回归 的数学理论,重点是挖掘和介绍Origin系统在分段回归中的优势,以提高分段回归的实际解决问题的能力与效率。各段回归模型类型的选择取决于操作者对变量间作用机理的深层把握以及对模型精度等其它方面的要求。
参考文献:
[1] 徐海云, 涂雄苓. 海量数据导入与导出 MATLAB的有效方法[J]. 数理统计与管理, 2007,v26(4):649-655.
[2] 郝红伟, 施光凯. Origin6.0实例教程 [M]. 北京:中国电力出版社2002-04:1-3.
[3] 王志宏, 赵爱国. 我国煤炭产量预测[J]. 中国矿业, 2003(11): 5-8.
[4] Hotelling, Harold. Analysis of a complex of statistical variables into principal components[J], Journal of Educational Psychology, 1993(24): 417-441..
[5] 李世玲, 张富堂. 一种新的加归变量选择方法. 计算机应用与软件, 2005, v23(5): 113-115.
[6] 张宗科. 用VB控制Origin实现船舶航行特性曲线的自动绘制. 电脑编程技巧与维护, 2005(2): 81-83.