高维、相依和不完全数据的统计分析(二)

转自:http://i.mtime.com/920665/blog/5653335/

我国的统计学起步较晚。解放前只有以许宝禄先生为代表的少数几位统计学者,他们是四十年代从国外回来的。解放后,特别是在1956年的国家科学发展规划的推动下,统计学有了较大的发展。改革开放以来,统计学有了新的发展,从事统计学研究、应用和教学的队伍壮大了许多,先后成立了四个全国性学术团体,出版了几种专业刊物,北京大学等七所综合性或理工科大学成立了统计系(或概率统计系等),有近百所财经类高校设有统计系或统计专业;统计学的研究水平不断提高,应用范围不断扩大。我国的统计工作者在理论和应用研究方面也取得了丰硕的成果,不少成果达到国际先进、甚至领先水平。这里仅简要列举与该方向有关的成果。由于时间所限,未能全面收集有关情况,定有疏漏和不当之处,敬请原谅。
经典统计学中与高维数据分析直接相关的是多元分析和线性模型的统计分析。早在四、五十年代,这方面的理论研究还处在早期阶段,我国统计学家许宝禄先生获得了一系列开创性研究成果,是国际上公认的奠基人之一。改革开放以来,我国有不少学者从事这方面的研究,成果也很多。例如,中国科学院研究生院陈希孺和中国科学技术大学赵林城比较系统地研究了多元线性回归的LS、和M估计的相合性、渐近正态性和线性表示等大样本性质,在一些情况下得到了或几乎得到了充分必要条件,有的问题得到了精确的阶估计和理想的界限。他们的成果在国际上有较大反响和许多引用,国际著名统计学家、美国科学院院士C.R.Rao等在专著中把他们的主要成果列为6条定理。此外,中国科学院应用数学所方开泰和上海财经大学张尧庭等在椭球总体的多元分析方面,中国科学院系统科学所吴启光和北京理工大学徐兴忠等在多种线性模型估计的容许性和其他统计决策问题方面,北京工业大学王松桂在线性回归的估计方面,以及东北师范大学史宁中在有约束的线性模型方面也都有不少好成果。
比线性模型复杂的多元模型是非线性参数模型、半参数和非参数模型。在这些模型的理论方面我国统计学者也有许多工作。例如,中国科学院系统科学所成平等在研究半参数模型的渐近有效估计方面,陈希孺、赵林城和安徽大学陈桂景等在研究非参数回归、密度估计和非参数判别方面,东南大学韦博成等在用微分几何方法研究非线性(参数)回归方面,以及南京大学王金德在非线性回归估计的渐近性质方面均有一系列成果。在非参数理论的成果中,陈希孺和赵林城彻底解决了关于U统计量分布的非一致收敛速度问题,有关结果被美国《统计科学百科全书》以及美国和前苏联等出版的多本专著引述。
自助法等重抽样方法也是一类非参数方法,主要是用来逼近那些无法从理论上给出的统计量分布及有关的量。北京大学郑忠国及其合作者与美国D.B.Rubin独立提出了一种与自助法功能相似的随机加权法。他们在多种模型下研究了统计量的随机加权逼近,结果表明该类方法无需重抽样也能达到用自助法的效果,在有些情况下还优于自助法。
有关多元统计模型的另一类重要问题是模型的统计诊断,目的是了解实际数据与选用的模型是否吻合。韦博城、人民大学吴喜之以及云南大学王学仁和石磊等在模型和数据的统计诊断方面有许多好成果。云南大学的学者还把他们的成果用于地质探矿的数据分析等实际问题取得成功。解决数据与模型这一对矛盾的另一种途径是使用对模型不敏感的统计方法,即当模型与数据吻合或不太吻合时都能给出比较正确的结论,这就是稳健统计方法。中国科学院系统科学所李国英和张健等在多元位置和散布阵的稳健估计及其性质,位置M估计的崩溃性质等方面也取得了一些好成果。
在多维试验设计方面,中国科学院数学所王元和应用数学所方开泰引进数论方法提出了均匀设计,能用于缺乏使用正交设计条件的情况。该设计方法已在国内的多个实际部门应用,效果良好。这一工作在国际上也受到重视。南开大学张润楚等在研究计算机试验设计方面也有一些好成果。
七十年代中期出现的投影寻踪(projectionpursuit,简称PP)技术是分析高维数据的较好方法,到八十年代初文献中还很少有理论研究。中国科学院系统科学所成平和李国英领导的研究小组自八十年代中开始从事PP方法和理论的研究,构造了一些分析高维数据的新方法,研究了PP统计量的渐近性质和自助(Bootstrap)逼近,获得了一系列重要结果。例如,成平、朱力行和张健研究了多种PP拟合优度统计量尾概率的估计,对有的统计量得到了精确的阶,否定了前人的猜测;李国英和施沛德等对两类应用普遍的PPU和PPL统计量作出了统一处理,研究了它们的渐近分布及其自助逼近;张健和成平给出了一个一般性结果,解决了大部分PP检验的功效问题;李国英和张健等分别用PP技巧构造了几种多元质量控制图,比原有的控制图提高了检测效果。他们的工作曾多次在有关的国际学术会议上作邀请报告,受到国际同行的好评,在国内外文献中引用较多。有些成果还在国内的水文、气象、医学等方面得到了应用,解决了用传统方法难以处理的问题。

 

与相依数据的统计分析关系密切的是时间序列分析。在这方面我国学者也有很好的工作。北京大学江泽培是这方面最资深的学术带头人。改革开放以来,他和他的学生何书元等在多元平稳序列的谱估计方面取得了一系列重要成果。有些成果还被北京大学谢衷洁、程乾生等应用到天文、地质和医学等实际数据的分析,获得了有价值的发现。中国科学院应用数学所安鸿志在时间序列分析中的重对数律,自回归的选元方法及其相容性,以及非线性和条件异方差模型的性质等方面有不少重要成果,有些成果在国际上有较多引用,受到好评。
另一类重要的相依数据问题是统计信号处理。赵林城在信号检测和叠加指数信号的估计及其性质方面有不少好成果,受到国际同行的重视。他提出的一个信号检测准则被外国学者称为有效检测准则,在文献中多次被人引用和仿效。
在我国较早从事不完全数据分析研究的有北京大学陈家鼎和复旦大学郑祖康。他们在删失数据下的分布估计和参数估计理论方面作出了贡献。近年来由于可靠性研究的需要,不完全数据的统计方法和理论取得了很大进展。例如,陈家鼎及其合作者用样本空间排序法对于可靠性中常用的寿命分布和一类增长模型,在多种不完全数据情况下导出了在一定意义下的最优置信限。中国科学院系统科学所戴树森、于丹、李国英等对于常用的寿命分布和不完全数据类型,以及可靠性结构相当一般的系统,给出了利用部件数据对系统可靠度进行综合评估的方法,对部件数据样本量的要求比前人的方法明显减少,而且评估精度也提高了。北大和系统所的工作显著推进了前人的理论结果,在相当程度上解决了中小样本情况下,单部件和系统的可靠性评估问题,很有实用价值,受到国防工业部门的欢迎和赞赏。戴树森、于丹、华东师范大学茆诗松以及上海师范大学费鹤良等研究了不完全数据情况下加速寿命试验中的一些估计理论问题,有些成果已在电子元件筛选中得到应用,取得了较大的经济效益。北京工业大学杨振海等关于无失效数据等可靠性中不完全数据的统计分析也有一些好成果。
近些年,我国还涌现出一批比较优秀的年轻统计学者,在高维、相依和不完全数据的统计分析等方面获得了可喜的成果。比较突出的有北京大学耿直、何书元、施沛德,中国科学院应用数学所朱力行,系统科学所张健、于丹等。其中,耿直关于定性和不完全数据图模型的研究,朱力行关于PP统计量尾概率和逆回归理论的研究,张健关于PP理论、稳健估计与检验的崩溃性质以及非参数回归的研究,何书元关于不完全数据总体分布估计渐近性质的研究,施沛德关于模型选择问题的研究,以及于丹关于中小样本下复杂系统可靠性评定和导弹贮存可靠性的研究及应用均有不少好成果。此外,北京大学蒋建成,北京师范大学崔恒建,安徽大学胡舒合,中国科学院系统科学所石坚和邹国华,应用数学所王启华、周勇和陈敏,北京理工大学徐兴忠,吉林大学宋立新,以及云南大学石磊和陈建宝等也有一些较好的工作。
总之,改革开放以来我国统计学有很大发展,但总的说来,我国的统计学与发达国家相比差距还较大。首先,与我国经济和科技发展对统计学的需求相比,与一个十多亿人口的大国相比,我国统计学的队伍还很小;其次,统计学的应用远没有达到应有的程度。有很多能够应用统计学的行业领域,还不大了解统计学。因此在我国大力发展统计学非常重要。事实上,早在1984年,国务院[国发(1984)7号]文件《关于加强统计工作的决定》就指出“我国要实现工业、农业、科学技术和国防现代化,必须实现统计工作现代化”,“中国科学院要加强数理统计研究机构,要集中一批专门人材,开展统计科学研究,尽快提高我国统计学水平”。笔者深切感到我国统计工作者任重道远。从战略上讲,我们需要大力发展统计教育,培养不同层次的统计学人才,扩大统计学队伍,提高研究水平;还需要在一切能应用统计学的部门与行业普及统计知识,使之成为实际部门的有力工具。这不仅将加速实际领域的发展,而且使我国统计学的发展有更广阔的土壤和更强劲的动力。但这些已超出了本文的范围,这里暂不讨论。

如前所述,现代科学技术的前沿领域和社会经济的重大问题提出了许多高维、相依和不完全等复杂数据的分析处理问题,以下仅就笔者的个人认识,扼要讲述有关这方面的一些值得注意的研究动向。

(1)统计模型
统计模型是对数据内在规律性的数学描述,数据的复杂性必然带来模型的复杂化。以描述变量之间关系的回归分析为例,经典的统计模型是线性回归函数和独立同分布正态误差。由于所研究的客观现象越来越复杂,要求也越来越精细,回归函数已从线性发展到各种非线性回归函数、广义线性、部分线性、比例危险率等半参数回归函数,以及可加、广义可加和完全非参数等非参数回归函数;误差模型也发展到独立不同分布的正态误差和污染误差等参数和半参数模型,独立不同分布的对称误差、相依弱结构误差等半参数和非参数模型。类型的情况在统计学的各个分支都存在。近些年研究较多的统计模型还有:分层模型、多重线性模型、潜马氏链模型、间接可加模型、网络图模型、时空序列模型和条件异方差模型等等。这些模型大多是在研究某类实际问题中提出,后来被推广到更多的领域,成为有一定普遍性的统计模型。还有一种情况,特别是较新领域中的数据,由于我们对该领域所知甚少,只好用半参数甚至非参数模型。近十多年半参数和非参数模型的统计方法和理论有很多讨论。总之,由于人类所研究的问题和现象越来越复杂,所遇到的数据和相应的模型也将越来越复杂。对于实际中出现的各种复杂数据,找出和建立适当的模型,并针对不同的模型研究有效的统计分析、推断方法及其理论是统计学永远要面对的挑战,也是它取之不尽、用之不竭的发展动力。
(2)模型选择、统计诊断和稳健方法
进行统计分析与推断的第一步,就是对手中的数据建立适当的模型。对于一组数据,往往有好多类模型可供选择;在同一类模型中,还要确定变量个数或某种“阶数”,这就是所说的模型选择。然后才是进一步的统计推断,即参数的点估计、区间估计或假设检验等。早期的模型选择主要是线性回归中自变量的选取,方法也局限于最小二乘法导出的统计量和AIC准则等。随着数据和模型的复杂化,模型选择问题更为重要。面对一组数据,特别是一组新领域的复杂数据,往往有数十类模型可供选择。这里最为困难的是选择哪一类模型,其次是在这一类模型中,选择其“阶数”或变量。到目前为止,对前一个问题还极少有讨论。关于后一个问题,虽然取得了许多重要进展,但仍有许多方法和理论问题尚待解决,特别是关于时空序列、高阶马氏链和隐马氏链的定阶,以及广义线性模型、生长曲线模型、含误差的变量和协变量模型(EV模型)中的变量选取等较复杂的模型选择问题。模型选择问题在理论和应用上都很重要,是研究较多且有可能取得突破的研究方向。
统计诊断是研究所选定的模型与数据是否符合,找出明显与模型不符的情况,包括少数“离群点”,对推断结果影响大的“杠杆点”,以及其它不符合模型假定的地方(例如,常用的模型假定有:误差等方差,回归函数为线性等)。稳健方法则是从另一个角度解决模型与数据的关系问题,即研究在模型与数据相符或者不很相符(即少有偏离)的情况,都能给出比较符合实际的推断结果的统计方法。统计诊断和稳健统计方法是在过去的三十多年里发展起来的统计分析方法,由于许多方法计算十分复杂,其发展曾一度减缓。近些年,随着计算机的快速发展和普及,这两个方向又再次受到的重视,对于比较复杂模型(参见前面的(1),(2)),的统计诊断和稳健方法,包括相应的理论问题研究较多。而且,新的数据类型和新的模型不断出现,需要研究新的诊断和稳健方法、算法及理论。
(3)降维技术
一方面由于高维数据分析十分困难,另一方面高维数据中的信息往往主要包含在一个或几个低维结构中,因此降维是分析高维数据的一个重要手段。传统的主成分分析,Fisher判断等都属于降维方法,但它们只适用于有线性结构的简单数据。七十年代中开始的投影寻踪是具有一定普遍意义的较好的降维技术,九十年代初提出的切片逆回归也是一种降维方法。近几年关于投影寻踪和其他降维方法讨论较多。这里有几个难点:(I)怎样针对一类实际问题确定寻找低维结构的准则;(II)如何判断所找到的低维结构是否真实;(III)计算问题,因为真正可用于高维复杂数据的降维方法(例如投影寻踪)计算量都很大,而且往往不能一步到位,需要多次反复。
(4)计算密集型方法
统计量及其分布是进行推断的基础。在许多复杂情况,所需要的统计量没有显表达式,有时即使有也很难计算。对此,往往提出适当的算法借助计算机求出所需要的量。而且,除了少量较简单的参数模型外,无法得到统计量在有限样本情况的精确分布(或某些分布特征),而这是进行统计推断的关健。虽然许多情况有大样本下的渐近分布,但在实际中用它作统计推断精度较差,不能满足要求。由此近二、三十年产生了许多计算密集型方法,以得到所需要的统计量、统计量的近似分布或分布特征,或给出比基于大样本理论精度更高的推断结果。例如EM算法及其各种推广、投影寻踪技术、偏最小二乘法(Partial leastsquare)、自助法、重要抽样和马氏链蒙特卡洛(MCMC)等。其中有些方法,例如,偏最小二乘和MCMC等,首先出现在某个实际领域,后来被统计学家注意,并推广发展成具有一般性的方法。当前,还有一些处理和分析复杂数据的方法,已经在某些实际领域中应用,例如神经网络、机器学习、数据采掘、数据库知识发展和独立成分分析等。一些统计学家已经开始参与这些方法的研究。这应该是一个非常值得重视的领域。

(5)似然方法
在参数模型的统计推断中,似然方法(极大似然估计和似然比检验等)占有十分重要的地位。近二、三十年,参数模型的似然方法有许多发展,出现了拟似然、偏似然、条件似然和惩罚似然等新方法。其中基于近似辅助统计量和条件似然的条件推断尤为引人注目。然而在半参数和非参数模型下,极大似然估计和似然比检验统计量或者不存在,或者很难计算。这一困难近十年左右已有所突破。其中比较突出的是Sieve似然方法和利用各种辅助信息的经验似然方法。在一些相对简单的情况已获得成功,并得到了一些理论成果。但总的说来,这方面的研究还在开始阶段,有许多复杂情况还有待研究。例如,似然方法在半参数和非参数情况,能不能达到简单参数情况的优良性质?怎么才能达到?这些问题均是研究的焦点。
(6)小样本问题与信息融合
在高新技术和国防科技中,由于产品价格和试验费用十分昂贵,在各种环境条件下所获得的试验数据中,能作为来自同总体样本的样本量相当小,而且大部分是不完全数据。在许多复杂问题中,样本量的绝对数也许不算小,但相对于数据的维数,或者参数个数而言,样本量就相当小了。对这样一些问题,经典的精确统计方法大多不适用,而大样本理论的统计推断又精度较差。于是近二、三十年出现了自助法、随机逼近、鞍点逼近和其他高阶渐近逼近的方法。对于较复杂的数据和模型,基于样本量较小的数据本身,给出尽可能精确的统计推断,仍然是一个重要的研究方向。另一方面,在实际问题中除了来自所研究的总体的直接数据之外,还可能有其他一些与之有关的数据,也包含一些有关所研究总体的信息。如何把这些数据充分利用起来,对于小样本问题是十分重要的。贝叶斯分析是融合不同来源信息的较好方法。问题在于如何客观地确定先验分布,即避免先验分布中的主观成分。这就是近些年讨论较多的客观贝叶斯方法。
著名统计学家B. Efron(Statistical Science,13(1998),95-122)认为,信仰(Fiducial)方法有可能在客观贝叶斯分析中起重要作用。信仰方法是由A. R.Fisher于二十世纪三十年代提出,它是在没有先验信息的情况下,对参数给出类似于后验分布的信仰分布。但该方法遇到很多困难,没有发展起来,而被认为是Fisher的一大失误。Efron认为,信仰方法有可能在较复杂的问题中给出较好的近似信仰分布,从而有可能进行客观的贝叶斯分析。显然他把 Bayes推断和 Fiducial推断结合起来了。面对越来越大、越来越难、越来越复杂的实际问题,人们必然需要多种推断方法,以及它们之间合理、有效的结合,并根据不同的实际问题,选用适当的推断原理和方法。这里有许多需要深入研究的基础性问题。
结束语现代科学技术和社会经济中的课题,一般都是交叉性综合性的,要涉及多个学科领域。同样,在其数据的获取和分析这一统计学方面,也不可能只涉及一、两个研究方向。面对各种实际领域中的统计学问题,特别是挑战性强的困难问题,应该有一些统计工作者与实际领域的专家相结合,在解决实际问题的过程中利用统计学的有关最新成果,同时探索新的统计概念、模型、方法和理论。以理论研究为主的统计学者,在关注国际统计学理论发展的同时,也应关心我国实际领域中的统计问题及其进展,提出和解决其中的理论问题。这样,我国的统计学将在与国际接轨的同时,也将逐渐培育起自己的肥沃土壤,为我国的现代化建设和国际统计学的发展都作出应有的贡献。
致谢在本文形成的过程中,曾得陈希孺院士,张尧庭、陈家鼎、茆诗松、王学仁、安鸿志、赵林城和韦博成等教授的帮助,特致衷心的感谢!

你可能感兴趣的:(数据)