模型驱动与数据驱动(转载)

https://www.sohu.com/a/277737143_795633?

 


      在统计科学发展的前期,由于没有计算机,不可能应付庞大的数据量,只能在对少量数据的背景分布做出诸如独立同正态分布之类的数学假定后,建立一些假定的数学模型,进行手工计算,并推导出一些由这些模型所得结果的性质,诸如置信区间、假设检验的值无偏性及相合性等。在数据与数学假定相差较远的情况下,人们又利用中心极限定理或各种大样本定理得到当样本量趋于无穷时的一些类似性质。统计的这种发展方式,给统计打上了很深的数学烙印,统计发展的历史痕迹体现在很多方面,特别是流行“模型驱动的研究及教学模式,各统计系的课程大多以数学模型作为课程的名称和主要内容,一些数理统计杂志也喜欢发表没有数据背景的关于数学模型的文章,很多学生毕业后只会推导一些课本上的公式,却不会处理真实数据,一些人对于有穷样本,也假装认为是大样本,并且堂而皇之地用大样本的性质来描述从有穷样本中得到的结论,至于数据是否满足大样本定理的条件,数据样本是不是“大样本等关键问题尽量不谈或少谈。按照模型驱动的研究方式,一些学者不从数据出发,而是想象出一些他们感觉很好的数学模型,由于苦于世界上不存在“适合”他们模型的数据,他们则可能按照自已的需要来模拟一些满足自已需要的数据来说明自己的模型有价值”,这种自欺欺人的做法绝对是不科学的。

        以模型而不是数据为主导的研究方式导致统计在某种程度上成为自我封闭、自我评价的系统,固步自封的后果是,30多年来,统计丢掉了许多属于数据科学的领域,也失去了许多人才,在存在大量现成数学模型无法处理的复杂数据的情况下,计算机领域的研究人员和部分概率论及统计学家开发了许多计算方法,处理了传统统计无法解决的大量问题,诸如人工神经网络、决策树、 boosting、随机森林、支持向量机等大量算法模型的相继出现宣告了传统数学模型主导(如果不是垄断的话)数据分析时代的终结,这些研究最初根本无法刊登在传统统计杂志上,因此大多出现在计算机及各应用领域的杂志上。

        模型驱动的研究方法在前计算机时代有其合理性,但是在计算机快速发展的今天,仍然固守这种研究模式,就不会有前途了。人们在处理数据时,首先寻求现有的方法,当现有方法不能满足他们的需求时,往往会根据数据的特征创造出新的可以计算的方法来满足实际需要,这就是统计科学近年来飞速发展的历程。创造模型的目的是适应现实数据。统计研究应该是由问题或者数据驱动的,而不是由模型驱动的。

        随着时代的进步,各个统计院系现在也开始设置诸如数据挖据、机器学习等课程,统计杂志也开始逐渐重视这些研究,这些算法模型很多都不是用封闭的数学公式来描述的,而是体现在计算机算法或程序上对于结果的风险也不是用假定的分布所得到的p值,而是用没有参加建模训练的测试集的交叉验证的误差来描述的,这些方法发展得很快,不仅因为它们能够更加精确地解决问题,还因为那些不懂统计或概率论的人也能够完全理解结果,这也是某些有“领域垄断欲的传统统计学家不易接受的现实)。现在,无论承认与否,多数统计学家都明白,如果不会计算机编程或者不与编程人员合作,则不会产生任何有意义的成果。

你可能感兴趣的:(模型驱动与数据驱动(转载))