什么叫做「数据驱动方法」

在《智能时代》一书中提到了「数据驱动的方法」,我来谈一下我的理解。
人类提升对世界的认识能力的方法就是从现实世界中发现规律,从认识论的角度来说就是从感性认识到理性认识。那么规律如何描述呢,从自然科学的角度来看,人类描述自然规律的方法是用数学公式的方法(因为用数学公式来说比较精确,在人类未掌握很丰富的数学工具的时候,也可以用语言来描述规律,但是之后规律越来越多的采用数学公式),将规律用一个数学公式(或者类似的数学工具)表达,数学公式就是模型(model)或者叫做模式(pattern),所谓的数学建模或者说建模的过程就是从大量的数据发现数量之间关系并且用数学公式的方式体现出来。既然要建模就得有数据啊,那么第一步就是从现实中采集数据,其实采集什么样的数据大家也不知道,总之能尽可能的采集就对了。
从数据如何抽象出模型,其实这个还蛮有技术含量的,我们之前学习数学的时候学的都是现成的函数(模型),其实这些模型不是天上掉下来的,而是人类在长长的历史过程中一点一点的发现的,记得上中学学习到物理中的原子核模型的时候,提到氢原子的谱线模型(里德伯公式)为
这里写图片描述
当时我就觉得这个公式实在是太好看了,那也是我第一次感觉到数学公式的美感,能凭空推出如此完美的公式除了脑袋被上帝摸了一下之外我也想不出其他别的理由了。天才能获得灵感,但是对于我们大多数普通人来说有没有资质平平但是也可以操作的方法呢?有的。有人考虑能否通过将多个不完美但是简单的模型组合起来来近似的替代完美的模型呢?答案是肯定的,从理论上讲,只要有足够代表性的样本(数据),就可以运用数学找到一个或者一组模型的组合使得它和真实的情况非常接近。注意这个方法的前提是具有「足够代表性的数据」。这种方法称为「数据驱动方法」。之所以被称为数据驱动方法是因为它是现有大量的数据,而不是预设模型,然后用很多简单的模型来契合数据(Fit Data)。虽然通过这种方法找到的模型可能和真实模型存在一定的偏差,但是在误差允许的范围内,单从结果上和精确的模型是等效的。当然运气好的话,从数据出发也用可能得到真实的模型,但是并非数据驱动方法的目标。可以看出来数据驱动的方法目标就是近似替代,它甚至不是为了追求真实,仅仅是为了能够说明问题,其实对于大多数人来说能做到这点也很了不起了。
数据驱动方法的意义在于,当我们对一个问题暂时不能用简单而准确(一般真实的原理都是简单而准确的)的方法解决时,我们可以根据以往的历史数据,构造出近似的模型来逼近真实情况,这实际上是用计算量和数据量来换取研究时间。得到的模型虽然和真实情况有偏差但是足以指导实践。而且数据驱动方法有一个特别大的优势,就是能够最大程度的得益于计算机技术的进步。如此一来人类发现真理的速度会越来越快的。

总结一下,
人类认知能力的提高主要来自于发现并掌握世界的规律;
规律往往用数学模型来表达的 ;
数学模型的确定分两步,一步是确定数学模型(狭义的模型),第二步是确定参数 ;
确定数学模型的难度极大,人类想到通过将多个粗糙但是简单模型的组合的方法来逼近真实模型(大概的构想) ;
具体的做法是:先建立一个粗糙的模型,之后用大量的数据来细化数据使得模型不断的契合数据;
这个方法被称之为「数据驱动方法」 ;
它的使用前提是,具有大量的具有代表性的数据,仅仅有大量数据还不够,数据必须具备代表性,在过去,做到这点极难,但是在大数据的普及今天这点比较容易做到。;
这种方法的意义在于,真理的发现是困难而漫长的,但是通过大量的数据和计算来换取研究的时间,得到的结果虽然不完美但是足够指导实践。

你可能感兴趣的:(读书笔记,数学,思维方法,大数据,数据驱动方法)