科研的格调
《生活大爆炸》(The Big Bang Theory)是个很有意思的美剧,它说的是四个年轻物理学家的故事——或者说是他们的泡妞故事,如果你乐意的话。现在物理学家似乎正在变成令人感兴趣的人群,套用剧中伦纳德(Leonard)的话,简直是“我们是新的阿尔法雄性(we are the new alpha males)”在四位男主角中,最有意思的是谢尔顿·库珀(Sheldon Cooper),我猜别人也会这么想。
谢尔顿非常聪明,而且他处处要告诉别人他非常聪明。物理学家聪明很正常,但谢尔顿还非常博学甚至无所不知,他号称对世界上所有重要的事情都有可应用级别的知识(working knowledge)这种人存在吗?《新京报》曾经就这个问题采访过该剧的物理负责人。答案是有些物理学家就是这么博学。
比如说因为夸克理论获得诺贝尔物理奖的盖尔曼(Murray Gell-Mann)就是这样的人。我认为盖尔曼是谢尔顿的原型。第一,盖尔曼曾长期待在加州理工学院,只不过他的职位是教授而谢尔顿是博士后。第二,盖尔曼非常聪明,而且处处要告诉别人他很聪明。比如他喜欢用外国当地的标准发音来读一个外国人名或地名(好吧,我承认这一点似乎更像剧中的霍华德)。这个逼着别人承认不如自己聪明的毛病使得盖尔曼和谢尔顿一样不受周围人的欢迎。第三,盖尔曼非常博学。比如说,所有物理学家都知道彩虹是怎么回事;很多物理学家知道是笛卡儿第一个科学地解释了彩虹;但如果你想知道古人怎么看彩虹,你得问盖尔曼。盖尔曼会告诉你各个古文明对彩虹的解释。
我甚至觉得谢尔顿的长相也有点盖尔曼的“意思”。我还真找到一张盖尔曼年轻时的照片。
(左边是盖尔曼,右边是谢尔顿)
但本文真正要说的是盖尔曼和谢尔顿的第四个共同点:两人都看不上,甚至可以说看不起,理论物理之外的任何科学。
谢尔顿的姐姐有一次说,她很自豪谢尔顿是个“rocket scientist”。注意这里面有个典故,英文中“rocket science”(火箭科学)是个成语,指任何特别复杂的东西。比如你想说什么东西很简单,就说这个东西不是rocket science.
但谢尔顿认为被当成“rocket scientist”是一种侮辱。他说你还不如说我是金门大桥上的收费员。在谢尔顿看来,理论物理学家比火箭科学家要高级得多。
盖尔曼也是这么想的。在盖尔曼看来,纯粹的理论物理,也就是说专门研究基本粒子相互作用,超弦理论这种理论物理,是最高级的科学。因为这种科学研究的是世界的最基本定律,而其他所有学科只不过是应用这些定律而已。
《费曼的彩虹》这本书生动地形容道,盖尔曼这种纯理论物理学家看其他学科,就如同站在曼哈顿往西看整个美国。新泽西地区相当于其他的理论物理工作,中部相当于实验,而再往西一直到加州,则到处都是中国城之类完全没格调的东西,相当于各种应用科学,比如说半导体之类。
物理学的格调比化学高,就如同福赛尔《格调》说网球的格调比足球高一样。盖尔曼就是这种人。《费曼的彩虹》的作者当初也在加州理工当教员,本来是想做超弦的,办公室就在盖尔曼隔壁。结果他后来改做量子光学,盖尔曼立即打发他去别的楼层办公,把办公室腾出来给自己的研究生用。此书作者还曾经尝试写剧本,立即被自己的研究生导师鄙视,因为他认为好莱坞都是垃圾。剧本的格调还不如小说。
我想看到这里,很多读者要愤怒了。(免责声名:我是做物理的,但我并不是做理论物理的,所以我也不在曼哈顿——如果这可以让你好受一点的话。)
其实这种格调也许并不存在。盖尔曼在加州理工的死对头——费曼——就不赞成这个态度。费曼对所有物理领域都感兴趣,他从来不认为量子光学是比量子色动力学低一等的科学。
其实盖尔曼和费曼对其他学科态度的不同,一个原因是他们的科学理念不同。盖尔曼这一派的物理学家追求逻辑和数学的完美,在他们眼中所有学科是以理论物理为核心的金字塔形。而费曼则有一点实用主义,他最关心的是怎么解释自然现象,而不怎么追求数学上的完美。费曼说,为什么非得追求一个统一理论?也许自然就是给四种力四个理论。我想费曼眼中的科学世界不是金字塔,而是是一个互相平等的网络结构。
但费曼的确认为物理学比小说要难。因为小说的想象不需要负责,而物理的想象需要一个实验来判决。不管你多么喜欢你的理论,跟实验不符就是不行。
实际上,费曼鄙视很多东西。费曼极度鄙视哲学,连他的秘书都知道千万别跟费曼谈哲学。费曼还一度强烈鄙视超弦(但在最后时刻还是跟盖尔曼学了一点超弦)。另外,我们已知的还有费曼鄙视心理学,认为心理学全是扯淡。
我的问题是,既然所有学科中都有“道”,盖尔曼的格调论和费曼的鄙视,是合理的吗?
我认为它们是不客观的,但是有道理的。因为一个人如果对所有东西都感兴趣,他将无所适从。也许要想干好一行,就必须爱这一行。而爱这一行,就意味着“不爱”其他行。所以一个科学家应该学会从心理上“鄙视”自己专业以外的其他学科。
科学本身是客观的,但科学家都是主观的。最好的科学家甚至可能是极度主观的。有爱恨,才是真正的科学家。敢说不,才是真正的科学家。
最后欢迎化学家们给自己找一个充分的理由来鄙视物理学。
喝一口的心理学与喝一瓶的心理学
我有时候特别羡慕“实验心理学家”和“行为经济学家”。他们常常能以非常直观的逻辑,在大学里找一帮学生受试者做一些特别方便的“实验”,写成一篇简明易懂的论文,证明的不过是一个显而易见的结论,然后还能经常发表在《科学》之类的顶级刊物上,并且被媒体和博客大肆报道。相比之下,物理学家们就算投入几百万美元做实验,加上外行根本看不懂的理论推导,结论完全不显然的情况下,也未必能确保一篇PRL(物理评论快报)和15分钟的名望。
比如2007年《科学》上有一篇被报道了无数多次的论文,“Are Women Really More Talkative Than Men?(女人比男人更健谈吗)”研究的问题是人们都说女人话比男人多,多吗?这篇文章的研究方法是在8年的时间跨度内选取了6个大学,每个实验进行4~10天,总共考察了男女共396名大学生,让他们只要是清醒的时候就佩戴一个录音机记录所说的话。这样直接统计的结果是女生平均每天说16215个词,男生每天说15669个词,相差7%,因此女生似乎并不明显比男生唠叨。我对这个研究的评论是如果一个物理学家这样搞科研的话早没工作了。就算给他们八年时间,他们都不知道重点考察中年以上妇女。
但是人们就是喜欢心理学。本文并不是为了抒发怨念,其实我也喜欢心理学——我从来不在博客上谈论自己写的论文,却经常谈论心理学实验。本文要说的是这些心理学实验的一个重大弊端。
最近中文媒体上流传非常广泛的一个心理学实验是德国人做的,说护身符的确能给人带来好运,因为这是一种积极的心理暗示。这个研究的方法是:
在德国科学家进行的一场实验中,数十人被叫来进行一场高尔夫比赛,其中一半人被告知使用的是在多场比赛中给选手带来好运的幸运球,而另一半人则被告知使用的只是普通球。比赛结束后,科学家发现使用“幸运球”的选手的击球入洞率要比使用普通球的选手高出近40%。
首先这是心理实验庸俗化的一个典型例子,因为关于积极心理暗示效应的实验早就汗牛充栋,比如在《怪诞行为学》这本书里就介绍了好几个。其中一个说传统上人们都认为亚洲学生数学好,而女生的数学不好,那么亚洲女生呢?在试验中找一帮亚洲女生分成两组做数学测验。测验前心理暗示其中一组在强调她们是亚洲人;另一组则强调她们是女生。结果果然,第一组的成绩好于第二组。
另一个更有意思的实验则在考试之前向学生卖SoBe饮料(这是一种比较贵的饮料,我喝过,味道倒在其次,瓶子做得挺好),只说这个饮料可能会有效果,但不一定是对脑力有好处(其实没好处)。结果那些拒绝买和花全价买了SoBe的学生在测验中成绩相同,都是15道题平均答对9道,而那些被允许以一个折扣价买了这饮料喝的学生则只答对了6.5道。
据此,我们是否应该佩戴护身符,应该在参加数学考试之前提醒自己是个亚洲人,并且千万别喝减价饮料呢?很可能不是这样的。
这些实验的弊端在于只做一次,而且还是在实验室里。如果让那些受试者每天都来参加这种考试,每天都是用幸运球比赛,积极心理暗示还有用吗?
提姆·哈福德(Tim Harford)在《谁赚走了你的薪水》(The Logic of Life)这本书中介绍了一个在我看来重要得多的实验。在实验室里,受试者们分别扮演雇主和雇员,实验发现如果雇主给雇员比标准工资高一些的工资的话,雇员也会自觉的干比标准要求多一点的活儿。实验结论显然是,意外的涨工资会带来员工更努力工作的善意回报。但这一次经济学家并没有满足于此!
他们决定把实验在生活中再做一次。他们在报纸上刊登广告招来一批工人,然后随机地给其中一些工人比广告上说的更高的工资。一开始似乎验证了实验室的结论,那些获得意外高工资的人的确干的更加卖力——然而这种卖力只持续了不到半天。半天之后,所有的工人都只干他们“该干”的活了。
这个实验使我想起百事可乐与可口可乐之争。这两种可乐的味道非常接近,但如果你仔细品的话,会发现百事可乐更甜一点,而可口可乐略带一点酸味。可口可乐公司曾经做过实验,在不公布品牌的情况下把这两种可乐倒在小杯里,找一帮受试者品尝。结果是大多数人认为百事可乐更好喝。
在实验结果的刺激下可口可乐决定改良配方,使得味道更像百事可乐,结果是惨遭失败!消费者抗议新配方。怀旧因素之外,一个重要原因在于在实验室里喝一口和拿回家去喝一瓶,感觉是两码事。如果只喝一口的话,可能很多人认为汽水比茶好喝。
目前大多数的心理学实验,是“喝一口的心理学”,而不是“喝一瓶的心理学”。佩戴护身符的第一天也许会充满正面的情绪,第二天可能就不好使了,时间长了反而成为累赘,一天不戴可能还会恐慌。所谓“积极心理暗示”,其关键也许就在于让受试者感到新鲜。
那么,如果一个人每天都能想象到一个不同的“积极心理暗示”,总能变着法地鼓励自己,他是否会在长期尺度上比别人做得更好呢?我猜每个人都会有自己的看法,为了把这些个人看法变成无可争议的结论,我们需要的还是,设计得非常合理的心理学实验。从这个角度说实验心理学毕竟还真有可能是一门科学。
医学研究能当真吗?
转基因食品无害。地震不可预测。干旱气候与三峡大坝无关。我们非常关心这些问题,科学家似乎明确地给出了答案,可是仍然有人无所适从。我们应该听科学家的吗?但科学家肯定也会经常说错。有时候他们说手机辐射可以导致脑癌,有时候又说这种效应根本没有足够的证据。有时候他们说大蒜可以降低有害胆固醇,有时候又说大蒜其实不能降低有害胆固醇。在这种情况下,你应该怎么办呢?
(a) 以最权威科学家,比如诺贝尔奖得主或者《自然》上的论文的意见为主。
(b) 科学家中的“主流意见”(如果“主流”真的存在的话)为主。
(c) 以最新发表的意见为主。
(d) 别当真,科学新闻可以当娱乐新闻看。
如果这条新闻说的是医学研究,那么最理性的选择是……(d),别当真。那些写在晚报副刊上的各种所谓健康指南,连看都别看。而那些刊登在主流媒体上,有最新的论文支持的科学新闻,比如说英国某个团队又发现什么东西对儿童的智力有新影响,我们大概可以看,但是看完就可以直接把它忘了。
更进一步,如果这条新闻说的是营养学研究,比如吃某种维生素对身体有某种好处或坏处,那么哪怕是发表在最权威医学期刊上的那些高引用率论文,也应该全部忽略。
说这句话的人叫埃尼迪斯(John P.A. Ioannidis),他是斯坦福大学预防医学研究中心主任。埃尼迪斯说,“ignore them all(全部忽略)”.他攻击的不仅仅是营养学,而是整个医学研究。2005年,埃尼迪斯发表两篇论文,证明大部分医学研究都是错的。这两篇论文在医学界被引用了好几百次,但是没有人说他这个看似无比偏激的结论是错的。甚至没人表示惊讶。所有搞医学研究的科学家都知道这个秘密:医学研究根本不靠谱。
但是这件事一直到2010年底才引起公众的关注。首先是大西洋月刊发表充满愤怒的长文,标题采用英国首相和马克吐温发明的著名句式:“谎言,该死的谎言和医学研究”。时代周刊立即跟进,并把结论进一步精简为“90%的医学研究都是错的”! 《时代周刊》这篇报道说,现在已经有人开始真正认真地重新审视整个医学科研,而且立即发现了几个与我们此前的知识完全相反的结论,比如:
· 没事儿自己检查乳房,不但不会降低乳房癌的死亡率,没准还有坏处;
· 其实科学家并没有足够证据说注射流感疫苗对防治流感有效。
由埃尼迪斯两篇论文引发的这场医学暴动仍在进行之中。2011年一月的新闻周刊报道,又有两个医学常识被干掉了:
· 不仅仅是大蒜,如果服药者本人没有心脏病史的话,就连那些专门的降低胆固醇的药,其实都没什么作用;
· “补钙要加D”纯属扯淡——我们几乎每个人都已经有足够多的维生素D,根本不需要从钙片和善纯片里获得。新的报告说,一般人可以从阳光中(白人每天日照5分钟,有色人种15~20分钟)获得维生素D,而少数青春期女生和老人也许需要通过从食物中补充一点。
所以《新闻周刊》有充分的理由把这篇报道的标题定为“为什么几乎所有你听说的医学都是错的”。
科学新闻常常教育我们要用现代医学的常识去反驳民间偏方,用科学家的论文去反驳普通人的常识,再用欧美科学家的论文去反驳中国科学家的论文。然而埃尼迪斯说欧美科学家的论文其实也不可靠,错误率是90%?民间偏方没准还比这个好点。所以以上这几篇报道大概也有点标题党,我们必须看看埃尼迪斯到底说了什么。
他一篇发表在PLoS Medicine上的文章说,在医学研究中被广泛使用的统计方法,其实是个非常脆弱的体系。如果你的一项研究是考察某种药物对人的健康是否有好处,而你希望能证明有好处的话,你将很容易做到这一点。首先,现在大部分医学科研研究的效应其实都是比较微弱的,因为不微弱的效应别人早就研究完了。其次,什么是对健康有好处?也许一个病人的病情并没有什么明显好转,但因为你希望这个药物有效,你也许会完全无意识的刻意去寻找他好转的证据,你可能会把本来没什么好转的病人当成好转的病人。这就是你的偏见。埃尼迪斯这篇论文其实全是数学,他做了一番计算,说如果这个微弱效应有10%,而你的偏见有30%的话,你的实验得到正确结论的概率只有20%。
科学家是有偏见的。他可能因为拿了医药公司的资助而希望证明一个药物的疗效,他更可能为了能发表有轰动效应的论文而追求惊人的结果。鉴于10%的效应率和30%的偏见率差不多就是一般流行病学研究的水平,我们大概可以说80%的流行病学研究都是错的。根据同样的计算,小规模随机试验的可信性也只有23%。埃尼迪斯这篇文章就是用数学方法证明这种偏见有多可怕。
光玩数学当然不行,批评现实得有真实证据。这正是埃尼迪斯另一篇论文要完成的任务,它发表在权威期刊JAMA上。没有人能把所有医学论文都研究一遍,所以他的做法相当具有戏剧性:他只看1990年到2003年间发表在顶级临床医学期刊上的顶级论文,入选标准是被引用超过1000次。符合这个标准的论文一共有49篇,其中45篇声称发现了某种有效的药物或者疗法。
我们都知道科学结果必须都是可重复的,我们不知道的是有多少科学结果真的被人重复过。这45篇论文虽然都被引用了千次以上,其中只有34篇被重复检验过。
而后人检验的结果是其中7篇的结论是错误的。比如有一篇论文说维生素E对降低男子冠心病风险有好处,有一篇论文说维生素E对降低女子冠心病风险有好处,而后来的大规模随机实验则证明维生素E对降低冠心病风险根本没好处。另有7篇论文被发现是夸大了有效性。也就是说34篇经过检验的论文中的14篇(41%),被发现结论有问题。这45篇最权威的论文中只有20篇接受了并扛过了时间的考验。
顶级论文尚且如此,一般论文又能怎么样呢?真有90%都不可靠吗?我从未发现埃尼迪斯说过“90%的医学研究都错了”这句话,时代周刊的报道的确是标题党。
埃尼迪斯说的不是90%,而是431/432。没有人能彻查所有医学论文,所以埃尼迪斯的做法是选择一个热门领域,彻查这个领域内所有的论文。这个领域是研究男女患各种疾病的风险不同,是不是因为基因的影响。在2007年JAMA(美国医学会杂志)的一篇论文中,埃尼迪斯与合作者找到这个领域的所有77篇论文,然后逐篇分析这些论文处理数据的方法是否足够严谨。这些论文一共提出了432个论断,其中只有60个论断可以称得上是方法严谨。而这60个拿得出手的论断中,曾经被其他研究至少重复验证了两次的,只有一个。
如果我们对正确科学论断的要求是方法严谨,结果至少经过两次检验,那么这个领域的合格率只有1/432。如果我们放宽要求,只要一篇论文不被证明是错的,就算它是好论文,那么发表在最权威期刊上的被引用次数最多的医学论文中,有7/45是坏论文。
这7篇坏论文中的两篇说维生素E可以降低冠心病风险,而事实上,后来2000年《新英格兰医学杂志》上就有文章用超过9000人的严格随机实验证明维生素E根本不能降低冠心病风险,这一结论从此之后再也没被推翻过。那么到底有多少科学家知道这件事儿呢?埃尼迪斯等人曾经专门调查了到底有多少论文还在使用“维生素E降低冠心病风险”这个错误知识,结论是一直到2005年,仍有50%的新发论文还在引用前面那两篇错误的顶级论文,并且以为它们是对的。
如果你现在随便找个中国医生问他维生素E是否对冠心病有好处,我敢打赌他说有好处。我在谷歌搜索“维生素E冠心病”,第一页的结果全是说有好处,它甚至已经作为常识进入各种医学网站。
肯定有人因为看了2000年之前的新闻报道而大吃维生素E来降低冠心病风险。肯定有人还在吃大蒜降胆固醇。肯定有人还在补钙加D。
把学术论文的结论推广为真实世界的真理,有时候是非常危险的事情。因为不理解科学研究的思维方式,导致大多数人对科学有两个重大误解:第一,认为科学研究绝对真理;第二,认为每一项科研都是在生产我们日常决策的答案。真实的科学研究其实一个充满曲折,甚至有时候错进错出的过程。
更重要的是,科学的野心其实比公众设想的小。而恰恰是因为这个原因,科学才有这么强大的力量。很多论文不严谨,甚至很多都是错的,这并不表明科学中没有正确答案,它只是表明得到和判断正确答案并不简单。
科学报道都是用人类传统语言写成的,而科学研究使用的却不是传统的人类语言。所谓“科学方法”,其实是另一套很不一样的思维方式。今天医学研究的悲催现状并不见得就说明科学方法不行。科学方法,是一种超越了人类本能的思维方式。一个简单的问题是我们凭什么相信“维生素E不能降低冠心病风险”这个结论就是对的?因为有些科学方法比另一些科学方法更可信。看新闻不如看论文,看一篇论文不如把多篇论文综合在一起看(称为meta-analysis),而且有时候这么看还是不行。现代社会中的智者,应该掌握这一套思维方式。
科学是成年人玩的东西。我认为抱着谦卑的情绪去“仰望科学”是个错误的态度,正确的视角应该像下棋一样,是俯视。
***
其他医学研究者并没有对Ioannidis揭示的现状无动于衷。有一个成立于1993年的叫做考科蓝协作(Cochrane Collaboration)的国际组织,就正在专门严格审视各种医学研究,并且推出了很多报告,而且他们也采纳了埃尼迪斯提出的审查方法。这个组织特别强调经费只来自于政府,大学和私人捐款,而不拿医药公司的钱。
真空农场中的球形鸡
美剧《生活大爆炸》曾经讲过一个好多观众没听懂的笑话。说有一个农民发现自己养的鸡都不下蛋了,于是他找了一个物理学家帮忙。物理学家做了一番计算之后宣布我已经找到了一个解!但是这个解只对真空农场中的球形鸡有效。这个笑话的意思是物理学家使用了一个过分简化的模型去模拟真实世界。
更有效的模型大概需要考虑在空气中传播的病毒对存在空气的农场中的有下蛋器官的鸡的影响。但不管你使用什么模型,你必须得使用一个模型。任何科学研究中的任何计算都是针对科学家选择的模型,而不是针对“真实世界”本身。
有时候简化的模型已经足够好,比如我们要计算天体运行的轨道,把任何恒星和行星都简化为没有体积的质点就可以了。有时候是不得不简化。比如说如果要模拟全球气候,大概要考虑洋流运动和南北极冰川的影响,那么要不要考虑云的变化?要不要考虑太阳黑子的影响?要不要考虑植物分布的影响?要不要考虑冰岛火山爆发、喜马拉雅山、贝加尔湖、三峡大坝和中国春运的影响?在有限计算能力下不可能都考虑。但世界的复杂性并不是我们必须使用模型的本质原因。
我们必须使用模型的本质原因是,我们对世界的观察是主观的。霍金和蒙洛迪诺(Leonard Mlodinow)在《大设计》这本书里讲了一个金鱼的故事,说意大利蒙扎(Monza)市禁止在弯曲的碗状鱼缸里养金鱼,因为从弯曲的鱼缸往外看会看到一个扭曲了的现实,这对金鱼“太残酷了”。对此霍金提出了一个庄子式的问题:我们又怎么知道我们看到的现实不是扭曲的?金鱼仍然可以对鱼缸外部的世界总结一套物理定律。也许因为坐标系弯曲,金鱼总结的物理定律会比我们总结的要复杂一点,但简单只是个人品位,金鱼的物理学同样正确。
从这个角度说,所有物理定律,乃至所有科学理论,都只不过是主观模型。托勒密的理论说地球静止,太阳绕着地球转;而哥白尼的理论说太阳静止,地球绕着太阳转——这两个模型其实都可以用,只不过其中一个比另一个更好用一点。
物理学革命其实就是用一个模型取代另一个模型。我们可以把力解释成一种波动的场,或者空间的弯曲,或者一堆粒子的来回传递,或者又把各种粒子解释成弦的震动。当物理学家发明这些模型的时候,他们心里想的并不是“真实的力到底是什么东西呢?超弦理论符合我的世界观吗?”这种哲学问题,他们想的是什么模型有效就用什么模型!
也许与模型无关的“现实概念”根本就不存在,霍金把这个思想叫作“依赖模型的现实主义(model-dependent realism)”。这听上去有点像中国人说的“道可道非常道”,又有点像《论语》里面每次有不同的人问孔子“仁”是什么,孔子都给一个“依赖提问者的仁的定义”。但实际上这里面说的是科学这门业务的工作方式,是从来不直接追求那个“最后的,真正的现实”,而只是不停地用不同的模型去模拟现实。
也许有些科学家的确相信绝对真理的存在,但科学研究从来不涉及绝对真理。哲学才研究绝对真理。科学研究的是“有效的真理”,是“有限的真理”。两个古代哲学家坐在那里谈论“天道”,说来说去只能是空对空。科学方法的第一个智慧就是我不直接用心去跟“天道”对话,我做几个实验,总结几条规律,形成一个不求“天道”但求有效的“模型”。
所以当一个科学家说一个真实世界中的什么东西会发生什么情况的时候,他说的实际意思是在他使用的那个模型里,这个东西对应的变量发生了什么状况。他说的是真空农场中的球形鸡。
在所有科学模型中理论物理是最成功的,而且成功到了不可思议的地步。量子电动力学并不是物理学家关于世界的最新模型,它把各种基本粒子都简单地当作球,完全不考虑原子核内部的相互作用,没有引力,但它却是一个相当完美的模型。它只用非常简单的几个方程,就能够描写原子核和引力之外几乎所有现象,而且这个模型无比精确。费曼曾经在一本通俗读物里自豪地写道,量子电动力学计算的电子自旋磁矩是1.00115965246个玻尔磁子,而实验测量的值1.00115965221,这个误差相当于横跨美国东西海岸,计算从波士顿到帕萨迪纳的距离,结果只差一根头发丝那么细。
我们可以无比准确地预言每一次日食,可以拦截导弹,甚至可以用遥控方法把探测器精确地放置在火星表面指定的地点。这些并不完美的物理模型是如此的足够完美,有些人错误地以为科学就应该提供精确的答案。但事实是很多重要问题的模型根本做不到这一点。2008年金融危机给人的印象就是所有正规经济学家都没有预见到。格林斯潘说:“我们都错误判断了这个风险。所有人都没想到——学术界、联储、监管者。”一时之间批评经济学成了时尚,很多人认为经济学根本不能算科学。
我不知道经济学模型算不算科学,但的确有正规经济学家,在不使用阴谋论的情况下,预警过这场金融危机。去年,2500名经济学家投票选出了对这次危机的最好预测:史蒂夫·金(Steve Keen)早在1995年就搞了一套理论模型,并且从2006年开始使用这个模型每月发布预警报告;鲁里埃尔·鲁比尼(Nouriel Roubini)在2005年就指出美国房价会在3年内跌30%;而迪恩·贝克(Dean Baker)则从2002年开始反复说房价是个泡沫。我们可以看到,这些预测是有限的,不论是金融危机的规模还是爆发时间,它们都远远谈不上准确。
无论如何,嘲笑经济学模型是从事“硬科学”的科学家,甚至是所有学者最爱干的事情之一。看完《金融时报》上一个历史学家嘲笑经济学家的文章之后,一个物理学家笑了。他说我看经济学模型还算好的,气候模型还不如经济模型。经济学家至少知道模型里面“经济人”是什么东西,而气象学家根本不知道气候模型里的云和海洋混合(ocean mixing)是怎么回事。
他说的是关于模型的重大问题:如果你根本没搞清楚所有的原理和机制,你做的简化距离真实世界非常遥远,你的模型还有意义吗?物理学家弗里曼·戴森(Freeman Dyson)认为没意义。他说:
我没有气象学位,所以我大概没资格谈论这个话题。可是我也研究过这些气象模型,我知道它们能干什么。这些模型对大气和海洋的流体力学方程可以解得很好,但是它们对云、尘埃、地表和森林中生化过程的描写很差。它们根本谈不上描写我们生活的这个真实世界……这就是为什么搞气象模型的这帮人只不过是自己相信自己的模型而已。
那么IPCC(国际气候变化委员会)怎么评价气象模型呢?在2007年报告的一个FAQ(常见问题解答)中,IPCC表示它对这些模型非常自信。但是在我看来,这份文字写得有点不够意思。IPCC说这些模型的基本原理是建立在动量能量守恒之类的基本物理定律上的,而且还有大量观测事实作为支持。它没说的是模型的“非基本原理”,比如戴森说的那些东西,是怎么处理的,更没说这些非基本原理能起到多大作用。IPCC还说这些模型能够成功地模拟当前气候,而且还成功再现了过去100年的气候变化。没错,但IPCC没说的是这正是那些“大量观测事实”支持的结果,是用这些观测事实调参数凑答案的结果(叫做“parameterization”),这些模型在很大程度上是基于经验的。
其实,调参数没有什么不对。根据“依赖模型的现实主义”这个精神,你怎么就能说基本物理定律不是基于经验的呢?气象学家可能的确不怎么理解云,但难道物理学家就敢说自己真的理解电子吗?所以我认为戴森的批评等于说黑猫肯定不如白猫,并不重要。重要的是气象模型预测未来的能力怎么样。
有一个关于天气预报的笑话是这么讲的。有人打电话到电台问你们每天预报的降雨概率到底是怎么算出来的?主持人回答说我们一共有十个预报员,每天投票预报,如果有3个人认为会下雨,我们就说降雨概率是30%。IPCC预测未来的办法跟这个有点类似。一个最常用的办法,是把各个不同气候模型综合起来取平均值。比如把12个国家的17个研究组使用的24个模型取平均。
下面这张图来自IPCC网站的那个FAQ,其用现有模型去模拟过去100年的温度变化,看看是否符合观测结果。图中杂乱的线是使用14个不同气候模型进行的58次模拟的结果,而单条灰色线则是这些结果的平均值,它与实际观测值(黑线)相当接近。
我们可以仔细想想这个事情。IPCC的这个做法相当于投票选举真理。如果我们对气候的认识是完美的,如果科学家明确知道自己在做什么,那么世界上应该只有一个气候模型。现在这种让大家都算一算然后取个平均值的做法,等于说我们不知道到底哪个是对的,其根本原因在于模型中的物理机制和参数有很多不能确定的地方。而这张图则说明这个做法的效果还不错!
但既然你的模型中有很多参数都是用历史数据拟合出来的,这些模型能够再现历史就不奇怪,最关键的测试还是你能不能预测未来。2007年《科学》上的一篇论文比较了IPCC在1990年对未来气候的预测,与从1990到2006期间的实际观测。图中虚线是IPCC的预测,实线则是观测值。
这是一个非常有意思的结果。尽管我们一再被告知二氧化碳浓度上升主要是人为的,但IPCC对二氧化碳浓度的上升却预测得非常准确(文中解释,这是一个巧合)。它预测得不太准确的是温度上升,它预测得更不准确的则是海平面的上升。但最惊人的是IPCC不是高估了温度和海平面上升,而是低估了。实际情形比IPCC警告我们的更坏。
这张图至少说明在签署京都议定书期间,IPCC的模型不是故意夸大危险来忽悠世人。此图用的都是1990年的旧模型,那么新模型们是否表现得更好呢?一份非正式的研究,把IPCC 2007年的新报告与从2007到现在的实际观测比较,则发现IPCC高估了温度的上升。
所以用模型预测未来是非常困难的事情,越复杂的模型就越困难,而且越细致的未来就越不好预测。我们看到预测海平面上升已经比预测温度上升困难,那么如果有人想进一步预测全球变暖带来的恶劣气候导致多少“气候难民”,我们就可以想见那是不可能准确的。联合国环境规划署曾经在2005年预测到2010年沿海地区将会有50万气候难民,结果到今年人们发现这些地区的人口不减反增。那么联合国网站怎么办?第一,删除原有预测(有人还是保留了一份证据);第二,不解释;第三,50万难民的预测时间现在被改成2020年了。
不要特别相信那些复杂的模型能对未来做出的复杂预测。问题是新闻记者总是比科学家更相信模型。2011年初一份气候预测报告说未来十年温度将上升2.4℃并导致全球粮食短缺,科学家很快发现报告存在严重错误并且立即撤回了报告,可是这时候这个新闻已经被无数媒体广泛报道过了。
2009年,英国女王伊丽莎白质问经济学家说你们就怎么都没预测到这次金融危机呢?经济学家们回信说,经济学这个工作都是各自为战研究具体领域内的小问题的,我们并没有坐在一起对世界经济这个整体发挥“集体想象力(collective imagination)”。换句话说,他们玩的都是小模型,没玩过这么大的。
科学家也是这样,一般情况下不想玩大的。科学家玩模型最大的目的其实是想解决小问题,是想通过模型来发现和证实一些小机制。所有玩模型的科学家都知道自己模型的局限性。可是公众和政客非逼着你预测。如果非得预测大的不可,最好还是用IPCC这种多个模型取平均值的办法,也叫“发挥集体想象力”。