原文首发于我的微信公众号:GeekArtT .
各种数据分析的工具,就像是医生做手术时的各类手术刀,你不应该对工具产生崇拜,要紧的是你运用工具能够做的事情。
Data science作为探索性的领域,其从业者需要重新摆正自己的态度和位置。不是说你掌握了某个工具,例如deep learning,SVM你就特别牛X。怎么理解这个问题呢?仔细考察一下在丛林里开荒和发现奇珍异兽的动物学家将是有帮助的。请问这些动物学家:
-
会因为掌握了瑞士军刀而变得牛X吗?
-
会因为他们拿到了可以自由伸缩的攀岩绳而牛X吗?
-
会因为他们懂得如何制造可以劈开岩石的刀具而牛X吗?!
如果不是的话,那你又凭什么会认为自己掌握了各大机器学习算法、能够重新实现一遍这些算法就非常牛X了呢?
对于探索人员来说,最终目的一定是有所发现。所有的这些工具,无论多么华丽,如果最终你没有做出任何有价值、未知的发现,都将毫无意义。甚至,在这样的情形下,工具越是华丽,你的整个历程越是讽刺。你绝对不会因为可以舞弄稀奇古怪的数学符号或是变化莫测的行业术语而得到探索的嘉奖。可以获得嘉奖的,一定是你有所发现。发现本身才是你做这个data science的根本目的。
可在发现的道路上,我们却走向了相反的方向。面对发展迅速的计算机和它日益强健的计算能力,我们却更加不懂如何去做原创性的探索。
不要浪费了当今计算机和计算库提供给你的巨大便利性。那些出色的计算能力可以帮助你计算太多曾经难以实现的探索工作。你可以轻而易举地同时摆弄上百本书籍里的词句,你可以轻松地在里面做各种你想要知道的统计计算,而这些都只会花费你一点点敲打键盘的时间。
可是,试想在中世纪的时候,各个科学上伟大的巨人无一不是手工计算各种现实中的数据,上至天体运行,下至机械偏移,他们仔细地维持着自己的计算结果,把它们作为自己最重要的研究资料库,因为每一个数字背后都是他们艰辛的苦力与汗水。讽刺的是,到如今计算各种指标、探索各种小细节、获取各种数据都变得不再费力的今天,大家却不再去做计算了?!大家只顾沉迷在计算力所打造的虚拟世界中,毫不关心这些计算力在现实中可以做出的探索的潜力。
有能力却不做,想去做却没有能力,无论是那一种,事情依旧不会被做成。我们现在所面临的问题便是,有着出色的计算能力,却对每一个细小的数据和可计算的细节熟视无睹。为什么?因为它们实在是太容易获得了,容易得来会让人产生质疑,仅仅是做了这些平凡的事情,就会有价值吗?
可是回顾一下科学史,哪一项重要的发现不是由大量的经验累积、大量的经验计算开始的。人是善于发现pattern的动物,人的直觉也是由各种潜在的pattern所构成,而发现pattern的基础,便是大量的经验数据。即便是像“创造”这样复杂而不可预测的过程,也依旧可以通过研习历史,经历各种想法的发展和演变而在脑海里慢慢掌握它的艺术。可是,技术的提高以及数学中证明为王的思路却在慢慢将这一重要的能力削减。
在正统的数学中,证明的重要性是被归结为第一的,无可争辩和替代的。数学家花费大量的时间去做证明,去探究清楚某个命题背后隐藏的故事。把他人或是自己的某个研究结果作为基础,然后凭借严格的逻辑推理和定理应用,逐步将现阶段的结果慢慢扩展开来。这是一种典型的搬砖式的发展方式。
可是对于像拉马努金那样的直觉性数学家的工作风格,正统数学家便不太能够理解了。拉马努金的直觉建立在大量的计算之上,能够通过数页草稿纸的涂抹,而发现一个美妙绝伦的命题。同样可以作为例子的是鬼才物理学家费因曼。费因曼有着出色的物理直觉和各种让人惊叹的浅显易懂的物理解释和洞见。但他很少会提及在他背后所做出的大量计算。甚至,他把计算本身当做是一种乐趣,一遇到问题,便会开始用各种计算去填满眼前任何空白的稿纸。即便是得到了需要的计算结果,他也不会就此停止,而是回过头重新检验自己的计算过程,试图从更深层去理解为什么这个结果是显然的。
这是两种不同的研究风格,其核心在于他们有着不同的侧重点。对于前者来说,重要的是将某个结论证明,想要知道的是这个结论为什么是正确的。至于这个命题或是结论为什么会被提出来,又是在怎样的环境或者考虑下能够被提出来,则完全不关心。对于后者来说,他们的关注点更在于如何发现有价值的命题,即爱因斯坦所说的提出一个好的问题,这是一个探索者真正的核心能力。
而无数科学先辈已经向我们证明,最好的探索与发现,一定是建立在大量的实验与计算之上(事实上,计算是数字的实验,或者说是实验的研究语言)。原因无他,因为人就是经验的动物。他们需要大量的事实去建立直感。没有广泛的计算,就没有办法积累实际的经验,并且,计算本身是把一个粗糙的现象精细化的过程,它能够加深我们对事物的认识与感知。
可是,数学上的仅仅证明为主的想法和科学技术所带来的便利性,在侵蚀这种以“计算和实验”为核心的建立直觉的过程。在这一点上,是可以看到理科生与工科生的一个显著差别的。对于一个数学研究者来说,所有的工作都是可以在头脑中完成,所有的步骤仅仅是在现实抽象后的符号上的推导。对于现实的细节,则完全不予以关心。下意识地,对于生活中的各种细节不会多费心力去做计算、做操作。
而计算机的巨大发展,将每一个计算变得来平庸无奇。这本是为探索发现工作铺平了道路,但却讽刺地让人以为计算不再重要。
数据是现成的,摆弄计算的工具是成熟的,难道就可以因此得出运用它们所做出的工作是平凡的吗?
可人们真的是忽略了历史的教导,忽略了整个科学史的指导。没有广泛的计算和实验作为基础,探索人员的直觉与直感是无法建立和形成的。而没有了直觉做指导,原创性的发现是无法做出的。
或许我们应该重新审视我们自己的PC,看看自己是否正在暴殄天物式地浪费计算能力。又或者,面对这些出色的计算工具、分析工具,你又是否在本末倒置地追求这些工具的华丽以及追求掌握工具名的浮夸,而忘记了真正重要的工作:如何做出卓越的发现。
如果你喜欢我的文章或分享,请长按下面的二维码关注我的微信公众号,谢谢!