李飞飞教授的自传《The Worlds I See》(我所见的世界)英文版11月出版了, 目前还没看到中文版。
此前对李飞飞教授了解并不多,除了知道她是大名鼎鼎的ImageNet发起人,以及斯坦福SAIL人工智能实验室第一位女性主任。这次读了教授的自传,实话说,超出预期。
没想到一位大科学家的文笔如此之好,教授以女性特有的细腻笔触,将自己事业和生活上的故事娓娓道来,行文之间流露着大学者的淡然,同时又把真实的工作生活经历讲得引人入胜。在阅读过程中,城主不止一次感觉到教授的行文叙事有一种强烈的电影蒙太奇感,工作和生活的线索交织前行,节奏非常好。
更不用多强调的是,这是一位AI大佬亲身讲述的自身科研经历和生活思考,不说文学性,其信息本身就有巨大的价值。
整部自传一共十二章,这里和大家分享一下本城自行翻译整理的三章,讲述了李飞飞踏入研究生直至助理教授阶段,克服种种困难完成ImageNet壮举的那段经历,非常打动人,推荐,脱帽致敬。
最后也是最重要的,听说这本书中文版快要出版了,喜欢的朋友请一定购买正版纸质书支持。
分享的三章是:
第五章:第一道光
第六章:北极星
第七章:一个假设
第五章:第一道光
想象一种存在,它缺乏的感觉如此之多,以至于甚至不能被描述为「黑暗」,因为与之相对应的光的概念尚未被构思出来。想象一个世界,在这个世界里,没有视觉,没有听觉,没有触觉,使得活着的概念不过是一种代谢上的区别。想象一个生物体连最基本的自我意识都缺乏,除了一些机械无情的本能去觅食和繁殖,更不用说更复杂的概念,如身份、社群或更广阔的现实。现在想象所有这些发生在全球范围内——一个充满生物的星球,但尚未意识到自己的存在。
这就是5亿4300万年前覆盖地球大部分地区的原始海洋中生命的本质。按照今天的标准,每一个清醒的时刻都沐浴在感官之中,激发智慧,这些生物如此原始,以至于几乎接近抽象,它们的生活可能被苏格拉底描述为完全未经审视。这是一个真正未被看见的世界,以深水和浅薄的本能为特征。
当然,我们这些遥远祖先的简单性质,鉴于他们所处时代的环境,是自然而然的。他们居住在一个稀疏的水生空间中,即使是对食物的竞争也是一种被动的事务。在三叶虫出现之前的生物,几乎只能依靠偶然来偶遇它们的猎物,而猎物采取同样漫无目的的措施来避开它们的捕食者——盲目的运气——只有当下一顿饭如此接近以至于吃掉它几乎是不由自主的。然而,这种感官剥夺的影响是深远的。没有东西可以看,听,或触摸,反过来,这些早期生命形式也就没有什么可以思考的。由于与我们在日常生活中认为理所当然的外部现实没有联系,它们被如此彻底地剥夺了刺激,以至于它们根本没有大脑。毕竟,大脑不过是一种有机信息处理系统——在一个缺乏感官输入的生物体中,因而无法收集关于那个世界的信息,这几乎是不必要的。
真正想象这样一个生物的内在生活几乎是不可能的,但尝试这样做可以有所启发。这提醒我们,我们从未知晓过没有某种感官连接到外部世界的存在,即使是在子宫中,我们也不能简单地从这种意识中退后来思考另一种可能性。毕竟,思想不就是对刺激的反应,无论是直接的还是间接的吗?即使是我们最抽象的思考——即使是像心算这样短暂的事情——不也是建立在通过多年体验在物理空间中导航所获得的推理基础上的吗?不管我们的思想有多复杂,其中的大部分都可以最终追溯到来自它们边界之外的某种干扰。
然后,在一个如此短暂而又如此变革性的时期,以至于进化生物学家至今仍对其感到困惑,世界颠倒了。生命的复杂性爆炸性增长——据估计,进化速度加快到所有后续时代的四倍——激发了前所未有的竞争氛围。这是一场持续的争夺统治权的战斗,每一代新生命都在生存挑战加剧的压力下被迫进行微小的适应。在日益敌对的世界中,身体变得坚硬,以脆弱的防御性外骨骼加固软组织,并发展出攻击性特征,如牙齿、下颚和爪子。
现在被称为寒武纪大爆发的这一事件,是进化秩序的猛烈洗牌。尽管它构成了地球生命史上一个关键的篇章——也许是最重要的篇章——但其确切原因尚未确定。有些人认为它是由气候的突然变化触发的,而其他人则推测是海洋酸度的历史性转变。然而,动物学家安德鲁·帕克(Andrew Parker)看到了不同的东西,尽管许多生物学家对他的假设持怀疑态度,但它深刻影响了我对人工智能的思考。根据帕克的说法,引发寒武纪大爆发的导火索不是外来力量,而是内在力量,他认为是单一能力的出现:光敏感性,或现代眼睛的基础。
这种新兴感官的核心是一类蛋白质,称为「视蛋白」,它们展现出独特的特性,例如在吸收光子时改变形状——本质上是对光照的物理反应——并以「离子通道」的形式连接在一起,将该反应转化为生物电信号,可以在身体其他部位传输。
与今天眼睛的惊人复杂性相比,这些早期的发展虽然简单,但它们提供了一个进化的立足点,激发了快速的上升。下一步是在光敏感区域周围形成一个浅凹槽,使得不仅能够辨别附近光源的亮度,还能辨别其方向。进一步的进化迭代使这个凹槽的深度和狭窄度增加,最终形成了一个类似针孔相机的孔径。
最早在公元前400年左右的中国哲学家墨子的著作中描述,后来亚里士多德也独立观察到的针孔相机,是对暗箱效应的简单利用,这是一种自然现象,在这种现象中,通过一个小孔过滤的光在室内投射出外部世界的清晰图像。孔径显著增加了光敏感性,将视觉体验从简单的光感知扩展到整个场景的吸收。
最后,随着透镜的出现,现代视觉的基础就完成了,透镜增加了进入眼睛的光线的数量和清晰度。透镜究竟是如何形成的仍然是一个有争议的话题。
关于透镜的起源有许多猜测,其中许多假设都集中在这样一个观点上:它是从一个原本与视觉无关的纯粹保护性结构演化而来的。不过,无论其确切起源如何,透镜在进化记录中一次又一次地出现,独立地在所有生物门类中发展。它很快就形成了一个精致透明的表面,在世代间灵活适应,探索了极其广泛的光学特性,从而迅速加速了眼睛的进化。
感光性是地球生命史上的一个转折点。通过简单地让光线进入——无论多么微弱或无形——我们的进化祖先首次认识到,存在着超越自身之外的东西。更紧迫的是,他们看到自己正处于一场生存斗争中,而且可能有不止一种结果。他们开始觉醒于一个充满威胁和机遇的恶劣环境中,资源竞争日益激烈,他们自己的行动意味着吃或被吃之间的差别。
光的感知是进化军备竞赛中的第一枪,即使是最微小的优势——一点点深度的提升或几乎察觉不到的视敏度增加——都能将幸运的拥有者及其后代推向永恒寻找食物、庇护所和合适伴侣的竞争前列。这些微小的竞争优势是进化压力的游乐场,通过变异后变异不断迭代,过程中对生态系统产生了近乎即时的影响。
当然,这些变化中的大多数没有任何作用,有些甚至是有害的。但那些即使是微小优势的变化,可以成为破坏性变化的引擎,颠覆自然秩序,在一阵动荡中定下新的基线,更大的能力将很快在此基础上建立起来。随着世代的流逝,这一过程加快了,在只有大约一千万年的时间里——帕克讽刺地称之为进化的「一眨眼」——地球上的生命焕然一新。
在这种竞争动态中起到调节作用的是感官意识与行动能力之间的关系。即使是最早期的视觉形式也传达了关于生物周围环境的信息,这些信息不仅指导了它的行为,而且以前所未有的紧迫性驱动了它。越来越多,饥饿的捕食者被赋予了定位食物的能力,而不仅仅是等待食物的到来,甚至采取主动步骤去追逐它。反过来,潜在的猎物利用自己初步的意识进行回避动作。
很快,这些生物创新的火花绽放成一场集体舞蹈,随着生命分类的扩展,权力的平衡在新纪元的战斗中来回摇摆。今天,化石记录清楚地展示了这一狂热时期自然选择的成果;证据表明,仅三叶虫的进化就在寒武纪末期达到顶峰,数以万计的物种遍布十个目。
进一步复杂化这一画面的是触觉的同时出现,它很快与不断发展的视觉感觉形成了互补的平衡。与早期的光敏感性一样,原始神经末梢在生物体表面扫过,也传递了触觉信号。
这些神经细胞增长并相互连接,形成了所谓的「神经网」,这是中央神经系统的分散前身,最终将特征更高级生命形式。神经网简单但强大,是生物电系统,将运动和感官功能融合为一个适合基本任务的单一反应设计,如响应物理攻击和寻找食物。尽管原始,但神经网是一种进化上便捷的方式,以跟上竞争日益激烈的世界,甚至在今天,特别是在某些水生生物如某些水母中仍然可以找到。
但仅仅连接眼睛、神经末梢和肢体是不够的,特别是当这些眼睛进化出更广泛、更细腻的世界观,而这些肢体发展出新的自由度和更深层次的表达能力时。在复杂环境中的有效行动需要的不仅仅是反射,这又提出了另一个适应挑战,促进了在生物看到和感觉到的东西与它如何反应之间的日益复杂的中间步骤的发展。
随着感官提供的信息深度和数量的增长,生物处理这些信息的工具也受到了增长的压力——类似于今天对越来越复杂的计算设备的需求,以管理现代世界中发现的数据过剩。结果是一个中央处理枢纽,用于处理日益增长的神经系统的复杂进出,其组件被压缩得越来越密集,形成了我们现在称为大脑的器官。
因此,大脑不是来自内在某种神秘智慧火花的产物,而是对外部世界越来越清晰、越来越混乱的图像的反应,通过感官向内部延伸。感知我们周围的环境鼓励我们发展一种整合、分析并最终理解那种感知的机制。而视觉无疑是其最生动的组成部分。
这场戏剧在这些新觉醒的生物中的第一批走上旱地时达到了更高的高度,它们从波涛中出现,发现了一个陌生的景观,在这里,移动的基本原理是不熟悉的,需要一个全新的范式。例如,移动不再是毫不费力和全方位的,而是受限于平面表面,并受到重力和摩擦等物理力的干扰。
另一方面,视野的范围被极大地扩展了,因为海洋表面上方未受阻碍的大气允许了比深海的幽闭黑暗更广阔的视野。世界不再是一个模糊的液体球体,而是一个开阔的视野,从海岸线的边缘到山峰的顶峰,甚至更远的地方,都洋溢着明亮和清晰。地平线已经从几英寸增长到数英里,这些早期陆地居民的思想被挑战着相应地扩展。这对规划的概念产生了特别深远的影响,因为行动现在可以在更广阔的范围内展开,同时还要处理更多的不确定性。随着视野的范围和深度的扩展,思维不得不适应,发展出更强的智力能力,逐渐融入了因果关系的意识、时间的流逝,甚至是操纵环境本身的效应。这不仅为强大的捕食者和敏捷的猎物铺平了道路,也为真正的智慧——以及我们今天所知的人类的基础——奠定了基石。
数亿年后的今天,我们不禁对这一进化转折点所产生的世界印象深刻。数千年的文明见证了我们的物种从灵长类动物发展到游牧部落,再到农业社区,工业化城市,最终成为技术、信息处理的超级大国。
即使到现在,这一惊人的进程仍然与我们对世界的感官连接密不可分。尽管在很大程度上得到了技术的帮助,从我们口袋里的移动设备到地球轨道上的卫星,我们仍然依赖于与日常现实的连接来导航我们的生活。
恰当的是,始于化石记录的东西已经影响到我们自己的文化记录。艺术史见证了视觉的首要性——以及我们在几个世纪的过程中对其细微差别日益增长的欣赏,从预示着新交流形式黎明的洞穴壁画,到文艺复兴期间创意的爆发,再到今天的摄影、电影、电视,甚至是视频游戏。
我们可以在卡拉瓦乔的强烈对比和弗美尔与佐恩的柔和阴影之间,看到视觉理解的齿轮转动。我们可以超越现实主义,用梵高的图标学和卡洛的风格化肖像画提炼日常生活。我们甚至可以在像奥基夫和抽象表现主义者母威尔和罗斯科这样的现代主义者相对晦涩的陈述中感受到它的存在。无论是现实主义还是概念主义,感伤或政治,艺术利用那数亿年来艰难进化的成果,停留在通过个体的眼睛——因此,是个体的感性——解读世界的纯粹喜悦上。
「所以,飞飞!成为大学毕业生的感觉怎么样?嗯,差不多了。」
珍已经清理了我们的晚餐盘子,并切开了她放在柜台上冷却的一盘布朗尼。这个甜点在我近四年前第一次访问萨贝拉家时成了一个仪式;那是我第一次难忘的接触到美国甜点,我尝了一口后脸上的表情让珍非常高兴,她坚持每次我回来都要提供布朗尼。事实上它是一个简单的商店买的混合物并不重要。就我而言,她的布朗尼是奢侈的顶峰。
「非常令人兴奋。但我没想到接下来要做的选择会这么难。」
「你有没有再考虑我们谈过的那些选项?研究生院?工作?或许先旅行一下?」萨贝拉先生问道。
「给她一点时间,鲍勃!」珍一边笑着一边端上我们的甜点。
「不,不,没关系。实际上,这是我一直在思考的。」
那是1999年,我在普林斯顿的时光即将结束。我再次面临着科学抱负和生活现实之间的选择,随着研究生院的诱惑与开始职业生涯的压力相冲突。而且随着互联网热潮的全面兴起,这确实是一个真正的难题:金融界急于招募任何具有数字头脑和来自正确学校的高级学位的人,甚至像我这样的物理书呆子也成了华尔街各家公司轮番招募的对象。我被高盛、美林和其他可以想象其名字刻在庄严大理石板上的公司所追求。他们提供了一切:福利、领导机会、令人瞠目结舌的起薪,当然还有真正的健康保险。他们承诺解除我们的债务,结束干洗的辛劳,并在我母亲健康状况恶化的情况下为我的家庭提供安全保障。作为回报,他们要求的只是我放弃科学。
在反复思考了将近一个星期后,我终于在干洗店的一个安静时刻向母亲提起了这个话题。我们处于通常的位置:她坐在缝纫机前,几根别针夹在嘴唇间,一只眼睛专注地审视着她的工作,而我就在她旁边,扮演着裁缝助手的角色,拆开她正准备加长的一条裤子的缝线。
「妈妈,我在考虑我的选择。我接受了这些……『公司』的面试,我想你叫他们这个?大华尔街的类型。我必须承认,他们很诱人。」
「大……华尔街的类型?」
我意识到我已经超出了她对美国文化行话的熟悉范围。
「你知道的,股票和交易。投资。那种事情。显然我有很多要学,但我认为如果我真的下定决心,这是我能做的。」
「嗯,」她平淡地回答。「那是你想要的吗?」
「嗯,我的意思是……光是薪水就会改变我们的生活,而且——」
「飞飞,那是你想要的吗?」
「你知道我想要什么,妈妈。我想成为一名科学家。」
「那我们还在谈什么?」我的母亲总有办法迅速切断我含糊其辞的话,快到我需要一秒钟才能意识到。仅仅三步就将我困住。我要去读研究生了。
普林斯顿的教授们常说,研究生学习不仅仅是另一个学术里程碑,而是一个转折点,代表着从学生到像真正的科学家的第一次过渡,将激情转化为旅程,将亲和力转化为身份,将教育锤炼成职业、声誉和生活的基础。这是一个鼓舞人心的想法,它澄清了我面临的问题,但也使问题变得更加令人困扰。我知道我想成为一名科学家,但是什么样的科学家?确切的目的是什么?我怎么知道?
我在加州大学伯克利分校的经历让智能的神秘性变得生动起来,并向我展示了对视觉的更深入理解可能是解开它的关键。然而,从这个认识中延伸出两条道路:一条是神经科学的,承诺对大脑能力的更深入洞察;另一条是计算机的,在这条道路上,工程学的基础可以应用于建模,甚至可能复制那些能力。
我决定追求两者。
神经科学和计算研究的结合,在当时的硕士项目中至少是不寻常的搭配。尽管需要一些脚本工作来追踪它们,但还是有少数机构可以容纳它。事实上,幸运的是,世界上排名最高的两所学校正好提供了我所寻找的项目。
第一个是斯坦福的双轨项目,将神经科学与电气工程相结合,由在这两个领域都有丰富经验的罕见学者大卫·希格教授领导。希格的课程每一个细节似乎都为我量身定做,只有一个不便的例外:他已经完成了在学校的最后一年,没有他,项目将不会继续。将斯坦福从列表中划掉,我转向了麻省理工学院的另一个项目,这个项目与我的兴趣更加吻合。它是托马索·波吉奥博士的心血之作,他是一个相对晦涩的领域「计算机视觉」第一代研究者之一。即使在那时,波吉奥的工作对我来说也是令人印象深刻的,而且随着我意识到它的前瞻性,我的钦佩之情只增不减。他直接从大脑的架构中汲取灵感,构建了一系列被称为「连接主义模型」的算法——与神经网络类似的密集交织信息处理系统——来识别图像的内容。
然而,我还有另一个选择需要考虑:加州理工学院,更常被称为Caltech。尽管这所学校有着自己的悠久历史和与NASA的辉煌联系,通过其世界著名的喷气推进实验室,但不可否认的是,在排名方面它是弱者。斯坦福和麻省理工学院是世界上最负盛名的学术机构之一,很难想象拒绝它们中的任何一个——更不用说两个——的录取通知。但是,当谈到与我的英雄们的联系时,Caltech的表现远远超出了它的重量级,费曼、米利肯,甚至爱因斯坦本人都曾在那里讲课多年。至少,我无法抗拒去参观的机会。
从我踏上帕萨迪纳的那一刻起,很明显Caltech在气候方面占有优势。这是我第一次去南加州,那里的天气名副其实的阳光明媚,干燥的热气感觉像是从新泽西的潮湿中立即找到了避难所。我也被它的上镜魅力所打动,从四面八方盛开的花朵到慵懒晒太阳的乌龟池塘。麻省理工学院和斯坦福在学术上无可挑剔,但这个地方感觉像天堂。
尽管校园很小——甚至比本身就被认为很小的普林斯顿还要小——但我被Caltech的活力所淹没。五彩缤纷、通风的西班牙殖民地建筑在我在母校那些类似大教堂的沉重建筑中度过多年之后,感觉像是另一个世界。而与物理相关的观光机会无穷无尽。我立刻发现了爱因斯坦骑自行车被著名拍照的地点,随意地经过了米利肯图书馆,偶然发现了费曼传奇讲座的会场。
我在Caltech的参观中看到和感受到的一切都表明这是我应该去的地方。虽然这听起来可能微不足道,但我不能假装逃离东北雪暴多年的颤抖不是一个卖点。但是,当我遇到我将要向他们学习的人时,作为在那里学习的倾向变成了确定。
我的第一个未来导师是皮特罗·佩罗纳,他散发着意大利魅力,对跨学科研究没有界限感;他位于电气工程系,但热爱认知科学,并与我分享将两者融合的愿望。即使是在交谈中,他的兴趣也让我觉得从我们第一次互动起就异常全面。
「出于好奇,飞飞,你觉得墙上的那幅画作怎么样?」
皮特罗指向一个装裱着大胆原色的海报,上面被不规则间隔的正交线分成方块和矩形。我在普林斯顿上了几堂艺术课,很兴奋地认出它是蒙德里安的作品。
「我一直喜欢他的作品,」皮特罗继续说。「几何图形的简洁总是让我停下来思考。」
「具体思考什么?」我问。
「是否有一些规则在指导它。或者至少有能力解释它。」
「规则?你是说……像是算法?」他微笑着,然后继续说:「你不好奇吗?如果你测量蒙德里安的每一幅画作的比例,可能会发现某种模式出现,那不是很有趣吗?」
我回以微笑。我说不准他有多认真——我几乎可以肯定他是在和我开玩笑——但我喜欢他甚至花时间去构思这样的想法。聪明、爱冒险,又有点傻气,三者兼具。我觉得我这辈子都在等待遇见这样的思考者。
第二个人是计算神经科学家克里斯托夫·科赫。就像我和皮特罗一样,我在第一天就看到了克里斯托夫身上每个优秀科学家的标志:无限的想象力,以及面对这种想象力自然寻求的挑战时的无畏。他在生物物理学方面成就卓越,但他不断自我革新的记录给我留下了深刻印象。像佩罗纳一样,他渴望模糊学科之间的界限,并鼓励我也这样做。他来自物理学背景,这是我们共同的经历,也是波焦的前学生。但我在第一次会面中了解到,一种深刻的哲学热情已经缠绕在他的思维周围,并主导了我们的第一次对话。
「飞飞,你有没有想过如何向一个色盲患者解释颜色?你会如何用言语描述看到红色的体验?」
嗯……我还没有。
「我们对颜色的熟悉似乎并没有转化为描述它的能力,这不是很奇怪吗?我们真的只能提及它;当我说‘蓝色’或‘红色’时,你可能知道我的意思,但那只是因为你自己已经见过这些颜色。我的话只是在唤起你的记忆;它们并没有传达新的信息。」
这确实很发人深省。
「所以,当你想象某个未来的一代人完全理解视觉是如何工作的,你认为他们的掌握会包括能够,比如说,从基本原理描述红色的质感吗?」我思考了一会儿才回答。
「嗯……嗯,如果你真的指的是‘完全’理解的话,那不是必须的吗?」
「这是一个完全合理的回答。但它预设了可以在还原主义的解释中找到这种体验的解释。如果,不知怎的,没有呢?那又该怎么办?我们该如何处理这种矛盾?视觉可能是一个复杂的现象——也许是最复杂的之一——但它仍然是一个物理过程:物质按照物理定律行为。然而,主观上,我们的体验不是感觉非物质的吗?为什么看到红色会有任何主观的感觉?」
这些问题我以前都没有考虑过,他对它们的固执告诉了我一切我需要知道的关于他挑战我的能力。
他们俩是一对有趣的搭档。他们都很高,看起来年龄相仿——我估计他们都在四十多岁——但体型对比鲜明,皮特罗更结实一些,克里斯托夫相当瘦长。两人都有浓重的口音——分别是意大利和德国口音——但他们说话时的幽默感和随和的自信缓和了他们的强度。尽管皮特罗看起来像学者,穿着塞进裤子的纽扣衬衫和米色的多克斯裤,克里斯托夫却以一身极具冲击力的华丽服饰为傲,从鲜艳的荧光衬衫到染成漫画书颜色的头发,如绿色和紫色。
然而,他们共有的——而且是以惊人的程度——是一种只能用欢快来形容的好奇心,他们所说的一切都充满了感染力的活力。他们毫不犹豫,甚至没有一丝自我意识地提出关于复杂主题的深入问题,仿佛生命中最深刻的奥秘不过是一次对话之遥。特别是克里斯托夫,他经常被自己的思想所吸引,以至于他更喜欢在独白中探索它们,而不是和我交谈,即使是一对一的对话。但他的全神贯注来自于一种天真,而不是疏远,就像一个孩子无法自拔地被白日梦分心。这让我想起了我父亲的心不在焉,我觉得这很迷人。
在经历了多年的自我怀疑,努力学习第二语言,并因此变得有些戒备之后,我会被这样强烈的个性所吸引,这真是奇怪。但正如我和萨贝拉先生发现的那样,对科学的共同热爱可以让我感觉自己是任何人的同行,即使只是在一次友好的聊天中。当我发现自己与像皮特罗和克里斯托夫这样的人对话时,我所知道的世界几乎变得寂静无声,仿佛我们的想法本身就在交谈,不受我们的语言、地位或年龄的阻碍。他们是一种新型的榜样:不仅成功移民,而且作为科学家取得了成功。
我访问加州理工学院是我一生中最难忘的下午之一。他们是智力巨人,能够简单地与他们交谈几个小时就是一种荣幸,更不用说考虑成为他们的学生的机会了。在我的返程航班起飞之前,我的决定就已经做出了。
鉴于其演变的范围和复杂性,人类视觉能力已经挑战了几十年的自动化尝试。但如果这一切改变了呢?如果我们能够与我们的机器分享类似人类的世界意识,拥有它们的自动化速度和不知疲倦的精确性呢?想象一下,无人机甚至卫星飞越森林、冰川和海岸线,对环境健康进行全球范围内的专家评估。想象一下,智能非人类助手帮助视力受损者应对任何复杂的环境,就像人类助手一样。想象一下,通过机器人第一响应者使搜救更安全,它们将急救医疗技术人员或消防员的判断与机器的耐力和韧性相结合,或者自动化医疗诊断将专家的洞察力通过移动设备带给全世界的患者。
数字世界中也充满了机会。经过一百多年的视觉媒体发展,包括摄影、电影、新闻和电视,图像消费已成为现代生活的一个固定部分。但与文本和数字数据不同,后者自计算机问世之初就可以被搜索,即使是对图像进行粗略的搜索也仍然是一项手动工作,需要耗费人力的时间——往往还有工资。视觉智能机器如何帮助我们理解早已超出手动整理希望的集体数据负担?这样的可能性自该领域最早期以来就一直吸引着人工智能研究者。然而他们很快意识到的是——而且每一代人都只是确认了这一点——视觉理解是一个惊人复杂性的挑战,从数据本身开始。因为数字图像以像素的形式存储——即以数字编码的单个颜色点——在机器看来,它不过是一个长长的整数列表。要像人类那样看到图像,以人、地点和事物等有意义的概念,算法必须筛选这个列表并识别出某种相对应的数字模式。
不幸的是,即使是为简单的概念如直线或几何形状定义这些模式也是困难的。对于像人脸这样有机和多变的东西——在其所有颜色和比例中,以及在无限范围的角度、光照条件和背景下——要做到这一点就更加复杂了。
而且这个难题从那里只会变得更深。例如,究竟在哪里划定界限,将被动的看的行为与更深层次的理解的行为区分开来?纯粹的感知体验——由边缘和纹理赋予形态的色块——多久会被我们赋予这些形状意义的能力所理解,甚至在我们有时间意识到我们所看到的东西之前?很快就变得明确,两者是无法分离的;看就是理解,使得这个挑战既是智力上的,也是感官上的。因此,视觉不仅仅是我们智力的一种应用。实际上,它与我们的智力同义。
这就是视觉的魔力。它是一种如此精细调校的技能,尽管我们通过仅仅落在我们眼睛表面的光来看世界,但我们从这光中得到的东西扩展到填满我们整个体验的全部。这种从感官输入到健全、可行知识的几乎是奇迹般的转换,是我们大脑最令人印象深刻的能力之一。仅这项任务的计算成本就远远超出了即使是仓库大小的超级计算机所能承担的,所有这些都是由一个湿润的、有机的、直径大约五英寸的肉块提供的。而它的概念深度继续让学术界的杰出人物感到谦卑。
视觉之谜远不止于理解我们如何看世界。它不仅仅是关于颜色或形状的问题,也不仅仅是在越来越大的规模上进行数字运算的问题。它是对我们认知核心的现象的调查,我们是谁以及我们是什么,从生物学上、人际关系上和文化上涌现出来。它是通往我们体验最基础层面的旅程。很多时候,看就是知道。因此,理解我们如何看,就是理解我们自己。
我的研究生生涯始于购买一本特别大的教科书。它在我入学前一年出版,使得其内容几乎和它的装订一样新鲜。它又重又尖锐,第一次打开时清晰地发出了裂开的声音。每次看到它的封面,我都很兴奋,它将我学术旅程的每一线索编织成一个单一的实物。
它的标题是《视觉科学》,这两个词似乎是专门挑选来描述我自从加州大学伯克利分校的实验以来一直试图追随的道路。稍低一些的地方,用斜体字,它的副标题进一步预见了我的好奇心:从光子到现象学。在这两者之上,梵高的《星夜》的全幅插图几乎占据了其表面的三分之二。这是一部密集而全面的作品,注定要成为未来几十年的标准。我想学习它所能教给我的一切。
自那个在黑暗实验室中改变生活的时刻以来已经过去了两年——那些噼里啪啦和呼啸的声音让我首次瞥见了除了我自己之外的其他心灵的内在运作。两年的追求才刚刚开始。我对工程学的艺术感到好奇和挑战,但我不想成为一名工程师。尽管我被神经科学的奥秘所吸引,但我不想成为一名神经科学家。我想在不受这两者限制的同时借鉴它们。
我的时机再好不过了,即使这不过是偶然。我还不知道,但视觉研究是人工智能本身的一个分支——在流亡中的众多社区之一,分裂并被迫离开曾经团结他们的旗帜,现在已经进入另一个低迷期的十年。像神经网络和专家系统这样曾经令人兴奋的前景的消退带来了另一轮的疏远,随着初创公司关闭大门和学术兴趣的消退。这是另一个人工智能的寒冬,我正处于其中。但解冻正在迅速到来。
第六章:北极星
帕萨迪纳的黎明微光正悄然爬升至地平线,投射出一幅我已经开始辨认为独特加州风格的温暖色彩调。它呼唤着人们走出户外,忽视一天的义务,这是多么诱人,但没有任何天空的蓝色足以与发现的承诺竞争。今天是我准备了数月的新实验的第一天,它在地下等待着我。
我们的工作将在科赫实验室的心理物理学部分进行,这是一个隐藏在加州理工学院日晒草坪和自行车道下方的阴暗地下世界。这里没有自然光线,通常也被剥夺了人造光线,是一个近乎完美的隔离之地:三个相同的隔间,由遮光帘分隔,每个足够大以隔绝单个坐着的占用者的感官。
一旦进入,我们的受试者将一只手放在鼠标上,另一只手放在键盘上,凝视着黑暗。经过一段短暂的平静后,显示器会亮起,显示一系列如此无序的图像,它们似乎是由达达主义者策划的:字母排列得像字母汤;随机、不连贯场景的照片;突然的彩色噪声闪光,所有这些都精确到毫秒,并精确地引发点击和按键的反应。然后,在几秒钟内,黑暗会再次回归。另一个静止的时刻将在空气中悬挂,然后序列会重复。一次又一次,再一次。尽管这看起来必须是混乱的,但没有一个细节是随意的。这一切都是为了尝试读懂一个心灵——或至少推断出它的某些片段。受试者几秒钟的狂乱手指、浅呼吸和瞳孔扩张,在数据丛中被捕捉,可能需要数天、数周甚至数月的时间才能完全理清。感官的秘密深藏不露;即使是瞬间将它们引入光明,也可能是一件奇怪的事情。
进化在一个光敏蛋白上持续了五亿年,不懈地推动着它随着时间的推移而绽放成一个如此精致的装置,几乎难以理解。现在,在加州理工学院,那劳动的成果将成为我们的老师——整个视觉皮层,从眼睛的玻璃表面延伸到心灵的最深处。就我的导师而言,朝着机器智能的承诺迈出的一个基本第一步是更好地理解人类的智能。
我并不确切知道我希望从我的研究生年代中得到什么,除了有机会沉浸在那个俘获了我的心的领域。但我希望在这个过程中的某个地方,我能找到一个我可以像我的榜样那样热情追随的追求——那种驱使埃里克·魏斯豪斯将对果蝇异常的迷恋转化为诺贝尔奖,或尼尔·德格拉斯·泰森将宇宙转化为数字诗歌的精神。我想要属于我自己的北极星。但在我找到它之前,我满足于围绕这个问题绕圈子:视觉的难以言喻的体验究竟是如何运作的——或者,用我教科书副标题中顽皮的话来说,光子是如何变成现象学的。
朝着这种理解迈出的早期步骤来自我的教科书《视觉科学》,介绍了普林斯顿心理学家安妮·特里斯曼。作为实验的神童和二十世纪认知科学的巨人,她结合了迷人的简单工具和原始的创造力来探索人类的感知,这是在数十年前,远在数字技术大幅加速她的研究之前。特里斯曼的「注意力特征整合理论」成为了理解视觉意识本质的几乎普遍基础。通过向受试者短暂展示一个抽象排列的闪光——比如,一个红色圆圈混杂在一堆绿色和红色方块中——她能够分离出他们在不同深度层次上理解图像所需的时间。她发现,人们几乎能够瞬间识别出红色的存在——仅仅知道颜色在图像中的某处——但他们需要更长的时间来特别找到红色圆圈,因为它的身份是两个不同特征的结合:颜色和形状,在同一地点重合。换句话说,整合红色感知和圆形感知的能力不仅需要更长的时间,而且似乎包含了一个完全独立的、更加密集的视觉处理阶段。
特里斯曼的工作在其范围上是宏大的,在其解释上是密集的,但它是由这样一个想法统一起来的,即人类视觉开始于识别小细节,然后建立它们之间的关系,直到它们揭示出一个完整的画面。这是一个直观的论点,它提出了一个度量工作中视觉的标准:由少数特征定义的简单对象可以被迅速识别——例如,灰色人行道上的橙色球——而更复杂的场景,如蜿蜒的森林小径或朋友面部的细节,需要更多的时间。
这是一个范例,我看到它在计算机视觉研究中重复出现,研究人员编写和完善了能够识别照片和其他图像中的基本细节的算法——锐利的边缘、光线和颜色的变化、纹理或图案的片段——然后构建更高级别的算法来识别它们之间的联系,并将它们与更有意义的事物,如人和物体,联系起来。我对视觉所知甚少,但这幅图很快就会变得更加复杂。
「我有一些东西要加到你的阅读清单上,飞飞,」皮特罗说,把一篇文章的副本扔在我面前的桌子上。
「这个?」我拿起它翻了翻,注意到它的长度不到大多数已发表论文的四分之一。皮特罗会心地笑了。
「相信我,你会想读这个的。」
他不是在开玩笑。
这篇文章由神经科学家西蒙·索普提交到1996年《自然》杂志的信件栏目,文章很短——只有三页——但其发现的影响却是惊人的。即使是它那平实无华的标题,「人类视觉系统的处理速度」,也低估了它对整个领域接受的正统观念提出质疑的影响。这是科学中最伟大传统的一个例子——通过更复杂的现实,打破那些直观且熟悉的既定观念。
索普使用脑电图(EEG)测量了观察电脑屏幕上图像的人类受试者大脑表面的电信号。当一张照片在屏幕上仅闪现27毫秒——蜜蜂拍动翅膀几次的时间——他的受试者就能以惊人的准确度识别出其内容。但他更深入地探究了他们大脑中识别的时刻:图片出现后仅150毫秒,或者大致是眨眼的时间。这是有史以来对人类视觉处理速度调查最精确的一次,而且数字远远小于特里斯曼理论所预测的。
索普的受试者正在处理充满细节、透视、微妙光线和意义的整张照片——而这一切都在特里斯曼的受试者识别基本颜色和形状所需的时间内完成。每个读过这篇文章的人心中都燃起了一个问题:怎么做到的?我能理解为什么皮特罗如此急切地希望我也读它,以及为什么在它发表三年多后,它仍然是他和克里斯托夫讨论和辩论的持续话题。我立刻也分享了他们的迷恋。
对我来说,这项工作之所以更加超现实,是因为它发表的时间离我到加州理工学院的时间只有几年。我们很容易忘记现代人类视觉研究实际上是多么年轻,即使在今天,它的最早出版物也只能追溯到几十年前。与物理学相比,物理学有着横跨几个世纪的悠久历史,由伽利略、牛顿到玻尔等传奇人物填充,视觉学——现在仍然是——大体上是未知领域。计算机视觉的研究甚至更年轻。感觉就像是在我手中绘制地图,它激发了我作为研究生早期的日子。我忍不住在每周给萨贝拉先生的电话中滔滔不绝地谈论它,这种通话从帕萨迪纳继续进行。
「我从未见过这样的东西,」我说。「这个领域如此复杂,如此令人兴奋,然而……它几乎是全新的!大多数最重要的贡献者仍然在我们说话的时候进行积极的研究!」
我与皮特罗和克里斯托夫共度的时光越多,我就越能欣赏到定义他们作为学者职业生涯的冒险精神。尽管他们来自物理学和工程学,但他们对心理学、认知科学和神经科学等领域的热爱却表露无遗。他们像系里的其他人一样定期阅读计算机科学期刊,但他们同样专注地研读《心理学评论》、《美国国家科学院院刊》以及特别有声望的《自然》等出版物。
这种迷恋转化为强烈的观点和推进知识前沿的渴望,这意味着要直面索普和特里斯曼发现之间的差异。有力的证据表明,至少视觉的某些方面——即识别现实世界场景的能力——几乎是不费吹灰之力的。但是,是什么让它变得毫不费力?能以某种方式量化吗?这对我们对大脑整体的理解有什么影响?这些都是值得寻找答案的问题,而且,对于我的导师来说,试图这样做将是足够的工作,可以让他们特别坚持不懈的新研究生忙上一阵子。
如何阅读一个心灵?在实验室中,准确捕捉测试受试者的感知、期望甚至决策是司空见惯的。然而,设计一种实验方法来做到这一点,需要结合工程学、心理学、人体工程学,甚至类似于戏法的东西。具有讽刺意味的是,虽然我们的实验看起来与许多其他实验室的实验没有什么不同——测试受试者装饰着电极,助手们处理着大量数据等等——但设计它们却是一种艺术形式。
我们的目标非常模糊:确定测试受试者是否能准确识别仅显示了一小部分秒的照片内容,但又不集中他们的注意力在上面。索普已经确定了这项任务的速度,但他没有探索意识注意力所起的作用。有意识的专注是必需的吗?或者我们识别的能力是持续和无意识的,无论我们是否注意到周围的世界?我们怀疑是后者,但我们想证明它。
关于如何进行的想法来自于克里斯托夫实验室的访问博士后阿希姆·布劳恩。布劳恩正在研究一个类似的假设——我们的大脑在没有我们意识到的情况下处理大量的视觉细节——使用他所称的「双重测试方法」,在这种方法中,他通过一个中心任务吸引受试者的注意力,该任务需要有意识的专注,同时呈现一个只需要被动观察的外围任务,第一个任务所需的高度注意力确保第二个任务不会被有意识地处理。
这种方法的巧妙之处在于它揭示了受试者感官的焦点所在。因为中心任务有一个需要努力产生的客观反应,所以可以在多轮测试中高度确定用户是否完全参与其中。尽管比较简单,外围任务也有一个正确的反应,使得可以可靠地测量受试者的次要意识。因为两个任务都是在大约两百毫秒的时间内呈现的(只比眨眼的时间稍长一些),所以可以排除有意识地一个接一个地完成它们的可能性。我们的实验利用了对受试者注意力的精确控制来提出一个简单的问题:在观看了一个随机选择的户外风景照片——我们确信他们只是从侧面看过——后,照片中是否包含了动物的描绘?他们的回答将深刻揭示注意力的本质及其与视觉感知的关系。
对受试者来说,实验的节奏是令人屏息的快速,充满了对图像和图案的闪电般的瞥见,需要几乎即时的反应。但是,管理这项任务的工作却相对缓慢得多。从一天到另一天,这更像是照看孩子而不是科学探究,因为我们等待着被周末零用钱的承诺所吸引的昏昏欲睡的本科生从他们的隔间中出现。由于愿意参与的受试者从来没有像我们希望的那样充足,我们不得不受制于他们的时间表。不止一次,我一天的主要责任就是在早上六点在实验室入口处迎接一个陌生人。但我甚至喜欢这一点。以它自己的方式,这也是科学的一部分。
尽管我们的实验很重要,但皮特罗和克里斯托夫也明确表示,一个好的科学家同样需要跟上文献。而且我越读越意识到,索普并不是特里斯曼的第一个挑战者。一条类似面包屑的线索在我面前展现出来,隐藏在几十年的文章中,暗示着对她的观点越来越多的例外。
也许最明显不一致的发现来自一位名叫欧文·比德曼的视觉研究者。他和他的同事安排了一个实验,在这个实验中,受试者被展示了快速瞥见的照片而不是抽象的形状和颜色,然后被要求识别他们所看到的。尽管刺激的复杂性显著增加,而且曝光时间极短,受试者的答案却始终准确。在特里斯曼的受试者识别出一个单独的A字母与一片多彩的B字母中的时间内,比德曼的受试者能够从一张照片中吸收足够的细节,以判断它是一个购物广场的停车场还是一个家庭厨房的图片。
下一个难题来自一位名叫莫莉·波特的心理学家。使用一台早期的计算机显示器,她向受试者展示了文本段落,以大字体在屏幕中央一次闪现一个单词。即使单词以每秒十二个的速度出现——是普通大学生在正常条件下阅读速度的两倍——他们的理解能力也非常高。尽管特里斯曼的演示非常有说服力,表明视觉感知是从小细节层面逐步构建起来的,阅读似乎代表了一个强大的例外。
考虑到所使用的相对原始的工具,这些研究更加令人印象深刻。由于缺乏直接观察受试者认知的途径,像特里斯曼、比德曼和波特这样的思想家通过在严格控制的环境下巧妙使用行为观察,提取了几十年的有趣线索。但这种方法有其局限性;归根结底,从外部只能推断出关于大脑的有限信息。要从内部理解这些现象,需要新一代的技术。
这种技术最终以神经科学工具的形式到来,如脑电图(EEG)和功能性磁共振成像(fMRI),为研究人员提供了前所未有的临床精确度。索普的论文是最引人注目的之一,但远非唯一。同样重要的是麻省理工学院认知神经科学家南希·坎维舍及其学生的工作,他们使用fMRI分析识别了与处理必要的快速、准确的感知成就相关的多个大脑区域,这些成就是像索普和比德曼这样的研究人员所揭示的。EEG测量的是大脑表面广泛分布的电脉冲,这些脉冲极其快速,而fMRI测量的是特定神经元群体被激活时血液氧气水平的变化。一个早期的突破是发现了「颞叶内侧的脑回面区」,这是一个不超过一立方厘米大小的皮层区域,似乎是为识别人脸量身定做的。接下来是附近的「海马旁回地区」,它在识别熟悉的地点,如自己的厨房或经常旅行的道路方面发挥类似的作用。另一个发现是「外纹状体区」,它通过对手臂、腿等的存在反应,帮助我们感知周围人的身体方向。
这些结构,被称为视觉的「神经相关性」,有些特别之处:它们似乎是专门设计的。每一个都识别一个单一的事物类别,且仅限于那个事物——面孔、熟悉的地点、身体姿势等——从而解释了我们在特定识别任务中感知速度之快。我们的神经解剖学中有一个专门的特征,不是从头开始一点一点地解码,而是几乎立即就能识别它们。从我们的角度来看,这感觉是毫不费力的。
从生物学上讲,努力在一个过程中的作用说明了很多。进化是极端节俭的,只对那些如此极端的环境压力做出响应,以至于不适应就意味着灭绝。对于一项能力来说,要被精炼到如此程度——使得如此复杂的事情几乎变得自动化——它必须具有根本的、甚至是独一无二的重要性。因此,视觉不仅仅是我们所看到的细节问题。虽然像特里斯曼这样的研究人员提出的,在严格控制的实验室条件下,图像可以被分解并以细粒度的术语进行检查,但我们依赖于在混乱世界中生存的视觉处理的是事物——物体、人和地点。实际上,从处理的最早阶段开始,我们就不是将周围环境感知为颜色和轮廓的集合,而是以类别的形式感知。
这些发现本身就令人兴奋,但它们之间的联系感觉更加深刻,就像一个未被发现大陆的海岸线。每一个新的想法都指向着某些重大的——也许是历史性的——东西,正等待着被发现。毕竟,它似乎对我们人类起了作用。我现在相信它也能对我们的机器起作用。
我想到了我的榜样,从物理学的传奇人物到我自己的教授们。多年来,我一直钦佩那些激励他们成为科学家的强大思想,以及这些思想对他们领域产生的激励效应。
现在,只是我研究生教育的头几年,我相信我在自己的地平线上看到了一线曙光——虽然遥远而模糊,但足够明亮,照亮了我前进的道路。无论如何,我们都将使视觉世界对机器变得熟悉。超越了易于固执的生活标准,我培养了一种比我以往任何时候都更为强烈的痴迷。
我找到了自己的北极星。
屏幕上出现了一架喷气式飞机的图像,算法开始了它的任务。这是一个连小孩都能应对的挑战:在照片中任何地方找到一架飞机的存在。但在2003年,这仍然是一个问题,机器只有在吸收了大量的示例材料后才能回答。即便如此,它们成功的几率也是适中的。那个下午,Pietro和我正在测试一个我们希望可能改变这些几率的想法,也许是戏剧性的。我仔细观察,渴望看到算法会做什么。
屏幕上开始出现粉红色的点,这是旨在突出照片中引起算法「注意」的细节的视觉辅助工具。当第一个点在停机坪旁的一片草地上出现时,我有点皱眉。算法看错了地方。但这种趋势很快就逆转了,因为接下来的两个点出现在飞机的翼上。然后是机尾的另一个点。接着是驾驶舱附近的三个点。最后是最后一个点。起落架。我想,这算数,它技术上是飞机的一部分!
我兴奋地呼了口气。到目前为止,一切都很好。接下来是真正困难的部分。由于每个突出的特征只占几个像素,算法被设计为将它们分组成代表它所要识别的对象的更大部分。换句话说,代表了一种模糊的视觉理解形式。每个部分都会被画上彩色的圈——蓝色和蓝绿色代表机身的不同部分,红色代表垂直稳定器,绿色代表两者相遇的区域。果不其然,算法几乎精确地将它们放在了它们所属的位置。
飞机被识别了。
这是一个激动人心的时刻,但不是因为它起作用了——而是因为它是如何起作用的。我们没有让机器沉浸在数百张尽可能涵盖颜色、风格、视角和照明条件等多种变化的飞机照片中,而是只向它展示了一张。然而,我们确实向它展示了数百张完全无关的主题图像——斑点丛林猫、摩托车、我们微笑的实验室同事和Pietro的高级新数码相机拍摄的人脸,以及我们从谷歌图片下载的一些随机选择。我们的假设是,通过首先让算法接触到视觉世界的广泛横截面,它将更好地装备自己学习一些特定的东西。所以虽然它接受了各种事物的训练,但它刚刚识别的飞机只是它见过的第二架。永远。
我们的创造只是一个概念证明,仍然有它的错误份额。但我们的目标是证明,像人类一样,算法从看到更多的视觉世界中广泛受益。北极星现在是我地平线上的一个固定物,我们已经朝着它的方向迈出了真正的一步。
我们称这种技术为「一次性学习」。这是一个与图像识别现状显著不同的技术,但激发我们的能力是众所周知的。作为人类,我们天生就擅长在甚至只看一眼之后识别事物:一种新型的乐器、我们从未见过的动物、一位新当选的政治家的面孔。可以引用许多解释这种能力的原因,但其中最简单也是最有力的事实是,即使我们看到的是新事物,我们也在将一生的先前经验应用于它。无论多么新颖,我们所看到的几乎所有东西都如此严重地依赖于过去的经验——熟悉的细节,如轮廓、光影、纹理和图案——以至于很难想象在真正的孤立中看到任何东西。
我们的技术将这一概念带给了机器,而且似乎正在起作用。如果结果是一个惊喜,然而,我们的论文收到的反响却是压倒性的。它不仅被接受参加在法国尼斯举行的国际计算机视觉会议(ICCV),而且还为我们赢得了少数几个口头报告的位置。尽管这篇论文是与Pietro和名叫Rob Fergus的研究员合著的,但我是主要作者。这意味着旅行的荣誉和责任都是我的。
在ICCV上发言是一个难得的机会,特别是对于一个研究生来说,而我在这样一个重要的听众面前几乎没有任何经验的演讲,这在我的脑海中压力很大。更糟糕的是,Pietro不能和我一起去。他和他的妻子正在期待他们的第一个孩子的出生,他们的预产期正在临近。这是我的第一个学术会议,也是我的第一个舞台演讲。而且我要独自一人去。
如果没有我面前的任务,我可能会在飞往尼斯的航班上感到紧张。我在加州理工学院的职责让我处于不停忙碌的状态,而三万英尺高空的十三个安静小时最终成为我唯一的空闲窗口,以便整理我将要发表的演讲。我在大部分旅程中都低着头,尽快地写下大纲并拼凑幻灯片。
然而,到达后,我深切地感受到了Pietro的缺席。通常情况下,导师会陪同学生参加他们的第一次会议,无论他们是否在发表演讲,以示支持并帮助建立网络。我开始意识到,我被留下来独自在一个充满数百名陌生人的活动大厅中应对。如果我要紧张,现在是时候了。「飞飞?」一个声音在我身后叫道。我转过身,看到一个陌生的面孔俯视着我。
「……是的?」我小心翼翼地回答。
「终于见到你真是太好了!我是吉滕德拉。」
「吉滕……哦!吉滕德拉……马利克?你是——」
「我想你认识我是作为皮特罗的前导师,是的,」他笑着说。「他让我来陪陪你。你没想到我们会让你一个人做这件事,是吧?」
虽然我知道吉滕德拉的名字,当然也知道他的声誉,但这是我们第一次面对面地见面。我倾向于用家族术语来思考学术关系,所以我认为他——我的导师的导师——是我的「学术祖师」。他名副其实,既平静又鼓舞人心。在我的演讲之后,当我被一群渴望了解更多的研究人员围攻时,他成了我的救星。仅仅有他在我身边,就把一个压倒性的日子变成了可控的,这也开启了我们之间持久的联系。
尽管在我的演讲之后有一阵激烈的讨论,但我意识到了一些微妙的事情——每个问我的问题都是关于算法本身的。你是如何设置贝叶斯方程来估计后验概率的?你是如何估计图像的先验分布的?你提到使用了一个最近提出的变分推断算法来优化模型参数——你能多谈谈那个吗?你计划在未来的修订中如何扩展它?在不同的情况下它可能会有怎样的表现?
我们一次又一次地被问到我们选择的机器学习算法的数学核心——一种称为「贝叶斯网络」的概率技术——但没有一个问题是关于我们训练它的数据的。虽然这并不罕见——数据被不那么微妙地视为一种惰性商品,只在算法需要它的程度上才重要——但我开始意识到我们低估了一些重要的东西。我们算法的定义特征——它能够从一次接触中学习新的物体类别的能力——在很大程度上依赖于数据。最终,是我们算法所见过的其他事物的多样性,给了它一种感知经验,并允许它在面对新事物时表现得如此出色。
事实上,我越想越觉得,为什么这个话题——数据的微妙但引人入胜的力量——没有得到任何关注。毕竟,我们从绝对缺乏这种东西——仅仅是几百幅图像散布在几个随机选择的类别中——取得了相当惊人的结果。这引发了一个问题,每次我的思维回到它时都显得更具挑衅性:如果这么少的数据就能使如此强大的能力成为可能,那么更多的数据可能会使什么成为可能?
如果是大量的更多数据呢?
「快完成了……再等一秒……」又是在红门咖啡馆的午餐,又是浪费了几分钟完美的吃饭时间,因为皮特罗正在把我们的盘子排列成他系列霍克尼拼贴画中的下一个。
「好了!」
「嗯。很好看,」我说。我甚至不再假装看了。
皮特罗对着他的作品微笑,显然注意到了我的不耐烦,显然也不在乎。我从他手中夺回我的托盘,开始吃饭。
「我一直在想我们的一次性学习论文,」他说,话题一转。「我为我们所取得的成就感到自豪,但我们都知道数据才是真正的明星。」
我点点头,还在咀嚼。
「那么,如果我们创建一个全新的数据集呢?一个更大的。我认为我们可以完全自己从头开始做。」我继续点头。
「我的意思是,如果所有这些新数据——完全独立地——是达到下一个水平的关键呢?」
这是一个大胆的想法,也足够成为一个长期的目标,以保持事情的有趣。
「那么,让我们从最明显的问题开始:我们的这个新数据集应该包括多少个图像类别?」
我放下叉子,沉思了一会儿。知道加州理工学院曾经组织的最大的收藏提供了七个相当随机选择的类别,四舍五入似乎是一个明智的起点。
「嗯……十个怎么样?」我提议。
皮特罗皱了皱眉头。
「那会是一个进步,我想,但我怀疑我们是不是太渐进了。」
我喜欢他的建议精神,但我也不得不考虑现实。知道收集、标记和组织图像的实际工作将落在我身上,我尽力平衡我们研究的需求和日常生活的实际考虑。
「好吧。嗯……那十五个怎么样?」
皮特罗狡猾地笑了。
「好吧。二十个!」
他没有动。真的吗?
皮特罗后来告诉我我接近了——他认为大约三十个类别就足够了。但注意到……随着对话似乎退化成一场谈判——而且是一场相当谨慎的谈判——他感到有必要采取进攻态度。
「我们来做一百个,飞飞。」
皮埃特罗后来会这样说,我看起来就像他判了我死刑一样。
考虑到这无疑需要的工作量,我很可能会失去一些理智,更不用说在接下来的几个月里我可能渴望拥有的任何社交生活的影子(诚然,损失较小)。但他是对的,我无法否认一想到我们的模型在这样的资源下会有怎样的表现,我就感到兴奋。
然而,为了不让他满意,我尽力保持镇定,接受这个想法。提高我的扑克脸将是一个长期的努力。
随着对话中的边缘政策逐渐淡出记忆,我开始对计划有了不同的看法。是的,策划一百个类别的图像——每个类别都包含各种各样的例子——将是我一生中尝试过的最辛苦的工作,包括周末在干洗店的工作。但这正是我想要的。我的北极星在地平线上闪烁,比以往任何时候都要亮。
「嗨,飞飞。」
「嗨,妈妈。爸爸怎么样?店里怎么样?」
「有个顾客要求修改,但他一直在用一个我不熟悉的术语。我想那是一种合身的类型,但是……」
接着是一段奇怪的停顿。
「飞飞,我……」
她的呼吸变得更加困难。我能听到她在电话那头,但她似乎无法作出回应。「妈妈?妈妈?你还好吗?」
没有一个好时机去了解你的母亲患上了充血性心力衰竭。但在一个已经将你的坚韧推到极限的研究生项目中两年后,这种感觉很难用言语表达。
事后看来,几周来她感觉不舒服已经很明显了。考虑到她几乎独自一人经营店铺的巨大压力,我以为她只是需要休息,我邀请她来拜访。但当她到达机场,呼吸困难,脸色比我见过的任何时候都苍白时,我能告诉有更严重的事情发生了。
这无疑是一个紧急情况,但我父母缺乏健康保险让我不确定该如何反应。我惊慌失措地打电话给我能想到的每个人,并被推荐到欧文的一家私人诊所的一位讲中文的医生。那是将近两小时的车程,但她是唯一愿意以自费的方式接见我们的医生,幸运的是费用也有所折扣。她的诊断很快:我母亲的心脏健康状况很糟糕。
萨贝拉先生仍然是我寻求安慰的首选来源。「你妈妈怎么样,飞飞?」他问。
「医生说她会活下来。我们及时发现了。」
「谢天谢地。你自己怎么样?」
我叹了口气,所有的事情都涌了出来。我们最新的,也是最绝望的计划。经营干洗店七年后,我们别无选择,只能卖掉它。当所有其他选择似乎都超出我们的能力时,它一直是我们的生命线,但我的母亲已经病得太重,即使有我父亲的帮助也无法继续下去。尽管生意是有盈利的,但我们仍然远远没有达到能够雇佣员工的利润率。是时候继续前进了。
更激烈的是我决定让我的父母搬到国家的另一边,和我一起在帕萨迪纳,我们可以再次面对作为一个家庭生存的挑战。我的宿舍甚至比我们在帕西帕尼的地方还小,但目前这是我们唯一的选择。
萨贝拉先生在电话那头沉默了一会儿,他全都接受了。
「你会继续你的学业,对吧?」他似乎感觉到了即使我还没有完全面对的事情。
「我不知道。」
又是一段沉默,直到我用笑声打破了它。
「你觉得我至少可以宣布我的父母为我的依赖人吗?」
一个新的现实正在出现,如此复杂,以至于它动摇了我自从走进普林斯顿那个讲堂成为物理专业的那一天以来所做的每一个决定。一生的好奇心引领我进入一个以激烈竞争、低薪和没有持久职业保障著称的领域,而我的父母需要我无法提供的支持水平。我每天追求梦想的时间感觉在最好的情况下是自私的,最糟糕的情况下是鲁莽的。我越是思考我自己的家庭和实验室同事们的家庭之间的差异——他们中的大多数至少是中产阶级,如果不是富有的话——否认真相就越困难:我没有成为科学家的奢侈。
但故事还没有结束。
几周过去了,一位同学提到,麦肯锡的一位合伙人,这是一家世界知名的管理咨询公司,来镇上招聘。他们正在寻找一个实习级别的分析师职位,这意味着承诺有广泛的在职经验,这意味着即使是与数学和计算机科学有微弱联系的常春藤联盟学校的研究人员也是理想的候选人。在一个真正绝望的时刻,这感觉像是一个值得考虑的机会。
当然,我以前也遇到过这种情况,很容易将其视为我学术目标和现实世界生活之间长期激烈冲突的最新冲突。但我的内心科学家的声音这次不同了。我母亲健康状况的最新打击让我震惊,那种坚持的心态也变得不那么强烈了,好像就连我内心那个特别、被保护的部分也开始屈服于一个我知道我不能永远忽视的现实。我把犹豫推到一边——这个行为现在我发现出奇地容易——我买了一套远超预算的衣服,小心地把标签藏在领子下面,预计活动结束后立即退回,并安排了一次面试。这一切感觉和我预期的一样不自然,但我不能忽视一个事实,那就是命运似乎从一开始就站在我的这一边。这或许是我第一次有机会在学术世界之外呈现自己作为一个完整的人,这让我充满了一种我通常不具备的信念。当然,我毫不掩饰地书呆子,但我不仅仅是那样:多年的奋斗锻炼了我,培养了我同行候选人从未有过的机敏,以及我现在才意识到让我与众不同的实用主义本能。
然后,一个几乎是滑稽的同步事件发生了。
「我们喜欢围绕一个假设的商业场景来组织我们的面试,」麦肯锡的代表开始说。「当然,没有人期望你真的了解这个行业,所以把这看作是一个创意练习比什么都重要。我们只是想了解一下你的直觉。你知道的,分析推理之类的。」
听起来很简单,我想。
「我想让你想象你是……比如说……服装行业的一个经理。」
哇。
一个开始只是例行公事的评估,突然变成了一场出乎意料的丰富对话,从我对物理的热爱和我对智力之谜的迷恋,到洗衣供应商的世界,以及我作为干洗行业业余经理的职业生涯。出乎所有人意料的是,事情似乎真的……进行得不错。招聘人员显然也同意了。回应是立即而强烈的,消息是麦肯锡决定将实习转变为正式的永久职位的提议。
我的感觉如此复杂,我甚至不确定它们是否真的有所体现。一方面,一想到要抛弃这么多东西——加州理工学院、皮特罗、克里斯托夫、吉滕德拉、我的同学们,实际上是我所知道的一切,最糟糕的是,放弃一个追求一个感觉具有历史意义的想法的绝对宇宙机会。我的北极星。另一方面,在看到我的父母多年来生活在边缘,越来越感觉他们之所以处于那种状态是因为我,我仿佛终于被解除了一个我从未完全意识到其重量的沉重负担。我母亲为了我能来到这里付出了一切,现在,当我知道她最需要我的时候,我终于可以回报她了。我直接回家,准备分享我认为的好消息。
「这是你穿去实验室的衣服吗,飞飞?」
我低头看了看自己。我忘了我还穿着面试的衣服。
「哦,对,」我带着半心半意的笑声说。「别担心,我买它的时候拿到了很好的交易,」我补充说,展示了仍然完好无损的标签。
「发生了什么事?」她问,现在更加困惑了。生活一直如此匆忙,我还没有向我的父母提及我的任何计划。
「妈妈,我们需要谈谈。」
我解释了面试、工作邀请以及其他一切。我告诉她关于福利待遇,起薪,以及他们在我甚至有机会回应之前就已经增加了优惠。我解释说,这实际上是通往每个移民母亲为其孩子想象的那种职业生涯的快车道。她礼貌地听着,但在我说完之前,我就在她脸上看到了一个熟悉的表情。
「我们真的要再次进行这个对话吗?」「妈妈,我知道,但听我说——」
「我知道我的女儿。她不是什么管理顾问,或者你说的那个。她是一个科学家。」
「想想你的健康,妈妈!想想我们即将面临的费用。学术生涯怎么能帮助我们——」
「飞飞。我们走这么远,不是为了让你现在放弃。」
「这不是放弃!这是一个梦想的工作——一份职业——它可以让我们摆脱这一切。我的意思是,看看周围!我们三个成年人住在一个宿舍里!」
我不确定我是否相信我嘴里说出的话,但它们似乎是正确的事情。无论我母亲对它们有什么看法,她都暂停了一会儿,也许是为了思考它们,然后回答。
「飞飞,你一直在谈论这个‘自私的’旅程。好像科学是你从我们这里拿走的东西。」
「我怎么能不这么感觉?我现在就可以为我们所有人赚钱,而且——」
「你没有听我说。这从来都不是你的旅程。从一开始,这就是我们的旅程。无论你是注定成为一个科学家、研究员,还是我甚至无法想象的其他什么,无论你是否会因此赚到一大笔钱,我们一家人从飞机离开上海的跑道那一刻起就一直在为此努力。」
我不知道该说什么。
「我要最后说一次:我们走这么远,不是为了让你现在放弃。」
她是对的。她总是对的。这一次,不知为何,我终于听到了她的话。我再也不会质疑我的道路。
「嘿,那种狗的品种叫什么来着?」我在几乎空无一人的实验室里吃午餐时,问了一个同学。
「哪一种?
「你知道的,棕色和白色的……还有黑色,我想……它有一对非常可爱的垂耳朵。天啊,我完全忘了它的英文名字。」
我们在思考那些只有研究生才敢面对的宇宙级问题。
「我知道它以B开头……实际上,别告诉我……」
我伸手拿起我桌上一直放着的英文词典。在美国生活了将近十年,即使互联网取代了我们生活中的许多物品,它偶尔还是我的救命稻草。我翻过几页,然后往下扫描,直到我看到……
「啊!是的!比格犬!」
「好吧,那么比格犬怎么了?」
我停下来,回头看了看那一页。我甚至忘了我为什么要提起这个,但这并不重要。我意识到了另一件完全不同的事情。
皮特罗和我正计划得到一个包含一百个图像类别的数据集,但我们一直在努力想出一个好方法来决定究竟包括哪些类别。我们担心,如果我们自己选择,可能会有偏见——即使是下意识地,我们也会倾向于选择我们的算法更有可能成功识别的图像类别。我眯起眼睛,更仔细地看。词典对某些词的插图方式有种优雅之感。大多数都是名词,强调的是有形的、可视的东西——换句话说,是物体,或者在比格犬的情况下,是动物。它们看起来正是我们想要的那种类别。而且它们似乎在每个字母中或多或少都均匀分布,这在我看来听起来相当公正。我想知道:如果我们让词典为我们做选择怎么样?
这太完美了。我拖了好几年的那本大书变成了我作为一名有抱负的计算机视觉研究员世界中最有用的工具。偶尔,成为移民也有好处。
撇开早期的启示不谈,策划完整的数据集是一个漫长、缓慢、不起眼的过程。我们花了几个月的时间手动查询图像搜索引擎,挑选出最好的结果,然后裁剪和调整它们的尺寸以保持一致。一小队本科生标注员加入了我们,总共三四个人,甚至我现在是当地人的母亲也找到了帮忙的方法。尽管这个过程可能很艰苦,但它有一种启发性。在深入思考视觉世界的多样性之后,我以前所未有的方式看待它:作为一个包含手风琴、搅拌机、手机、小龙虾、龙虾、比萨、停车标志、雨伞以及许多其他东西的单一现实。这里面有一种诗意;它让我欣赏到世界是多么的丰富和不可预测,以及我们注意到的细节是多么的少。
最终,它完成了。在2004年完成时,它是为机器学习而组装的最大的图像集合:超过九千张,分布在一百个类别中。这是前所未有的,我迫不及待地想看看它会解锁什么。我们感到前所未有的强大,就好像我们突然拥有了一个超自然的神器,准备赋予我们的创造物比我们想象的更大的能力。但还有一个细节我无法抗拒:独自工作时,我以一种调皮的方式加入了另一个类别,以此对我的导师表示不满,尽管这是我自己的代价。如果皮特罗想要100个,我就给他101个。
我们立即发表了我们的单次学习论文的后续研究,现在展示了一个由惊人多样化的训练图像集合驱动的模型——现在正式被称为「Caltech 101」——并且取得了显著的性能提升。由于它的确是渐进性质的,它并不是第一篇论文那样的突破性成功,至少最初不是。但它确立了一个更持久的遗产,作为其他人效仿的模范。我们绘制的性能曲线成为了一个基准;在六个月内,来自世界各地的研究人员都在引用我们的论文作为要击败的标准——他们中的许多人都做到了。发表我们自己的研究是令人兴奋的,感觉就好像我们在为他人的想法做出贡献——并且在推动这个领域向前发展的过程中扮演即使是小角色——这是一种更大的快感。
很明显,Caltech的生活永远不会容易,但我对仅仅在那里的感激之情比以往任何时候都深。我们设法卖掉了干洗店,给了我母亲自从我们来到这个国家以来首次真正休息的机会。(我也不能假装对再也不用接一个关于衬衫过度淀洗的长途电话感到高兴。)最重要的是,我对我的学习充满热情,几乎每天都感到筋疲力尽。
幸运的是,Caltech是一个容易找到其他痴迷者的地方。我在皮特罗办公室外遇到了一个特别的人,当我听到似乎是两个明显的意大利声音,而不是我习惯的一个。我很快就知道,第二个声音属于一个我还没见过的研究生。他很高,口音如此难以穿透,以至于让皮特罗的口音在比较中几乎消失了,而且他那头狂野卷曲的头发在房间对面就很显眼。那天他也很匆忙,即使皮特罗介绍了我们,这也是一次难忘的初次见面。但这让我能够给那个声音取个名字:西尔维奥。
西尔维奥很快就在我们的实验室会议中引起了我的注意。像我一样,他经常以讨论艺术品开始他的演讲。他被像埃舍尔的《手与反射球》和维梅尔的《戴珍珠耳环的少女》这样的作品所吸引。珍珠耳环,这两者都在他通过研究探索的视觉世界的方方面面上徘徊不去——弯曲反射的扭曲轮廓、金属表面的光泽,以及日常物体的三维特性。当然,这些眼前的糖果很快就让位给了成堆的方程式。我们在一起的时间越长,我就越意识到我们有着相似之处:无论在什么情况下,我们都无法关闭我们的好奇心。
「看!看那辆摩托车!」他兴奋得足以完全打乱原本是在校园里放松散步的计划。
「它有什么特别的?」
「好吧,看那个铬合金排气管?看到反射了吗?它们包含了如此多的信息。你看到了吗?它们是如何弯曲和扭曲的?」
「是的,我明白你的意思。」
「但问题在这里——反射到底是什么呢?它只是周围世界在表面上的一个扭曲图像!这几乎是一个矛盾,然而它告诉我们足够多关于那个摩托车部件的形状,我们可以在脑海中毫不费力地想象它。这就是我们试图设计的那种算法。」
我的天,这家伙真是个书呆子,我想。但他和我是同一类书呆子。
我是两个实验室的学生——与皮特罗一起的电气工程实验室,以及与克里斯托夫一起的计算神经科学实验室。我每周与他们各见一次,参加期刊俱乐部,审阅神经科学和计算机科学的最新文献,而且,因为两个实验室都提供免费食物,我的饮食比我预期的要好。然后还有西尔维奥。只要时间允许——考虑到我们的日程安排,这并不经常发生,尤其是按照新关系的兴奋标准来看——我们就有彼此。但随着我在加州理工学院的岁月流逝,我内心深处开始生根发芽。
我反思了我们所做的一切:我们的心理物理学实验、我们对一次性学习算法的研究、我们展示加州理工101数据集的力量,以及我们研究了几十年的文献。尽管我受教育的道路不同寻常,被两位导师分开,我开始欣赏我们工作的优雅。这并非偶然——我们做了所有这些事情;我比以往任何时候都更加确信,分类是连接它们的想法,它在理解视觉——甚至可能是整个人类智能——中的作用很快将被证明是至关重要的。
那么为什么进展还是这么慢呢?
用一个词来说,我们的算法是「过拟合」,正如数据科学中所说的那样。也就是说,无论设计得多么巧妙——我们探索了我们能找到的每一种类型——即使在测试期间表现最好的算法也会在面对新刺激时迅速失效。一次又一次,看似经过有效训练的算法缺乏将它们所学的——或者应该学到的——应用于现实世界的能力。本质上,这与人类感知相反,后者的特点是其概括能力。概括使我们灵活、适应性强,甚至具有创造力,随时准备利用新想法的力量,而不是在过去经验的局限中苦苦挣扎。任何缺乏这种能力的生物都会很快被自然界的不可预测性所淹没,这是生物进化心智的一个关键特征。但对于机器来说,这仍然基本上是遥不可及的。
在我们试图解开过拟合之谜的过程中,算法本身是一个自然的起点——特别是它从训练数据中学习的方式。我们探索的大多数算法都非常复杂——用更技术性的语言来说就是「计算上不可解」——它们无法手动配置。它们无数参数的排列组合范围实在太广,就像一排排旋钮和开关延伸到地平线之外的控制面板。相反,自动化技术允许它们通过长时间的、反复的试错过程来近似地平衡这些参数。多年来,这种技术的完善一直是计算机视觉研究的支柱。
但加州理工101鼓励我们更深入地思考数据本身,这反过来又促使我们思考这方面的问题可能如何导致过拟合。毕竟,没有数据,机器学习中的「学习」指的是什么?尽管它的重要性显而易见,但这个话题缺乏我们在物理学、数学或统计学中所期望的精确性。像皮特罗和吉滕德拉这样的研究人员是为数不多的深入探索过这个问题的人,我觉得他们对于理解它有着最好的直觉。我们的出版物似乎表明,随着我们的数据集变得更大,我们的算法的能力也在增长——相对来说,无论如何。即便如此,数据的策划更像是一门黑暗艺术而不是一门科学。
我开始怀疑我们可能做错了什么。训练图像应该有不同的方向吗?我们需要更多的多样性吗?这是分辨率或相机质量的问题吗?或者可能——我几乎不敢去考虑这个想法,更不用说大声说出来了——101个类别还不够吗?我越考虑这些问题,它们就显得越明显,甚至越迫切。但据我所知,我们社区中没有其他人在问这些问题。
即使是数量问题——我们的专长——也似乎是个谜。我不得不承认,怀疑像101这样的数字有什么特别之处是合理的。它不是一个经过实证验证的结果,甚至也不是从理论中推导出的某种原则估计。它是我在午餐托盘上像霍克尼画作一样排列的一场与我的导师的博弈的结果。真的很令人惊讶,这不是突破的前奏吗?我又一次回到了文献中,这次带着复仇的心情。如果不是101,那是多少?200?500?1000?拜托,不要是1000,我想。我决心要找到一个线索,不管怎样,不管在哪里。
我费了一番功夫,但最终找到了一些东西。它甚至来自一个熟悉的来源——一篇由欧文·比德曼撰写的论文,他是我们现代视觉理解的核心贡献者之一,发表于很久以前——回到1983年。自从我读过它以来已经过去了好几年,毫无疑问是在凌晨两点与一堆其他文献一起浏览的。现在,在我们从一次性学习的冒险中学到了所有东西之后,以及我们实现真正的视觉分类的梦想,我以一种新的方式看待它。
这篇论文探讨了一个有趣但不直接相关的话题:我们如何利用对基本几何形状的了解来识别复杂的物体。在构建他的结论的过程中,Biederman试图回答一个看似简单的问题:大致有多少独特的「事物」类别存在于世界上?也就是说,如果你把它们全部加起来——「摇椅」、「企鹅」、「跑车」、「拉布拉多犬」、「山脉」以及其他所有东西——总数会是多少?
这听起来更像是一个谜语而不是一个科学挑战。但我对Biederman的方法印象深刻,他的方法基于对英语的分析。词语在帮助我们对所见进行分类中扮演了基础性的角色,他认为,我们专门用于描述独立、可量化事物的词语——称为「可数名词」——的总数将是一个很好的起点。然后他想象了每个这样的名词存在多少真正不同的变体,就像「杯子」这一类物体可能包括带有精美手柄的白色茶具、色彩鲜艳的咖啡杯和透明无特征的玻璃杯。因为有些类别比其他类别有更多的变化,他通过假设一个合理的平均值来简化问题。从那里开始,计算总数只是简单的乘法。
逻辑足够直接,但是他想法的规模使它如此具有颠覆性。它立即揭示了我们的研究有多么有限——我们的想象力有多么有限——以及超出这两者的世界实际上有多么广阔。这篇论文是一份模糊的、复印的文物,但感觉就好像Biederman直接对我说话:你想要突破?这就是代价。这就是所需的一切。
尽管如此,Biederman的数字——我们作为研究人员的雄心所需的潜在蓝图——是巨大的。真的很大。它不是1,000,2,000,甚至不是5,000。它当然也不是我们花了几个月时间编目的101。
它是30,000。
我不知道该如何处理这个数字。创建Caltech 101感觉像是一项艰巨的努力,而现在我面临的估计数字比那大了整整两个数量级。但现在我无法回避它。那里有一些东西——真正的洞察力——它的热量几乎穿过页面上印刷的数字。更重要的是,我知道无论这个数字注定要带我去哪里,我都将独自前行。我的领域专注于算法,仅此而已。但我越是思考数据——尤其是大规模,甚至是巨大规模的数据——我越意识到这是一个完全未被探索的前沿。世界已经选择了它的方向。但我的北极星正引导我走向另一个方向。
第七章:一个假设
阳光的珠子,穿透而白,通过绿色植物闪烁,当我的车沿着206号公路飞驰时。这条双车道路是一条容易驾驶的路,它在树木的树冠中切割出温和的曲线,时不时地断开以揭示地平线上小镇的一瞥。我几乎没有看到任何东西。我的思维在世界之外,虽然我可以集中足够的注意力保持在车道标记之间,但仅此而已。
尽管我从Caltech毕业获得博士学位只有一年,但我生活中的几乎一切都发生了变化。我的母亲又病了。事实上,比以往任何时候都严重,然后突然稳定下来。我也得到了我的第一份真正的工作——伊利诺伊大学厄巴纳-香槟分校的初级教职工作——以及随之而来的健康保险。Silvio和我结婚了。然后他也找到了工作……在密歇根州。我有很多事情要感激,但我是早期学术生涯中常见的动荡的活生生的象征。我不知怎的同时结了婚,独自一人,又和我的父母住在一起。
尽管如此,我对视觉分类本质的研究仍然是我的世界中心,我应邀回到普林斯顿向计算机科学系展示我的最新工作。到这个时候,我已经习惯了发表演讲,但我捕捉到一些暗示,这次邀请可能意味着更多——招聘过程的第一步,可能是一个教职职位。这些风险比我习惯的要高,我很感激我有一个习惯,那就是从新泽西州的旅行开始。拜访萨贝拉家。从他们的社区到我的母校的蜿蜒路线给了我充足的时间去深思。
然而,困扰我的并不是讲座,甚至也不是我的职业生涯。自从我偶然发现了比德曼的数字——他估计大约有30,000个独特的概念可能为理解视觉世界提供一个完整的基础——我的生活就再也没有一样过。这五个不起眼的数字已经成为我心中的黑洞,几乎在我每一个清醒的时刻都在吞噬我的思绪。
一方面,我的直觉与比德曼的观点一致。他的数字看起来很对,我能从直觉上感觉到。它有证据的外表,一个我不知怎么能够利用的数据。同时,很明显他从未打算将其作为一个特别的经验量。这是一个典型的信封背面计算,更多的是作为一个示例而不是一个假设。然而,出于某种原因,多年后我最初看到它时,我就无法放手。
它激发了我思考的转变,让我有了一种我以前从未想象过的规模感,但除此之外几乎没有提供任何洞见。数字30,000当然很有趣,但究竟是30,000个什么?我确信答案不会像创建一个新的数据集那样简单,随机选择30,000个类别而不是101个。当然,这样的集合将远远超出桌面词典中的一组插图概念。它甚至可能开始全面地模拟世界,而不仅仅是描述其特征,逐个追踪地球上生活的完整画面,并暗示它们之间的关系。真正的意义。但我仍然只是在猜测。
随着时间的流逝,我开始做白日梦。一个Sunoco加油站的黄色和蓝色标志引起了我的注意,触发了一连串的回忆:沿着这条路以前驾驶的印象派闪回。颜色和情绪。这里一个锐利的细节,那里一个模糊的细节,都被半记忆中的阴影所包围,丰富而引人入胜,但永远都是模糊的。当我的思维链到达一个具体的事物时,我不由自主地微笑了:萨贝拉先生谈论他每天从巴德湖的家到帕西帕尼高中的通勤路线,以及他如何精心跟踪油价以尽量减少它对他公立学校教师薪水的影响。
这可能看起来微不足道,但正是这些时刻激发了我的迷恋。这才是视觉真正的意义。它不仅仅是一个「感觉」,至少不是像温度计或盖革计数器那样的「感觉」,而是一种体验的催化剂。一股信息和情感的洪流,由以五十英里每小时的速度飞驰而过的加油站标志的颜色所释放。这是定义一个最为人性化的头脑的能力之一——一个通往整个记忆、联想、概念和推理宇宙的入口,所有这些都编织在我们与周围世界的视觉联系中。
我的思绪回到了普林斯顿的演讲。至少那是一个我有机会解决的问题。
「我不知道一个语言学家是怎么出现在一个计算机视觉讲座上的,飞飞,但我很高兴他来了。」
坐在我对面的是Christiane Fellbaum,一位计算语言学家,也是我在演讲后几天遇到的许多普林斯顿教职员工之一。她自己没有参加,但她的一个同事出现在听众中,并且感觉她会欣赏我的工作,于是在之后立即将我们联系起来。
Christiane在语言学方面的工作与我的只有最微弱的联系,但我们共享的是至关重要的:强烈的认知科学影响和对理解甚至绘制心智如何概念化其世界的特殊兴趣。在我自己研究人类视觉期间深深吸引我的概念,我们如何对我们感知的内容进行分类,对她的工作至关重要,而且在很多类似于我的方式上。我们俩都相信,类别是视觉(我们看到的东西)和语言(我们描述它们的方式)之间的交点。在谈话进行了二十分钟后,我突然意识到我甚至不知道我们是否应该讨论工作机会。不管怎样,这是我脑海中的最后一件事,因为她即将提出一个问题,将永远改变我的职业生涯和我的生活。
「你听说过一个叫WordNet的项目吗?」
WordNet,正如我即将了解到的,是乔治·阿米蒂奇·米勒的心血之作,他是心理学和认知科学的传奇人物。他出生于1920年,是一代心理学家中最有影响力的人之一,他们不满足于仅仅观察人类行为的表面,试图建立驱动它的心理过程的模型。因此,他自然而然地被语言的结构和它在思维中的作用所吸引。通过WordNet,他试图以惊人的规模来绘制它。
两个同样雄心勃勃的问题激发了这个项目:如果通过语言可以表达的每一个人类概念都被组织在一个单一的、庞大的词汇数据库中会怎样?如果与字典的字母顺序组织不同,这些词汇是基于它们的含义相互连接的会怎样?例如,不是因为拼写的偶然性而将「苹果」与「家电」配对,而是将「苹果」与一整簇相关词汇配对——「食物」、「水果」、「树」等等。这将像是一个地图,展示了人类所珍视的一切——我们用一个词来描述的一切——在一个连接的空间中排列。简而言之,这就是WordNet。
自1985年成立以来,该项目已经发展到几乎难以理解的规模,包括超过140,000个英语单词,并迅速扩展到新的语言。对于Christiane来说,她作为已经被称为全球WordNet协会的主席,这几乎是一份全职工作。我对它的范围、持久性以及必须精确指导其如此多年的精确增长所需的协调感到敬畏。当我想起为了收集足够的图像用于Caltech 101数据集而费力地管理几个本科生几个月的努力时,我几乎脸红了——它自己的类别深度比WordNet小了一千倍以上。但我也被激励到了我很长时间没有感受到的程度。WordNet是一个启示。它提供了一个答案,或者至少是一个暗示,对于那些在近四年的清醒生活中消耗了我大量时间的问题,自从偶然发现Biederman的数字以来。它是人类意义本身的地图,无论是其覆盖范围的广度还是其内容的真实性,都毫不妥协。我还不知道计算机视觉将如何实现Biederman想象的规模,但现在,至少,我有了这样一种努力是可想象的证据。这是我第一次面前的一条道路,我能看到下一步。
然后,仿佛是为了进一步强调这一点,Christiane提到了一个相关项目,该项目试图用一个单一的视觉示例,比如一张照片或图表,来说明WordNet包含的每一个概念。尽管这项计划已经被放弃,但我感到很好奇。甚至它的名字——ImageNet——几乎是完美的暗示。又一个推动,而且不是一个特别微妙的。
在我离开校园的那天之前,点点滴滴开始连接起来。首先,有WordNet:一个几乎难以形容野心的词汇数据库,似乎捕捉了世界上所有概念的整体,按照人类意义的自然层次组织起来。然后有ImageNet:试图为每个概念分配一张图片。这两个项目看起来像是对Biederman数字在我的思想中创造的巨大、神秘空间的回应。
我问自己一个既荒谬又显而易见的问题:如果像Caltech 101这样的数据集是按照WordNet的规模创建的呢?忽略这样一个任务的不可能的后勤——事实上,「不可能」是我脑海中浮现的唯一词汇——不可否认这个想法的力量。而且这不仅仅是一个规模问题;尽管数据集将会天文数字般巨大,当然,它的数字将是某些更深层次的东西的副作用:前所未有的规模多样性,就像它所反映的世界一样混乱和不可预测。
在我沉浸在这个领域的这些年里,以及我与Pietro和Christof一起研究的几十年历史,这感觉像是真正的新颖。发散的,甚至是颠覆性的。追求一个困扰我的日子并让我夜不能寐的谜团的下一步。如果这甚至有一个名义上的机会让我更接近发现——任何发现——我必须考虑它。
当我想象一个在这样一个数据集上训练的算法可能内化的丰富视觉线索时,我的思绪飞速。塑料的硬边,漆木的光泽,动物毛皮的质地,眼睛表面的反射,以及其他许多东西——也许是一切其他东西。我设想我们的算法在它们分辨前景与背景、区分一个物体结束和另一个物体开始的能力上变得越来越灵活,以及分离光线和阴影与表面和体积。
如果识别任何东西的秘密是一个包含一切的训练集呢?
在我成为厄巴纳-香槟助理教授不到一年后,普林斯顿给了我一份工作。这是我职业生涯中最大的突破,我接受了。Sabellas一家对我回到新泽西感到如此兴奋,以至于他们全力以赴帮我搬家:Sabella先生、Jean和他们的第二个儿子Mark,现在自己也是大学毕业生,都在我到达的那天等在普林斯顿教职工住宅社区的入口。这是一个意外的美丽地点,在卡内基湖边,三居室的平面图在我和父母自来美国以来住过的宿舍大小的家之后感觉绝对宽敞。事实上,这是一个在平方英尺上的巨大飞跃,以至于我们很快意识到三人搬家队伍是多余的。由于Silvio仍在安娜堡,我的父母习惯了在狭小的空间里生活,我们几乎没有带足够的家具来填满这个地方。但是,与对我来说像自己家人一样重要的人们重新联系是一种乐趣。
「嘿,顺便说一下,我一直想问你一件事,」Sabella先生在我走向车子去拿最后一个箱子时赶上我。「你什么时候开始叫我『Bob』?这些年你一直叫我妻子『Jean』。是时候了吧?」我甚至需要一秒钟才能理解他的意思。把这个长期以来一直是我的导师和第二父亲的人称呼为「Bob」,就好像他只是我认识的某个人一样,这似乎是一种奇怪的方式。
「我不再是你的老师了,飞飞,」他带着微笑说。「我想我们可以放下这种正式性。除非你更愿意我叫你『李博士』,当然。」
几周后搬家后,我迫不及待地联系了Christiane,急切地让她知道我们的会面产生了多大的影响。WordNet,ImageNet,以及它们激发的荒谬但顽固的想法。命运,或者类似的东西。现在,我自己也加入了普林斯顿的教职工行列,我感到鼓舞,迈出了一步,使这些想法变得真实,组织成一些大胆的东西,也许到了疯狂的程度。
无论我是在突破边缘还是失败,我都很兴奋。科学可能是一个渐进的追求,但它的进步是由突然的地震性转折点标志的——不是因为某个孤独天才的野心,而是因为许多人的贡献,所有这些都是由纯粹的运气聚集在一起的。当我反思所有必须排列以激发这个想法的可能性线索时,我开始怀疑这是否可能是这样一个时刻。
在我离开Christiane办公室的路上,我想到了最后一个想法。「你知道,我在想ImageNet,你说它从未完成。」
「是的,不幸的是。对于我们雇佣的本科生来说有点太无聊了。而且它几乎不是有意义的研究,所以没有博士生想碰它。」
我笑了,想起了我和Pietro一起下载图像为数据集策划的记忆。她没有错。但那不是我提起它的原因。「那么……这意味着我可以使用这个名字吗?」我尴尬地笑着问。「这名字挺完美的。」
「我们要看什么?」我从沙发上问,西尔维奥跪在DVD播放器旁边。我能听到他推入光盘时伺服马达的嗡嗡声。
「叫《野草莓》。别担心,你会喜欢的。这是一部经典。」
到西尔维奥在安娜堡的校园的访问对我们俩都是一种逃避,逃离我们两个突然发展的职业生涯的压力。他从头开始做饭,并试图向我传授一些他电影迷的知识。最棒的是,我们有机会谈论——或者甚至只是思考——一些除了那些定义了我们生活大部分的工作之外的事情。
「嘿,我需要和你谈谈一件事,」电影结束时我说。「一个研究项目的想法。这几周来一直困扰着我。」
「所以你没有注意电影,对吧,」他带着一丝了然的微笑说。
我笑了,但他并没有完全错。
「我觉得我从未对某件事有过这么强烈的信念。」
「那不是好事吗?问题是什么?」
「是的,只是……「我叹了口气。「天哪,这将是一场赌博。」
西尔维奥证明了自己是无与伦比的知己。我们俩都是在高度竞争的部门里的年轻助理教授,面临着发表或灭亡的压力,我们试图让我们的职业生涯起步。我们都在努力适应提供质量和数量的压力,不停歇,知道任何不足都意味着我们可以和我们的终身教授职位告别——连同我们最好的稳定生计的机会。他比我生活中的任何人都更了解赌注。
尽管我已经花了好几年的时间向他倾诉,但我还是从头开始把一切都说了出来。比德曼的数字,WordNet,ImageNet,以及一个在我试图想象实际做的时候似乎完美无缺的梦想。
「你花了好几年的时间才来到这里,飞飞。你有了学位,你有了工作,听起来你也有了一些灵感。而且,你的丈夫在六百英里之外,所以你肯定会有时间。」
我咯咯地笑了,感激他试图保持轻松的气氛。
「是的,但是,你不认为这一切都太……离谱了吗?」我问。
他思考了一会儿才回答。
「『离谱』不正是你一直在寻找的那种想法吗?」
拥有成千上万类别的数据集有什么用?大多数模型仍然在努力识别一两个!
你知道训练一个模型需要多长时间吗?飞飞,你在谈论的是几年的时间。
有谁会下载它?你描述的是一个比大多数硬盘还要大的图像集合。
你真的有计划把这个组合起来吗?谁会标记数百万的图像?这需要多长时间?你怎么验证它们的准确性?
对不起,但这根本说不通。我越是和同事们讨论ImageNet的想法,我就越感到孤独。尽管有西尔维奥的鼓励,但几乎一致的拒绝是一个不好的信号,这是一个以其庞大规模为定义的事业的开始;我可能需要一整支贡献者的军队,但我似乎找不到一个。最糟糕的是,无论我是否同意他们,我都无法否认他们批评的有效性。
无法逃避的事实是,算法是我们2006年宇宙的中心,数据并不是一个特别有趣的话题。如果机器智能类似于生物智能,那么算法就像是突触,或者贯穿大脑的复杂布线。有什么比让这些布线更好、更快、更有能力更重要呢?我回想起我们关于一次性学习的论文受到的关注——一个闪亮的新算法,装饰着华丽的数学,立即引发了讨论。数据生活在它的阴影下,被认为不过是一个训练工具,就像成长中的孩子玩耍的玩具。
但这正是我认为它应该得到更多关注的原因。毕竟,生物智能不是像算法那样设计的——它是进化的。而进化不就是环境对其中生物的影响吗?即使到现在,我们的认知仍然带有无数代祖先生活、死亡并随着时间适应的世界的烙印。这就是Thorpe和Biederman的发现,甚至我们在加州理工学院的实验室的发现如此引人注目的原因:我们几乎是瞬间识别自然图像的,因为那是塑造我们的那种感官刺激——换句话说,那是数据。ImageNet将是一个给我们的算法同样的经验的机会:同样的广度,同样的深度,同样的壮观混乱。
最终,在经历了足够多让我终生或两世都感到沮丧的对话之后,我遇到了我的第一位支持者。作为微处理器架构领域的领军人物——将数以百万计的纳米级晶体管排列成世界上最复杂的设备的艺术——李凯教授比大多数人更了解指数思维的力量。他相信我找到了一些东西,虽然他不是尽管我们在计算机科学系的领域之间的联系只是相对松散,我还是有机会直接做出贡献。他知道我们需要强大的计算能力才能起步。他毫不犹豫地捐赠了一套工作站给我们的事业。即使没有其他帮助,这也正是我所需要的支持表现。
凯是普林斯顿计算机科学系唯一的另一位中国移民教授。他出生于1950年代,属于那一代人,是文化大革命后首批上大学的学生之一,最终在1980年代来到美国读研究生——那个时期这样的移民很少,能够产生共鸣的同龄人也不多。这段经历让他形成了丰富多彩的个性,将我母亲的智慧强度和我父亲的自嘲幽默融为一体。凯有着教授的普通外表,黑发两侧大幅分开,衣着朴素。但他有着温暖的微笑和慷慨的精神。我们很快就建立了联系。
我对凯了解得越多,就越能理解为什么他比其他人更看好我的想法。他以在高效连接微处理器和巨大内存存储方面的开创性工作而建立了声誉,并共同创立了一家公司来商业化他的研究,该公司最终以超过20亿美元的价格出售。他不仅是大规模数据力量的早期信仰者,而且是驾驭它的专家。不幸的是,他也即将开始一段长期的个人休假,这缩短了我作为他门徒的时间。然而,他离开的银色线条是,他需要为一个非常聪明的学生Jia DENG找一个新的导师。凯形容他是完美的合作者:一个拥有过剩工程才能、渴望新挑战的年轻头脑。
凯和Jia在许多方面都是完全相反的。凯是开朗和外向的,而Jia则是内向的。凯热情洋溢,而Jia的态度如此无情,我担心我甚至无法感觉到他是否对我们的工作感兴趣。从我们的第一次对话中,我就能看出他无疑是聪明的——即使没有凯的推荐,这一点也是显而易见的——但我从未遇到过任何人能如此完全地隐藏他们智慧的热情。
撇开智力不谈,Jia作为该领域的新人引起了我的注意。他不寻常的背景不仅赋予了他工程技能,这是普通计算机视觉学生不太可能拥有的,而且免除了他的期望负担。这是一个非正统的项目,如果不是一个彻头彻尾的冒险项目,至少也与当时该领域的时尚大相径庭。Jia不知道这一点。
所以我们两个人一头扎进去,开始了一个似乎需要成千上万的贡献者--如果不是更多--的项目,都是为了一个大多数同事直接驳回的假设服务。在纸面上,这一切都没有意义。但在我的一生中,我第一次感到了一种我不必质疑的自信。不管需要多长时间,我确信我们正在做一些重大的事情。也许从历史上看是如此。
我向后仰靠,大声呼出一口气,旋转我的椅子,审视着我在普林斯顿计算机科学大楼新办公室的空白墙壁。尽管我已经工作了将近四个月,部分打开的纸箱仍然占据了我脚下大部分的空间。Jia坐在我对面的沙发上,这代表了我到目前为止的室内装饰努力的全部。
「好吧。让我们看看我们是否能够理解这件事情的规模。」
以WordNet为起点,我们开始削减它的冗余部分。尽管它的卖点是其惊人的大小和细节,但我们知道我们实际上不需要它的大部分内容。ImageNet旨在捕捉事物的世界,而不是动作或描述,这使得我们的第一次剪辑很明显:动词和形容词。但即使是名词也很复杂;例如,「真理」或「意识」这样的抽象概念是不能被拍照的。只有指物理对象的名词——一般来说,足够具体到可以被计数的东西:一个某物,两个某物,一百个某物——才会被包括在内。其他的一切都被剥离了。
总的来说,我们削减了WordNet的140,000个条目中的大部分,留下了一个略高于22,000的视觉上可计数的子集。它仍然比我所听说过的任何用于机器学习的训练图像集合要大得多,但与我们开始时相比已经大幅度减少。而且它与Biederman估计的30,000惊人地接近。
「那多样性呢?」Jia问。「我们每个类别需要多少不同的图像?」
啊,我想。现在我们开始有点方向了。
「让我们从生物学的角度来思考,」我说。「孩子们是如何成长的?我们的物种是如何进化的?现实世界只是一团糟,对吧?没有什么是非黑即白的。一切都在变化。然而我们学会了理解它。我们生活在所有这些细节之中,自然而然地成为了专家。」我拿起桌子上的一个杯子。「但你问的是数量。那么告诉我——这个杯子在照片中可能出现多少种不同的方式?」
Jia思考了一会儿。「有大小,首先。它可能看起来更大或更小,这取决于它与相机的距离。」
「没错。但我想要一个数量。有多少不同的大小?」
他又思考了一下,然后耸了耸肩。「嗯,那会是无限的,对吧?没有具体的数字。」
「再次正确,」这次我带着一丝嘲讽说。Jia完全知道我要用这一切来说明什么,但他愿意让我详细阐述以强调这一点。「所以我们有无限的大小。还有什么?」
「光线?杯子可能是明亮的或处于阴影中。还有颜色,也是。杯子可以有几乎任何颜色,有些上面还有图片和文字。」好的,好的。那么每一个变体有多少种可能性呢?
「一样的。都是无限的。」
「我们还只是刚刚开始,」我说。「那透视呢?把手指向哪里?我们是从上面往下看杯子,还是正面看?遮挡物呢?前面有东西吗?一堆书?一只猫的尾巴?另一个杯子?还有背景呢?杯子是在墙前?窗户前?还是在橱柜里?」
「无限,无限,无限,无限,」Jia非常准确地总结道。
我越想越觉得我们的工作有一种发展性质——试图以数据的形式合成一个孩子感知的形成年代。我想象孩子们是如何玩耍的——他们伸手去摸,去触碰,去戳,去捅。他们通过拿起东西,转来转去,从各个角度观察,变得适应光线和视角的变化。他们玩捉迷藏游戏,学习到即使物体暂时被隐藏,它们也是持续存在的。这些都是我们的算法极度缺乏的本能。
「好吧,但我们还是没有得出一个数字,」Jia大声疑惑道。
「到目前为止,我们只是把无限乘以无限。我们实际上要怎么做呢?」
「我猜这就是我的观点,」我回答。「再多的图片也不够。所以无论我们认为数字是多少,我们可能都应该想得更大一些。然后再想得比那更大。无论如何我们都在猜测,所以就让我们大胆猜测吧。」
我们定下了一个目标,每一个物品类别拍摄一千张不同的照片。小提琴一千张不同的照片。德国牧羊犬一千张不同的照片。抱枕一千张不同的照片。我们将继续进行,超过二万二千个类别。大约二千万张图片。即使是这个数字也只告诉我们关于成品的信息;我们可能得从数亿张,甚至接近十亿张候选图片开始筛选才能达到那里。
Jia看起来很怀疑。「我明白理论,但你说的是天文数字的工作量。这远远超出了几次谷歌搜索。」
他当然是对的,但我们需要接受这个事实,而不是逃避它。我们试图捕捉真实世界的全部。这些数字本应该让我们感到害怕。
「Jia,我们想让我们的算法看到的一切都在外面,某个地方。每一个细节都在被拍摄,就在我们说话的时候。现在每个人都有翻盖手机。每个人都在圣诞节得到一台数码相机。只要想象一下,如果你能把所有这些照片放在一个地方,你会看到什么。那将是整个世界的马赛克!从一端到另一端的日常生活的全部。」
「只要我们能以某种方式组织它,」他补充道。「图片本身不会做任何事情,对吧?在我们能用它们来训练模型之前,所有的图片都需要被标记。而且每一个标签都必须准确。」Jia停顿了一下,好像他自己的话的重量正在他身上显现。「那听起来像是另一个话题。」
「是的,是的,是的,」我回答。「一次奇迹。」
Jia和我站在实验室的角落,看着一排本科生们稳定地点击鼠标和敲击键盘。我们在本周早些时候发出的电子邮件得到了迅速的回应。招聘:愿意帮助从互联网下载和标记图片的本科生。工作时间灵活。每小时10美元。这似乎是一个公平的交易:我们向机器智能的新时代迈进了一步,他们得到了一些啤酒钱。这是一个令人满意的时刻,但现实很快就沉淀下来。
「Jia,是我,还是这一切看起来有点……慢?」
「是的,我也担心这个。事实上,我计时了他们几分钟的速度并进行了一些推算。」
哦哦。
「按照我们现在的速度,我们可以预计ImageNet将在……」
我吞了一口气。他注意到了。
「是的:大约十九年,或多或少。飞飞,我真的相信这个项目——但我不能等那么久拿到我的博士学位。」
公平的观点,Jia。
「那么,我们该怎么办?」他问。「我们是不是只能雇佣更多的本科生?」
「那当然是一个选择。但这会花费我们,如果我们的时间范围是十九年,我不确定我们的实验室预算是否足够大,能够让我们摆脱困境。」
不管怎样,很明显我们需要的不仅仅是几个青少年来解决问题。这对于Caltech 101来说已经是足够的了,而与ImageNet相比,那不过是个舍入误差。显然,需要新的策略。
我想到了Jia在加入我的实验室之前与李凯一起做的工作。他们的世界是复杂系统——令人震惊的复杂——他们为追求效率而生。更高的性能。更低的成本。最短的路径。当然,世界上最杰出的微处理器设计师之一的门徒能想到一种方法来提高一些孩子的生产力。
「Jia,等一下。」我示意着本科生们。「这都是一个过程,对吧?我的意思是,从某种层面上,这不就是一个工程问题吗?」他沉思了片刻,然后用一种即将卷起袖子的男人的眼神看着我。
「好吧,」他带着一丝几乎看不见的微笑说。「我们来谈谈优化吧。」
接下来的几个月进入了一种节奏,尽管这节奏并不特别优雅。ImageNet就像一头不愿被驯服的野兽,每次我们靠得太近它就会猛烈反击。我们坚持不懈,至少取得了一些小胜利——同时也积累了一些擦伤和瘀伤。但每当我们以为终于把它逼到了角落,它就会发出更深沉、更本能的咆哮,让我们匆忙逃窜。
幸运的是,Jia是那种面对令人沮丧的问题会更加深入思考的合作伙伴。人类参与是我们流程中最昂贵的部分,无论是在时间还是金钱上,而这正是他开始反击的地方:他把个人使命定为将这部分成本降到最低。例如,当我们的一个标注员开始为某个特定类别策划一组照片集时,比如「彭布罗克威尔士柯基犬」,我们最初预计每一步都将手动进行:在谷歌图片这样的搜索引擎中输入查询,仔细筛选结果以找到清晰的例子,对每张图片进行标注,然后将最终选择的图片放入正确的目录。但这些步骤大多数并不需要人类智能。
Jia首先自动化的是下载阶段,编写了一个程序,像我们的标注员一样将每个WordNet类别提交给图像搜索引擎。但由于搜索引擎是为人类用户设计的,而不是机器,它们不会直接返回一组图片;相反,它们展示一个网页,将结果以滚动网格的缩略图形式组织起来,Jia的程序随后会解析这些网页的源代码,以提取指向全尺寸图片本身的链接。这是一个混乱的解决方案,但它让我们能够以最大速度下载候选图片,无论白天还是夜晚,只要我们想要——如果必要的话,可以持续数月。而且,结果图片会自动在我们自己的机器上组织起来。我们的仓库开始像魔法一样迅速填满。当然,我们撒下的广网也捕获了相当多的垃圾——低质量的照片、剪贴画等等——但我们也积累了很多好东西。在我们快速填满的硬盘网络中,那幅马赛克的初步轮廓开始拼凑起来——一个粗糙但真实的整个视觉世界的描绘。至少,一段时间是这样的。
「噢哦,」我听到Jia在实验室的另一边说。
「怎么了?」
「看起来我们遇到了点小麻烦。嗯……是的。谷歌封禁了我们。」
「什么?封禁?为什么?」
「显然他们限制了单个用户在特定时间内可以提交的请求数量。从我能看出来的大概是一千左右。」
「这个时间段有多长?」
「二十四小时。它会在午夜时分重置。这是个好消息。」
「好吧,我们多快就用完了每天的配额?」
「嗯,那是个坏消息。」Jia打开了日志文件,做了些心算。「大约九分钟。」
哎呀。
仓库的增长停滞了。而且这不是我们唯一的问题。流程极不平衡;我们的原始图像收藏爆炸性增长,每天增加成千上万张,直到谷歌封锁我们,但只有一小部分被准确地标记和组织起来。我们从一开始就知道标记过程会是一个瓶颈,但随着时间的推移,我们不断地感到沮丧,因为它是多么沉重的负担。Jia和我在校园的Mathey餐厅讨论了这个问题,随着ImageNet对我的精神控制使得我几乎无法忍受花时间做饭,我变得依赖这个地方。这也是在实验室度过了那么多日日夜夜后,一个受欢迎的换景,那里的高天花板、乡村风格的吊灯和彩色玻璃让我们感觉找到了修道院的避难所。
我们讨论了我们的标注员识别、分类和标记每张图片所遵循的每一步,尽可能地用快捷方式和定制工具简化它们。如果一个过程需要三次点击,Jia会找到一种方法只需一次。更少的打字。更短的鼠标移动。一切都更快。我发现自己在我们谈话时研究桌上的物品,默默地想知道它们是否在我们的二万二千个类别中。肯定会有「餐巾」的条目,但我们区分布餐巾和纸餐巾吗?那是什么样的刀?可能有多少种类别,比如「牛排刀」和「黄油刀」?「屠刀」,我猜。「面包刀」?也许。现在我想到了,真的有很多。我们都有吗?我在心里记下了回到实验室时要检查的事情。
「哦,顺便问一下,你知道什么是动态IP吗,飞飞?」
Jia的另一个妙计。
「把它想象成我们的机器和谷歌服务器之间的中间步骤。我们的实验室计算机保持不变,但动态IP会连接我们到不断变化的中间人,所以谷歌认为它们来自不同的用户。」
「这样就能让我们保持在限制之下?」
「远远低于它。」
至少在某种程度上,我们又回到了正轨。标记仍然是一个问题,但看到我们的候选图像供应重新启动,即使是小胜利也值得庆祝。随着月份的流逝,ImageNet渗透进了我的内心深处,几乎成为了我看待一切事物的透镜。无论是在实验室工作,还是穿过校园的草坪,我私下进行的视觉识别游戏持续进行着。如果我看到某种我不认识的狗品种,我会想我们是否为它专门设立了一个子类别。看到一个学生骑着独轮车,我可能会想「独轮车」是否被包括在内,更不用说所有不同种类的独轮车了。说到这个,独轮车有不同的种类吗?我父亲喜爱的跳蚤市场经历已经成为了我的世界。一切都被放大到了难以理解的规模,但精神是相同的——无尽的好奇心,对新奇事物的渴望。我想知道我们家是否有这样的基因。
挑战继续进行,每一步都是对新难题的回应。当我们发现某个类别中的图片看起来太相似,从而稀释了我们寻求的多样性时,我们使用WordNet的国际翻译来用不同语言提交查询,希望来自世界各地的图片会有更广泛的变化。当我们根本找不到足够的图片时,我们会在搜索查询中添加相关术语,将「柯基」变成「柯基幼犬」或「柯基狗公园」。当搜索引擎微妙地重新设计了它们结果页面的布局,从而改变了每张图片链接的位置,并破坏了Jia的许多自动下载程序之一时,我们重新编程使之匹配,并开始定期检查此类变化。
对于一年前还在设计微处理器架构的家伙来说,这些都是非常平凡的工程挑战。尽管如此,我们都知道我们的努力是为了某些有价值的事情。它们可能是权宜之计,简单粗暴,但每一个都让我们更接近于一个完全暴露给机器看到的世界的愿景,而且很快,我希望,甚至可能理解。
「通心粉?」我问。
「非常好!」西尔维奥高兴地回答,他把仍在冒着热气的意大利面碗放在我面前。「但等等,我们上周吃的是什么?它也是管状的,但更大,边缘没有斜切。」
「「那是意大利通心面。」
「对!是的!『意大利通心面』。我也喜欢那个。」
「你问这个是因为你真的对我的国家的食物感兴趣?还是因为你想知道ImageNet是否包含了足够多的意大利面类型?」
我咬了一口意大利面来延迟回答这个问题,而他坐下来交叉双臂,显然为他的侦探技巧感到自豪。
「不能两者兼得吗?」我最终回答。
我们进行ImageNet的工作已经一年了,我感觉我们已经找到了节奏。在我们标注团队的工作和Jia不断优化他们流程的努力下,我确信我们至少已经取得了一些成果。我很好奇我们做得怎么样了,而且,像往常一样,Jia知道我在想什么。
「想知道现在完成ImageNet还需要多长时间吗?我重新计算了我们的估算。」
我正要问。兴奋地,我急忙走向他的桌子。
「好的,所以——考虑到所有因素:我们所有的优化、捷径,加上我们已经标注的图片——我们设法将那个19年的预计时间缩短到了……」
我突然失去了勇气。这将是一个坏消息。我能感觉到。
「……大约18年。」
Jia是一个多才多艺的人,但缓和坏消息的打击并不是他的长处。很长一段时间以来,我第一次不知道接下来该做什么。
绝望激发了一种巴洛克式的创造力,我们尝试了一系列可疑的想法,因为我们的处境变得越来越难以忽视——这些想法甚至包括用……机器来帮助我们的人类标注者。当然,这涉及到一些循环论证——如果算法能够足够准确地识别对象以帮助我们标注它们,那么我们根本就不需要ImageNet。尽管如此,我们想知道是否有可能通过让它们发挥边缘作用来获得一些优势——例如,使用我和皮特罗开发的一次性学习技术来粗略但迅速地标注大批量的图片,让我们的人类团队更多地充当编辑或校对者的角色。这在某种程度上是一种颠倒的、有争议的合理性,但我们从未找到正确的平衡。
更重要的是,自动化标注过程的真正论点不是技术上的,而是哲学上的。我们意识到,即使是微妙的算法捷径,也将与ImageNet的使命背道而驰。我们的目标是在每张图片中嵌入纯粹的人类感知,希望在完整集上训练的计算机视觉模型能够被赋予某种类似的敏锐。机器的影响威胁到了这一点。如果人类是瓶颈,而我们已经无法进一步减少他们的参与,我们唯一剩下的选择似乎是采取蛮力:扩大我们的标注团队,以将我们的预计时间从近二十年缩短到更近的期限。增加十倍可能就能做到——考虑到已经完成的工作,我们可能在一年半左右的时间内就能达到。但是资金根本就不在那里。想到在如此多的情感投入之后,这一切都将归结为金钱问题,真是令人愤怒。
「嗯,」我说,向后仰靠着,仰望实验室的天花板。我突然想到了一个想法。一个奇怪的想法。
「什么?」Jia从他的工作站抬起头来。「我不知道。嗯,也许吧。听着——我确实有一个筹集额外资金的想法。虽然不多,但总归是一些。这绝对是最后的手段。」
「我在听着,」Jia回答道,他靠了过来。
我更深地陷入座位,慢慢地呼了口气。我简直不敢相信我即将说出的话。
「你对干洗了解多少?」
我眯着眼睛望着落日,当我放下遮阳板时。以每小时七十英里的速度视线会更模糊,但内容丝毫不减。反光标志和里程碑在我们右边飞速掠过,周围是柏油路面的裂缝、岩石碎片,偶尔还有塑料瓶或皱巴巴的快餐袋。各种标志飞速闪过,提醒我们速度限制,宣告出口的接近,或是归功于Unitarian教会的当地分会维护着接下来的一英里路。车牌和保险杠贴纸。一只狗坐在副驾驶座。
我们正前往明尼阿波利斯,那里将举行2007年的计算机视觉与模式识别会议——CVPR。ImageNet的资金正在枯竭,但有传言说,实验室之外的世界依然存在——而且是夏天。会议感觉像是逃离的完美借口,我期待着一千二百英里单调无聊的驾驶,我可以花时间思考任何事情——任何事情——除了我们的工作之外。我租了一辆面包车,里面装满了实验室的几个学生。接下来的几天,我们唯一需要关心的就是餐馆食物、洗手间休息,以及关于收音机电台的争论。
不幸的是,我无法关闭那个对视觉世界着迷的部分。我们穿过森林,我想知道我们经过的是什么树种。枫树?白蜡树?桦树?我们看到像麦迪逊这样的大学城,它们的霓虹灯和繁忙的人行道。一个戴着太阳镜的学生躺在长椅上。一个三人组,有一把原声吉他,一把立式贝斯和一把口琴,正在街头表演。我们穿过繁忙的城市,它们的摩天大楼高耸在我们上方,反光且几何形状。我们看着太阳在我们沿着伟大湖泊之一——伊利湖,或许是密歇根湖——驾驶时在水面上闪烁。波浪拍打着岸边。孩子们追逐着潮汐进进出出。一对情侣扔着飞盘。
我再次想起了我的父亲,就像这些日子里经常会的那样,他会从一个车库销售展示走到另一个,检查一个二手面包机或录像机,他的好奇心永不疲倦,他的快乐具有感染力。我想知道我的脸上是否也有那种表情。
生活中有太多东西需要了解,我想。而其中很多都是通过眼睛进入的。我感觉到它在我的肠子里,在我的心里。ImageNet可能注定要失败,但它的目标并不减其价值。迟早有人会解决它。当他们做到了——当我们这个世界的全部都涌入我们机器的思维中,带着所有的颜色和混乱以及平凡的魔力——一切都会改变。
「所以飞飞,现在你有了自己的实验室,你最近在研究什么?」
这是一个我害怕的问题,但它来自Jitendra——Pietro的导师,也是我的「学术祖师」——我最希望遇到的人。我们已经多年没有面对面交谈了,我知道他会出席像CVPR这样的活动。随着ImageNet的困境和我作为学者的未来比以往任何时候都更加模糊,我需要看到一个熟悉的面孔。这不是他第一次在这样的地方提振我的精神。
「老实说,Jitendra,这是一个有点棘手的话题。」
「哦哦。」
我告诉了他一切。我和Christiane的对话。第一次看到WordNet。Jia和我做出的决定,每一个都比上一个更充满争议。还有我们艰难地度过的一年,努力让一些不可能的事情起飞。
「哇。那是个,呃……相当不错的故事,」他回答道,他的语气异常冷淡。如果他对他所听到的有什么看法,他保持着沉默。
「是的。最糟糕的部分是,这一切都归结为物流问题,而不是科学问题。我比以往任何时候都更确信ImageNet正是计算机视觉所需要的,如果我们能够完成这该死的东西。」
「嗯,飞飞……」他开始说,小心翼翼地选择着词语。「当然,每个人都同意数据有一定的作用,但是……」
他停顿了一下,然后继续说。「坦白说,我认为你把这个想法做得太过分了。」
我深吸了一口气。
「科学的诀窍是要与你的领域共同成长。而不是跳得太远超过它。」
我没有预料到这一点。听到Jitendra这样的人也加入了批评者的行列,这不仅仅是个人层面上的打击:当我有一天需要收集推荐信来申请终身教职——随着这样一个巨大的失败悬在我的头上,这个前景越来越模糊——他的推荐信将是其中之一。出于许多原因,他的意见很重要。
我几乎可以看到我的北极星变得更暗,我的道路再次陷入黑暗。一个可怕的想法开始沉入心底:我冒的风险比我意识到的要大,而且已经太晚了,无法回头。
在CVPR之后的几个月里,我不确定该如何处理ImageNet。有很多事情需要担心,但我的思绪不断回到Jia身上。他带着天赋但天真地进入了计算机视觉领域,他信任我引导他。现在,我能感觉到他的挫败感在增长——理所当然地——我知道他也在担心自己通往博士学位的道路。在……在研究生院经历的所有挣扎,想到自己可能会误导我的学生,足以让我感到胃痛。
当然,科学上的心碎同样令人难以承受。经历了如此漫长的旅程,我无法忍受自己的直觉竟然如此错误。我们突然变得无助,漂浮在空旷天空下的黑色波涛之中。
不过,事情还没有结束。
「打扰一下,呃,飞飞?」
我正要迟到一个教职员会议,硕士生敏突然出现在我面前。他能看出我很匆忙,但在说话时显得坚持,甚至有些不安。
「嗨,呃,你有一秒钟吗?」
他没有等我回答。我对他足够了解,知道他通常说话温和。显然,他心里有很重要的事情。
「我昨天和Jia在一起,」他继续说,「他告诉我你们在这个标注项目上遇到的麻烦。我想我有一个你们还没尝试过的主意——就是,一个真的可以加快进程的主意。」
我立刻忘记了自己的匆忙,我的耳朵竖了起来。Jia有社交生活?
「你听说过众包吗?」他问。
他解释说,在线平台在组织远程、临时工作力方面证明是有用的,这些工作力可以从个人贡献者到数百万团队不等,自动化分配任务和收集结果的过程。「亚马逊正在提供这项服务,如果你感兴趣的话。它叫做机械土耳其人。」
这是一个聪明的名字,取自原始的机械土耳其人,一个18世纪的下棋自动机,它作为工程奇迹和强大的对手(即使对于经验丰富的玩家)在世界各地巡回演出多年。这个装置实际上是个骗局;在它的底座里隐藏着一个人类国际象棋大师,他控制着机器,让观众感到愉快和困惑。
几个世纪后,新兴的众包实践基于同样的理念:真正智能的自动化仍然最好由人类执行。亚马逊机械土耳其人,或AMT,围绕这一概念建立了一个市场,允许「请求者」发布「人类智能任务」由被称为「土耳其人」的贡献者完成,这些贡献者可以在世界任何地方。这在理论上是有道理的,并似乎承诺了我们想要的一切:人类标注的智能,但速度和规模与自动化相当。有趣的是——而且非常有洞察力——亚马逊称之为「人造人工智能。
我穿过走廊找到佳,尽管当我找到他时,他的热情并没有完全与我相匹配。经历了这么多挫折,他有充分的理由对又一次射击黑暗持谨慎态度。但在我们经历了这么多之后,他能看到这真的可能是我们一直在等待的救生索。在犹豫和松懈的混合情绪中,他最终同意了:AMT值得再尝试一次。
我的北极星又重新闪烁起来,我不得不再次惊叹于时机。ImageNet的存在之可能性要归功于许多汇聚的技术线索:互联网、数码相机和搜索引擎。现在,众包——由一年前几乎不存在的平台提供——提供了顶石。如果我需要一个提醒,那就是任何科学家的默认立场应该是绝对的谦卑——理解没有人的智力有一半强大如偶然性——这就是它。
AMT改变了一切。它将我们的本科标注工作人员转变为数十、数百、数千的国际团队。随着我们的支持扩大,Jia估计的完成时间急剧下降——到十五年,然后是十年,五年,两年,最后,只有不到一年。
它也以全新的视角展现了我们的预算,在ImageNet的经济计算中颠倒了角色。曾经远远不足以在一个屋檐下建立一个足够大的标注团队的金额,现在可以有效地用于一个分布在世界各地并通过互联网连接的众包团队。
在此过程中,我越来越多地利用我在实验心理学方面的经验,帮助Jia创建一个系统,使我们的工人的时间和注意力得到理想的利用,同时最小化他们被误导、困惑或试图操纵系统的机会。有时,AMT感觉像是我和克里斯托夫在加州理工学院进行的人类心理物理实验——试图从陌生人的感知中提取一些微妙但必要的信息——扩大到全球规模。在某些方面它更容易;与其读心,我只需要将正确的标签应用到我们的批量下载集合中的一个图像上。然而,同时,它也复杂得多;尽管标注一个图像看起来很简单,但它最终涉及从数以万计的预定义类别列表中精确选择正确的类别。
然而,并非所有的挑战都是技术性的。还有人类问题,比如担心众包可能是剥削性的。尽管这个可能性直到多年后才引起广泛讨论,但即使在那时,也很难避免这种想法。这鼓励我们尽可能多地按图像支付,这个决定因为ImageNet是一个纯粹的科学事业,不需要考虑利润而变得更容易。
当时对这个问题的研究也是令人振奋的。2007年对AMT的人口统计发现,大多数贡献者将服务视为爱好或副业,而不是试图以此为主要生活来源。当然,随着近年来零工经济的兴起,情况变得更加复杂。今天,很难将大数据的力量与其人类成本分开。它持续不断地进行着,每天都有成千上万的新图片被标记。在ImageNet发展的高峰期,我们是AMT平台上最大的雇主之一,我们每月为这项服务支付的费用也反映了这一点。这是昂贵的,但它确实有效。
然而,我们的预算困境并未结束。尽管AMT的成本很低,但ImageNet项目如此庞大,我们很快发现自己再次不舒服地接近了财务边缘。从最严格的意义上讲,我们知道我们有能力完成这项工作,但我们不能排除附带损害的可能性。ImageNet可能是我们最大、最昂贵的单一项目,但它远非唯一;我们继续研究算法,研究生和博士后都在探索识别照片中物体甚至识别视频中人类动作的新技术。每位研究人员都有权获得生活津贴,我们在提供这些津贴的同时,还保留了每个实验室都应该维持的「雨天」现金储备。ImageNet比以往任何时候都更接近完成,但在这个过程中,它也将其他一切推向了边缘。
在我们财务状况如刀锋般的两年后——在这段令人痛苦的时期,即使是小小的颠簸也可能彻底击垮我们——ImageNet终于成熟为Jia和我一直设想的研究工具。自然地,我们的实验室是第一个使用它的,即使在未完成的状态下,它的影响也让我们所有人感到鼓舞。随着完成的临近,我们不再需要用想象力;因为第一次,对每个人来说都很明显,我们正在构建的东西值得与世界分享。
在我的工作之外,这也是一个不同寻常的稳定时期。我母亲的健康状况如预期般持续下降,但她从干洗业退休,使我们免受了所有人都已经习惯预期的那种令人心跳加速的危机。她甚至开始了一些爱好,特别对摄影感兴趣。我父亲的生活方式也变得更加休闲,多年来第一次可以为了纯粹的乐趣而烹饪。我和西尔维奥之间的距离仍然是一个烦恼,但我们在安娜堡和普林斯顿之间的轮流旅行已经磨练到了本能的程度。事实上,西尔维奥来看我的路线如此一致,以至于飞行员们开始认出他。
我也开始偶尔前往旧金山湾区,拜访一群杰出的机器学习和计算机视觉先驱,包括斯坦福大学的吴恩达、达芙妮·科勒和塞巴斯蒂安·特伦。这些会议开始时是友好的思想交流,包括一些关于ImageNet的积极对话——这是我所进行的为数不多的几次之一。然而,就像几年前在普林斯顿发生的那样,对话很快就变得更加正式。最后,我接到了来自比尔·达利的电话,他是计算机科学系的主任,这使事情变得正式。他想知道我是否有兴趣将我的实验室带到加利福尼亚。
在普林斯顿担任教职不到三年后,考虑换工作似乎是不可想象的。但我从未经历过像斯坦福这样的大学,或者像硅谷这样的地方。在新泽西州一个移民社区长大,并在随后的岁月里闭门不出地从事学术研究,我对商业世界知之甚少,除了中餐馆和干洗店。相比之下,斯坦福大学位于科技产业的核心,我们研究探索的想法在全球范围内得到了实践。尽管我自己并没有渴望加入这个世界,但我对斯坦福对它的影响印象深刻,惠普、思科系统、Sun微系统、谷歌等许多公司都可以追溯到这所学校。我遇到的每个人似乎都受到了触及真实人类生活可能性的个人启发。
然而,我对搬到那里的想法感到矛盾。超过任何其他机构,普林斯顿使我的职业生涯成为可能。它在我是高中生的一个下午就用一份经济援助计划改变了我的生活,这个记忆至今仍让我起鸡皮疙瘩,然后它作为一个未经证实的助理教授再次给了我机会,为我提供了我的第一个实验室和我的第一个博士生,并让我与我已经开始爱戴和尊敬的同事们为伍。还有人要考虑,比以前更多。我父母的需求在一个方向上推动着我,正如帕萨迪纳的生活所展示的,西海岸的天气对我母亲来说更温和。但是对萨贝拉家族的思考又把我拉向另一个方向;他们不再是我的「美国」家庭,而是我的家庭,不加任何限定,而再次在我们之间横亘数千英里的想法——这次可能是永久的——让我感到刺痛。在中间的某个地方是西尔维奥。无论如何,他都会留在密歇根,但我搬到加利福尼亚会使我们的远距离关系变得更长。
然而,作为一名科学家,决定要简单得多。我是一个年轻、快速发展的领域的一部分,有可能在我的有生之年改变世界,我在斯坦福遇到的人们和我一样真诚地相信这一点。普林斯顿感觉像家,但我不能否认斯坦福似乎是我研究的更加适宜的背景。事实上,我越想越担心,像「家」这样的地方对于这样的时代来说可能太舒适了。搬到一个新地方对我来说很有吸引力,正是因为它不舒适。它感觉不确定——甚至可能有风险——我需要这种感觉。
因此,在2009年,我再次决定前往西部,Jia和我的大多数学生也跟我一起转学。我们到达后发现了一个新的学术家园,一个足以让普林斯顿和加州理工学院相形见绌的广阔校园——以一种引人注目的建筑风格,沙石、拱门和自行车道,几乎全年阳光普照。而在这一切之下,潜藏着在当时很少被提及的历史根源,但比我当时所能充分理解的更接近我的工作。比机器学习大。比计算机视觉大。一个几乎被遗忘的领域,曾经包含了它们两者以及许多其他世界,称为「人工智能」。
在斯坦福大学的新成员中,我遇到的许多人之一是当时的大学教务长约翰·埃特切门迪。那时我已经认识了许多行政人员,但我立刻清楚地意识到约翰是他自己的一类。他是一位哲学家和逻辑学家,在成为教授之前已经在教育界工作了几十年。
他负责管理工作,讲授诸如符号学、逻辑真理和语言哲学等主题。他非常聪明——而且似乎不费吹灰之力就能散发出才智——他既友好又是一个很好的倾听者。当他不经意间提到约翰·麦卡锡,人工智能的奠基人之一,以及达特茅斯夏季项目的关键组织者——这个项目为该领域命名时,我的心跳漏了一拍。
「你知道,约翰是我的朋友,」他说。
我不确定哪个更加超现实:我的新教务长与这样一个传奇人物有过私人交往,还是他如此漫不经心地提起这件事。无论如何,我清楚地意识到我来对了地方。
到了2009年6月,主要得益于斯坦福提供的新研究资金,ImageNet的初始版本完成了。尽管我们在过程中面临了许多挑战,但我们真的做到了:1500万张图片分布在22000个不同的类别中,从近十亿的候选图片中筛选出来,并由来自167个国家的超过48000名贡献者的全球团队进行注释。它拥有我们梦想多年的规模和多样性,同时保持了一致的精确度:每张单独的图片不仅是手工标记的,而且在层次结构中组织,并经过三重验证。
从数量上,我们实现了我们的目标,建立了当时人工智能历史上最大的手工策划数据集。但是,超越数字的是最让我感动的成就:实现了一个真正的世界本体论,它既是概念性的,也是视觉性的,由人类从底层策划,唯一的目的是教导机器。
2009年的CVPR在迈阿密举行,我们不仅作为与会者到达,还是演讲者。城市以其蒸热的热度和过度饱和的色彩名副其实,从行李领取处走出的第一步开始——这是一片霓虹色泳装、抛光的跑车和高层建筑的模糊,背景是自然的蓝绿色,以持续的节奏声音的纹理联系在一起。我们周围的能量反映了我们自己的不耐烦;经过近三年的动荡,Jia和我迫不及待地想向世界揭示ImageNet。
我们准备得非常充分。项目异常长的孕育期给了我们充足的时间来磨练我们讨论它的能力,我们渴望利用这项技能。长时间与我们的工作相关的两极分化效应相处,我们已经习惯了期待好奇、困惑和对抗。我们相应地做好了准备,排练了对其目标的热情辩护,以及对常见批评的最佳回答。尽管我们已经感觉有点像避雷针,但我们决定通过在项目预算的最后几美元上稍微挥霍一下,完全接受我们的臭名昭著。
「这是什么?」Jia问,当我递给他一个白色的硬纸盒。
「打开看看!」我说。
他撬开了盖子上固定盖子的瓣子,看了里面。
「呃……笔?」
「带有ImageNet标志的笔!我在网上找到一个做这个的地方。」
「我的意思是,它们看起来很酷,我猜,但这些是干什么用的?」
「我们可以在会议上分发它们!这是所有科技公司都在做的事情。你知道,商品。我们需要人们记住我们。」
Jia的表情看起来比平时还要空白。我仍然不屈不挠。
我们带着一群过度劳累的书呆子团队所能期望的尽可能多的信心到达,但从一开始气氛就很奇怪。我们的第一个挫折也是最重要的:ImageNet被安排在海报会议上。用学术术语来说,这意味着我们不会在一个预定时间的讲堂向观众展示我们的工作,而是会在会议场地上获得一个空间来支撑一个大幅打印的项目总结——因此是「海报」会议——希望路人可能会停下来提问。当然,能够被包括在内已经很幸运了,因为即使是这样在CVPR这样的活动中也是罕见的特权。但我们渴望有机会用不止一个声音片段来解释我们的愿景。经过这么多年的努力,这只是让人感到平淡无奇。
我们回答了常见的问题,进行了一些愉快的对话,但离开时几乎没有什么可以展示我们的存在。很快就明白,无论ImageNet的命运如何——无论它会被接受为一个非凡的资源,还是被视为愚蠢——它都不会在CVPR上得到提升。从好的方面来看,人们似乎喜欢这些笔。
与此同时,当我重新适应没有ImageNet挑战的生活时,我多年来拒绝承认的疑虑感觉比以往任何时候都更加真实。那些反对者是对的吗?这真的全都是浪费时间吗?ImageNet不仅仅是一个数据集,或者甚至是一个视觉类别的层次结构。这是一个假设——一个赌注——受到我们自己生物起源的启发,即解锁真正的机器智能的第一步将是沉浸在视觉世界的丰富性中。一种与塑造我们自己进化的混乱和复杂性相当的经验可能会对我们的算法产生类似的影响。我已经准备好这个赌注被证明是正确的,也准备好被证明是错误的。无论哪种结果都是学习的机会。但我没想到它会被忽视。
我错过了什么?
(注:第八章讲述ImageNet大赛名扬天下和神经网络在ImageNet的异军突起,很是精彩,其实是ImageNet故事的终章。只是全文已达长度限制,感兴趣的读者请等纸质书。)