歌德说,“读一本好书,就是和许多高尚的人谈话。”
吴军的新书《见识》,即将于12月17日上线,正如书中的核心观点:你最终能走多远,取决于见识;
新书发布之际,让我们一起重温《智能时代》的经典内容。
一、智能时代,未来已来
最近几年,人类在一些科技前沿领域取得了重大的突破。这些领域包括:人工智能、基因技术、纳米技术等。
我们看到了许多存在科幻小说中的内容成为现实:人工智能击败了人类顶尖棋手、自动驾驶汽车技术日臻成熟、生产线上大批量大机器取代工人……
甚至在我们有生之年,也许可以期待看到星际航行技术的成熟。当这些曾经是对人类社会“未来”描述的事情一件件成真,或许我们可以说,已经初露端倪的“智能时代”就是人类想象中“未来”的样子。
全书对大数据与智能革命带来的思维革命、技术上的挑战以及机器智能如何改变人类社会,都做了全面的讲解。
“用不确定的眼光看待世界,再用信息来消除这种不确定性”,是大数据解决智能问题的本质。吴军博士在书中提到了世界的不确定性来自两方面,一是影响世界的变量太多以至于无法用数学模型来描述;二是来自客观世界本身:不确定性是我们所在宇宙的特性。
解决智能问题,就是将问题转化为消除不确定性的问题,大数据是解决不确定性问题的良药。可以预见,在这里会诞生无数的机会。
第一次工业革命以来历次技术革命中的一个规律,即每一次技术都会围绕着一个核心技术展开,第一次工业革命是蒸汽机,第二次工业革命是电,信息革命是计算机和半导体芯片,当下的智能革命则是大数据和机器智能。
而在每一次技术革命中,只有率先采用新技术,才能立于不败之地。在智能革命中,现有产业采用了新技术后,将会全面升级,成为新产业,这将给我们带来无限的机会。
本书的一个重要观点是:机器智能革命的发生来自大数据量的积累达到质变的奇点。从这个角度来看,机器学习同人类学习并没有什么不同。几千年来,我们人类的知识都建立在归纳法之上,归纳法隐含的假设是“未来将继续和过去一样”,换句话说应该叫连续性假设。但即将到来的这个“智能时代”,可以说人类将遭遇前所未有的“不连续性”。如何在新的时代里生存,跨越底层认知的不确定性,是前进的第一步。
与工业革命相比,人工智能带来的革命程度将更深,更广。书中也提到,一些人对变化开始有了一定程度的担心,认为机器智能将在未来危及整个人类的工作机会,大多数人在未来将不再被社会需要。
不可避免,每一次大的技术革命都会带来阵痛,但同时诞生的,还有更多新的机会。而要想在智能时代取得胜利,成为“2%的人”,我们需要做的第一步,是打破现有的认知束缚。
二、人类的胜利
2016年是机器智能历史上一个具有纪念意义的年份,它是一个时代的结束,也是新时代的开端。这一年距1956年麦卡锡、明斯基、罗切斯特和香农等人提出人工智能的概念正好过去了60年,按照中国的习惯来说,正好过去了一个甲子。
而当年在达特茅斯学院提出这个概念的10位科学家中最后一位科学家明斯基也在这一年初离开了人世,这或许标志着人类在机器智能领域第一阶段的努力落下了帷幕。
就在明斯基去世后的两个月,Google的围棋计算计算机AlphaGo 在与世界著名选手李世石的对局中,以4:1取得了压倒性的胜利,成为第一个战胜围棋世界冠军的机器人,它的意义要远远超过1997年IBM的深蓝战胜卡斯帕罗夫,因为从难度上讲,围棋比国际象棋要难6~9个数量级。这件事不仅是人类在机器智能领域取得的又一个里程碑式的胜利,而且标志着一个新的时代-智能时代的开始。
从计算机发展的角度看,智能机器在所有棋类中战胜人类其实只是一个时间问题,因为机器运算能力的提升是指数级增长的,而人类智力能够做到线性增长就不错了。因此一定存在一个时间点——在所有的棋类比赛中智能机器都会超过人。
比赛之前,李世石本人认为前者的水平和他相差一到两个子,也就是说,即使他让先也能5:0获胜。中国围棋界的泰斗聂卫平也认为今天的计算机是不可能战胜人类冠军的。就连曾经在Google工作过的IT行业老兵李开复也不相信AlphaGo能赢,而且是因为下围棋是一件太难的事情。
2015年年底,AlphaGo仅仅赢了樊麾二段而已,离九段还差的远呢。但是大家忘记了一件事情,那就是AlphaGo水平的提高并不需要人那么长时间,事实上在Google内部,大家在开赛前已经知道AlphaGo的水平并不在九段之下。
机器之所以能够战胜人类,是因为机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。在数据方面,Google使用了几十万盘围棋高手之间对弈的数据来训练AlphaGo,这是它获得所谓的“智能”的原因。在计算方面,Google采用了上万台服务器来训练AlphaGo 下棋的模型,并且让不同的版本的AlphaGo相互对弈来上千万盘,这才保证它能做到“算无遗策”。
具体到下棋的策略,这里面有两个关键技术。第一个关键技术是把棋盘上当前的状态变成一个获胜概率的数学模型,这个模型里面没有任何人工的规划,而是完全靠前面所说的数据训练出来的。第二个关键技术是启发式搜索算法——蒙特卡罗树搜索算法,它能将搜索的空间限制在非常有限的范围内,保证计算机能够快速找到好的下法。
虽然AlphaGo的训练使用了上万台服务器,但它在和李世石对弈时仅仅用了几十台服务器(1000多个CPU多内核以及100多个GPU)。相比国际象棋,围棋的搜索空间要大很多倍,AlphaGo的计算能力相比深蓝,其实并没有这么多倍的提高,它靠的是好的搜索算法,能够准确地聚焦搜索空间,因此能够在很短的时间里算出最佳行棋步骤。由此可见,下围棋这个看似智能型的问题,从本质上讲,是一个大数据和算法的问题。
Google开发AlphaGo的最终目的,并非要证明计算机下棋比人强,而是要开发一种机器学习的工具,让计算机能够解决智能型问题。从樊麾到李世石,他们实际上在用自己的专才在帮助Google测试当今机器智能的发展水平。AlphaGo的胜利标志着人来在机器智能方面达到了一个崭新的水平,因此它是人类的胜利。
AlphaGo无论在训练模型时,还是在下棋时所采用的算法都是几十年前大家就已经知道的机器学习和博弈树搜索算法,Google所做的工作是让这些算法能够在上万台甚至上百万台服务器上并行运行,这就使得计算机解决智能问题的能力有了本质的提高。
今天,计算机已经开始完成很多过去必须用人的智力才能完成的任务,比如:医疗诊断、阅读和处理文件、自动回答问题、撰写新闻稿、驾驶汽车等等。可以讲,AlphaGo的获胜,宣告了机器智能时代的到来。
AlphaGo的获胜让一些不了解机器智能的人开始杞人忧天,担心机器在未来能够控制人类。这种担心是不必要的,因为AlphaGo的灵魂是计算机科学为它撰写的程序。
机器不会控制人类,但是制造智能机器的人可以。而科技在人类进步中总是扮演着最活跃最革命的角色,它的发展是无法阻止的,我们能做到的就是面对现实,抓住智能革命的机遇,而不是回避它,否定它和阻止它。未来的社会,属于那些具有创意的人,包括计算机科学家而不属于掌握某种技能做重复性工作的人。
本书希望大家更多的了解大数据的本质、作用、它和机器智能之间的关系,机器智能的原理和发展历程,以及它们对未来产业和社会的影响。
三、数据:人类建造文明的基石
如果我们把资本和机械动能作为大航海时代以来全球近代化大推动力,那么数据将成为下一次技术革命和社会变革的核心动力。
数据和信息虽然有相通之处,但还是不同的。信息是关于世界,人和事的描述,它比数据来的更抽象。信息既可以是我们人类创造的,比如两个人的语音通话记录,也可以是天然存在的客观事实,比如地球的面积和质量。不过信息有时藏在事物的背后,需要挖掘和测量才能得到,比如宇宙大爆炸时留下的证据-3K背景辐射、物理定律中的参数、日月星辰运行的周期等。
在西方很多物理学家看来,上帝在创造这个宇宙时,将很多信息藏在了黑暗中,他们的工作就是找到这些信息,并且用数据把它们描绘清楚。因此,在这种前提下,将信息和数据混为一谈倒也无害。
数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域的专业知识的人才能将它们挖掘出来。比如大金字塔的这组数据,如果让一个盗墓者看到,他们可能联想不到任何事情,但是在数学家或者考古学家眼里却意义重大,因为前者不具备后者所拥有的数据处理能力。
处理信息和数据可以说是人类特有的本事,而这个本事的大小和现代智人的社会发展有关。今天我们还能找到这样的原始部落,他们对数字的认识只有1、2,少量和很多一共四种衡量方式,但是随着人类的进步以及处理数据和信息的能力不断增强,人类从数据中获取有用信息的本事就越来越大,这就是今天所说的大数据应用的基础。
人类的进步就是靠使用知识不断地改变我们的生活和周围的世界,而数据是知识的基础。
最初研究概率的并非数学家,而是一群赌徒和投机者。越想要得到准确的统计结果,需要的统计数据量就越大。
在1936年成功地预测了大选结果之后,盖洛普不仅个人一夜成名,而且还催生出一个直到今天仍具权威性的民调公司——盖普洛公司。在这之后,该公司又成功地预测了1940年和1944年两次大选。在1948年年底,美国大选前夕,盖普洛公布了一个自认为颇为准确的结论——共和党候选人杜威将在大选中以比较大的优势击败当时的总统,民主党候选人杜鲁门。
由于盖普洛公司前三次的成功,在大选前很多人,包括蒋介石都相信这个结论。但是,大选的结果大家都清楚,杜鲁门以比较大的优势获胜。这不仅让很多人大跌眼睛,而且让大家对盖普洛公司的民调方法产生了质疑——虽然盖普洛公司考虑了选民的收入,性别,种族和年龄因素,但是还有非常多的其他因素,以及这些因素的组合他们没有考虑。
迷信了1948年盖普洛预测的第一大输家无疑是远在大洋彼岸的蒋介石先生。他本来和杜鲁门关系不是很好,在得知杜威将取代杜鲁门之后,非常兴奋,公开支持杜威,并且期待着在杜鲁门下台后能从美国得到更多的援助。草根出身的杜鲁门本来就非常不喜欢蒋介石的独裁和腐败,对这次蒋介石公开支持他的竞争对手的行为更是大为不满,因此他在连任总统后,对蒋更不待见了。当然,这是题外话,不过这至少说明,使用不具有代表性的数据得到的结论可能要“坑死人”。
在互联网出现之前,获得大量的具有代表性的数据其实并非一件容易事,在误差允许的范围内做出一些统计当然没有问题,但是只有在很少的情况下能够单纯依靠数据来解决复杂的问题。因此在20世纪90年代之前,整个社会对数据并不是很看重。
要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。模型的选择不是一件容易的事情,通常简单的模型未必和真实情况相匹配,一个典型的例子就是,无论支持地心说的托勒密,还是提出日心说的哥白尼,都假定行星运行轨迹的基本模型是最简单的圆,而不是更准确的椭圆。由此可见,如果一开始模型选的不好,那么以后修修补补就很困难。因此,在过去,无论在理论上还是工程上,大家都把主要精力放在寻找模型上。
第二步就是要找到模型的参数,以便让模型至少和以前观察的数据相吻合。这一点在过去被看中程度远不如找模型。但是今天它又有了一个比较时髦而高深的词-机器学习。鉴于完美的模型未必存在,即使存在,找到它也非常不容易,而且费时间,因此就有人考虑是否能够通过用很多简单不完美的模型凑在一起,起到完美模型的效果呢?比如说,是否可以通过很多很多圆互相嵌套在一起,建立一个地心说模型,和牛顿推演出的日心说模型一样准确呢?如今这个答案是肯定的,从理论上讲,只要找到足够多的具有代表性的样本(数据),就可以运用数学找到一个模型或者一组模型的组合,使得它和真实情况非常接近。
苏联拥有大量数学功底非常深厚的设计人员,但是缺乏比较准确但是复杂的数学模型,而美国的设计人员相比之下数学平平,但是美国的计算机拥有强大的计算能力和更多的数据,因此其科学家喜欢用很多简单的模型来替代一个复杂的模型。这两个国家做出来的东西可谓是各有千秋,但从结果来看,似乎美国更胜一筹。
摩尔定律保证了计算能力和数据量以一个指数级增长的速度递增,数据驱动方法可以非常准确。相比之下,其他方法的改进需要靠理论的突破,因此改进起来周期非常长。在过去的30年里,计算机变得越来越聪明,这并非是因为我们对特定问题的认识有了多大的提高,而是因为在很大程度上我们靠的是数据量的增加。
(本文选编自《智能时代》)