在现在极其和谐且去商业化的对抗赛+表演赛+演讲+论坛+媒体报道里,AlphaGo在其乐融融的气氛里完成了对中国市场以及中国网民的一次大公关,同时宣告基本完成了AI+棋牌领域的基础探索。
更加巧妙的是,DeepMind和谷歌团队还顺势玩了一回“内容电商”,把几个刚刚在谷歌开发者大会上重点布局的产品做了次顺势推销。实力是真的,一举三得也是真的。
AI+围棋的公关任务:精准、厚道、有套路的拜码头
不妨先来聊聊这次AlphaGo中国之行的实质。开赛前,我们就被关于限制报道此次比赛的新闻刷了屏。但是围观几天之后会发现,谷歌和DeepMind团队这些人尖子何尝不了解官方的要求和立场。
甚至比想象中更多,AlphaGo团队在一言一行上仿佛都受过某种训练,不仅照顾了官方情感,还对中国网民的喜好了若指掌。
比如DeepMind创始人Demis Hassabis就在接受采访和主题演讲中,反复提及围棋这门运动本身的伟大和艺术性,谈论其如同探索宇宙一样的价值与魅力。并且还不忘记借助围棋赞美中国本身的伟大和历史悠久。当然了,表示未来愿意在华开展更多合作也是必须的。
此外,对柯洁与AlphaGo之战的态度也耐人寻味。第一局柯洁半目惜败,AlphaGo团队还马上澄清没有让棋,第二局Demis Hassabis直接表示柯洁表现几乎完美,想来第三局即使不是柯洁胜,也应该会有更加“厚道”的赢棋方式。
这个剧情不由得联想到《师父》里的天津比武:你赢不了就不能开武馆,但你赢的不给面子,抱歉,那还是不能开……
谷歌的面子:TPU、谷歌云和 TensorFlow
在非常给中国,甚至可以说给人类面子的前提下,谷歌也一举满足了自己的面子。
我们可以整体看一下这几天科技媒体刷屏报道的人机大战关键词。会发现一些逻辑上可能不应该出现的高频词汇出现了。
比如说:TPU。
作为谷歌专门为机器学习量身定制的处理器,Tensor Processing Unit,简称TPU,自打诞生之日起就是谷歌的掌上明珠。在刚刚结束的谷歌开发者大会上,还重点披露了二代TPU的情报和数值。虽然仅有照片,但还是作为了大量发布产品与项目中的核心拿来展示。
按理说,与李世乭对弈的AlphaGo当中就已经使用了TPU驱动计算,而在这次与柯洁对弈版本中,TPU的使用只是数量上减少了,并没有在硬件计算能力上得到何种改变。应该不能算作AlphaGo升级的重大变化。
但在DeepMind创始人与谷歌相关负责人分享的演讲,以及回答记者提问过程中。TPU却被仿佛提及,描绘成AlphaGo计算力的核心。按理说,这次的AlphaGo特征是对计算的需求量大大减少,玩命吹应用的处理器仿佛有哪里不对….但他们就是这么干了。这就是面子。谷歌的面子。
事实上,目前TPU的市场应用价值还有待考量。首先这是个不外售产品,只能通过购买谷歌云的服务来获得TPU的计算能力。而另一方面,作为专门为旗下机器学习平台TensorFlow量身打造的芯片,TPU在处理其他平台算法以及其他机器学习计算网络时展现的效率还在经受质疑。
这次乌镇峰会上,DeepMind联合创始人之一David Silver在演讲中特意强调“TPU 像 CPU 或 GPU一样都是可编程的。它并不专为某个神经网络模型设计,可以在多种网络上执行 CISC 指令,比如卷积神经网络、LSTM 模型、大型全连接模型等”。
但事实上,针对一代TPU的测试数值来看,LSTM模型的运转效率还相当低,远比不上卷积神经网络的运算速度。这也是为什么以机器学习硬件为核心的英伟达似乎始终对TPU有着某种不屑:毕竟AI之路千万条,大家不可能都在TensorFlow上走。
但是显然,谷歌是希望将TensorFlow的平台、谷歌云的云服务和TPU的运算能力打包给更多企业的。这样近乎于整个AI应用产业的命脉都在谷歌手里。
这种想法目前有些不现实,毕竟TPU的适应度还太狭窄,创业公司选择GPU就够了。而大公司怎么可能把身家性命都交给谷歌?
所以说,人机大战中谷歌赚足的“面子”,其实是由各种各样的“里子”撑起来的。
AlphaGo 的里子:半掩半遮的低耗高拟态算法
那么,到底什么是撑着谷歌面子的、AlphaGo真正的“里子”呢?
这几天比赛中,有个概念突然火起来了,就是围棋当中的“让子”。非常诡异的是,大家仿佛都认为让几子对应着实力高出几个等级。事实上,围棋当中的“让子胜”绝不是以数字来计算棋力的。
每多让一子,被让子者将会获得巨大的优势。一般来说最多能让四子,而让四子基本就是专业棋手跟入门棋手的教学赛了。这次出战的AlphaGo能不能对人类选手让子胜不得而知,但如果它能够对旧版的AlphaGo让三子,那说明棋力已经有了等级上的进化。
这个进化的核心实力来自什么呢?显然不是来自运算速度的加快和数据处理量的加大。根据Demis Hassabis的说明,“本次对弈的新版AlphaGo计算量小了十倍,自我对弈能力更强,运行起来更简单,更好,功耗也更小。”
而这个神秘效果或许来源于几个能力。最核心的就是AlphaGo改良了蒙特卡洛树搜索算法。这种算法的本质,是在完全信息博弈的情况下采用不断穷举极大值与极小值,在根据数据结果来匹配能达成玩家目标的搜索结果。顺着搜索树上升,最终达到最优结果。
这个算法是AlphaGo初代时就开始采用的机器学习算法。但这个算法的缺点在于对于博弈目标需要的运算量会非常庞大,如果不加以限制,很可能出现暴力穷举的运算方式。这对于围棋显然是不智的。
而解决运算量问题的方式就是通过卷积神经网络,使用策略网络与价值网络对举的方式来确定运动方向,这样就几大减少了搜索树的运算量与运算时间。据说,这一版本的AlphaGo策略网络/价值网络构成的精神网络由12层增加到了40层,这其中蕴含的也绝不仅仅是数量上的增加,而应该是更复杂的算法逻辑在起作用。
简单来说吧,AlphaGo的“里子”在于它使用了全面改进的算法和优质数据源,虽然目前资料甚少,我们还无法窥探其究竟。但AlphaGo通过多种算法逻辑、训练逻辑与学习资源相结合,让机器获得了近乎于直觉和创造力的东西,恐怕才是它传达出的最重要信息。
虽然这个信息包裹在层层商业目的和新闻噱头的背后,但还是有必要把它找出来……因为……我也不知道因为什么,但这里似乎可以再引用一句《一代宗师》:功夫只有两个字,一横一竖,对的站着,错的躺下。
——AI也是如此。