编者按:美剧《生活大爆炸》(英文:The Big Bang Theory,简称TBBT)中的智商高达187的物理天才谢尔顿(Sheldon)被中国观众亲切地称为“谢耳朵”,如果你不知道他和这部神剧,说明你已经out了!这个科技怪胎,在科学领域无人能敌,但在生活中却像被编排好的程序一样,一根筋地按照自己制定的规律行事。然而观众却热爱他,毕竟在科技发达的今天,集美貌与才华于一身的耳朵拥有最令人艳羡的生产力——智商。
在我们身边也有很多高智商天(guai)才(ren),他们守着不为人知的执着,貌似强迫病人一般执拗的追求科学理想。今天,7 Tea 就带着大家去认识一位中国版的谢耳朵,哦不,也许我们该称他为高耳朵。
记者:7 Tea
受访对象:高鹏,摸象大数据创始人,大数据及人工智能发烧友
采访时间:2016年6月13日
人类根本没有完美的随机,人们的选择总能被预测
T:您是一个坚定的唯物主义者么?
G:哦,这个问题不好回答呀,嗯...实际上到了现在这个年纪倒是有一些唯心的想法,但是年轻的时候是唯物主义的,现在反而有些改变。
T:是因为年纪大了么?
G:对,可能是年纪大了,有时候会相信一些比如说事情本来都是安排好的,会有一些开始相信命运了,但是大部分应该还是唯物的。
T:其实问这个问题是因为您一直是从事大数据技术和AI(Artificial Intelligence,人工智能)方面的学习和研究的,很多资料显示,比如从量子力学等等的角度都可以证明这个世界是唯物主义的,所以想知道是不是从事这个行业的研究者们,也坚定的认为世界应该是唯物的。
G:是的,应该是唯物主义的,但实际上这是一个非常深奥的哲学问题,比如说,研究大数据的时间越久,可能越来越会觉得世界上有一个“超级上帝”的存在,他可以看到这个世界上所有发生的事情。人类只能通过各种各样的数据去分析,而所有的行为都可以通过过去存在的行为和事实进行推测,因为大数据预测就是用相关性去判断一件事情的下一步可能会发生什么,那么如果这样一直计算下去的话,就可能会发现所有的一些好像貌似都是早已经安排好的一样,这样一想可能就是偏向于唯心主义的。
比如说我们的推荐引擎,它永远都是根据你之前的行为和喜好一直给你推荐你可能会喜欢或者会购买的产品,所以你可能就会觉得这些东西原本就是定好的一样。
也就是说,人既然是所有的行为都是跟他的基因和以前的经历相关的,那不就是说这个人的命运可能早就已经是注定的了么,不可能发生其他的事情,这个人就是这么走的,一直就要这么走下去。
T:如果这样说的话,就是否定了随机性呀,人是具有主观能动性的,也许人在做选择的时候并没有很复杂的想很多,只是单纯的随机的进行了选择而已。
G:但是实际上,人类是很难进行真正意义上的随机行动的,也根本没有完美的随机,很多你以为的随机只是建立在你不知道已经被预测的基础上的。他们区别只在于,有些数据具有规律,所以比较容易预测;而有些数据不具有规律,进行预测的难度比较大而已。总之,这是一个需要辩证看待的问题,尤其是在研究越来越深入的时候,可能就会想不明白这些问题,好像一切都已经是注定好的一样。
超级预测者思如何炼成
T:您是浙大的,那本科读的是计算机系?后来读到博士选择了人工智能方向么?
G:不是的,我本科是通讯方向的,信息电子专业;在博士的时候读的是计算机专业,主要就是研究人工智能方向。
T:那您在年轻的时候就开始在这个领域里面钻研了,创造或者参与过很多有趣的项目的么?
G:不能说很多,倒是参与过比较大的课题。我的导师是潘云鹤教授,当时在研究的方向是智能CAD,就是想用人工智能去模拟设计师,进行彩色图案的创作和产品设计;大体的理论跟我们现在在做的事情是一样的,我们现在无非就是想用智能去模拟优化师和运营人员,进行广告投放,从而帮助品牌和产品进行营销。
实际上,用智能去设计产品是非常非常困难的课题,更不要说是在当时的情况下了。当时潘校长的课题是“智能美术生成”。比如,假设说要设计一个窗帘,人类的设计师肯定有很多想法,像是在绿色的背景上印着树叶等等,旁边可以有池塘,或者其他的元素组合起来,也可以另外设计一个动物主题的图像,这些是人类设计师大脑里面想象的画面。
为了模拟人工智能,当时项目组访谈了大量的设计师,把他们大脑里面考虑的元素抽象出来,形成了动物系列,图案系列,几何图形系列还有自然元素系列等大概几千个元素;再让人类设计师设定一些组合规则,比如,动物不能放在天空上面,就像一个猴子飞在天空上面显然是不合理的,人也不会觉得美。但是一片树叶放在什么地方可能就很美。还有一个圆和三角形如何进行组合是最协调的,人类会觉得美;怎样的组合是不协调的,人类会觉得不好;把这些资料都收集起来然后输入程序,再让计算机去运行这些规则,就产生了大量的图案组合,其中有很多很漂亮、很神奇也很有想象力的图案可能是人类永远也想不到的搭配方式。比如,一片树叶漂浮在大海上,人们可能很难去设想这种不太符合常理逻辑的组合,但是印出来却非常的美。
当然,大量的组合中,并不是所有都超乎寻常的美,也有一些不太符合审美的,就要让设计师再进行筛选、补充规则;这样不断的反复优化,也是学习的过程。当时还没有机器学习的概念,计算机技术也没有达到那个水平,都是人类进行整理和学习。
T:那这个听起来更像是人类去学习制定算法后,计算机在去根据算法进行计算,得出结果。
G:差不多,但是不要忘记,当时是80年代初,在那个时代有这样的思想和实践已经是很牛的事情了。我们现在在做的精准营销系统,也是一样的理论依据,类似于大数据侧写,推算出你现在穿着的是条纹的T恤,下面配上什么色的裙子,让人觉得舒服。怎样搭配其实是有规则的,人类的设计师在进行搭配设计的时候会把这些情况和规则考虑进去的,然后把最佳的搭配组合推荐出来;如果规则搭配的不好,最后推荐的效果就不好。
T:所以,当时的技术跟现在人工智能的区别主要在于数据来源不同?以前更多是人类进行学习和整理,再用计算机进行运算,模拟人的思考过程,但本质上其实是一种算法;而现在的AI能更强调的是机器学习。
G:在80年代的时候,可以做到这种程度已经很了不起了,实际上,即使在现代中国,能完整的做完一整套这样的东西的人也很少,大部分号称自己有大数据计算能力和人工智能技术的项目都是含有水分的。
真正有价值的技术成果,一定是可应用的,要能真正用到生产中,提高效率创造更大的价值。比如“智能美术生成”最后这个系统就应用在了很多生产方面,像围巾图案设计、衣服图案的设计等,后面产生了非常巨大的经济价值。还延伸出了其他的应用方面,比如智能印染等。
机器的好处就是可以提供无穷无尽的选择方案,提高效率的同时也降低了成本。当然,这个是弱的人工智能;前段时间谷歌研发的AlphaGo算是强一点的人工智能;非常非常强的人工智能,中国现在并没有。所谓非常强的那种人工智能就是完全可以模拟人的思维,像人类一样,自己学习并总结错误。
T:AlphaGo会总结错误么?
G:它会总结错误,但学习机制并没有很完善。比如在跟李世石的第四盘棋中,它就崩溃了,就是因为李世石触发了一步棋,是他以前没有遇到过的情况。所以说,现在的人工智能还是很难突破这些东西,大部分的情况都是提前想好的。接下来研究人员会再去研究,再把这种情况考虑进去,不断地完善它。所以我说非常强的那种人工智能,现在还没有。
T:IBM的“深蓝”和AlphaGo之间的差别是什么?AlphaGo比”深蓝“要更智能么?
G:“深蓝”是下国际象棋的,比AlphaGo要简单得多,因为国际象棋只有64个格子,而围棋有361个交叉点。”深蓝“可以很快算出所有的情况并判断哪个选择最好,是穷举计算方式,这个技术早就被攻克了,算是很弱的人工智能。AlphaGo也谈不上强能,我认为,它只是处在一个弱人工智能向强人工智能转化过程中的一个初级阶段,机器开始有了学习力,可以不断的学习,但是学习到的东西要怎样总结成规则,这个还是人类提前设定好的。
T:如果让3个人跟AlphaGo一起打麻将,按照1万圈为例,结果会怎样?AlphaGo胡的次数会是最多的么?如果另外3个人出老千的话,它还会赢么?
G:这个问题很好,无论是国际象棋还是围棋,本质上都是博弈,可以参考博弈论中策梅洛定理来进行完全计算,所有的信息都是摊开在牌面上的,是信息对称的;但是打麻将包括打德州扑克这需要AlphaGo来处理不对称信息,再加上作弊出老千,那更是赢的边儿都没有,AlphaGo肯定是做不到的。毕竟是人工智能,离人类智能还太遥远。
相信机器,还是相信人
T:人工智能一定要发生在一个固有的逻辑里面么?就是人类早就设定好了规则和逻辑,人工智能才能发挥作用。
G:目前来说,是的。
T:未来会突破这个界限么?
G:会啊,我觉得肯定会的。AlphaGo已经在往这个方向上走了,通过自我学习,就像刚才谈到的”智能美术生成“一样,根据各种各样的规则进行组合,爆炸出了几千万种设计,还会出现几种设计让人大吃一惊,效果又很好,人类可能永远都想不到还有那样的设计。
T:可以弥补人类的盲点。
G:是的,人类有很多盲点。
T:那未来人工智能再发展发展,人类会不会就失业了?
G:会的,举个例子就说富士康,现在已经开始大规模的裁员了,因为引入了机器人。
T:富士康是比较简单的机械劳动;如果一旦AI可以侵入到需要智商和审美的领域,比如取代策划师、设计师之类的,那就真的比较可怕了。
G:比如会写诗那种么?这种是比较难的,还需要很长时间才能实现;但是像工厂里的机械手或者餐厅中的机器人服务员就比较现实了,现在已经开始使用了。
T:现在机器人已经可以分辨每个盘子里是什么菜了么?图像识别技术可以达到这个要求了?
G:这个应该不难的,现在机器人对于自然语言的理解率也能到达97%左右,正常的交流都可以满足。
T:也就是说现在进行图灵测试的话,是很难打败电脑的?
G:2014年的时候,已经有电脑通过图灵测试,成功欺骗人类了。但是能够彻底通过图灵测试的应该还没有。图灵测试的题目也应该更新了,如果提一些非常具有相关性的问题,可能电脑就会理解不了。
T:如果在图灵测试中,让您向电脑提问的话,您会问它什么问题?
G:那可能会是“你是个唯物主义者么?”这样的问题。
T:这样的问题非常难回答么?
G:是的,非常难回答。因为需要机器具有自我意识,一些触碰到真正关于自我类的问题,它们都没有办法回答。从这个角度来讲,现在的人工智能连2岁小孩的程度都达不到。因为小孩子到2岁之后会有自我意识,他会知道我和你之间的区别,但是现在都谈不上这个,拥有自我意识的才能算是强人工智能。
T:现在还只是在模仿的阶段。李彦宏说在我们有生之年,应该是看不到人工智能占领世界的一天了。
G:确实看不到的。其实在国外,有人在做一些其他方面的研究也有相应的观点。现在所有的电脑都是硅基,本质上是通过硅半导体操作的;但是人类其实是碳基,因为人是由碳元素构成的,大脑组织也是这样。所以从介质上来讲,这两种不一定可以联通。当然,这个目前谁也说不清楚,都还是一种假说。
不过就我个人而言,我觉得真的要研究这种黑科技的话,在伦理上是有很大问题的,相当于要做一个人工大脑,有点类似于用细胞克隆出一个人,这个就是通过某种技术克隆出一个大脑,想想是不是很可怕。
T:您看过《复仇者联盟之奥创纪元》么?里面大概讲的就是您刚才描述的事情。平时会看一些类似的科幻片么?
G:奥创没有看过,现在这类的影片看的比较少了,以前倒是经常看,会关注一些人工智能的信息,但是现在觉得没什么意思。因为人工智能越研究深入好像就越会觉得变成了一种哲学问题,会考虑强人工智能是否可能,因为现在所有的人工智能都是人在指导计算机。
但是就像人的大脑可能没办法解释人类自己一样,我们认识所有的事情都是客观的,比如我们认识一个杯子,是看着杯子来研究它,但是没有办法看着自己的大脑来研究自己。除非出现一个超级智能,可能是外星人,也许可以研究人,然后做出一个人来,这个也许是可能的,当然这也只是一种说法。这样,科学问题又变成一种不可知论。
T:有很多人类认为很简单的事情,却是机器没有办法做到的;但是很多人类认为很难很难的计算或者分析,却恰恰是计算机可以做到的。
G:这个就是我们一直在讨论的强人工智能和弱人工智能的关系。就像我们投放广告一样,电脑做的就比人做的效果要好得多。比如说,统计广告位这件事情,人类不可能在短时间内统计出所有的空白位置,并且选择出最优的广告,只有30毫秒的处理时间,人类怎么可能做到,只有机器可以做到。
但是如果要问一个机器你喜欢什么颜色,你是什么性别之类的问题,机器就傻眼了,而这样的问题是连三岁小孩子都会回答的,这可以说是两个维度。所以现在大家在折腾的都是弱人工智能。
时尚搭配师机器人,或将成为可能
T:您多次提到了贵司的网络广告投放原理,那么我可以说摸象这个大数据精准营销平台本质上其实是人工智能的营销平台么?
G:现在还不好这样说,对于人工智能,我们一直是怀着敬畏之心的。但本质上这个平台确实是智能化的,但是现阶段还是非常弱的智能,因为我们一直都在搭建基础。下一步的话,我们就准备更进一步向这个方面去进发了。利用过去很长时间的大数据技术积累和智能领域的探索经验着重向‘时尚搭配师“这个方向去努力。
T:”时尚搭配师“,听起来特别酷炫,可以解决很多像我一样的女孩子,为每天穿什么发愁的痛点。会研发出一个机器人么?还是会做一款2C的产品,一个APP?
G:技术的呈现方式是多种多样的,APP只是其中一种,API或者SDK等都可以开发,机器人就要智能硬件技术的储备了。但是本质上最关键的核心还是在大数据和AI的技术上。比如,现在摸象储存了很多女性消费者的活态画像,有喜好标签、行为习惯等信息,把这些数据都传递给一个人类的设计师,你认为他可以每天不断地给女性推荐一些合适的搭配方式和时尚建议么?
T:每天不断地的推荐么?这个有点不太可能,第一估计设计师没有那么大的脑容量;第二也没有那么多的时间去关心我穿什么吧...这个跟刚才说到的美术图案设计师解决的问题有点像。
G:是的,但是这些工作机器就可以做到。我们目前正在跟浙江理工大学服装专业的优秀教授和学生合作,希望一起来打造这样一个”时尚搭配师“的项目;由他们按照设计师的经验和人类的审美去创造美好的搭配法则,我们让机器去学习这些规律,通过不断的优化,最终让机器也可以成为时尚搭配师甚至是时尚设计师。
我想当我们真的做成这件事情的时候,我们才会正式对外公布,我们做成了弱的人工智能。
T:现在亚马逊和淘宝其实都有类似于”猜你喜欢“这种推荐板块,那么”时尚搭配师“跟这些产品有什么不同呢?
G:你说的这种有很多谈不上人工智能,是通过一些很简单的相关逻辑进行的基础推荐。这里面实际上有个悖论,就是无论你推荐什么,其实女孩子都可以穿穿看。但实际上是否真的合适,真的时尚是没有人负责的。
通过人工智能进行分析之后推荐的结果更像是私人定制一样,关注的是消费者主观想法而不是作为客观者强加于人的。
T:有考虑过跟现有的一些已经在做搭配的网站进行合作么?比如数据交换或者经验共享?
G:我们还是会考虑先跟人去合作,因为现有的搭配平台良莠不齐,很多都是鱼目混珠,数据和技术并没有太实际的作用,也没有多大的参考价值。
T:那么跟设计师合作,也会选择传统的访谈形式?
G:前期可能要做一部分访谈,打下一定的基础之后,我们会利用技术手段来打造一个开放的时尚搭配数据收集、交换和整理平台,更方便的让各位设计师随时随地的将自己的想法上传,帮助机器学习优化,不断提升它的智能水平。
T:如果”时尚搭配师“真的成功了,我觉得应用前景和想象空间最广泛的还是在c端市场,您有考虑过摸象也许会从toB企业过渡成为服务toC市场的企业么?
G:短时间内不太会更改方向。我们一直都深耕女性消费的数据和智能精准营销这个领域,从摸象团队的基因来讲,不适合贸然改变服务方向。未来可能会考虑通过战略合作或者投资的方式进入到2C市场,把我们的数据、技术和资金投给一些创业团队,甚至可以开放摸象无相盘就是我们的DMP人群数据库给他们,帮助他们去探索大数据和人工智能在2c市场的应用。
大数据,让人们看到事物的真相
T:您认为大数据的真正价值体现是什么?
G:让人们看见事物的真相。通过统计分析以后,你会发现很多颠覆常识和三观的结果。尤其是在广告行业里面,很多事实证明我们以为合理的做法,反应在数据上其实并不好看。
T:那您可以考虑,在适当的时候出本书撕开广告的真相,带你领略你所不知道的真实的广告世界之类的,一定会大卖,分分钟成为畅销书。
G:哈哈,很多都涉及到商业机密的,可以考虑一下,当这个部分不是机密的时候,可以整理出来分享给大家。
T:有个八卦也想听听您的看法,前段时间苹果10亿美金注资到滴滴,滴滴总裁柳青表示,部分投资将用到交通大数据的研究,从而解决城市拥堵的问题,您怎么看?
G:大数据跟城市拥堵好像没有多大的关系,可能会起一部分的作用,但是谈不上真正解决。城市拥堵说到底是城市规划的问题,而且人的行为是不可能用数据去规范的。即使用大数据算出了,北京的地铁在下午三点到4点的时候是最空的,号召所有市民都选择在这个时间段内出行,显然是行不通的。只能是缓解,不能解决根本问题。
T:大数据可以有千百种应用,但您选择将大数据技术应用在消费领域,是因为这个领域最好变现么?
G:有这个方面的商业考虑,但最重要的是,这个方向跟我之前的经历相关。在浙大的时候我就一直研究相关的课题,注重大数据技术的商业功能性。安全、交通之类的基础设施领域思考的较少。
文科生也能研究人工智能
T:高考过去有一阵子了,很多考生和家长都在为选专业而烦恼。无论是不是商业的风口,在我看来,大数据和人工智能领域都是值得学习和研究的。您作为这个领域的老学长,可以给考生和希望加入到这个领域的小伙伴们一些建议么?比如要选什么样的专业,研究哪些学科,阅读哪方面的书籍、是否需要出国深造等等?
G:这个人是个理科生么?
T:不一定啊,文科生也可能想钻研大数据和人工智能啊。
G:不管是大数据还是AI都是综合的,只学一个专业是很难融进去的。在我看来,如果是理科生想从事大数据研究的话,有2个方向可以考虑,一个是传统的数理方向,比如主修数学系或者物理系,有一个良好的数学基础,同时可以辅修一个计算机专业;另一个方向是主修计算机专业,可以辅修统计学,这样可以比较好的进入大数据研究领域。
如果想从事AI研究的话,本科可以选择计算机专业,研究生阶段选择脑科学或者是心理学、神经科学,这样知识构成会比较全面,更适合研究AI。当然这些都是侧重于技术类的。
如果是一个文科生的话,其实也很好,本科的时候可以选择主修心理学,研究生阶段可以选择教育或者是社会学,从人文角度去探索人类思维。未来不一定非要做一个计算机系统,但是可以去做侧写或者预测。
T:看来,从某种角度上来说,大数据也是一种变相的心理学,就是把心理学上的行为结果用数据的手段表现出来,去研究一些相关性。
G:心理学更侧重将人的心理和行为相关起来,进行研究。说到这儿,又想起来一个纯的人工智能方向的,现在国外研究的比较多,更偏向于医学。本科可以选择医学专业,奠定扎实的医学基础,后面可以转到脑神经领域上去,研究神经网络和神经科学。
T:学习这些,未来可以去创造智能大脑了,这属于纯正的黑科技啊。非常感谢高博士今天接受我们的采访。
7Tea说
采访过高博士之后,我最深的感想就是:低调的不像实力派。从头到尾,他都带着技术男的呆萌直白和对科学技术的敬畏表达自己的观点,活脱一个谢耳朵。
摸象大数据成立至今已将近10年,近两年才在业内初露头角、小有知名。去年才获得VC的关注,然后,用飞一般的速度进行了A轮融资。这跟其低调的企业文化有着莫大的关系。
直到现在我都认为这个公司是如遁世高人一般的神奇存在,作为技术男的天下,最让团队兴奋的事情居然就是守在电脑前,用代码让机器越来越聪明。正是这种单纯,才让他们像艺术家一样,赋予二进制的0和1以生命和情感,为解放人类的体力和脑力而不断计算优化,也许这才是他们真正的创造之所在。
全文完