汇真科技李利鹏 :人工智能的应用边界


汇真科技李利鹏 :人工智能的应用边界_第1张图片


人工智能分为几个层面,首先是基础层,要有大数据云计算,因为你数据量大的话,要放到云端去处理,大数据、云计算、GPU/FPGA等硬件加速、新形态神经网络芯片等计算能力提供商。在技术层就是做机器学习、深度学习、增强学习等各种算法。应用层就是各种各样的各方面的应用,智能广告、智能诊断、自动写作、身份识别、智能投资顾问、智能助理、无人车、机器人等场景应用。


讲讲到底什么是大数据,每天听别人讲数据的重要性,什么叫大数据?从数据定义上来讲,如果说它是用传统统计的方法处理结构化的数据量再大也不是大数据,大数据的概念应该是说它的来源是多元,它的结构是异构,是非结构化的数据,它整个数据量不仅仅是大,而且是杂乱无章,按照信息论来说,熵大,信息量非常大,这才是大数据。大数据里面最重要的是相关性和因果性,很多人包括一些科学家,有些匪夷所思,非常模糊的对于大数据挖掘相关性的神奇能力的表述,这是不对的,仅仅挖掘出相关性不够,还要分析因果性,A推出B或者B推出A,或者AB互相推出。你仅仅利用数据分析计算出他们之间是相关的,他们之间有某种模糊的不确定的联系是不够的。


比如说A和B,你可以挖掘出来A和B具有某种相关性,这是不够的。这种隐约的暧昧的相关性在关键的交易场景中,你是无法用它来做参考的。我需要在股票交易当中获利,仅仅相关性是无法用股票交易算法做套利的。在做人工智能数据分析计算里面有很多种算法,我想说的是在很多种算法里面有的算法是在特定领域里面有用的,我先说一下算法,我的背景是计算理论逻辑的背景,我非常强调对于任何一个行业技术,从逻辑和理论根源的角度去分析挖掘里面的痛点。如果说你用机器学习或者神经元网络,你能不能计算出归纳偏置,也就是bias,如果不能够就意味着你的算法是无法获知确定性的黑盒子算法,虽然你的算法有用但是你没有办法证明你的算法是正确的,只有贝叶斯统计才是能够计算出归纳偏置的。科学的判断标准是什么,贝叶斯里面还有另外一种分层贝叶斯,现在流行的深度学习是神经元网络里面分成多层,贝叶斯网络也可以属于多层,而且因为贝叶斯网络能够用来挖掘数据背后隐含的关系,那么贝叶斯网络可以做出一些深度学习做不了的事情。比如说大规模传染病如SARS的传播节点的挖掘,比如说像SARS,禽流感,如果从北京出发,中间经过了武汉、郑州、济南,但是有些城市的传播节点从传染病的统计信息图和数据里面看是没有的,这种情况下只有用分层贝叶斯网络,可以挖掘出传染病隐藏的传播节点,可以挖掘出隐藏节点间的关系,而且可以挖掘出隐藏节点后面的下一层节点,根据传染病统计的数据,只有用一种方法可以挖掘出隐含的关系和节点,其他的深度学习机器学习的方法全都不管用。


刚才说到概率图,我们知道现在业界在自然语言理解的研究里面机器学习用得最好,就是它能用大量的数据来做机器翻译,但是仅仅利用传统的机器翻译,传统的这种统计学意义上的这种方法去寻找大规模数据上的对应关系,这是不够的。学者们最新的研究引用概率图计算去做自然语言理解和做机器学习,能够取得更好的翻译效果。


最近有一个著名的争论,深度学习是在颠覆一切。意思是说有了深度学习什么都能干,这里面有另外的问题,炼金术好还是化学好,如果不能非常明确的确定证明它的结论正确性,不能够证明它的结果的确定性,那么它就是一种炼金术,炼金术后面每一个元素是怎么反应的,它们反应的化学规律揭示清楚,这就是科学。什么叫科学,科学的唯一的判定标准就是确定性,是否具有确定性,如果说你发现某一条规律,繁杂无章的这种状况面前,具有某种确定性,只有这种规律是确定的,你所发现的规律是真的科学的,如果说不确定,那就不是科学了。数据科学是否成立?现在大家都在热炒,全世界都在炒作,大数据人工智能数据科学,如果说数据科学的判断标准仅仅是用统计学的这种方法,无法确定正确性与否的方法来判断的话,那就不是一个科学,他仅仅一个统计学结果,统计学在科学上来讲,统计学并不被所有的学者认为是科学,因为它里面有随机性。


我们现在说大数据小数据和零数据,现在很多公司宣传说人工智能发展的关键是是否拥有大数据,这句话是错的。我们拥有大数据就有大的优势,没有数据就无法发展人工智能,这句话是错的。阿尔法零在规则确定信息完全的情况下,是不需要数据的。不需要任何数据,就可以去写这个程序,在阿尔法狗开始研究的时候,系统需要用棋手对弈的大量历史数据去学习,那是因为当时的研究者还没有意识到这种场景下的道理,对于规则明确信息完全的这样的博弈场景,比如说像围棋、象棋,这里面不需要数据。有人说谷歌的阿尔法狗没有什么了不起的,人的智慧学得更快,围棋的维数一改变,谷歌的下棋程序就不能使用了,这是错的,无论围棋多少维,人工智能程序都应该可以自适应,应该可以完全战胜人类没有问题。在规则确定,信息不完全的情况下,像麻将,军棋,德州扑克,信息不完全的情况下,人工智能程序处理是很难的,需要计算博弈的胜负的概率,比前面的围棋难很多。我们在做人工智能研究的时候,要看具体的博弈场景,有的场景下即便没有那么多的数据,只要我们搞清楚数据背后的原理,可以利用对抗性网络让系统自己生成数据,去在策略网络和价值网络上训练。


很多人都忽悠说大数据是信息时代的石油,大数据是不是信息时代的石油?石油是不是可替代性的?如果说大数据在每一个场景都是必然的,需要的,那他就是石油,如果说很多应用场景不同的情况下,重要性不是一概而论的,那就不是信息时代的石油。小数据小样本学习才是人工智能真正的重点,为什么?我们可以观察婴儿,婴儿在学习新的知识的时候,他没有通过大数据去学习,他很简单的只要见过几次就认识了,这就是小样本学习。为什么人具有小样本学习的能力,机器不具备这种小样本的学习能力,这里面最根本的原因是人是经过几十亿年遗传进化而来最高等的生物,人的生理结构,人的遗传信息里面就包含了某些先天性的知识,而且人具有常识,具有对于自然界和社会的常识,常识才是人工智能发展的最核心和最根本的问题,也是人工智能发展最大的困难。怎么样让人工智能对常识获得认识和理解?常识的构建,常识的范围太广了,我们对于整个社会,对于整个物理世界的所有认识,都叫做常识,也就意味着要想建立常识,终极来讲对客观世界包括物理世界和人类社会的所有知识整合起来,来建立这样一个开放性的无所不包的知识模型。


开放性的问题就是如果说你要建立一个通用的人工智能对话机器人,我们往往发现答非所问,比如说像小冰,聊两句之后,答非所问,不知所云。像机器人助手在行业应用里面,结合具体的行业知识去做机器人行业问答助手是比较好的。


最新的人工智能的科研方向就是把传统的符号逻辑,我们称之为符号主义,专家系统和规则系统跟连接主义,机器学习神经元网络,把两种方法结合起来去应用。比如说google deepmind研发的神经元网络图灵机,学习出来一个新的图灵机,可以用来做简单的推理,用于一些大数据里面的规则挖掘和推理有不错的效果。再一个比如说有的朋友在做自然语言理解,就是让机器理解人的语言,他们是把计算语言学规则系统与机器学习相结合,他们做得效果非常好。曾经有一个笑话说机器学习兴起来后,计算语言学家就成了自然语言理解的发展障碍,开除一个就进步一些,计算语言学家是自然语言理解发展的障碍吗?不对。计算语言学被抛弃了一段时间之后,当自然语言理解遇到瓶颈的时候,机器学习根自然语言学的规则系统结合起来,这是目前最新的研究趋势和方向,取得了很好的效果。


机器人里面的眼睛是用机器视觉图像处理,听声音回答用得是语音识别或者语音合成,机器人只有运动状态控制是跟人工智能有关的,但是它是一个典型的机器证明问题,这里面机器人有很多的关节,要计算每个关节的状态平衡态,是多元的非线性代数连续方程组,典型的机器证明问题,三角化后求解一个多项式解。所以大家如果认为机器人代表了人工智能那是错的。


我们再来说一下深度学习和机器学习及控制系统之间的区别,这一轮人工智能火爆起来就是因为CNN用来处理人脸识别的图象,CNN最早的是模拟猫的眼睛处理图像的视觉相关部分的神经和大脑结构,它是天然的比较适合用来处理图像。时序神经网络RNN,因为交易类场景有下单和成交时序,适合于股票期货交易算法,长短时神经元网络族LSTMfamily,适用于语音识别,科大讯飞的核心语音识别算法就是属于一个变形的LSTM算法。级联随机森林 cascade random forest,适合于决策,最高法和某大型国有科研机构合作的智慧司法项目去年底找到我们外包做人工智能模拟法官判案决策逻辑。量子热力学模拟退火算法,它也不属于深度学习,当我们在超级复杂的系统里面,想计算系统的状态代价函数的全局最小点,这种特别复杂的情况下,有时候用梯度下降算法容易陷在局部最小点跳不出来,就要用这种算法。


辅助驾驶和自动驾驶中黑盒子算法的安全性问题。特斯拉最开始的时候,他的广告宣传片是自动驾驶,在迪拜,一个人坐上车后面的座位什么都不用管了,后来把广告撤了,因为出了人命事故。你要让车实现自动驾驶,图象识别现在用的是黑箱子算法,没有办法去解答,图象识别的每个层面,每层是什么意义,图象识别的正确性如何,即便识别的精度很高也不知道什么时候失效,没有办法去确定图像识别算法的正确性,只能说它是有用的有效的。还有一个方面,驾驶系统不仅仅是图象识别系统,还是一个决策系统。比如说举个例子,一个自动驾驶系统,驾驶员坐上去了,天然的驾驶系统就是要保护驾驶员。遇到一种场景,驾驶员坐在自动驾驶的车上,前面有紧急情况,车有一种选择是撞上栏杆,车毁驾驶员受伤,还有一种选择是前边有一个高端人士,比如是一个高级学者,还有一个选择是另外一边站着几个所谓的普通人,作为自动驾驶系统,他应该选择撞谁或者选择保护驾驶员吗?这是决策系统的问题,需要在各种可能性之间进行博弈和决策,而生命是平等的。还有生命的神圣性问题,现有的自动驾驶系统里面,没有办法确定算法什么时候失效,某种情况下,即便概率很低,很有可能让一个人坐在自动驾驶的车上出现交通事故,出了人命。即便自动驾驶降低了车祸的概率,这种概率很低,我们作为乘客把命运交给他们不确定正确与否的算法和系统手里,自动驾驶的乘客生命是可以确定性的被自动驾驶的安全或者不安全性随机的失效,低概率但是确定性的剥夺他们的生命。谁赋予了这个权力,我们要看待自动驾驶的问题,它分为几个等级,L1到L4。有单目、双目辅助驾驶(adas),激光雷达,微波雷达,惯性导航仪的引入,这种情况下用它来做L3级别的自动驾驶,这是可行和靠谱的,如果做L4完全自动驾驶只能用于没有人的港口,如果突然走出来一个行人,怎么决策,在复杂的路况下怎么做自动驾驶的决策,这种是目前的技术不能做到的。


人工智能可以做所有的事情吗?在很多应用程序里面,它是什么样的应用环境需要被考虑进去,很多时候是一个博弈场景。广告算法中的博弈,比如说google,百度,exchange等广告平台,广告主,用户,代理商,第三方技术服务商的博弈。我们如果了解博弈中的均衡状态,计算到均衡点,就可以进行有引导的纳什均衡。量化交易算法中股票期货外汇交易市场的博弈,比如说交易所,交易各方的博弈,算法对交易趋势的预测,利用及扰动。这个算法引入了之后,算法引入的交易量大了,它把纳什均衡破坏掉了,一个量化交易算法公开了被很多交易商使用之后,这个算法破坏了纳什系统的状态,而且对当前的交易趋势进行了扰动,效果就不好了。


在政治里面,在经济里面,也可以用到数据分析和引入博弈论。我们团队做过一些竞选的数据分析的探索。三年前我们新加坡的团队为印度总理莫迪的竞选提供了一些数据分析服务,数据驱动的选举是可以做分析可以做预测的,选举数据在源源不断的更新,但是对于政治博弈,人工智能无法确定它的结果。全球治理,国家治理,宏观经济模型中各项数据指标的内在关系和博弈,选举,政治局势的监测,分析,预测,这些都可以用到数据分析,而且每一个复杂系统都可以考虑博弈动力学,都是复杂的博弈系统,包含很多博弈子系统,一个复杂系统中每一个博弈子系统也会有平衡态,整个系统构成子博弈精炼纳什均衡,系统的状态会从一个旧的纳什均衡,演进到新的纳什均衡。但是数据驱动的选举的预测分析有可行性,而隐规则驱动的政治结果预测只能判断可能性而不能判断结果的确定性。


 人工智能里面发展最关键的部分是语义和知识图谱,这个世界是否是可计算的?计算机科学、物理学、哲学能不能统一起来?图像识别,语音识别,物体识别,自然语言处理,机器翻译,社会问题,金融科技,算法交易等开放性问题,都需要知识图谱和语义识别,知识图谱是符号逻辑的硕果仅存与再发扬。图像识别和语音识别达到了一定精度后要想再进步1%都很难,因为进一步的识别需要判断语义。基于实体及关系的知识图谱的构建,要考虑到语义在高阶逻辑上的不可判定性,在高级逻辑上语义是不可判定的,而且很久之前哥德尔不完全定理就证明了人类用的计算机,其根本是一个演绎逻辑系统,是有缺陷的。很多计算问题都是NP问题,NP=P?问题的多项式时间内的可计算性研究,及Karp 21类典型NPC问题的多项式时间转化和等价,这些计算理论问题,需要归纳逻辑与演绎逻辑结合,对于逻辑系统进行补充和统一。


在自然界有概率,有随机性,但是也有概率分布,有概率密度分布,统计学有概率的随机性,而概率密度分布是研究这种随机分布的确定性的。人工智能在计算状态方程的时候有概率密度分布PDF函数,在计算理论和密码学理论里面,有计算NPC的多项式时间求解中概率密度分布函数的应用。量子物理中多量子体间作用的波函数与人工智能算法中张量网络有对应关系。人类知识系统与物理世界的语言描述和逻辑要统一,如果说你要建一个通用的完美的人工智能,你就要解决这个问题。哲学上的休谟问题,你能否用一些基本的原理来推导出社会上一切问题的道德性和正确性的判定?如果我们建立完美的人工智能,也就意味着我们要了解所有知识和逻辑,做到符号,代数,计算的统一,这个意义上来讲,科学的发展最终要反哺哲学。


量子计算机和人工智能没有任何关系。有人说量子计算机的量子算法可以很快破解RSA加密带来了惊恐,但是这个仅仅在理论上有奇效,实际不可行。因为它需要非常多,无穷无尽的量子位来实现,但是量子位的增加是很难的工作。跟传统计算机的比特位的增加不一样,量子位的扩展对于量子态的测量和容错,纠错的难度是指数型增长,位数越多,纠错难度越大。量子计算机当前最新研究进展是十几个量子位。当前各大公司所有公布的经典量子计算机都是量子模拟,都不是真实的实现,Google支持的Dwave是非经典量子计算机,真正有前景的是量子热力学模拟退火,真正有前景的就是这种,包括日本有一个基于Ising模型研发的非经典量子计算机,Ising模型里面出过两个诺贝尔奖的获得者,如果谁能够计算三维Ising模型就能够再获得一个诺贝尔奖。用Ising模型在常温下就可以做量子热力学模拟退火芯片。量子模拟退火可以用于人工智能的组合优化,机器学习中状态方程的计算与量子模拟退火计算机结合的核心是添加随机数生成器和数据的交互传输。


我们公司各方面发展还行,现在最高的日收入是接近100万美金,量化广告,量化金融,金融科技我们也做了不少研发,我们是某个全国性股份制商业银行的智慧银行的项目主要开发者,包括反欺诈、大数据、企业风控和个人风控,企业授信,个人授信都是我们做的,我们在智能司法里做的最核心的就是人工智能模拟法官判案,中国的法律规定量刑范围有一些互相冲突的条款,在各个地方规定也有一些不一样,过去的判案案例里面有可能受到某些因素影响或者主审法官个人对法律的理解不到位,包括量刑范围和立功减刑。如果仅仅把历史上的案件统计一下根据统计规律指导法官进行新的判案是不靠谱的。我们也参与其他的事情比较多。今天的分享,主要是希望引起对于人工智能和大数据基础理论和原创性技术研究的关注。谢谢大家!


作者简介:

李利鹏 北京汇真网络传媒科技有限公司董事长, 日本筑波大学计算机系人工智能符号计算方向博士课程退学,硕士学位,师从数学家井田哲雄和机器证明泰斗Bruno Buchberger的弟子Micea。研究方向是计算理论,密码学,量子计算,符号逻辑,人工智能,大数据,历任美国domainspa和epicenter技术合伙人。


汇真科技十年专注于数据分析和商务智能,建立了一支以全球最优秀的高校和公司背景出身的数学,物理,计算机博士为主的人工智能和大数据研究技术团队,在美国,加拿大,新加坡有三个子公司,目前在全球有200多人的研究团队,公司的业务范围是利用人工智能和大数据技术来进行全球范围内的流量实时分析与算法交易和金融领域内反欺诈,授信模型,风控模型,以各种产品为交易标的的量化交易,选举监测,人工智能辅助司法判案等行业应用,海外子公司nativeads.com 和lexo.com计划于美国上市,汇真母公司计划2019年3月申报中国主板上市。


你可能感兴趣的:(汇真科技李利鹏 :人工智能的应用边界)