未来的认知工作负载需要全新的IT基础架构

摘要:2015中国大数据技术大会12月10日在北京新云南皇冠假日酒店盛大开幕,IBM副总裁、大中华区硬件系统部总经理郭仁声发表了主题为《未来的认知 工作负载需要全新的IT基础架构》的演讲。

【CSDN现场报道】2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会 (Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。

IBM副总裁、大中华区硬件系统部总经理郭仁声演讲的主题聚焦在未来的认知工作负载需要全新的IT基础架构,他首先介绍了认知时代的大数据平台和大数据基础设施,而Watson就是认知时代的典型代表,他认为认知时代需要创新的整合,对开源技术持续贡献,使IBM在Spark领域持续领先。随后,他介绍了认知时代的IBM分析解决方案并且演示了IBM的认知计算示例:创新Linux on power结合FPGA的CIFAR-10图像归类测试。


IBM副总裁、大中华区硬件系统部总经理 郭仁声

以下为演讲实录:

郭仁声:各位尊敬的来宾,大家早上好!很高兴代表IBM公司跟大家做大数据方面的交流。介绍前请大家看一段小的录像,有个小恐龙给大家做个介绍。(视频播放)

这个恐龙跟市面上玩具不太一样,这个小恐龙叫迪诺,帮助小朋友学习不同的知识,交流过程中是通过无线网络连接到后台,主动学习小朋友感兴趣的知识。同时也适应小朋友的习惯,语言的习惯、生活的习惯,感兴趣的方面等等,不断完善知识的架构,跟小朋友一起成长。把老师、家长感兴趣的模块加载进去,更好的完成小朋友在成长过程中一个很好的学习和陪伴的伙伴。这个产品是通过IBM的一个合作伙伴生产出来的,网上12月份可以预定了,我准备订购一个给我的小朋友,跟他一起成长。

这个演示代表我们进入了不同的时代,就是现在我们面对的计算外界环境,进入了认知计算的时代,有这么几个重要的特性:

第一个特征,大量的数据正在推动各个行业和各个专业的变革。为什么这样说?举个跟国计民生相关的行业,像医疗、政府、教育,像媒体的数据,在过去几年包括在未来几年都是飞速成长。业界估计到2017年,这几个行业的数据基本都是翻番的成长,其中超过80%的新成长数据都是非结构化的数据,包括语音,包括影像等等,这样的形式来出现。

第二个特征,无论是产品也好,服务也好,背后有各种大量计算机代码在重新塑造这个世界,举个例子,像新出来的汽车,无论是全电动的特斯拉也好,还是传统引擎的汽车,当你加载很多先进功能的时候,典型的一台新出厂的汽车上面有超过10亿行的代码,帮助驾驶者去管理汽车过程中,比如导航、音响、空调、灯光等等不同汽车上面的功能。所有这些代码都是在帮助大家把不同的设备更好的利用和管理起来。大家手机上普通的智能手机超过100万代码运行在上面,大量的数据、计算机代码推动计算时代演变非常快,计算技术已经从过去单纯的计算,或者今天大部分在使用编程的计算时代,进入到一个认知计算的时代。

这样一个认知计算的时代,我们能够通过各种不同的手段,物联网、手持设备、终端设备,通过互动去理解世界的规律,它能够使用不同的数据模型,或者自己演变的模式和假设去进行论证和推理,而且能够通过互联网或者专业的系统,海量的专家和研究数据进行自己的学习和完善。

刚才演示的小恐龙后台驱动的Watson系统就是认知时代计算系统的代表。Watson这个系统最早被大家知道应该是在2001年的时候,当时参加电视问答游戏,从2001年获得问答冠军,击败人类以后,在过去几年里面Watson系统又进行飞速的进步和演变。比如这几个开放平台,本身是强大的认知能力平台,而且计算的平台是基于云和开放标准,它上面几个主要的功能模块,比如问答游戏中用到的自然语言的识别技术,比如它的深度问答技术,包括它自己不断完善机器学习的技术,以及它平台构建的高性能运算基础架构等等,今天已经成为一个很重要的开放或服务模式,提供给不同的合作伙伴。

到今天为止,我们在全球有超过350个合作伙伴和公司,已经加入到Watson这样一个开放的计算平台上来,其中超过100多个产品,像刚才说的小恐龙已经面市,背后通过开放式的认知计算平台,为不同行业用户或个人用户提供这样一个服务。这些认知计算的平台就是围绕着五个很重要的技术领域进行研究的,一个是大数据分析,就是今天我们这个大会重要的主题,第二个方向是人工智能,第三个方向是认知的体验,包括语言的理解、读、看图、图像识别等等,第四个方向是认知的知识,怎么样获取专业的知识跟技能,最后一个研究领域是计算的基础架构平台,怎么样能够用最节能、最高效的计算平台去获得计算的能力。

这个Watson系统强调的是专业平台的能力,除了跟现在市场上不同领域公司都在研究人工智能系统、语言识别等等,和面向的通用的或者大众化的人机交互相比,Watson更注重专业技能的平台,而且我们认为它是进入未来认知商业模式很重要的一环。为什么这样说?我后面会详细的稍微做讲解。但是进入这个详细讲解之前,有一点我们想稍微解释一下,就是在这个认知计算的时代,从不同的层面都对计算模式等等提出新的要求,所以我们认为不能够简单套用今天大家成熟使用的计算模式,或者采用的工具和产品把它简单搬过来应用在未来大数据认知计算的平台上面,我们必须要有从端到端,从最底层的基础科学到最上层的商业应用,全面的创新和整合,这样才能够看到完善的全面支持认知时代的计算能力所要求的平台。

在这些方面IBM作为一个注重科研投入的公司,我们在不同层次做了相当多不同的尝试,像这个图上各位可以看到非常多的公司。从最底层的基础科学的研究,芯片的技术今天发展到22纳米普遍使用,14纳米正在出来,摩尔定律的突破一直是个问题,我们今年刚刚宣布7纳米芯片的原型已经制造出来,可以完全从技术的角度迎接下一代商用,能够继续沿袭摩尔定律往前推进,把计算的能力和芯片做进一步提升。

除了传统架构的芯片以外,我们认为当进入到一个认知计算的时代,需要更多模拟人脑计算要求的时候,你需要有一些不一样的基础技术去实现,这里面就出现了比如我们一直在研究的神经元芯片,和量子计算研究方面的突出成就,像量子计算研究在国内有非常多科研机构开始投入进来,但IBM在这方面做得比较早,也走得比较快,我们有一些最新成果,大家可以在网上看得到。包括神经元芯片,当对人脑进行模拟的时候,用传统架构不是不可以,但是能耗、占地和处理速度都满足不了我们希望要求的计算规模。神经元的芯片今天可以做到非常低的功耗,70毫瓦功耗芯片,但是组织起来,今天所能能够处理的模拟能力能相当于一只小白鼠智力的水平。

往上一层是需要有不同的计算平台,比如IBM把P服务器放在Linux,利用P多线程的技术、高带宽,让大数据走得更快,包括闪存技术消除读取瓶颈,IOPS更快等等。再往上,家务应用,传统的GPU应用,包括POWER对内存直接的存储存取,配合市场上FPGA加速卡,跟等等这样一些厂商合作,进行加速技术的研究。再往上,我们前面对大数据开源平台,特别是Spark的支持,是很重要的一环。更重要的是在这上面怎么样用大数据平台,搭建出来一个可以商用的模式,像刚才联通的范总做了介绍,旅游指数、天气指数等等这样的应用,是很重要的一环,怎么样让大数据平台和传统的企业或行业结合起来,真正变成认知商业的模式。

IBM在这方面做了一些不同的尝试和投入,除了Watson以外,我们举了另外两个公司,在刚刚过去10月份投资20亿美元收购Weather这家天气公司,雅虎等天气服务都是通过这个公司提供天气的数据。我们希望通过对直接天气大量数据的获得,在这个基础上依托大数据的分析、认知计算的能力,把它变成商业的服务提供出去。举个例子,我们可以和保险公司合作,当我们看到极端天气有可能出现的时候,道路安全方面有可能出现更多交通意外,这时候保险公司可以做相应的预防措施。或者我们跟电网公司合作,现在很多电网公司都在做智能电网项目,利用各种清洁能源,像风电、太阳能、潮汐发电,并到一个大的电网里面,进行智能的调度。这种天气信息的预测,能够帮助这些电力发电公司更好的去预估不同来源发电的情况,智能的去预先估计或者调解并网电力调度的情况,最大化它的产出。这些就是我们为什么觉得把这些传统的东西结合起来的一个原因,这样才能形成商业模式。

还有一个例子是这家医学影像投资MERGE,我们把这家公司并购进来,加入到我们医学部门。这个东西跟Watson系统结合起来,有些什么样的能力?大家可能之前也有听过Watson,我们通过它跟美国几个最先进的研究癌症方面的医学机构合作,对癌症案例进行分析、进行学习,为医生提供不同专业的指导。MERGE是在影像方面做的另一个尝试,利用Watson的技术,包括Watson里面本身拥有大量医疗影像的数据,我们通过专业的培训,希望让Watson系统具有医学影像读取的专业能力,我们正在培训这个系统,希望通过美国医生影像方面资质考试具备这个技能,成为很有利的工具去辅助医院一生对患者医疗影像数据进行分析。有时候由于人的专注度、情绪等方面,让患者影像方面不一定看得那么仔细,可能忽略了中间的一些重要特征,但是我们希望通过人工智能、认知计算系统,更好的帮助医生对患者影像进行读取,最大限度帮助医生更加准确判断病人的病情。这是在一个完整的认知时代端到端,怎么样把最底层的技术到最上层的应用进行充分的综合、整合、创新,提出不一样的商业模式和新的计算能力。

我们在各个层次创新能力都具备,那么怎么应用出来?这就提到热门的API经济话题,像我们Watson平台完全是基于云上的开放平台,我们今天是把Watson甚至作为一个surface,构建在我们这个Bluemix平台上,开放给更多合作伙伴去使用。Watson今天有大概16个不同的API接口,可以在网上跟大量的开发者结合,让开发者可以利用Watson的API,把他的计算能力变成surface去使用,把能力结合到行业应用。这是未来很重要的认知计算能力应用的方式,构建在开放平台上,被更多开发者和合作伙伴所使用。

为了去达成这个目标,我们投入了非常多,去支持认知时代的生态系统,就像刚才讲的,我们要把它开放出来,重要的一点是各个层面的东西,从操作系统,从中间开发的工具、数据库等,尽可能的开放,尽可能符合开源的标准。特别是我们有针对性的把IBM基于大数据运算或者未来计算时代的平台,从硬件刚才说到的服务器到闪存、到中间件等等,都做了各种针对开源平台的优化。这样希望在生态系统方面是全线的,IBM硬件平台、中间件、软件平台是完全可以配合开发者的需求。

这里面重要一环是对Spark技术的持续贡献,IBM是最早一批加入开源技术的公司,我们在1999年的时候投入了五位开发人员,进入这个开源的领域。但发展到今天,我们在全球已经有超过5万位开发人员,投入在各种不同开源的组织里面。参加了全球超过150个开源的项目,为这个平台去做贡献。针对Spark方面是未来战略性的投入方向,所以我们也在加州宣布成立Spark这样一个技术中心,不单只是投入开发人员,重要的是把我们机器学习等方面技术贡献出来,开源给这个社区。还有一点是跟中国研发相关的,6月份候刘延东访问美国时,跟我们全球董事长罗睿兰女士共同见证了一个合作项目的签署,IBM作为一个重要的科技公司,会支持国家留学基金会推动的“双百计划”,未来几年帮助中国培养超过100位在这大数据和云计算方面的科学家,增强中国在这方面的整体能力。这方面能够看到对开源项目的支持,包括对中国在大数据能力培养方面,我们在不遗余力做一系列的贡献。

除了这个开源的技术以外,我们本身自己的产品,像针对业务分析方面全系列的产品,从商业智能的工具,到分析开发,到整体的行业解决方案,我们有很多工具,SPSS等等一系列工具基于Spark进行整体优化,大幅度提升产品的计算速度和大数据环境下折分析能力。

刚才说了那么多,说要全面的优化,端到端的整合,到底能体现出来什么不同的优势?我们再看一段不同的演示。从这个演示可以看到,当我们点一个键之后出现很多不同的图片,这是什么意思?它的速度非常快,这是IBM在高性能运算2015上展示的一个支持大数据分析和认知计算的DEMO,一个能力。这里面后台是5万张图片,完全没有索引标识的图片,我们通过认知计算平台,用开源的这个框架,中间计算平台的硬件我们采用Linux on Power服务器,利用它高并发性、高带宽的处理能力,重要的是我们结合针对这种图形识别的技术所设计的FPGA加速卡,这样的话当我们按比如“飞机”按键,从5万张图片里面它自动识别是飞机的图片,按“鸟”,它自动把所有它认为是鸟的图片识别出来,算法本身没有什么特别,都是这些开源的算法,但是实现的方式跟以前有所不同。

当我们利用了这种FPGA针对算法加速的功能以后,获得了几乎是实时的图片识别和分类能力。很重要的一点是,相比今天比如在现成的X86平台跟GPU芯片模式都可以实现,但是用FPGA这种方式能耗只是原来的三分之一,但是处理的速度可能提升了3倍,一来一往大概是9倍能耗比的提升。这种新技术的结合和创新的采用,在未来很多有大量计算需要用到这类图形识别的时候,就会体现出非常大的价值。

我最近在媒体上有看到一些介绍,阿里巴巴马云先生介绍,说在阿里巴巴数据中心方面采用非常多的绿色节能技术,以前用煮四个鸡蛋的能量完成一个交易,今天用煮一个鸡蛋就可以了,未来我们也看看能不能和阿里巴巴有合作,用煮一个鸡蛋的能量未来完成50个、100个交易,在环保节能方面有更多的成功体现。

这是一个小的案例,去看我们怎么样落地刚才所说的概念。刚才也讲了,这些大数据的平台技术、认知计算技术,都要跟行业本身传统数据、应用结合在一起,才能获得新的价值。很多传统企业今天已经大量采用的是这种记录的系统,比如说银行的帐户系统、通信公司的计费系统,等等这些都是记录系统。但是怎么样在不同的平台上去搭建一个洞察系统,大数据分析的这样一个系统,而且跟现在用不同的终端技术所形成的交互系统,包括手机这种不同的物联网设备等等,去形成个整体的开放平台,从而去推动整个企业转型成为一个认知商业的模式。就像刚才我们说到的,跟医疗影像的结合、跟天气数据的结合,这是很长的旅程,不是一夜之间就能达到的。

我们为了实现这种业务或商业模式,要满足这样一种认知工作的负载,在基础架构方面需要一个完全不一样的构建方向,其中有三个重要的指标,一个是生态系统的整合,刚才我们也谈到面向开源等等更多更开放的整合,第二个是我们对事务分析处理方面能力怎么样尽可能优化更快、更节能,用更多技术去实现,第三个是进入到认知计算时,对基础架构的要求是7*24,而且是不间断的,不但具有容灾,而且有丰富的动态调配系统,去应付突然发生的波峰波谷的计算能力要求,这都是基础设施出现的不同要求。我们希望形成端到端的解决方案,从IBM角度持续投入到这几个方面:

第一,更快的平台,刚才说到无论是Linux on Power利用它高线程技术、高带宽技术、并发能力,还是闪存的技术解决客户IO方面的瓶颈。

第二,对开源方面的拥抱,刚才介绍了Spark方面的投入和承诺。加速技术的使用,不单只是加速,而是需要更低的能耗,这里面牵涉到不同的技术,像CAPI、FPGA等技术。最重要的是未来我们希望用更开放的心态,跟不同的合作伙伴一起搭建开放API的接口平台,无论是Watson作为一个服务提供出去,还是今天在Bluemix云平台上为开发者提供的能力,这都是我们希望搭建端到端解决方案所做的努力和尝试。

中国企业已经做了非常多不同的尝试,这是一个通信公司,通过Linux on Power把X86移植过来,性能提升2倍多。这个是公安系统,通过方案把它存储平台不同的数据整合在一起,跨平台的做一个整合,更灵活的在一个平台上去实时的,对处理、大数据作业、管理和调度等动态利用这些系统资源。保险公司使用车载的远程信息的处理,出现问题之后怎么样自动分析汽车行驶状况,决定理赔能力,通过更快的速度,原来不到一半的确时间响应Spark,这都是国内很成功的案例。

最后,用我们做的这个项目结束今天的介绍,我出门时候阳光出来了,报道也说北京的限行今天结束了。雾霾这个事情大家很关注,IBM在2014年7月份在北京宣布成立“绿色地平线”的项目,为期十年,跟国家环保部门和地方政府一起合作,用认知计算、大数据技术,帮助环保单位和企业,更好的管理、预测大气质量水平。经过一段时间的努力,在北京从最早只能提前3天去预测雾霾污染状况,到今天可以做到大概提前10天做出预测估计,而且管理的精度也已经缩小到一平方公里的范围。更好的作为决策支持平台,帮助环保部门、政府部门更迅速更好制定措施,去管理大气的质量。把所有的工厂关了、所有的车停了可以获得很快的环境,但是这都有代价的,那怎么样通过大数据的分析,用最优的模式达到一个标准,这就是我们希望做到的平台。最新我们也宣布会跟更多地方政府合作,包括跟保定、张家口一起合作,针对2020年冬奥会方面天气情况的预测和保障,做出我们的贡献。

在这里,我们也希望把这个项目介绍出来,这个项目是我们跟CSDN合作的项目,欢迎各位开发者加入到我们Linux开源社区活动,通过简单的登记方案就可以加入进来,希望广大开发者一起跟开源社区贡献自己的力量,我们往大数据认知时代转变方向上走得更快更稳,谢谢大家!

你可能感兴趣的:(大数据,云计算)