人工智能的动作来看这四家:百度、谷歌、微软、Facebook

人工智能的动作来看这四家:百度、谷歌、微软、Facebook


人工智能已经成了兵家必争之地,但说句实在话,也都是准备的姿势。不过,瞭望未来的AI大战,积极的人才、设施、技术储备都是刚需。近日,美国《财富》杂志(Fortune)发表题为“Why deep learning is suddenly changing your life“的文章,文中深入介绍了包括百度、谷歌、微软、Facebook在内的全球四大AI巨头在人工智能的布局以及深度学习对人们日常生活带来的改变。

下面来看一下这四家公司备战人工智能都做了什么⬇️

人工智能的动作来看这四家:百度、谷歌、微软、Facebook_第1张图片

----------------------

一、百度在深度学习与人工智能领域的进展与成果

(一)百度人工智能

  • 百度硅谷人工智能实验室,兼具开发与研究能力

人工智能实验室,成立于2014年5月,侧重于研究人工智能和深度学习的前沿技术,这使得百度在硅谷现有开发能力的基础上,进一步增强其研究能力。实验室搭建了百度人工智能的产品“百度大脑”,融合了深度学习算法、数据建模、大规模GPU并行化平台等技术,实现了实时学习和成长,它拥有200亿个参数,构成了一套巨大的深度神经网络。目前实验室主要研发方向为:语音识别、图像识别、imageQ&A、自动驾驶技术等。

  • 百度人工智能人才培养:“少帅计划”——人工智能实验室青年科学家甄选及培养计划

“少帅计划”招聘对象是人工智能领域30岁以下的年轻研究人员,从知识、行动、表达、创新和梦想等五方面进行考察,,不看资历和学历,只看能力和潜力,对于入选“少帅计划”的顶尖人才,百度设计了一整套培养计划:一年后,获得不少于半年赴百度美国硅谷研发中心工作机会,或者去美国麻省理工学院(MIT)、斯坦福大学(Stanford)等顶尖院校担任访问学者;三年后,经考核有机会获得“百度天使投资”,带领20-30人团队,独立领导一个创新项目。

  • 百度人工智能介绍

  • 硬件基础:

百度创新性的利用大量GPU组成HPC(高性能计算机群),用其训练深度学习。研究人员通过提高GPU的使用效率,从而提升训练神经网络的速度及规模。百度在HPC的研究已处于世界领先地位。为提供在线神经网络的速度与规模,百度开发了FPGA加速器、GPU加速器加速技术提供在线服务,速度提升五倍左右。

  • 算法:深度学习:

百度深度学习主要依靠硬件及算法模仿类似于大脑神经突触联接的结构进行信息处理的模型,它让机器执行人类的活动,如看、听和思考,为模式识别提供了可能性,促进了人工智能技术的进步。正是受益于Deep Learning领域的技术突破,百度在图像、语音方面取得了骄人的成绩。

为了顺应移动时代的潮流,百度正将深度学习模型小型化的同时,加快运行速度,致力于开放适用于手机、平板等移动设备的深度学习引擎。

百度在构建深度语音端对端系统的过程中发明了Warp-CTC方法,进而使用CTC提高模型的可伸缩性,该算法比普通CTC训练快百倍。百度还将这一算法开源,此举将加快推进深度学习研究者的研发成果,大幅提高人工智能开发速度,让端到端的深度学习变得简单、快速。

(二)百度人工智能技术进展与应用

概述:

百度在人工智能方面布局已久,关键技术的进展十分迅猛,目前在语音识别、图像识别、自然语言处理、无人驾驶、机器学习、深度学习等人工智能相关领域共公开了1500余件发明专利,遥遥领先于微软、IBM等公司。其中,深度语音识别系统于2月入选《麻省理工科技评论》2016十大突破技术,百度也被选入全球50大创新公司。

1. 百度大脑

组成百度大脑的三大部分:超大规模神经网络、计算、数据。

  • 百度超大规模神经网络是模拟人脑神经元组成的网络,但却比人脑的神经元数量多一个量级,支持万亿级参数、千亿样本、千亿特征训练。

  • “百度大脑”的计算基于数十万台服务器,以及国内最大的GPU集群。

  • 百度拥有海量数据,包括全网万亿网页、数十亿级搜索数据、百万级图像视频数据、百万级定位数据。

“百度大脑”主要包含语音、图像、自然语言处理、用户画像四大能力。

目前,百度的语音及图像能力相对成熟;自然语言处理仍处于早期阶段,因为除了认知能力外还要求具备推理、规划等能力;用户画像可根据用户的数据进行处理,描绘出每个人专属的特征。

  • 语音能力

  • 语音识别技术:百度深度语音识别技术Deep Speech2入选《麻省理工科技评论》“2016年十大突破技术”。目前,百度语音识别准确率为97%

  • 语音合成技术:百度语音合成技术已应用到百度各个产品中,每天响应的语音合成请求量达到2.5亿次,以手机百度小说频道为例,听小说的用户从过去听40分钟,增长到现在的近两个半小时,并利用该技术复原张国荣的声音。“百度大脑”的语音合成能力只需要按照要求说50句话,便可以让每个人拥有自己的声音模型。

  • 图像能力

  • 人脸识别:百度人脸识别准确率达到99.7%,该技术可识别人脸上的72个特征点,并将这些特征点连结起来形成面部表情网,可据此识别每个人的各种表情。

  • OCR识别:采集全景图片,利用OCR技术,自动进行目标识别,实现百度地图中的POI、导航等信息的快速更新。

  • 无人车视觉:无人车中也运用到了图像识别技术,在专为自动驾驶设定的KITTI测试中,百度在车辆检测方面排名第一

  • AR:AR依赖于图像识别技术,通过识别、理解现实场景,将虚拟与现实世界融合,用户可进行交互。我可以把现实世界中我的产品和虚拟世界中我希望用户感知的东西结合在一起,这是一种新型的广告形式,和用户进行互动,这里面不仅有图像识别的技术,也很大程度上取决于广告主的创意,如果创意和这个技术结合,对消费者的吸引力也非常大,带来实惠。百度AR团队研究的核心技术包括:图像识别与追踪、视觉同时定位与建图(SLAM)技术、AR渲染引擎、以及传感器数据融合技术。其中,图像识别与追踪技术在iOS和Android平台上的运行时间和识别精度都处于世界领先地位。应用方面,在最常使用的app中,手机百度是第一个集成AR功能的APP, 这意味着数亿用户已经可以体验AR功能。

  • 自然语言处理能力

  • 度秘:目前,用户和度秘的交互大约有56%是通过语音和图像来完成的,就像和人对话一样,这种方式非常自然,更顺应人性。度秘可利用自然语言处理能力解说奥运篮球比赛,通过提前学习几百场NBA和以往奥运会篮球比赛的解说和评论,不断理解比赛,将枯燥的数据转化为解说员风格的语言。度秘除了它能够识别语音和图像之外,其实它更关键、更核心的技术,是能够用人的语言来与人进行交流,并且能够理解人的很多意思和意图,尽管不是每一次都能理解。

  • 百度翻译:百度翻译支持27种语言互译,通过自然语言处理能力,理解用户想要说什么,实现无障碍沟通。

  • 用户画像能力

  • 百度系产品拥有10亿日活量,基于大数据、机器学习等技术,将这些数据划分为千万级的细分标签。目前,百度的用户画像分为两个维度,垂直画像支持金融、保险、生活服务、零售、旅游、房产、咨询等深度行业应用,通用画像则基于人口属性、位置属性、长期兴趣、短期意图、APP偏好等描绘用户画像,支持全行业个性化应用。

  • 手机百度:利用用户画像能力,手机百度资讯推荐阅读量在两个月内增长10倍,手机百度在新闻垂类里,拥有61.5万个细分标签。

  • 行业合作:2016年6月份上映的电影《魔兽》,它的出品人是传奇影业,他们就是利用了百度大脑的用户画像功能来提升了200%的票房。做法是将人群分成三类,一类人是不管怎么样都要看的,另外一类是不管怎么样都不会看的,这两种人他们都不太关心。它关心的是它可以影响的人群,再通过用户画像把这些人从摇摆的转换成真正去电影院看的。

2. 百度无人驾驶汽车

  • 无人车发展进程

百度无人驾驶车项目于2013年起步,由百度研究院主导研发,其技术核心是“百度汽车大脑”。相比于国际同类项目,百度自动驾驶项目凭借在LBS、大数据和人工智能领域多年的技术积累,已形成了一套完整的自动驾驶技术方案,并在交通场景物体识别、高精度地图与定位、智能决策等关键技术上达到国际领先水平。

2015年12月初,百度无人车完成了开放高速公路环境下的自动驾驶路测,开创了中国无人驾驶车研发领域三个“最”:路况最复杂,自动驾驶动作最全面,环境理解精度最高。当月,百度又宣布正式成立自动驾驶事业部,事业部聚焦于自动驾驶汽车的技术研发、生态建设与产业落地,计划三年实现自动驾驶汽车的商用化,五年实现量产。

截止目前,百度自动驾驶技术专利的申请数量439项,包括无人车的智能感知与控制、智能检测与定位、高精地图等国际领先技术。

  • 百度无人驾驶车大事记:

2015年12月10日,路测成功。

2015年12月14日,百度自动驾驶事业部成立。

2015年12月16日,百度无人驾驶车亮相第二届世界互联网大会——互联网之光博览会。

2016年1月18日,“智能汽车与智慧交通产业创新示范区”在京成立,百度受邀成为创新中心发起单位之一。百度将深度参与智能驾驶应用示范板块建设,其自动驾驶项目有望在亦庄开发区落地。

2016年1月22日,百度美研中心成立负责搭建无人车硬件计算平台部门。

2016年5月16日,百度芜湖合作 开启全球首个全无人车运营区

2016年5月27日,百度与上海国际汽车城正式签约,共建无人驾驶示范区(试点)

2016年8月,百度与福特联合注资激光雷达公司Velodyne

2016年9月,百度无人驾驶汽车获批美国加州路试

2016年10月,百度与北汽加深合作,北汽邬学斌加盟百度

  • 无人车核心技术

  • 百度无人驾驶车项目的技术核心是“百度汽车大脑”,包括高精度地图、定位、感知、智能决策与控制四大模块。底层为高精度地图、中间层为感知/定位,最高层为智能决策与控制。目前汽车大脑已经可为汽车提供高精度地图、高精定位、智能感知、智能控制的自动驾驶整体解决方案。其中,百度自主采集和制作的高精度地图记录完整的三维道路信息,能在厘米级精度实现车辆定位,相比于GPS定位精度提升了两个数量级。

  • 百度无人驾驶车依托国际领先的交通场景物体识别技术和环境感知技术,实现高精度车辆探测识别、跟踪、距离和速度估计、路面分割、车道线检测,为自动驾驶的智能决策提供依据。

  • 百度无人驾驶使用了64线激光雷达、毫米波雷达、视频等感应器。GPS定位系统等,随时采集车辆周边数据,精确识别路面交通线、红绿灯、各种交通标识,可准确接收车辆的定位信息。在国际通用的KITTI测试车辆检测项目中,百度的车辆识别准确率达到89.32%。

  • 王劲认为, 5年后,百度无人驾驶车将积累大量高精准的激光数据,其处理能力、训练模型、驾驶能力会远超传统车厂。在智能决策上,它能根据实时感知的环境信息、高精度地图等,进行最优路径规划,预测周边车辆和行人的行为和意图,做出适合路况的行车决策,从而能控制汽车正常行驶。

3. 百度云

  • 百度云特点与优势

  • 百度云是百度在15年技术积累、汇集上万名国内外顶尖技术专家的基础上,通过开放百度核心基础架构技术,为广大公有云需求者提供的全系列可靠易用的高性能云计算产品。百度云拥有超过1.2万台的单集群,超过阿里飞天计划的5k集群。百度云还拥有CPU利用率高、弹性高、成本低等特点。

目前,百度云已拥有包括云服务器BCC、负载均衡BLB、对象存储BOS、内容分发网络CDN、关系型数据库RDS等全系列共13款云计算产品,用户通过百度云官网,可根据业务需要灵活选配产品服务和付费方式,在线完成购买。

  • 百度云拥有三大立足点:领先的技术优势,融合AI的差异化优势,和从全行业解决方案(及市场策略)切入的生态优势。百度在云计算、大数据和人工智能领域的深厚积累,使得百度云不同于传统的云计算,而是“云计算+大数据+人工智能”的“三位一体”。

  • 李彦宏认为“百度有人工智能技术的创新,有大规模处理数据的能力,有非常精准的用户画像能力,有非常好的定位能力,所有这些能力结合起来,可以在各个行业发挥出非常独特作用。”

  • 百度云三大智能平台

智数大数据平台——天算、智能多媒体云平台——天像,以及智能物联网平台——天工,其中包含众多全新上线的行业解决方案和产品。三大智能平台,连同已有的云服务,共同构成了百度开放云成熟、完整的产品矩阵。

(三)百度人工智能技术开放

1. 深度学习开源平台PaddlePaddle:

百度全新的深度学习开源平台PaddlePaddle在开源社区Github及百度大脑平台开放,供广大开发者下载使用。PaddlePaddle已实现CPU/GPU单机和分布式模式,同时支持海量数据训练、数百台机器并行运算,轻松应对大规模的数据训练。同时,PaddlePaddle更具易用,高效,灵活和可伸缩等特点,具备高质量GPU代码。目前,PaddlePaddle已在百度30多项主要产品和服务之中发挥着巨大的作用。

2. 百度人工智能技术开放

百度已将语音、图像、自然语言处理等多项人工智能技术通过APIStore、接口等方式免费对外开放,降低开发者研发成本及难度,赋能各行各业。目前,包括联想智能电视、信利智能可穿戴设备、特斯拉电动汽车、去哪儿APP、陌陌APP等厂商,都使用了百度语音开放技术。

零售、交通、金融、家居、医疗、教育、汽车等行业可以使用百度人工智能的能力,通过行业自身积累的大数据,或同时融合百度大数据进行挖掘处理,改造和优化各个行业在管理、产品服务、设计等环节的能力。

二、Google在深度学习与人工智能领域的进展与成果

(一)Google人工智能技术的进展及应用

1. Google Brain

  • 2011年Google推出了聚焦深度学习的Google Brain项目,是“Google X实验室”一个主要研究项目。是谷歌在人工智能领域开发出的一款模拟人脑的软件,这个软件具备自我学习功能。Google X部门的科学家们通过将1.6万台电脑的处理器相连接建造出了全球为数不多的最大中枢网络系统,它能自主学习,可以称之谓“谷歌大脑”。

  • 通过应用谷歌大脑的神经网络,谷歌的软件已经能够更准确的识别讲话内容,而语音识别技术对于谷歌自己的智能手机操作系统Android来说已经变的非常重要,而同样这一技术也可以用于谷歌为苹果iPhone开发的应用程序。通过神经网络,能够让更多的用户拥有完美的、没有错误的使用体验。随着时间的推移,谷歌的其他产品也能随之受益。例如谷歌的图像搜索工具,可以做到更好的理解一幅图片,而不需要依赖文字描述。

2. DeepMind

  • 2014年年初,谷歌以4亿美元的架构收购了深度学习算法公司——DeepMind,公司创始人哈萨比斯是一位横跨游戏开发、神经科学和人工智能等多领域的天才人物。7月,谷歌以DeepMind为主体与牛津大学的两支人工智能研究队伍建立了合作关系

  • DeepMind也很快发布了研究成果,它在10月份公布了一种新的模拟神经网络,旨在模仿人类大脑的工作记忆原理,拥有更加强大的归纳整理和联想演绎等逻辑处理能力,从而带来更快的任务处理速度,还可以通过训练去自行处理任务,这种全新的深度学习算法可用于计算机视觉和语音识别等领域。

  • 2015年,DeepMind团队在《自然》杂志上公布研究成果:通过深度神经网络与强化学习结合的Human-level control through deep reinforcement learning,展现出了在复杂任务中酷似人类的算法

  • 2016年3月,DeepMind团队训练的深度强化学习项目AlphaGo击败了围棋世界冠军李世石,这是人工智能的一次里程碑事件。

  • 2016年10月,DeepMind在期刊《自然》中发表论文称,已经开发了“可微分神经计算机”(DNC),通过结合神经网络和常规计算机内存,能够在没有先验知识的情况下解决一些小规模问题,例如规划伦敦地铁站之间的最佳路线,理解家谱等图形结构。

3. 谷歌自动驾驶汽车

  • Google Driverless Car是谷歌公司的 Google X 实验室研发中的全自动驾驶汽车,谷歌自动驾驶汽车项目始于2009年,远远领先于传统汽车厂商和其他大多数公司。截止2016年10月,谷歌自动驾驶汽车路测里程已达到200万英里(约合290万公里)。此前,谷歌的自动驾驶汽车已经完成了总计70万英里的高速公路无人驾驶巡航里程。

  • 谷歌无人驾驶汽车通过摄像机、雷达传感器和激光测距仪来“看到”其他车辆,并使用详细的地图来进行导航。谷歌的原型车安装了17个感应装置,搜集来的信息能快速建立起一个半径200公尺的3D信息图,让车辆对外部环境进行分析判断,实现360度的全方位防护。

4. 谷歌智能家居生态系统建设

  • 智能家居生态系统:谷歌通过一系列并购、开放平台的建立、软件硬件一体化来打造智能家居生态系统

  • 谷歌于2014年1月份以32亿美元收购了智能家居制作商Nest,该公司主要提供智能恒温器和智能烟雾探测器,并已经拥有 100 多项专利,200 多项专利已在美国专利局备案,另有 200 多项专利准备备案。

  • 6月份,谷歌通过Nest花费5.55亿美元收购了基于云端的家庭监控公司Dropcam,

  • 10月份,又收购了智能家居中枢控制设备公司Revolv,该公司将参与Nest的开放计划“Works with Nest”。

  • Google Home

2016年谷歌秋季发布会发发布智能家居核心产品Google Home。Google home内置了谷歌助理,通过语音遥控,它可以播放音乐,获取信息和知识、日程管理,通过设备互联,还可以遥控其他的家庭智能硬件,比如恒温器、电视机(Chromecast连接)等等。

5. 谷歌语音能力

  • 2014年,谷歌开始了开发一套能够整合公司海量数据的语音系统,这个正处在测试阶段将会使计算机从本质上“听懂”和“思考”人们向谷歌设备输入的语音。这个团队将前馈神经网络替换成了递归神经网络,提高了系统对语音信息的存储和处理能力,并能够使用上下文、物理定位及其它方式对谈话者的真正含义进行预测,就像人在谈话时大脑所做的一样。

  • Google在2014年将语音识别的精准度从2012年的84%提升到如今的98%,移动端Android系统的语音识别准确性提高了25%

  • 2016年9月,谷歌宣布将收购智能语音识别工具开发商API.ai,预计会整合其自然语言理解技术。

6. 谷歌图像识别能力

  • Google研究院也发表了一篇文章,表明未来Google的图形识别引擎不仅仅能够识别出照片的对象,还能够对整个场景进行简短而准确的描述。

  • 谷歌一直在积极吸引图像识别和计算机视觉方面的专家参与到谷歌的项目研究中来,比如说向研究计算机视觉和模式识别的助理教授Devi Parikh授予了谷歌内部研究奖项Faculty Research Awards和 9万美元的无限制基金,并允许她直接同谷歌的其他研究者和工程师进行合作。

  • 2015年8月,谷歌收购图片分析公司Jetpac。

  • 谷歌在计算机视觉技术也取得了突飞猛进的发展。如果以计算机视觉技术研究者设置的技术标准来看,自2010年到2014年,图像分类识别的精准度提高了4倍。

7. 谷歌知识图谱

2010年谷歌收购了Metaweb公司,局面大大改观。詹南德雷亚在Metaweb公司致力于“将相关事务自动连接”的技术,让机器自己学习并发现不同事物、不同信息之间的关联。这类似于我们所理解的语义网络。2012年,谷歌正式发布“知识图谱”,该技术让谷歌搜索变得更加智能。比如,让用户迅速找到最想要的信息,给用户提供更全面的摘要,让搜索更有深度和广度。在“知识图谱”里,储存着海量信息以帮助用户尽可能快地通过搜索找到答案。

(二)Google人工智能技术开放

1. 开放平台TensorFlow

  • 2015年11月,谷歌在其官方博客上宣布开源自己的最新第二代机器学习系统TensorFlow。TensorFlow对于DistBelief的短板做了补足。TensorFlow灵活性佳、可移动、易于使用,而且是完全开源的。基于DistBelief的速度、可扩展性和为产品做准备的特性,TensorFlow做得更为出色。

  • TensorFlow此前一直为像图像识别和邮件自动回复这样的谷歌各大产品提供相应的支持,而开源则意味着从此以后,所有的个人、企业和组织都可以用站在谷歌的肩膀上,借用它的技术来开发自己的AI应用。

2. 开源Deep dream

2015年,Google开源了用来分类和整理图像的AI程序Inceptionism,并命名为DeepDream。DeepDream采用卷积神经网络,将图像划分为不同风格与内容组件。DeepDream的开源除了帮助我们深入了解深度学习的工作原理外,还能生成一些奇特、颇具艺术感的图像。

3. 开放语音识别API

2016年5月,谷歌NEXT云用户大会上,公布开放语音识别API。谷歌云语音API(Google Cloud Speech API)将覆盖超过80种语言,兼容任何实时串流或者批处理模式的应用,它将为应用程序提供一整套API,给它们带来“看、听与翻译”方面的功能。它基于目前驱动谷歌应用的语音搜索和谷歌键盘的语音输入的神经网络技术。它还有一些其它有趣的功能,如可在嘈杂的环境运行,支持实时运行。

4. 谷歌开源人工智能工具SyntaxNet

谷歌开源世界准确度最高的自然语言解析器SyntaxNet开源。据介绍,谷歌在该平台上训练的模型的语言理解准确率超过90%。谷歌此次所公开的包含了所有开发人员的数据训练新的SyntaxNet模型所需要的代码,以及Paesey McParseface——谷歌已经训练好的,可用于分析英语文本的模型。

三、微软在深度学习与人工智能领域的进展与成果

(一)微软人工智能技术的进展及应用

1. 微软人工智能与研究事业部

2016年9月,微软今日宣布,将把“技术与研发部门”和“人工智能( AI )研究部门”相合并,组建新的“微软人工智能与研究事业部”(Microsoft AI and Research Group)。 该事业部将由微软全球执行副总裁、技术与研发部门主管沈向洋领导。沈向洋是全球计算机视觉和图形学研究领域的顶级专家,1996 年加盟微软。该事业部下属部门将包括人工智能产品工程、基础和应用研究实验室,以及新体验与技术( NExT )。,新成立的人工智能与研究事业部将通过四种途径来推广人工智能技术,分别为代理( Agents )、应用、服务和基础设施。

2. 自然语言处理

  • 微软自然语言计算组成立于 1998 年,专长于翻译、输入法、问答、社交文本挖掘、搜索引擎、口译、手语翻译等。

  • Skype Translater 实时语音翻译技术

  • Skype Translator 的实时语音翻译技术是一项让两个不同语言的人,可以实时通过自己的母语进行语音进行沟通的技术。微软实时语音翻译技术通过在语音识别阶段就为口语的识别做了特殊的输入优化,识别之后的文本经过 TrueText 技术的处理,再进入文本翻译阶段,文本翻译的输出结果也要为口语做优化,最终通过成熟的 TTS 技术让机器“读出来”翻译结果。

  • 微软最早在 2012 年天津的一次学术活动上展示了这项技术。2014年12月,这项技术在 Skype Translator 应用上实现商用,之后陆续运用到桌面版 Skype Translator 和 Microsoft Translator 手机App中。在今年年底前,将为Office 365企业用户提供 Skype Meeting Broadcast 服务。通过该服务,可以自动为网络会议添加字幕,并将会议实时地翻译成不同语言展现出来。

  • 2016年上半年,这项技术迎来新的里程碑,微软将 API 开放给所有人,方便开发者将其集成到自己的应用中。

  • 微软小冰

  • 微软小冰是微软(亚洲)互联网工程院在2014年5月29日发布一款人工智能伴侣虚拟机器人。数据显示:小冰自2014年6月发布至今,已拥有4200万用户,并与用户间进行了逾220亿次对话,平均对话轮数达到了创纪录的23轮,语音自然度达4.32(介乎于“自然”和“比较自然”两个分值之间)。

  • “微软小冰”集合了中国近7亿网民多年来积累的、全部公开的文献记录,凭借微软在大数据、自然语义分析、机器学习和深度神经网络方面的技术积累,精炼为几千万条真实而有趣的语料库(此后每天净增0.7%),通过理解对话的语境与语义,实现了超越简单人机问答的自然交互。

  • 微软Cotrana

  • Cortana (中文名:微软小娜)是微软发布的全球第一款个人智能助理。它“能够了解用户的喜好和习惯”,“帮助用户进行日程安排、问题回答等”。Cortana 可以说是微软在机器学习和人工智能领域方面的尝试。微软想实现的事情是,手机用户与小娜的智能交互,不是简单地基于存储式的问答,而是对话。它会记录用户的行为和使用习惯,利用云计算、搜索引擎和“非结构化数据”分析,读取和“学习”包括手机中的文本文件、电子邮件、图片、视频等数据,来理解用户 的语义和语境,从而实现人机交互。这也是微软的 研究,从个人计算机(personal computer)走向个人计算(personal computing)的开始。

  • Cortana 背后极大地依赖 Bing 信息平台的服务和数据,以及微软研究院的技术研究,上述的任务都由一系列不同技术组合完成。Cortana 的设计理念是基于“最顶尖的机器学习和数据挖掘算法”,自然语言处理、语义分析、语音技术、Bing Satori 知识库和自学习系统等都是其中的核心技术。

3. 语音能力

  • 微软的语音技术研究始于 1993 年,2007 年微软花 10 亿美元买下了语音识别技术公司Tellme ,深耕语音技术研究。

  • 2011年上半年,微软把深度学习引入到自己的商用语音识别产品里面,其中包括了Bing语音搜索以及X-Box语音命令。目前微软 Bing 语音平台整合于微软各产品线:Windows 和 WP 操作系统、Kinect、车载系统等。

  • 微软宣布了一项关于机器理解人类语言的重要测试结果,即研究人员获得了迄今最低语音识别会话误码率(WER)——6.3%。

4. 图像能力

  • 在2015举行的ImageNet计算机视觉识别挑战赛上,微软亚洲研究院的152层深层残差网络系统,获得了图像检测、图像分类和图像定位三个项目的冠军,其视觉计算组的系统错误率低至3.57%,去年这一数据为6.6%。残差学习重构了学习过程,重新定向深层神经网络中的信息流,极大地改善了其它计算机视觉问题。

(二)微软人工智能技术开放

1. 深度学习平台CNTK开源

  • 2016年1月,微软开源其深度学习语人工智能领域的研究成果 Computational Network Toolkit(CNTK),将之放上 GitHub 供所有开发者使用,而且据微软研究员说法,CNTK 在语音和图像辨识能力方面,比 Google 的 Tensor 等四个开发者常用的 Toolkit 有更快的运算速度。

  • 微软 CNTK 加快深度学习运算的秘诀,则是靠 GPU,微软发现,虽然 GPU 设计用于电脑图像处理,但用在说话、听、理解语音、辨识图片与动作这类的演算法处理时,其效果也相当理想。且不管是只有一台电脑,或者是多台以 GPU 为主的运算服务器,都可以跑得动 CNTK,因此对于那些预算有限的研发人员、致力于深度学习的新创公司,或者是拥有大量数据并要即时处理的大公司,都能尽情使用 CNTK。

2. 开源人工智能(AI)平台Project Malmo

  • 微软日前宣布将开源旗下人工智能(AI)平台Project Malmo,通过Project Malmo,所有研究者都可以用廉价、有效地对人工智能算法和程序进行测试,而不必要开发机器人去操控。目前,研究者可以通过微软《我的世界》游戏去测试AI算法。

  • 人工智能当中,机器学习算法需要反复尝试和试错来让机器“强化学习”,微软剑桥实验室研究员Katja Hofmann表示,Project Malmo就是为帮助研究者解决这个环节问题而推出的工具,以加强通用人工智能的开发,包括指导人工智能程序学习,展开对话,做出决策,以及完成复杂的任务。

四、Facebook在深度学习与人工智能领域的进展与成果

(一)Facebook人工智能技术进展及应用

1. Facebook两大人工智能相关实验室

  • Facebook AI研究实验室(FAIR):

重点发展基础研究的Facebook AI(FAIR)项目,由Yann LeCun负责,在加入 Facebook 之前,LeCun 被认为是该领域最富成就的科学家之一,FAIR主要专注于基础科学和长期研究。

  • 应用机器学习部门AML:

专注于人工智能产品应用的应用机器学习部门AML,这个部门由西班牙裔机器学习专家Joaquin Candela负责。Candela 是一个资深的机器学习专家,他的团队目前的研究方向是将人工智能应用于已有的 Facebook 产品。AML 的目标是「推进技术转移最大化的工艺水平」以及成为「科学、研究以及技术转移之间的纽带」。AML 正试图为提供排名、广告、搜索、语言翻译、语音识别、自动产生视频字幕以及自然语言理解等所有领域开发更好的算法以提升 Facebook 的底线。

2. Facebook自然语义处理能力:

  • 文本理解引擎Deep Text:

  • Facebook发布了文本理解引擎“Deep Text”,该引擎可以以接近人类的精准度,每秒理解几千个帖子的覆盖20多种语言的的文本内容。DeepText将部署在Facebook的各项服务中,帮助其为用户提供更好的相关文章和服务推荐,此外DeepText还能够帮助Facebook识别垃圾信息,筛选出恶意或威胁性的网友评论。

  • DeepText还能够根据情景理解文本含义。DeepText还会将整合于移动聊天工具中,系统可以自动分析用户的聊天信息,比如如果认为两位好友正在谈论一个出行计划,系统可以自动匹配出Uber、Lyft等移动专车的信息,或是给出天气预报等内容。

  • 翻译:Faebook利用神经网络来翻译每天超过40种语言的约20亿帖子,并称它的翻译每天有8亿用户使用,其中约一半用户不以英语为母语

  • 人工智能助理Facebook M

2015年8月,Facebook公开了一个名为“Moneypenny”(简称M)的人工智能助理项目,它可以帮助用户完成一些信息咨询类工作。比如能完成预定酒店、购物等工作,这些是微软,苹果和Google的语音助手现在无法完成的。交互方式是在对话框输入所需服务的文字即可,Facebook M属于混合型产品,采用人工+人工智能的模式为用户服务。据悉,Facebook M是杀手级功能,虽已足够智能,但目前仍在测试期。

  • 聊天机器人平台

在F8开发者大会上,Facebook把Messenger开发为一个可以让商家与用户通过聊天机器人沟通的平台,适时推出了Messenger聊天机器人平台。Facebook计划通过“聊天机器人”帮助用户与企业之间进行自动化沟通及在线购买等活动,扩大Messenger应用在客户服务和企业交易中的使用。现在入驻Messenger平台的聊天机器人已达一万多个。

3. Facebook图像能力:

  • 收购人脸识别公司Face.com

2012年6月,Facebook收购人脸识别公司Face.com。Face.com是以色列面部识别公司,此前为Facebook等公司提供人脸检测及识别技术。其自有相机应用Kilk,可以自动帮用户给照片上的Facebook好友打标签。

  • 人脸识别DeepFace技术:

  • 2014年,Facebook推出的一款名为DeepFace的面部识别技术,或许有望让这一技术达到几近人工识别的水平。据科技媒体theverge消息,DeepFace技术可以不受拍摄者拍摄角度影响,即可进行精准的面部识别,同时这一准确率现已达到97.25%。

  • 为了研究DeepFace,Facebook建立了一个来自于4030个人的440万张标签化的人脸池,公司称这是迄今为止规模最大的人脸池。

  • DeepFace运用深度学习将人脸识别提高到Human-level,Memory Networks,在深度学习中加入长期记忆(Long-term memory)以构建自然语言问答系统,开源深度学习框架Torch的更新和推广,运用快速傅利叶变换加速卷积运算的CuFFT,等等。

  • 视频识别:

Facebook在视频识别技术上已经取得一些进展,能够在查看视频的同时理解并区 分视频中的物体,例如猫或食物。对视频中物体的实时区分功能将大大提高Facebook视频直播内容的推荐准确性,而且随着技术水平的提升,未来机器将能 根据场景、物体和动作的时空变化给出实时的描述。

4. Facebook语音能力:

  • 2013年8月,Facebook收购语音识别和机器翻译公司MT。Mobile Technologies(简称MT)以研究语音识别和机器翻译技术为主,MT推出的Jibbigo应用,支持超过25种语言的语音和文字互译。

  • 2015年1月,Facebook收购语音识别公司Wit.ai。Wit.ai 1毕业于Y Combinator,其开发出了一款能够创建语音激活界面的API接口。Wit.ai并入Facebook后,将和移动开发后台服务商Parse一起为Facebook提供语音控制开发工具,加强Facebook Messenger的语音输入功能,提升语义理解水平。之后,Facebook顺势建立了语言技术部门。

(二)Facebook人工智能技术开放

1. 开源Torch上训练神经网络模块:

2015年1月,Facebook开源了一些用于在Torch上更快速地训练神经网络的模块,这些模块合称为 fbcunn ,它们“比默认模块快得多”。Facebook希望可以降低人工智能领域的门槛,从智能语音到图像识别再到语言处理,让更多的“外行人”有机会开发出属于自己的AI服务。

2. 人工智能开源软件Torchnet

  • 在新发布的一篇学术报告中,Facebook详细介绍了新的人工智能开源软件Torchnet,用于简化深度学习。在深度学习领域,Facebook没有选择建立一个全新的深度学习框架, 而是在 Torch 上编译一个开源库。

  • Torchnet 是用 Lua 脚本语言写成,能够在标准的x86芯片或图形处理单元(GPUs)上运行,也可以让程序员重用某些代码。这样一来就能够降低工作量,同时也可以降低出现bug的几率。

3. 开源Big Sur人工智能平台

  • Facebook的人工智能研发团队近日宣布,将开源人工智能硬件平台Big Sur,并表示该智能平台开源将有助于其他公司和研究人员之间合作,促进未来设计的创新,构建更复杂的AI系统。

  • Big Sur采用GPU驱动,可以处理大型数据,具有强大的计算能力,且可以用于神经网络的开发。此次开源的Big Sur硬件的设计特点是易于维修的主板,带有8个NVIDIA的Tesla M40 GPU。神经网络对人工智能的研究来说十分重要,这是Facebook第一次开源人工智能硬件设计。

  • Facebook将把这一硬件设计提交给Open Compute Project(开放计算项目),并承诺将向该项目提供系统设计、尤其是完整的人工智能任务创建方法。

--------------------

对于深度学习和人工智能的未来趋势,百度首席科学家吴恩达在“Why deep learning is suddenly changing your life“的文章中表示:“在过去,许多标普500强CEO希望自己能早点意识到互联网战略的重要性。今后5年也会有一些标普500强CEO后悔没有早点思考自己的AI战略。AI就是新的电力,100年前电力变革了一个又一个行业,现在AI也会做同样的事情。”


原网站:http://www.toutiao.com/i6342417850317144577/

你可能感兴趣的:(人工智能)