第四范式先知:建模比Spark快416倍,支持万亿级别变量数

7月20日,第四范式公司发布了基于深度学习、强化学习和迁移学习的人工智能平台——“第四范式·先知(Prophet)”。第四范式CEO戴文渊表示,在3000多万条大数据的测试环境下,先知平台建模速度比Spark快416倍,同时采用DSN(深度稀疏网络)使得先知能够支持万亿级别变量数,所以具有更强的表达能力,能够更好地支持多维数据。

第四范式先知:建模比Spark快416倍,支持万亿级别变量数_第1张图片

深度学习是当前最为热门的人工智能算法,然而深度学习在实际使用中还遇到很多障碍,例如深度学习首先是(标记)数据饥渴型和计算饥渴型算法,同时高精度的学习效果还需要很高级的算法人才。此外,深度学习也不是人工智能的全部。第四范式首席科学家杨强教授(没错,就是美国人工智能协会(AAAI)首位华人Fellow)总结了人工智能发展的两个主要障碍:

  1. 人工智能行业应用推广的门槛在于人才的稀缺和投入的巨大,培养一个合格的AI人才需要6-10年时间,加上地区发展的差异导致AI的“准入门槛”居高不下;
  2. 没有各行各业的“大数据”支撑,没有AI在各行业的应用及发展,AI也只能是实验室的项目,应用之路漫长。

作为一名资深的人工智能研究者,杨强希望实现更通用的人工智能,包括覆盖没有大数据的领域。他表示,深度学习的研究目前已经达到一个高峰,而应用的探索才刚刚开始,现在应该是强化学习的时代,强化学习可以通过延迟的反馈不断地实现模型优化,未来则属于迁移学习,它既能够将基于大数据训练的模型迁移到没有大数据的领域,同时又可以更好地支持个性化的需求。

杨强加入了他的得意弟子戴文渊的创业大计,希望整合深度学习、强化学习、迁移学习、记忆网络等算法,将稀缺的AI人才与行业经验变成产品,将每个行业解决方案中有价值的模块进行产品化,把科研高度与行业实战经验封装到一个平台级产品中,成为企业的商业套件、企业决策的智能引擎。

戴文渊既是迁移学习研究者和拥护者,也曾担任百度广告变现算法的核心负责人、百度凤巢的总架构师。杨强认为,团队的算法经验和工程经验搭配能够实现第四范式“AI for everyone”的目标。

经过1年半的研发,第四范式推出了商用的先知平台,支持超过3万台机器、能处理PB级的数据量,能够自动化、智能化的实现机器学习全流程——支持参数自动化的算法,降低了人工参与的特征工程和模型训练过程,提供自动或半自动的特征工程、模型选择调参工具,降低了对数据科学家的依赖。

先知平台具有四个定位:

  1. 人工智能应用者开发平台
  2. 人工智能的算法开发平台
  3. 解决人工智能行业人才门槛高的问题
  4. 为不同行业量身打造定制化的人工智能解决方案

基于四种机器学习方式,先知平台提供有如下十项主要功能:

  1. 数据免清洗
  2. 模型自学习
  3. 一键上线
  4. 弹性计算
  5. 实时数据流
  6. 智能数据集成
  7. 特征自动组合
  8. 面向AI的计算框架
  9. 模型解读技术
  10. 个性化需求满足

第四范式先知:建模比Spark快416倍,支持万亿级别变量数_第2张图片

戴文渊认为,大部分专家80%或更多的精力都花费在数据清洗上,而第四范式独创的“免清洗算法”功能,对于无效数据的容忍度极高,为AI “减负”。杨强介绍,免清洗的实质,是基于机器学习实现自动清洗,当然这需要和具体的业务相结合,因为不同业务对数据的需求不一样。其他自动化的流程原理也是类似,同时通过强化学习来保证精度不断提升。

戴文渊介绍,Spark机器学习建模时间会随着数据量呈平方增长, 传统分布式计算解决的是分工(大任务切分成很多小任务由集群机器分别完成)的问题,但作为一个整体的机器学习任务,还需要解决协作的问题——不同子任务的分别学习的结果之间还需要进行交流,而先知平台的GDBT在解决分工问题的同时,还解决了协作的问题,所以在建模方面的实际的测试结果比Spark更好,尤其是在数据量级越大的情况:

  • 在5万条较小数据的测试环境下,先知与Spark相比速度提升24%;
  • 在600万条数据的测试环境下,先知比Spark速度提升86倍;
  • 在3125万条大数据的测试环境下,先知可以实现比Spark速度提升416倍。

CCAI 2016中国人工智能大会 将于8月26-27日在京举行,AAAI主席,多位院士,MIT、微软、大疆、百度、滴滴专家领衔全球技术领袖和产业先锋打造国内人工智能前沿平台,6+重磅大主题报告,4大专题论坛,1000+高质量参会嘉宾,探讨人机交互、机器学习、模式识别及产业实战。 门票限时六折优倒计时第二天 。

你可能感兴趣的:(第四范式先知:建模比Spark快416倍,支持万亿级别变量数)