Guagua:PayPal的Hadoop迭代式计算框架

概要
PayPal的飞速发展离不开PayPal风险控制团队的巨大贡献。PayPal风险控制团队主要致力于使用大数据技术判别在PayPal上的虚假交易。如何利用大数据精准的训练风险控制的数学模型一直是PayPal风险控制团队的研究重点。 Guagua是基于Hadoop的内存迭代式计算框架。在PayPal内部Guagua主要被用于训练基于海量数据的风险控制模型。在本次演讲中您不仅可以了解到Guagua如何通过改进Hadoop MapReduce用以支持大数据的数学模型的训练,您还可以了解到Guagua的整体设计架构;在可扩展性方面,Guagua同时支持Hadoop MapReduce和Hadoop YARN,很容易扩展到其它计算平台。此外,Guagua的微核插件化设计体系可以使得用户灵活地更换、组合甚至是开发新的组件。本次演讲中您还会了解到Guagua不同于Spark的一些高级的特性。

个人简介

张彭善,PayPal研发工程师,2008年硕士毕业于上海交通大学,从2010年起开始关注Hadoop的发展,2012年初加入PayPal Risk Data Science。刚加入PayPal主要使用Hadoop计算各种风险控制模型的变量;2013年初开始研发基于Hadoop的机器学习框架,以满足PayPal日益增长的风控大数据的需要。在这个机器学习框架中,本人主要负责如何使用Hadoop实现分布式的神经网络、逻辑回归等算法。经过不懈的努力,不仅完整实现了这个机器学习的框架,而且实现了一套基于Hadoop(包括MapReduce和YARN)的内存迭代式计算框架用以支持分布式的神经网络和逻辑回归等算法。今年四月份这两个项目分别以Shifu和Guagua命名对外开源(http://github.com/ShifuML/)。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

你可能感兴趣的:(Guagua:PayPal的Hadoop迭代式计算框架)