Spark应用案例分析

概要
Apache Spark作为新一代大数据分析平台,以全能分析闻名,可以在单个软件栈内混合批处理、流式计算、以机器学习为代表的迭代型计算、关系查询、交互式查询、图计算等多种分析范式,是搭建一体化大数据流水线的极佳选择。在部署Spark集群、设计Spark应用时有哪些方面的问题需要考量?目前Spark适合应用在哪些场景? 哪些场景不适合Spark使用? 本演讲试图通过亚信科技在Spark平台上的应用案例与经验教训为上述问题提供参考。

个人简介

田毅,北京Spark meetup创始人,微博: @亚信科技-田毅,从2010年起, 尝试独立编写分布式的业务处理平台. 2011年开始全面使用hadoop平台, 早期设计开发利用MapReduce构建可视化数据处理平台, 后逐步转向研究使用Hive分担电信行业传统数据仓库的复杂计算. 从2013年开始关注Spark, 目前致力于利用Spark技术的特性拓展电信行业的业务模式. 从2011年到2014年, 鉴证了Hadoop技术在电信行业中从小范围探索,到大规模推广使用, 。先后使用HBase实现了电信业务场景中的单据类数据即时查询业务, 使用Shark实现了准实时用户标签统计分析平台. 2014年7月创建北京Spark Meetup小组, 目前已经成功举办2次, 活动中邀请了来自Databricks, 亚信, 京东, Intel等多个知名企业的员工分享了Spark实践中的经验与教训。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

你可能感兴趣的:(Spark应用案例分析)