5月18-19日,北京 • 朝阳门悠唐皇冠假日酒店,CSDN主办的中国云计算技术大会将围绕最热门、最前沿的云计算技术与行业实践重磅登场。本次大会上,超过50位Spark、Docker、Mesos、TensorFlow、Serverless方面的专家将汇聚一堂,和超过2000名开发者共襄盛举。
在19日的Spark技术峰会上,来自Databricks、阿里巴巴、华为、苏宁、新浪微博、七牛、宜人贷等七位专家将带来各自领域的最新实践。议题极具参考价值,包括Spark App自动化故障分析与诊断、基于Spark的大规模机器学习在微博的应用、CarbonData大数据高性能交互式分析实践、基于Spark的流式处理引擎在Pandora大数据产品中的应用、SparkSQL在ETL中的应用、金融反欺诈场景下的Spark实践、Deep Dive: How Spark use Memory等热点话题。目前官网正在火爆售票中,点击购票。
具体议程如下:
出品人简介:陈超,七牛云技术总监,专注于大规模分布式计算与机器学习领域。2014年Spark中国峰会讲师,2015,2016,2017连续三年Spark中国峰会出品人。
讲师简介:陈泽,苏宁云商IT总部高级技术经理。苏宁云商大数据离线计算平台的计算方向负责人,目前主要从事Yarn,Hive,Spark,Druid等计算组件研发工作。曾就职于百度,有多年的Spark大数据方向的研发经验,精通Spark SQL,Druid等内核原理,有丰富的任务故障诊断和性能调优经验。
演讲议题:Spark App自动化故障分析与诊断
议题简介:对于托管在大数据平台上的Spark/MR任务,在任务计算过程中,会因为业务数据倾斜,平台资源竞争,以及框架参数设置不合理等问题,导致任务的计算效率低下,甚至失败。在苏宁,我们将平台运维过程中的各种故障诊断以及性能调优经验落地为平台,提供任务异常报警和状态评分,给任务开发者提供自动化的故障诊断和性能调优能力。分享大纲:
听众收益:大数据平台开发人员,运维人员以及大数据应用开发人员。
讲师简介:吴磊,微博算法平台高级工程师。曾任职于IBM、联想研究院,从事数据库、数据仓库、大数据分析相关工作;现就职于新浪微博,主要负责以Spark为核心的大数据计算框架、机器学习平台的设计和实现。日常生活中热衷并善于利用数据分析生活中的点点滴滴,创办公众号《小生活与大数据》,提倡“玩转数据,乐享生活”。
演讲议题:基于Spark的大规模机器学习在微博的应用
议题简介:
听众收益:
讲师简介:李昆,华为大数据平台设计部部长。2004年加入华为,长期从事电信协议、管道智能化、数据可视化、用户行为分析等系统研究和开发工作。近年致力于数据管理和处理技术研究,参与Hadoop,Spark,Alluxio等开源社区,2016年作为CarbonData PMC成员参与Apache CarbonData项目孵化,寻求大数据与一站式分析平台的创新机会点。
演讲议题:CarbonData大数据高性能交互式分析实践
议题简介: Apache CarbonData是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景,实现百亿数据级秒级响应。
听众收益:听众可了解到:
讲师简介:赵宏尧,七牛云数据技术与产品部高级大数据开发工程师,曾就职于唯品会从事大数据平台相关的开发工作,目前聚焦于大数据流式处理平台的研发,对主流的分布式大数据流式处理框架有比较深刻的理解和实践经验。
演讲议题:基于Spark的流式处理引擎在Pandora大数据产品中的应用
议题简介:主要介绍了如何使用Spark Streaming为Pandora大数据产品添加流式处理服务。具体将会分享构建这样一个流式处理服务过程中遇到的一些技术问题以及我们解决方案,同时也会简单分享一下我们在Structured Streaming上做的一些尝试。
听众收益:听众可以通过这次分享,了解Spark Streaming在生产环境的使用过程中可能遇到的常见的问题和处理方法,让生产环境中使用Spark Streaming更加顺畅,同时对于想尝试Spark 2.1.0中的Structured Streaming功能的同学,也会得到一些建议。
讲师简介:宋军,阿里云飞天八部技术专家。2013年中科院硕士毕业进入阿里巴巴,曾在淘宝无线事业部从事无线数据采集系统(SDK/服务端)设计开发,针对双十一数据量的挑战做过一些系统上优化;目前在阿里云E-MapReduce团队从事Spark/Hbase等开源相关工作,Spark社区代码贡献者。
演讲议题:SparkSQL在ETL中的应用
议题简介: ETL是大数据处理中一个重要过程,SparkSQL对ETL提供了很好的支持,包括丰富的数据源接入,容错控制,各种各样的算子/自定义函数等,而且可以读写Hive仓库中的数据,本次分享主要从这几个方面介绍SparkSQL在ETL中的应用。
讲师简介:王婷,宜人贷数据科学家。中国矿业大学(北京)计算机博士毕业,已从事数据挖掘、大规模社交网络分析、社会计算等领域研究近5年,博士期间曾在清华大学计算机系数据库组访问学习并研究大规模社交网络中社区发现算法。现任宜人贷数据科学家,从事金融反欺诈模型建模工作,已成功申请2项反欺诈技术专利,搭建自动化个人信用风险分析系统,利用整合多种数据源和知识图谱技术帮助线上金融服务进行实时、快速、准确的风险识别与响应。
演讲议题:金融反欺诈场景下的Spark实践
讲师简介:范文臣,Databricks软件工程师。Apache Spark Committer,Spark SQL 开发团队核心成员。2013年从浙江大学毕业后,一直在进行分布式系统相关的工作。2014年开始接触 Spark,并成为最活跃的代码贡献者之一。2015年正式加入 databricks,成为 databricks 中国分部(筹建中)的第一名员工,主要负责开源社区方面的工作。
演讲议题:Deep Dive: How Spark use Memory
议题简介:此次演讲的目标听众主要是高级 Spark 用户和 Spark 内核开发人员。演讲会深入一些 Spark 技术细节,向大家解释 Spark作一个内存计算框架,具体是如何高效使用内存的。包括: Spark的主要内存使用点,数据在 Spark 内存中的表现形式,Spark 如何利用内存的层次特点实现 cache-aware 算法,以及一些未来的展望。
听众收益:了解这些技术细节后,高级 Spark 用户能对自己的 Spark 的应用程序的内存使用情况有更清楚的认识,方便后续的调优。Spark 内核开发者能对 Spark 整体架构有更深入的了解。
更多详细信息,请关注CCTC 2017 官方网站,现在购买享受更多优惠,点击购票。
CCTC 2017 相关阅读:
50+位顶级讲师议题公布,奏响云计算年度最强音
前沿|十位顶级大咖为您把脉容器技术大势
聚焦应用和图计算、十亿级大规模机器学习,大数据议题曝光