前言:由CSDN主办的SDCC 2017之大数据技术实战线上峰会将在CSDN学院举行。作为SD系列技术峰会的一部分,本次线上峰会秉承干货实料(案例)的内容原则,将邀请圈内顶尖的布道师、技术专家和技术引领者,共话大数据平台构建、优化提升大数据平台的各项性能、Spark部署实践、企业流平台实践、以及实现应用大数据支持业务创新发展等核心话题,旨在通过来自国内一线互联网公司实践案例,为开发者提供一个最有价值的高效的技术交流平台!
主题:SDCC 2017之大数据技术实战线上峰会
时间:10月14日 09:00 - 17:15
日前,大数据技术实战线上峰会也公布了首批的讲师和议题,接下来请看:
个人介绍: hulu大数据部门负责人,资深Hadoop技术实践者和研究者,拥有超过8年的大数据平台平台研发经验;《Hadoop技术内幕》系列丛书作者。
演讲主题: 《Impala+AtScale:构建企业级OLAP引擎》
主题介绍:大数据时代因数据的多样化和处理的复杂化,构建企业级OLAP引擎面临诸多技术挑战。尽管当前开源界提供了多种OLAP解决方案,但灵活性和性能方面均不能令人满意。本次分享将介绍一种基于Impala和AtScale构建企业级OLAP引擎的方案,并进一步介绍了对Impala进行的源码内核级优化。
听众收益:
大数据OLAP引擎的主流方案及优劣对比;
Impala+AtScale应用经验及优化;
Impala源码级优化。
许鹏 携程
个人介绍:携程机票大数据基础平台Leader,负责平台的构建和运维。深度掌握各种大数据开源产品,如Spark、Presto及Elasticsearch。著有《Spark源码剖析》一书。
演讲主题:《携程机票大数据基础平台架构演进》
主题介绍:携程机票具有丰富的产品线,拥有海量数据,如何存储、分析和应用这些数据一直是部门痛点所在。携程机票大数据团队结合部门业务实际,广泛尝试各种大数据开源产品,在不断摸索中逐步形成稳定的大数据技术栈,该方案支持海量产线数据落地,亚秒级的实时分析和高效快速的交互式查询,更在此基础上结合业务提出了数据产品服务。
听众收益:
大数据解决方案;
开源产品的选型和运维;
大数据团队的技术能力需求和人员组建;
大数据团队和业务部门的结合。
张璐波 Intel
个人介绍:目前就职于英特尔大数据部门,高级软件工程师,上海交通大学硕士。之前主要进行网络协议栈的研发工作,现专注于大数据平台架构、Spark Streaming和SQL。
演讲主题:《端到端、可扩展且高容错性的Structured Streaming流式处理技术进阶》
主题介绍: Spark Structured Streaming 流式处理模块作为Spark Streaming的改进版本,在Spark 2.0中引入并解决了以往流式处理在实际应用中遇到的一些问题,在实时数据处理方面发挥了重要作用。Structured Streaming是建立在Spark SQL引擎之上的端到端、可扩展且高容错性的流式处理系统,你可以像进行批处理那样进行流式表达式计算。
随着数据的不断到来,Spark SQL引擎会持续增量的进行计算并更新结果集。本次分享中,主要介绍Structured Streaming的一些基本概念和工作原理。
听众收益:了解Structured Streaming编程模型以及如何处理实时流中乱序以及延迟到达的数据,并对模块高可用性进行细致的分析。
符鹏飞 永洪科技
个人介绍:目前主要负责金融、制造行业数据咨询工作,并成功推进光大银行、民生银行、中信银行、美的集团、华为等众多大型项目落地,同时兼任永洪数据科学研究院讲师,为各行业数据分析爱好者提供数据分析、数据应用方面的培训及指导工作。
演讲主题:《数据技术的下一站——数据应用》
主题介绍:数据技术日渐成熟丰富,处理海量数据不再是企业的挑战,但大多企业都不知数据该如何利用才能对业务和管理提升真正带来价值。永洪基于自身的实践和探索,找出了一条解决之道。
听众收益:
业务用户:掌握数据分析技巧,开发百花齐放的数据应用;
管理层:如何通过数据应用驱动业务经营;
IT技术:如何搭建大数据应用分析架构,如何体现IT资产?
汪木铃 蚂蜂窝
个人介绍: 2014年至今负责蚂蜂窝数据采集、对接、数据产品的开发及整个大数据平台的架构设计、技术选型,专注于大数据工具链的定制开发及应用。
演讲主题:《蚂蜂窝大数据平台架构演进》
主题介绍:本次分享主要涉及蚂蜂窝大数据平台的架构设计、离线数据探索、实时数据探索、多维数据分析中Druid引擎引入的背景和带来的价值。
听众收益:
如何做离线数据探索;
如何做实时数据探索;
如何做多维度数据分析。
陈守元 阿里
个人介绍:阿里集团计算平台事业部产品专家,7年大数据工作经验,曾负责异构数据同步工具DataX产品和架构设计、阿里云流计算产品设计。
演讲主题:《阿里集团实时流计算平台Blink在阿里集团的应用实践》
主题介绍:本次分享将从阿里集团的大数据处理现状讲起,引出实时流计算在阿里集团几个典型应用,包括双十一大屏、ABTest、机器学习。阿里为应对超大规模海量数据,在Flink上面做了诸多技术优化,包括Yarn Scheduler Optimization、Incremental Checkpoint、ASynchronize IO。为了进一步实现实时流平台产品化,阿里集团为社区贡献了包括StreamSQL等核心功能。在集团内部,Blink提供了一站式流式SQL开发平台和拖拽式的在线机器学习平台,演讲中也会进行讲解。
主题介绍:
用户了解流计算在阿里集团的应用案例;
用户了解当前阿里集团在Flink上的重点技术/产品投入点;
用户了解阿里集团内部对于流计算的产品化。
王哲涵 京东
个人介绍: 2015年加入京东,期间在大数据平台研发部工作,目前负责京东大数据平台的架构与研发工作。
演讲主题:《Presto的服务治理与架构优化及在京东的实践与应用》
主题介绍: Presto是大数据adhoc查询的利器,京东对于Presto有较大封装及改造, 将其管理、部署、监控及自愈升级自动化,同时在性能上有大胆的创新尝试,对支撑高并发和缓存查询有较深的研究。
听众收益: Presto的服务治理与架构优化。
如何报名?点击【阅读原文】立即报名!(还可以扫码入群哦)
群满请到报名页查看