Hadoop在营销数据挖掘的实践

概要
介绍由于广告数据的多样化,包括有曝光、点击等被动获取的请求;微博、新闻、博客、论坛、行业网站等主动抓取的请求;问卷调查数据的补充;第三方数据的输入。导致对数据的清洗(ETL)、存储(Data Storage)、挖掘(Data Mining)都提出非常高的要求。将会介绍每天近100亿请求的性能是如何优化的,以及每天近1000亿数据的数据分析是如何实现的,还有数据从多IDC采集到同步中心机房如何实现分钟级的计算。最后将会重点介绍AdMaster 根据累积了超过7年的实际广告主和品牌的网络营销数千个实际案例的经验,自身研发的ADH(Advertising Distribution Hadoop)的发展及特点。其中包括内置的广告算法,应用调度器的优化,还有关于在线数据(HBase),离线数据(MapReduce),实时数据(Spark),流式数据(Storm)等方式的整合介绍。

个人简介

卢亿雷,AdMaster技术副总裁 微博: @卢亿雷 现任AdMaster技术副总裁,曾在联想研究院、百度基础架构部、Carbonite China工作;关注高可靠、高可用、高扩展、高性能系统服务,关注Hadoop/HBase/Storm/Spark等离线、流式及实时分布式计算技术。 对分布式存储和分布式计算、超大集群、大数据分析等有深刻理解及实践经验,对Lustre,HDFS,HBase,Map/Reduce,Storm,Spark等有很深的理解。曾在联想研究院、百度基础架构部、Carbonite China工作。2006年硕士毕业,一直从事云存储、云计算开发及架构工作,多年Hadoop实战经验,专注于分布式存储、分布式计算、大数据分析等方向,有两个发明专利,《一种分布式文件系统及其数据访问方法》和《一种数据备份的版本管理方法及装置》。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

你可能感兴趣的:(Hadoop在营销数据挖掘的实践)