基于 Hive / ES 金融大数据指标系统


Hadoop技术博文

演讲作者:沈百军,2011 年,PPTV 负责 10PB 规模的大数据平台,搭建了 hadoop/hive/storm/spark 等开源组件,自主开发核心调度系统 & SQL Storm,每天处理万亿数据;2015 年加入平安证券,负责金融互联网大数据团队,使平安证券由传统的数据架构向互联网大数据架构转型,为平安证券的各个业务线提供敏捷和稳定的数据平台,其中大数据计算调度和客户指标系统在业界有很多创新点,以智能化和高性能为特点,是平安证券大数据业务发展的发动机。


摘要:如何在几亿条的数据,几万个字段中以毫秒级别筛选出有价值的数据,也就是同时要建几万个“索引”字段的数据库,是数据行业的一个难题;我们在开源和商业产品上面做了很多的对比,最后选定了 elasticsearch 作为数据引擎。 如果能让几百个维度几万个度量值组合查询,做一个超级 cube,一直是我们想解决的问题。当 ES 数据导入之后,我们进行了聚合查询测试,发现 elasticsearch 的多维聚合查询能力也是非常惊人,原本我们选择 kylin 的解决方案,做了相应的转变。 指标系统为精准客户经营,多维统计分析解决了难题。而后在千人千面项目中,需要提供在线的客户标签的 API 接口,我们加入了 redis 缓存层,让并发和请求时间又提升了一个数量级,给我们指标系统插上了翅膀。


关注本博客微信公共帐号:iteblog_hadoop,并回复  hive_es 关键字获取本文PPT。

基于 Hive / ES 金融大数据指标系统_第1张图片

基于 Hive / ES 金融大数据指标系统_第2张图片

基于 Hive / ES 金融大数据指标系统_第3张图片


猜你喜欢

欢迎关注本公众号:iteblog_hadoop:

0、回复 spark_2017_all 获取 Spark Summit East 2017高清视频和PPT

1、回复 掌握spark 获取 《Mastering Apache Spark》电子书

2、回复 高性能spark 获取 《High Performance Spark》电子书

3、回复 大数据分析 获取 《Big Data Analytics》电子书

4、回复 spark2电子书 获取 《Apache Spark 2 for Beginners》电子书

5、回复 spark2_data 获取  《Spark for Data Science》电子书

6、回复 架构师大会ppt 获取 《2016年中国架构师[大数据场]》 PPT

7、回复 intro_flink 获取 《Introduction to Apache Flink》 电子书

8、回复 spark_summit_ppt  获取 《Spark Summit 2016 Europe全部PPT》

9、回复 flink未来 获取 《The Future of Apache Flink》

10、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop)

你可能感兴趣的:(大数据)