Apache Pulsar:实时数据处理中消息、计算和存储的统一

本文来自于 QCon 北京2018全球开发者大会,作者翟佳,其毕业于中科院计算所,目前就职于一家下一代实时处理初创公司Streamlio,是Streamlio的核心创始成员之一。在此之前任职于EMC,是北京EMC实时处理平台的技术负责人。主要从事实时计算和分布式存储系统的相关开发,是开源项目Apache BookKeeper PMC Member和Committer,也在Apache Pulsar, Distributedlog等项目中持续贡献代码。


实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中,Messaging,Computing和Storage三个部分的分离,给方案的实现带来了高复杂性,低可维护性,低效率等问题。


本次演讲将介绍Apache Pulsar,并展示Apache Pulsar怎样从这三个方面,提供一个端到端的实时数据解决方案。


Messaging:Pulsar对pub/sub和queue两种模式提供统一的支持,同时保证了一致性,高性能和易扩展性。


Computing:Pulsar内部的Pulsar-Functions提供了Stream-native的轻量级计算框架,保证了数据的即时流式处理。


Storage:Pulsar借助Apache BookKeeper提供了以segment为中心的存储架构,保证了存储的性能,持久性和弹性。


Apache Pulsar 在2016年开源,是Streamlio,阿里巴巴,和滴滴出行等公司一同起草的全球消息领域标准 OpenMessaging 的重要成员。希望通过这次分享,能够为大家带来对Apache Pulsar及其生态系统有更好的理解,和对pub/sub消息系统,实时处理系统的更多的认识。本文将主要介绍以下内容:

  • 了解实时处理的三部分的特点和需求;

  • 理解Apache Pulsar的特性和优势。

本文 PPT 下载地址:(点击下面阅读原文 即可获取)

https://www.iteblog.com/Pulsar.pdf

http://cdn.iteblog.com/Pulsar.pdf

猜你喜欢

欢迎关注本公众号:iteblog_hadoop:

0、回复 电子书 获取 本站所有可下载的电子书

1、Apache Spark 统一内存管理模型详解

2、HDFS 副本存放磁盘选择策略详解

3、盘点2017年晋升为Apache TLP的大数据相关项目

4、干货 | 深入理解 Spark Structured Streaming

5、Apache Spark 黑名单(Blacklist)机制介绍

6、Kafka分区分配策略(Partition Assignment Strategy)

7、Spark SQL 你需要知道的十件事

8、干货 | Apache Spark 2.0 作业优化技巧

9、[干货]大规模数据处理的演变(2003-2017)

10、干货 | 如何使用功能强大的 Apache Flink SQL

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档:http://flink.iteblog.com 13、Carbondata 中文文档 http://carbondata.iteblog.com

你可能感兴趣的:(Apache Pulsar:实时数据处理中消息、计算和存储的统一)