[list]Apache数据流项目Kafka/Storm/Samza/Beam/Spark/Flume/NiFi

Apache数据流项目：一个都不少｜「云头条」 http://mp.weixin.qq.com/s?src=3×tamp=1480572229&ver=1&signature=z5tskWVYLQ5zeoVG6ormP0yrjSDSY7RnTfqIpt3JinbmQ-uUGEqDjrjsu0Q3-prqDsFXW80h-OZSFEgzh2ZmVmPDDeOw7BjxFd*dWanBRLI92RoeOETv32iLzVKdS1Ni4H8DnbThlSmimMZkQxNQj3FWYvlE1pfKbrqF0u0n84o=

Apache Kafka、Apache Storm、Apache Spark、Apache Samza、Apache Beam

生产、使用、处理和分析数据的速度正在以令人难以置信的步伐迅速增加。社交媒体、物联网、广告技术和游戏等垂直领域都在竭力处理大得出奇的数据集。这些行业需要近实时处理和分析数据。像Apache Hadoop这些大数据类型的传统框架不是很适合这些使用场合。

[list]Apache数据流项目Kafka/Storm/Samza/Beam/Spark/Flume/NiFi_第1张图片

因而，过去几年已经启动了多个开源项目，以处理数据流。它们都旨在处理来自不止一个数据源的源源不断的记录。从Kafka到Beam，有十多个Apache项目，它们处于不同的发展阶段。

当前的Apache数据流项目高度重叠，针对类似的使用场景。用户常常一头雾水，不知该选择哪种合适的开源架构，以实施实时数据流处理解决方案。本文试图帮助客户理清让人眼花缭乱的Apache数据流项目，为此列出了每个项目的主要差异化优势。我们将讨论以下开源项目针对的使用场合和主要场景：Apache Kafka、Apache Storm、Apache Spark、Apache Samza、Apache Beam及相关项目。

Apache Flume

Apache Flume是历史最悠久的Apache项目之一，它旨在收集和聚合庞大数据集（比如Web服务器日志），并将它们转移到中心位置。它属于数据收集和单事件处理系列的数据流处理解决方案。Flume基于代理驱动型架构，客户端生成的事件直接流式传输到Apache Hive、HBase或其他数据存储区。

Flume的配置包括：来源、通道和接收器（sink）。来源可以是任何东西：从系统日志（Syslog）、Twitter数据流到Avro端点，不一而足。通道定义了数据流如何传输到目的地。有效的选项包括：内存、Java数据库连接（JDBC）、Kafka、文件及其他。接收器则定义了数据流传输到哪个目的地。Flume支持许多接收器，比如Hadoop分布式文件系统（HDFS）、Hive、HBase、ElasticSearch、Kafka及其他。

Flume

Apache Flume很适合客户端基础设施支持安装代理的场景。最流行的使用场合就是，将来自多个来源的日志流式传输到中央持久性数据存储区，供进一步处理分析。

典型的使用场合：流式传输来自能够运行Java虚拟机（JVM）的多个来源的日志。

相关网址：https://apex.apache.org

Apache Kafka Streams

Kafka Streams就是建立在流行的数据获取平台Apache Kafka上的一个库。源代码作为Kafka项目的一部分来提供。它由Confluent捐赠，创办这家初创公司的正是LinkedIn当初开发Kafka项目的一群人。

不久前，Apache Kafka成为了最流行的实时大规模消息传递系统。它迅速成为了当代数据平台的核心基础设施构建模块。它用于众多行业的成千上万家公司，包括Netflix、思科、贝宝和Twitter。Kafka还成了提供托管型大数据和分析平台的公共云提供商提供的一项托管服务。

Kafka Streams是一个库，用于构建数据流应用程序，具体来说是指负责将输入Kafka主题转换为输出Kafka主题的那些应用程序。它不是为大型分析设计的，而是为提供高效、紧凑的数据流处理的微服务设计的。这意味着，Kafka Streams库旨在集成到应用程序的核心业务逻辑中，而不是作为批分析作业的一部分。

Kafka

Kafka Streams帮助用户摆脱了这项任务：安装、配置和管理专门为数据流处理而部署的复杂Spark集群。它简化了数据流处理，因而让它可以作为一种面向异步服务的独立式应用编程模型。开发人员无需数据流处理集群，就可以嵌入Kafka Streams功能。该架构会有Apache Kafka和应用程序，没有外部的依赖项。

Kafka Streams提供了与Kafka提供的核心抽象完全集成的处理模式，以便减少数据流架构中活动部分的总数。它不是通常为了处理批处理而编写的MapReduce代码的一部分。

讨论Kafka Streams时，还有必要谈提到Kafka Connect，这种框架可靠地将Kafka与外部系统连接起来，比如数据库、键值存储系统、搜索索引和文件系统。

Kafka Streams的最大优点是，它可以包装成一个容器，可以放在Docker上。开发运维团队还可以使用Ansible、Puppet、Chef、Salt，甚至外壳脚本，以部署和管理应用程序。一旦被包装成容器，它可以与众多编排引擎集成起来，比如Docker Swarm、Kubernetes、DC/OS、Yarn及其他编排引擎。

典型的使用场合：需要嵌入式数据流处理功能，又不依赖复杂集群的微服务和独立式应用程序。

相关网址：http://docs.confluent.io/3.0.0/streams/index.html

Apache Samza

Apache Samza是在LinkedIn开发出来的，避免Hadoop的批处理需要的那种漫长的周转时间。它建立在Apache Kafka这低延迟分布式消息传递系统的基础上。开发Samza的初衷是，为数据持续处理提供一种轻量级框架。

Kafka和Samza这对组合好比HDFS和MapReduce。如果HDFS充当MapReduce作业的输入，那么Kafka获取由Samza处理的数据。数据流入时，Samza可以持续计算结果，提供亚秒级响应时间。

从数据流获得输入后，Samza执行作业，作业其实是使用和处理一组输入数据流的代码。作业可能用Java、Scala或支持JVM的其他语言编写。为了确保可扩展性，作业进一步细分为名叫任务（task）的更小执行单位，任务是一种并行处理单位，就好比数据流的分区。每个任务使用由其中一个分区传输的数据。

任务按顺序处理来自每一个输入分区的消息，按照消息偏移的次序。没有跨分区的定义顺序，让每个任务可以独立运行。

Samza

Samza将在一个或多个容器里面执行的多个任务分成一组，容器是隔离的操作系统进程，运行JVM，负责为某一个作业执行一组任务。容器是单线程，负责管理任务的生命周期。

Samza及其他数据流技术之间的主要区别在于有状态的数据流处理功能。Samza任务有专门的键/值存储区，位于同样任务的机器上。这种架构提供的读写性能胜过其他任何数据流处理软件。

由于Samza从LinkedIn广泛使用的Kafka发展而来，它有着出色的兼容性。它变成了Kafka用于获取数据的架构当中的一种自然选择。

Apache Samza和Kafka Streams旨在处理同一个问题，后者是一种可嵌入库，而不是功能完备的软件。

典型的使用场合：经过优化的数据流处理，面向利用Kafka来获取数据的应用。

[list]Apache数据流项目Kafka/Storm/Samza/Beam/Spark/Flume/NiFi

你可能感兴趣的:([list]Apache数据流项目Kafka/Storm/Samza/Beam/Spark/Flume/NiFi)