近几年来随着大数据产业的蓬勃发展,Kafka的应用也有了明显的增长。世界超过三分之一的财富500强公司使用kafka。这些公司包括排名前十的旅游公司、前十大银行中的7家、十大保险公司的8家、十大电信公司中的9家,以及更多。Kafka用于实时数据流,收集大数据,或进行实时分析(或两者兼有)。Kafka与内存中的微服务一起使用,以提供持久性,它可以用于向CEP(复杂事件流系统)和和物联网信息平台。
Kafka经常用于实时流数据架构,提供实时分析。由于Kafka是一种快速、可伸缩、持久和容错的发布-订阅消息传递系统,Kafka用于使用JMS、RabbitMQ和AMQP甚至可能不被认为是由于容量和响应性的情况。Kafka具有更高的吞吐量、可靠性和复制特性,这使得它适用于跟踪服务调用(跟踪每个调用)或跟踪IoT传感器数据,而传统的MOM可能不会被考虑。
Kafka可以与Flume / Flafka、Spark流、Storm、HBase、Flink、Spark进行实时消化、分析和处理流数据。Kafka是一种数据流,用于为Hadoop BigData提供数据。Kafka broker支持在Hadoop或Spark中进行低延迟后续分析的大量消息流。此外,Kafka流(一个子项目)可以用于实时分析。
kafka的使用案例
简而言之,Kafka用于流程处理、网站活动跟踪、度量收集和监视、日志聚合、实时分析、CEP、将数据注入到Spark、将数据输入到Hadoop、CQRS、回放消息、错误恢复、以及保证分布式提交日志用于内存计算(微服务)。
谁使用kafka?
许多处理大量数据的大公司都使用Kafka。它的发源地LinkedIn使用它来跟踪活动数据和操作指标。Twitter将其作为风暴的一部分,以提供流处理基础设施。Square使用Kafka作为一种总线,将所有系统事件移动到不同的正方形数据中心(日志、自定义事件、度量,等等),输出到Splunk,并实现esper -like/ CEP警报系统。Spotify、Uber、Tumbler、高盛(Goldman Sachs)、贝宝(PayPal)、Box、思科、CloudFlare和Netflix等其他公司也在使用它。
kafka为什么这么受欢迎?
kafka有操作简单。kafka是建立和使用的,很容易理解kafka的工作方式。然而,kafka最受欢迎的主要原因是它的优秀表现。它是稳定的,提供可靠的持久性,具有灵活的发布-订阅/队列,可以很好地扩展n -数量的用户组,具有健壮的复制,为生产者提供可调的一致性保证,并且在shard级别(即Kafka主题分区)提供保留的排序。此外,Kafka与具有数据流的系统很好地工作,使这些系统能够聚合、转换和加载到其他商店。但是,如果kafka行动缓慢,这些特征都不重要。kafka的杰出表现是kafka受欢迎的最重要原因。
kafka为什么这么快?
Kafka严重依赖操作系统内核来快速移动数据。它依赖于零拷贝的主体。Kafka使您能够将数据记录批量处理。从生产者到文件系统(Kafka主题日志)到消费者,可以看到这些数据批次。批处理允许更有效的数据压缩和减少I / O延迟。Kafka将不可变提交日志写入到磁盘顺序,从而避免了随机磁盘访问和慢磁盘查找。kafka通过分片提供横向比例尺。它将一个主题日志记录到数千个服务器的数百个(可能是数千个)分区中。这种分片让kafka能够承受巨大的负荷。
kafka:流体系结构
Kafka最常用于实时流媒体数据到其他系统。Kafka是一个中间层,可以将实时数据管道解耦。Kafka核心不适合直接计算,如数据聚合或CEP。Kafka流是Kafka生态系统的一部分,提供了实时分析的功能。Kafka可以用于快速通道系统(实时和操作数据系统),如Storm、Flink、Spark流媒体、服务和CEP系统。Kafka还用于流数据进行批量数据分析。它将数据流到您的大数据平台或RDBMS、Cassandra、Spark甚至S3中,以便将来进行一些数据分析。这些数据存储通常支持数据分析、报告、数据科学处理、遵从性审计和备份。
kafka是什么?
Kafka是一个分布式流媒体平台,用于发布和订阅记录流。Kafka用于容错存储。Kafka将主题日志分区复制到多个服务器。Kafka的设计是为了让你的应用程序能够处理记录。kafka速度快,通过批量和压缩记录有效地使用IO。Kafka用于解耦数据流。Kafka用于将数据流到数据湖、应用程序和实时流分析系统中。
Kafka支持多语言
来自客户机和服务器的Kafka通信使用的是版本化和文档化的TCP协议。Kafka承诺保持与旧客户机的向后兼容,并支持多种语言。有c#、Java、C、Python、Ruby和许多其他语言的客户。Kafka生态系统还提供REST代理,允许通过HTTP和JSON进行简单的集成,这使得集成更加容易。Kafka还通过Confluent模式注册kafka来支持Avro模式。Avro和模式注册表允许使用多种编程语言编写和读取复杂的记录,并允许记录的演变。kafka是真正通晓多国语言。
Kafka的作用
Kafka允许您构建实时流数据管道。kafka能提供内置的微服务(即演员,Akka,Baratine)。io,QBit,反应器,反应式,Vert。x RxJava Spring反应堆)。Kafka允许您构建实时的流媒体应用程序,这些应用程序可以对流做出响应,进行实时数据分析、转换、响应、聚合、连接实时数据流和执行CEP(复杂事件处理)。
您可以使用Kafka来帮助收集指标/ kpi,从多个来源聚合统计数据,并实现事件源。您可以使用它与微服务(内存)和actor系统来实现内存服务(用于分布式系统的外部提交日志)。
您可以使用Kafka在节点之间复制数据,为节点重新同步,并恢复状态。虽然Kafka主要用于实时数据分析和流处理,但您也可以使用它来进行日志聚合、消息传递、点击流跟踪、审计跟踪等等。
在一个数据科学和分析是一项大交易的世界里,捕捉数据以供数据湖泊和实时分析系统也很重要。由于kafka能够承受这些类型的费力用例,kafka是一件大事。
kafka是可扩展的消息存储
Kafka是一个很好的记录/消息存储系统。Kafka类似高速文件系统,用于提交日志存储和复制。这些特性使Kafka对应用程序的所有方式都有用。编写到Kafka主题的记录被持久化到磁盘上,并复制到其他服务器上以进行容错。由于现代的驱动器是快速和相当大的,这很适合并且是非常有用的。Kafka生产者可以等待确认,因此消息是持久的,因为生产者在消息复制之前不完成。kafka圆盘结构很好。现代磁盘驱动器在大型流批处理中具有很高的吞吐量。此外,Kafka客户端和消费者可以控制读取位置(offset),这允许在有关键bug(即修复bug和重放)时重新播放日志。而且由于每个消费者组都跟踪偏移量,我们在kafka体系结构的文章中讨论过,消费者可以相当灵活(即重放日志)。
Kafka保留记录
kafka集群保留了所有已发布的记录。如果您不设置限制,它将保存记录,直到它耗尽磁盘空间。您可以设置基于时间的限制(可配置的保留期)、基于大小的限制(基于大小的可配置),或者压缩(使用键保存最新版本的记录)。例如,你可以制定一个为期3天、2周或一个月的保留政策。主题日志中的记录可用于消费,直到被时间、大小或压缩所抛弃。由于kafka总是写到主题日志的末尾,所以它的消耗速度没有受到影响。