kafka- 第4页

Apache Kafka-消费端消费重试和死信队列

文章目录概述CodePOM依赖配置文件配置类SeekToCurrentErrorHandler自定义逻辑处理消费异常生产者消费者单元测试测速结果源码地址概述Spring-Kafka提供消费重试的机制。当消息消费失败的时候，Spring-Kafka会通过消费重试机制，重新投递该消息给Consumer，让Consumer重新消费消息。默认情况下，Spring-Kafka达到配置的重试次数时，【每条消息

小小工匠·2021-02-18 16:31

go自定义time支持rfc3339_基于Go数据框架设计与实现-Csink

背景最近在搞实时数据采集分析，需要对数据进行ETL，最原始需求:(Kafka->简单字符串处理->Kafka)需求不复杂，在做选型时果断放弃Flink这样开源流处理框架，放弃原因如下既然目标有了，下一步进行开源产品调研

weixin_39991926·2020-12-25 20:39

Kafka-消息队列知识要点

KafKa1.0简介1.0.1消息队列消息队列是一种用来储存消息的队列（先进先出）。消息队列，就是将需要传输的数据存放在队列中，实现管道作用。消息队列不是一个永久性的储存，是作为临时存储存在的（设定一个期限：设置消息在MQ中保存10天）。1.0.2消息中间键（消息队列的组件）消息中间件就是用来储存消息的软件（组件），连接各个系统。1.0.3消息队列的应用场景1.0.3.1异步处理1.0.3.2系统

听春雨wei·2020-12-11 21:32

消息中间件-Kafka怎么治疗三高

Kafka-高并发怎么支撑百万级并发？将消息批量RecordBatch写入；Kafka-高性能百万级，怎么快速写入？

Evado·2020-11-23 15:38

八、Kafka-幂等

ps:kafka幂等是针对producer来说的注意：幂等设计只能保证单个Producer对于同一个Partition的ExactlyOnce语义1、消息语义Atmostonce:消息可能会丢失，但不会重复Atleastonce:消息不会丢失，但可能重复Exactlyonce:正好一次。消息不会丢失也不会重复2、为什么需要幂等？在0.11.0.0之前，如果producer未能收到已提交消息的res

wanting1024·2020-09-17 12:11

kafka命令总结与讲解

3.Kafka消费者启动命令kafka-

Morgan_Mu·2020-09-16 20:12

Kafka -提交偏移量和优雅的退出程序

Kafka-提交偏移量和优雅的退出程序一、KafkaConsumer类常用的方法及解释参考文档二、提交偏移量参考文档三、优雅的退出程序参考文档

果不其燃·2020-09-16 13:28

kafka-完全分布式集群安装及简单使用

kafka完全分布式集群安装：要求：前置zookeeper集群版本：kafka2.12.1zookeeper3.4.51.解压安装包：tar-zxvf/opt/software/kafka_2.12-1.0.0.tgz-C/usr/local/kafka2.更名为kafkamv/usr/local/kafka/kafka_2.12-1.0.0kafka3.修改环境变量export$KAFKA_HO

wanwu皆对象·2020-09-16 12:47

kafka-第一章-初步认识kafka

学习大纲学习大纲一、kafka介绍Kafka最初是由Linkedln公司采用Scala语言开发的一个多分区、多副本并且基于ZooKeeper协调的分布式消息系统，现在已经捐献给了Apache基金会。目前Kafka已经定位为一个分布式流式处理平台，它以高吞吐、可持久化、可水平扩展、支持流处理等多种特性而被广泛应用。ApacheKafka是一个分布式的发布-订阅消息系统，能够支撑海量数据的数据传递。在

黄海佳·2020-09-16 08:26

MySql准实时同步数据到HDFS（单机版）

一、方案MySql->Maxwell->Kafka->Flume->HDFS按照这个顺序新搭建一套环境。

MyEclipseJAVA2EE·2020-09-16 04:15

Kafka-高性能

文章目录1.架构2.磁盘2.1零拷贝2.2顺序写2.3页缓存3.网络3.1高效的请求模型Reactor3.2压缩与批处理参考1.架构分区Kafka的主题多分区机制，分区的副本、领导者副本一般均匀地分布在不同的Broker上，实现了并行处理，为Kafka提供了高伸缩性以及负载均衡能力。基于ISR的动态复制方案Kafka既不是完全的同步复制，也不是完全的异步复制，而是基于ISR实现了动态复制方案。同步

萝卜头柯克船长·2020-09-15 17:57

Kafka-概念

文章目录1.Kafka是什么？2.Kafka核心概念3.对比3.1与其他消息引擎对比3.1与其他流式计算框架对比附：Kafka知识点思维导图参考1.Kafka是什么？Kafka是一款开源的消息引擎系统，也是一个分布式的流处理平台，官网对其定位为adistributedstreamingplatform。作为消息引擎，同时支持两种消息引擎模型：消息队列模型（点对点模型）：消息只能被一个系统使用，即每

萝卜头柯克船长·2020-09-15 17:56

Kafka-消费者

文章目录1.消费者和消费者群组2.消费者核心配置参数3.Reblance再均衡3.1触发与通知3.2过程3.3避免再均衡3.3.1再均衡的负面影响3.3.2如何避免4.位移4.1自动提交4.2手动提交4.3最佳实践4.4从特定位移处处理4.5CommitFailedException5.多线程开发消费者5.1单线程轮询、多线程处理6.TCP连接&消费者启动流程7.消费进度监控参考1.消费者和消费者

萝卜头柯克船长·2020-09-15 17:56

Kafka-生产者

文章目录1.发送消息主要步骤2.发送消息3.生产者核心配置参数4.分区策略5.TCP连接1.发送消息主要步骤ProduceRecord对象包含了目标主题和消息内容，也可以额外指定消息键或者分区。调用send()方法后，序列化器首先将消息和键序列化成字节数组，随后将数据传递给分区器。分区器的默认分区策略是：轮询+按键哈希映射。确认分区之后，消息被加入到该分区的一个批次之中，后台的Sender线程负责

萝卜头柯克船长·2020-09-15 17:56

【Kafka】Kafka-数据倾斜问题-参考资料-解决方案

Kafka-数据倾斜问题-参考资料-解决方案SparkMasteratspark://node-01:7077kafka多线程producer数据不均匀_百度搜索kafka分片使用不均匀问题如何解决，求救

weixin_33919941·2020-09-15 15:42

将kafka数据导入Elasticsearch

Kafka->logstash->elasticsearch->kibana下载logstash并解压进入logstash/config目录新建文件kafka-logstash-es.conf编写文件kafka-logstash-es.confinput

suphieLiang·2020-09-15 15:41

kafka-实战问题记录

org.apache.kafka.common.errors.TimeoutException:BatchExpired解决办法：server.properties中的listeners的值，由PLAINTEXT://9092改为PLAINTEXT://ip:9092

qq_32182461·2020-09-15 08:19

kafka-基本概念

消息：消息相当于数据库中的记录，kafka中的的消息是二进制消息流，所以kafka中的消息没有特别的格式或者含义批次：消息可以分批次的被发送，这样可以提高效率，单条消息穿梭于网络间，会导致大量的网络开销，批次越大单位时间内处理的消息就越多，单个消息的传输时间就越长，批次消息会被压缩，可以提升效率，但是需要更多的cpu计算主题、分区：相当于数据库中的表，每个主题会有若干个分区，在kafka中一个分区

qq_32182461·2020-09-15 08:19

Kafka 常见命令行 Version 2.1.0

/kafka-

to.to·2020-09-15 05:18

kafka-基本概念

主题（topic）：一组消息抽象为一个主题，相当于分类消息(Message）：消息是kafka通信的基本单位,由一个固定的消息头和不固定的消息体组成分区和副本：一组消息归类为一个主题，而一个主题由1~n个分区组成。每个分区里的消息是有序的，不可变的，不同的分区之前不能保证有序性Leader副本和Follower副本:由于存在副本，所以kafka会保证数据的一致性，kafka会选择分区中的一个副本作

学习不止于前·2020-09-14 15:48

一次kafka一直rebalance的定位与处理

前端时间我们自研了一个kafka->elasticsearch导数据的小程序，我们启动了多个副本。

u010278923·2020-09-12 03:00

Flume直接到SparkStreaming的两种方式

一般是flume->kafka->SparkStreaming,如果非要从Flume直接将数据输送到SparkStreaming里面有两种方式,如下:第一种:Push推送的方式程序如下:packagecn.lijieimportorg.apache.log4j.Levelimportorg.apache.spark.streaming.flume.FlumeUtilsimportorg.apach

liangzelei·2020-09-11 21:02

从mysql导出数据到hdfs上

一个简单的示例程序一点点整合，最终的目的是flume->kafka->spark->hbase|--->hivepackagepers.machiimportorg.apache.spark.sql.

兴趣使然的码基·2020-09-11 20:29

logstash的各个场景应用（配置文件均已实践过）

kibana2）datasource->filebeat->logstash->elasticsearch->kibana3）datasource->filebeat->logstash->redis/kafka

weixin_30408165·2020-09-11 20:28

Spark学习笔记

交流学习加群460570824DataSource->Kafka->SparkStreaming->Parquet->SparkSQL(SparkSQL可以结合ML、GraphX等)->Parquet-

专业大数据·2020-09-11 00:36

kafka-主题&分区&日志

《深入理解kafka》读书笔记一，主题的管理主题是消息的归类，分区是消息的第二次归类，每个分区可以有一个至多个副本，每个副本对应一个日志文件，每个日志文件对应一至多日志分段，每个日志分段细分为：索引文件，日志存储文件，快照文件。1.创建主题：当向broker发送未创建的topic的时候，如果broker设置了auto.create.topics.enable=ture。则broker会自动创建一个

w-小菜·2020-08-24 13:53

Kafka-消费者组三种分区分配策略Range Assignor、RoundRobin Assignor、Sticky Assignor详细解析

Kafka消费者组三种分区分配策略roundrobin，range，StickyAssignor文章目录Kafka消费者组三种分区分配策略roundrobin，range，StickyAssignor1.Range(默认策略)2.RoundRobin3.StickyAssignor一个consumergroup中有多个consumer，一个topic有多个partition，所以必然会涉及到par

Demik·2020-08-24 12:13

SparkStreaming读Kafka- Couldn't find leaders for Set

在运行SparkStreaming程序时，出现了这样的错Couldn'tfindleadersforSet([tt,1],[tt,2]))这个异常意思是Spark找不到partition的Leader。查看监控后发现，在异常发生的时间点，有一个Broker挂掉了。可是对应Topic的replica设置的2，就算挂掉一个，应该有replica顶上啊。后来发现，这是由于存在Partition的Repl

ZIMMY_fb0f·2020-08-24 08:18

日志打入kafka改造历程-我们到底能走多远系列

流程：app->kafka->logstash->es->kibana业务应用直接将日志打入kafka，然后由logstash消费，数据进入es。如果想学习Java工程化、高性能及分布式、深入浅出。

javaQQ群 866865133·2020-08-23 10:33

Kafka-常见问题

Kafka常见问题摘要本文记录了kafka-0.8.2.1、Kafka-1.1.1、Kafka-2.x版本的常见问题及解决方法。1Kafka-0.8.2.11.1Consumer报错问题描述：WARN[console-consumer-23149_hadoop2-1476872289945-6edaec5e-leader-finder-thread],Failedtoaddleaderforpar

迷路剑客·2020-08-23 09:48

深入Kafka-延时消息

如果在使用生产者客户端发送消息的时候将acks参数设置为-1，那么就意味着需要等待ISR集合中的所有副本都确认收到消息之后才能正确地收到响应的结果，或者捕获超时异常。那么这里等待消息写入follower副本井返回相应的响应结果给生产者客户端的动作是由谁来执行的呢？在将消息写入leader副本的本地日志文件之后，Kafka会创建一个延时的生产操作(DelayedProduce)，用来处理消息正常写入

jackie-hu·2020-08-23 02:55

Filebeat实践笔记（1）

第一部分先从Filebeat的引入开始，实现一个从nginx读取数据，并通过kafka写入hdfs的整个配置过程，其中的数据流向大概是这样的Nginx(log)->Filebeat->Kafka->Flume

赵先生2019·2020-08-23 00:23

SparkStreaming读Kafka- Couldn't find leader offsets for Set([tt,0], [tt,1], [tt,2])

在运行SparkStreaming程序时，出现了这样的错Couldn'tfindleaderoffsetsforSet([tt,0],[tt,1],[tt,2])解决方法：在server.prorerties中配置image.pngimage.png

ZIMMY_fb0f·2020-08-21 22:56

Apache Kafka-核心组件和流程-副本管理器-设计-原理（入门教程轻松学）

本入门教程，涵盖Kafka核心内容，通过实例和大量图表，帮助学习者理解，任何问题欢迎留言。目录：kafka简介kafka安装和使用kafka核心概念kafka核心组件和流程--控制器kafka核心组件和流程--协调器kafka核心组件和流程--日志管理器kafka核心组件和流程--副本管理器kafka编程实战本章简单介绍了副本管理器，副本管理器负责分区及其副本的管理。副本管理器具体的工作流程可以参

稀有气体·2020-08-21 04:09

kafka - 生产者其他重要配置

kafka-生产者其他重要配置生产者还有很多可配置的参数，在Kafka文档里都有说明，它们大部分都有合理的默认值，所以没有必要去修改它们。不过有几个参数在内存使用、性能和可靠性方面对生产者影响比较大。

寒沧·2020-08-18 12:12

整合kafka->telegraf->influxdb来记录日志

https://www.cnblogs.com/siodoon/p/11422608.htmlhttps://jasper-zhang1.gitbooks.io/influxdb/Write_protocols/line_protocol.html#采集https://www.jianshu.com/p/4696489070361.本地流程切面日志进kafkapackagecom.sdyy.com

方方园园·2020-08-18 11:09

Flume直接到SparkStreaming的两种方式

一般是flume->kafka->SparkStreaming,如果非要从Flume直接将数据输送到SparkStreaming里面有两种方式,如下:第一种:Push推送的方式程序如下:packagecn.lijieimportorg.apache.log4j.Levelimportorg.apache.spark.streaming.flume.FlumeUtilsimportorg.apach

lijie_cq·2020-08-18 11:36

接上篇kafka-遇到的问题

接上篇写的【kafka与swoole多进程消费】。在不断的测试与修正过程中，发现了一些比较难搞的问题：1.一个topic配置了30个分区，开起来跑30个子进程，这样大概半小时多一点各个子进程就会相继而亡，接着死而复生。2.子进程死后重生，扰乱了kafka消费组当中的消费者，导致一些消费者莫名消失，甚至只剩下1个消费者，一个消费者监听多个分区的话，其中只会有一个分区在真正消费。3.偶尔出现SQLST

chishiwu3941·2020-08-18 10:29

大数据项目实战——Flume-＞Kafka-＞SparkStreaming-＞Kafka

项目基本需求：利用Flume监控文件，将文件读取到Kafka中，再从Kafka中读入到SparkStreaming，在SparkStreaming中经过简单的处理后再写入到Kafka中。原数据格式数据为用户的朋友关系，一个用户对应很多个朋友，大概有几十万的数据，有需要数据的可以联系我。Flume监控文件读入到Kafka中a6.sources=s6a6.channels=c6a6.sinks=k6a

Clozzz·2020-08-18 10:53

Kafka-工作流程，文件存储机制，索引机制，如何通过offset找到对应的消息

文章目录Kafka工作流程文件存储机制索引机制如何通过offset找到对应的消息？Kafka工作流程Kafka中消息是以topic进行分类的，生产者生产消息，消费者消费消息，都是面向topic的。topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于多个log文件，该log文件中存储的就是producer生产的数据。Producer生产的数据会被不断追加到该lo

Demik·2020-08-18 10:52

Kafka-高效读写数据，Zookeeper在Kafka中的作用，Kafka事务

文章目录Kafka高效读写数据1）顺序写磁盘2）应用Pagecache3）零复制技术Zookeeper在Kafka中的作用Kafka事务1Producer事务2Consumer事务（精准一次性消费）Kafka高效读写数据1）顺序写磁盘Kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到600M/s，而随机写只有1

Demik·2020-08-18 10:52

Kafka-生产者分区策略、数据可靠性、Exactly Once，消费者消费方式、分区分配策略、故障处理

文章目录Kafka生产者1分区策略2数据可靠性保证3ExactlyOnce语义Kafka消费者1消费方式2分区分配策略3offset的维护4故障处理细节Kafka生产者1分区策略1）分区的原因（1）方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；（2）可以提高并发，因为可以以Part

Demik·2020-08-18 10:17

php+kafka+zookeeper+logstash

监听kafka相对应的消息，然后转发到redis，原来我不知道对kafka比较陌生，不知道怎么看里面的消息内容（我知道安装包里有个consumer和producer的脚本）^_^消息发送路径:php->kafka

weixin_33735077·2020-08-18 04:36

【kafka-部署】docker快速构建kafka测试环境（单机）

1、下载kafka和zookeeper镜像dockerpullwurstmeister/zookeeperdockerpullwurstmeister/kafka2、启动容器这里zk对应宿主机的端口不设置，默认随机分配。若想查看zookeeper映射的宿主机端口可用dockerps-a查看。dockerrun-d--namezookeeper-p2181--volume/etc/localtime

b_just·2020-08-15 20:17

Kafka-可靠性

文章目录1.Kafka对可靠性的承诺2.Kafka可靠性的核心3.如何可靠地使用Kafka3.1Broker配置3.2生产者的使用3.3消费者的使用4.交付语义4.1最多一次（AtMostOnceSemantics）4.2至少一次（AtLeastOnce）4.2.1实现基础4.2.2配置及使用4.3精确一次（ExactlyOnceSemantics，EOS）4.3.1生产者4.3.2消费者4.3.

萝卜头柯克船长·2020-08-14 16:59

ERROR Error when sending message to topic pro with key: null, value: 5 bytes with error

/kafka-

haohaounique·2020-08-13 14:57

kafka-概述

第1章Kafka概述1.1消息队列（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此。（2）发布/订阅模式（一对多，数据生产后，推送给所有订阅者）发布订阅模型则是一个基于推送的消息传送模型

weixin_33812433·2020-08-12 13:35

kafka-入门与部署

kafka入门以及部署kafka简介topicPartitionProduceConsumer安装集群部署kafka简介ApacheKafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。以下粗略讲几个概念topickafka模仿了数据库的设计设计了主题，相当于mysql的表PartitionPartition（分区）其实就是个目录，一个主题多个分区P

wu大熊·2020-08-12 11:52

Kafka-概述和集群部署

1、Kafka概述1.1、Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。1）ApacheKafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2）Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外ka

青岛欢迎您·2020-08-12 10:47

Kafka-概述

一.Kafka是什么Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的(partition)、多副本的(replica)，基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写

Movle·2020-08-12 10:54

推荐频道

kafka-

Apache Kafka-消费端消费重试和死信队列

go自定义time支持rfc3339_基于Go数据框架设计与实现-Csink

Kafka-消息队列知识要点

消息中间件-Kafka怎么治疗三高

八、Kafka-幂等

kafka命令总结与讲解

Kafka -提交偏移量和优雅的退出程序

kafka-完全分布式集群安装及简单使用

kafka-第一章-初步认识kafka

MySql准实时同步数据到HDFS（单机版）

Kafka-高性能

Kafka-概念

Kafka-消费者

Kafka-生产者

【Kafka】Kafka-数据倾斜问题-参考资料-解决方案

将kafka数据导入Elasticsearch

kafka-实战问题记录

kafka-基本概念

Kafka 常见命令行 Version 2.1.0

kafka-基本概念

一次kafka一直rebalance的定位与处理

Flume直接到SparkStreaming的两种方式

从mysql导出数据到hdfs上

logstash的各个场景应用（配置文件均已实践过）

Spark学习笔记

kafka-主题&分区&日志

Kafka-消费者组三种分区分配策略Range Assignor、RoundRobin Assignor、Sticky Assignor详细解析

SparkStreaming读Kafka- Couldn't find leaders for Set

日志打入kafka改造历程-我们到底能走多远系列

Kafka-常见问题

深入Kafka-延时消息

Filebeat实践笔记（1）

SparkStreaming读Kafka- Couldn't find leader offsets for Set([tt,0], [tt,1], [tt,2])

Apache Kafka-核心组件和流程-副本管理器-设计-原理（入门教程轻松学）

kafka - 生产者其他重要配置

整合kafka->telegraf->influxdb来记录日志

Flume直接到SparkStreaming的两种方式

接上篇kafka-遇到的问题

大数据项目实战——Flume-＞Kafka-＞SparkStreaming-＞Kafka

Kafka-工作流程，文件存储机制，索引机制，如何通过offset找到对应的消息

Kafka-高效读写数据，Zookeeper在Kafka中的作用，Kafka事务

Kafka-生产者分区策略、数据可靠性、Exactly Once，消费者消费方式、分区分配策略、故障处理

php+kafka+zookeeper+logstash

【kafka-部署】docker快速构建kafka测试环境（单机）

Kafka-可靠性

ERROR Error when sending message to topic pro with key: null, value: 5 bytes with error

kafka-概述

kafka-入门与部署

Kafka-概述和集群部署

Kafka-概述