初阳Zz

Kafka日志存储设计

Kafka日志

Kafka日志和我们平时熟悉的程序请求日志、错误日志等不同，kafka日志则属于另一种类型：一种专门为程序访问的日志。
从某种意义上说，kafka日志的设计更像是关系型数据库中的记录，抑或是某些系统中所谓的提交日志（commit log）或日志（journal）。这些日志有一个共同的特点就是：只能按照时间顺序在日志尾部追加写入记录（record）。Kafka其实并不是直接将原生消息写入日志文件，相反，他会将消息和一些必要的元数据信息打包在一起封装成一个record写入日志。

日志记录按照被写入的顺序保存，读取日志以从左到右的方式进行。每条记录以从左到右的方式进行。每条记录都会被分配一个唯一且顺序增加的记录号作为定位该消息的唯一标识，这就是前面提到的位移（offset）信息。
日志中记录的排序通常按照时间顺序，即位于日志左边部分的记录的发生时间通常要小于位于右边部分的记录。kafka自0.10.0.0版本开始在消息体中加了时间戳信息。默认情况下，消息创建时间会被封装进消息中，因此kafka记录大部分遵循按时间排序这一规则。

kafka的日志设计都是以分区为单位的，即每个分区都有它自己的日志。不考虑多副本的情况，一个分区对应一个日志(Log)，为了防止日志过大，kafka又引入了日志分段(LogSegment)的概念。Producer生产kafka消息时需要确定该消息被发送到的分区，然后kafka broker把该消息写入到该分区对应的日志中。

每个日志分段，对应磁盘上的一个日志文件(即后缀为.log文件)和两个索引文件(即后缀为.index和.timeindex文件)。还可能包含 ".delete"，".cleaned"，". swap"等临时文件，以及可能的".snapshot"，".txnindex"，"leader-epoch-chedpoint"等文件。

底层文件系统

创建topic时，kafka为该topic的每个分区在文件系统中创建了一个对应的子目录，名字就是-<分区号>。所以倘若有一个topic名为test，有两个分区，那么在文件系统中kafka会创建两个子目录：test-0和test-1。每个日志子目录的文件都是由若干组日志分段构成。

向日志(Log)中追加消息时是顺序写入的，只有最后一个日志分段(LogSegment)才能执行写入操作，在此之前所有的日志分段(LogSegment)都不能写入数据。最后一个日志分段(LogSegment)称为“activeSegment ”，即表示当前活跃的日志分段。随着消息的不断写入，当activeSegment满足一定的条件时，就需要创建新的activeSegment，之后追加的消息将写入新activeSegment。

每个日志分段(LogSegment)中的日志文件（".log"文件后缀）都有对应的两个索引文件：偏移量索引文件（".index"文件后缀）和时间戳索引文件（以".timeindex"为文件后缀）。每个LogSegment都有一个基准偏移量(baseOffset)，用来表示当前LogSegment中第一条消息的offset 。基准偏移量是一个64位的长整型数，日志文件和两个索引文件都是根据基准偏移量(baseOffset)命名的，名称固定为20位数字，没有达到的位数则用0填充。比如第一个LogSegment的基准偏移量为0，对应的日志文件为00000000000000000000.log。
假设第二组日志分段对应的文件名是0000000000000133.log。说明了该LogSegment中的第一条消息的偏移量为133。同时可以反映出第一个LogSegment中共有133 条消息（偏移量从0 至132的消息）。

每个日志文件（即后缀名为.log的文件）是有上限大小的。由broker端参数log.segment.bytes控制（对应topic级别的segment.bytes参数），默认就是1GB大小。

索引文件

.index被称为偏移量索引文件，.index文件可以帮助broker更快的定位记录所在的物理文件位置。
.timeindex被称为时间戳索引文件，.timeindex根据给定的时间戳查找对应的日志信息。
Kafka中的索引文件以稀疏索引（sparse index）的方式构造消息的索引，它并不保证每个消息在索引文件中都有对应的索引项。每当写入一定量（由broker端参数log.index.interval.bytes指定，默认值为4096，即4KB）的消息时，偏移量索引文件和时间戳索引文件分别增加一个偏移量索引项和时间戳索引项，增大或减小log.index.interval.bytes的值，对应地可以增加或缩小索引项的密度。

索引文件的大小由broker 端参数log.index.size.max.bytes配置，默认值是10MB。和日志文件不同，Kafka 在创建索引文件的时候会为其预分配log.index.size.max.bytes大小的空间，只有当索引文件进行切分的时候， Kafka才会把该索引文件裁剪到实际的数据大小。

data目录布局

在某一个时刻，kafka的data目录布局如下图所示，每一个根目录都会包含最基本的N个检查点文件（xxx- checkpoint，之所以是N个，是因为随着版本的更新在不断新增checkpoint文件）和meta.properties文件，在创建topic的时候，如果当前broker中不止配置了一个data目录，那么会挑选分区数量最少的那个data目录来完成本次创建任务。

meta.properties: 存储了version和broker.id 信息

recovery-point-offset-checkpoint：表示已经刷写到磁盘的消息，对应LEO信息。
kafka中会有一个定时任务负责将所有分区的LEO刷写到恢复点文件recovery-point-offset-checkpoint中，定时周期由broker端参数log.flush.offset.checkpoint.interval.ms配置，默认值60000，即60s

replication-offset-checkpoint：用来存储每个replica的HW，表示已经被commited的消息。
kafka有一个定时任务负责将所有分区的HW刷写到复制点文件replication-offset-checkpoint中，定时周期由broker端参数replica.high.watermark.checkpoint.interval.ms配置，默认值5000，即5s

log-start-offset-checkpoint：对用logStartOffset（注意不能缩写成LSO，因为在kafka中LSO是LastStableOffset的缩写）
改检查点文件在0.11.0版本中引入。kafka中有一个定时任务负责将所有分区的logStartOffset刷写到起始点文件log-start-offset-checkpoint中，定时周期有broker端参数log.flush.start.offset.checkpoint.interval.ms配置，默认值60000，即60s

cleaner-offset-checkpoint：存了每个log的最后清理offset

这些都是归于LogManager使用。

日志切分

当日志分段文件达到一定的条件时需要进行切分，那么对应的索引文件也需要进行切分。日志分段文件切分包含以下几个条件，满足其一即可：

当前日志分段文件的大小超过了broker端参数log.segment.bytes配置的值。
当前索引文件大小达到了broker端参数log.index.size.max.bytes配置的值。
当前日志分段中消息的最大时间戳与当前系统时间戳的差值大于log.roll.ms（对应topic级别的segment.ms参数）或log.roll.hours参数配置的值。如果同时配置了log.roll.ms或log.roll.hours，那么log.roll.ms的优先级高。默认情况下只配置了log.roll.hours参数，值为168，即7天。
追加的消息的偏移量offset与当前日志分段的基准偏移量(baseOffset )之间的差值大于Integer.MAX_VALUE，即要追加的消息的偏移量不能转变为相对的偏移量（offset - baseOffset > Integer.MAX_VALUE）

对非当前活跃的日志分段而言，其对应的索引文件内容己经固定而不需要再写入索引项，所以会被设定为只读。而对当前活跃的日志分段而言，索引文件还会追加更多的索引项，所以被设定为可读写。在索引文件切分的时候，Kafka 会关闭当前正在写入的索引文件并置为只读模式，同时以可读写的模式创建新的索引文件。

日志清理

kafka提供了两种日志清理策略：

日志删除（Log Retention）：按照一定的保留策略直接删除不符合条件的日志分段。
日志压缩（Log Compaction）：针对每个消息的key进行整合，对于有相同key的不同value值，只保存最后一个版本。

通过broker端参数log.cleanup.policy来设置日志清理策略，默认值为delete，即采用日志删除策略。如果要采用日志压缩的清理策略，需要将log.cleaner.enable（默认为true）设定为true。通过将log.cleanup.policy参数设置为delete,compact，还可以同时支持日志删除和日志压缩策略。日志清理的粒度可以控制到topic级别，比如与log.cleanup.policy对应的topic级别的参数为cleanup.policy

日志删除

kafka是会定期清除日志的，而且清除的单位是日志段，即删除符合清除策略的日志段文件和对应的两个索引文件。日志管理器中有一个专门的日志删除任务来周期性的检测和删除不符合保留条件的日志分段文件，这个周期通过broker端参数log.retention.check.interval.ms控制，默认值为30000ms。

常用的清除策略有如下两种：
（1）基于时间的留存策略：kafka默认会清除7天前的日志段数据（包括索引文件）。kafka提供了3个broker端参数，其中log.retention.{hours|minutes|ms}用于配置清除日志的时间间隔，其中的ms优先级最高，minutes次之，hours优先级最低。默认情况下只配置了log.retention.hours=168的参数，即7天。
在基于时间清除的策略中，0.10.0.0版本引入时间戳字段后，该策略会计算当前时间戳与日志段首条消息的时间戳之差作为衡量日志段是否留存的依据。如果第一条消息设计没有时间戳信息，kafka才会使用最近修改时间的属性。
查找过期的日志文件，是根据日志段文件中最大的时间戳largestTimeStamp来计算的。要获取最大时间戳largestTimeStamp的值，首先要查询该日志分段所对应的.timeindex文件，查询.timeindex文件中最后一项索引项，若最后一条索引项的时间戳字段值大于0，则取其值，否则才设置为最近修改时间lastModifiedTime。

若待删除的日志分段的总数等于该日志文件中所有的日志分段的数量，那么说明所有的日志分段都已过期，但该日志文件中还要有一个日志分段文件用于接收消息的写入，即必须要保证有一个活跃的日志分段，在此种情况下，会先切分出一个新的日志分段作为当前活跃日志段，然后执行删除操作。（这个可能是后期版本出现的特性）

（2）基于日志大小的留存策略：kafka默认只会为每个分区日志保存log.retention.bytes参数值大小的字节数。默认值是-1，表示kafka不会对log进行大小方面的限制。注意：log.retention.bytes配置的是分区中所有日志文件（确切的说是.log文件）的总大小。单个日志分段文件的大小由broker端参数log.segment.bytes来限制，默认为1G。
首先计算分区日志的总大小和log.retention.bytes的差值，即计算需要删除的日志总大小，然后从分区日志中的第一个日志分段文件开始进行查找可删除的日志分段文件集合，然后在进行删除。

日志清除是一个异步过程，kafka broker启动会创建单独的线程处理日志清除事宜。另外，一定要注意的是，日志清除对于当前日志段是不生效的。也就是说kafka永远不会清除当前日志段。因此，若有用户把日志段文件最大文件大小设置的过大而导致没有出现日志切分，那么日志清除也就永远无法执行。

日志compaction

前面讨论的所有topic都有这样一个特点：clients端通常需要访问和处理这种topic下的所有消息，但考虑这样一种应用场景，某个kafka topic保存的是用户的邮箱地址，每次用户更新邮件地址时都会发送一条kafka消息。该消息的可以就是用户ID，而value保存了邮件地址信息。假设用户ID为user123的用户连续修改了3次邮件地址，那么就会产生3条对应的kafka消息，
user123=>[email protected]
user123=>[email protected]
user123=>[email protected]
显然，在这种情况下用户只关系最近修改的邮件地址，即user123=>[email protected]的那条消息，而之前的其他消息都是“过期”的。可以放心删除。但是前面的清除策略都无法实现这样的处理逻辑，因此kafka社区引入了log compaction。

log compaction确保kafka topic每个分区下的每条具有相同key的消息都至少保存最新value的消息。他提供了更细粒度的留存策略。这也说明了如果要使用log compaction，kafka消息必须要设置key。无key消息是无法为其进行压实操作的。

磁盘存储

Kafka 依赖于文件系统（更底层地来说就是磁盘）来存储和缓存消息。而在传统的消息中间件 RabbitMQ 中，就使用内存作为默认的存储介质，而磁盘作为备选介质，以此实现高吞吐和低延迟的特性。

Kafka 在设计时采用了文件追加的方式来写入消息，即只能在日志文件的尾部追加新的消息，井且也不允许修改己写入的消息，这种方式属于典型的顺序写盘的操作，顺序写磁盘的速度要比随机写内存的速度更块。

页缓存

页缓存是操作系统实现的一种主要的磁盘缓存 ，以此用来减少对磁盘I/O操作，就是把磁盘中的数据缓存到内存中，把对磁盘的访问变为对内存的访问。

当一个进程准备读取磁盘上的文件内容时，操作系统会先查看待读取的数据所在的页 (page）是否在页缓存（pagecache）中，如果存在（命中）则直接返回数据，从而避免了对物理磁盘的 I/O 操作；如果没有命中，则操作系统会向磁盘发起读取请求并将读取的数据页存入页缓存，之后再将数据返回给进程。同样，如果一个进程需要将数据写入磁盘，那么操作系统也会检测数据对应的页是否在页缓存中，如果不存在，则会先在页缓存中添加相应的页，最后将数据写入对应的页。被修改过后的页也就变成了脏页，操作系统会在合适的时间把脏页中的数据写入磁盘，以保持数据的一致性。

对一个进程而言，它会在进程内部缓存处理所需的数据，然而这些数据有可能还缓存在操作系统的页缓存中，因此同一份数据有可能被缓存了两次。并且除非使用Direct I/O的方式，否则页缓存很难被禁止。此外，用过Java的人一般都知道两点事实：对象的内存开销非常大，通常会是真实数据大小的几倍甚至更多，空间使用率低下；Java 的垃圾回收会随着堆内数据的增多而变得越来越慢。基于这些因素，使用文件系统并依赖于页缓存的做法明显要优于维护一个进程内缓存或其他结构，至少我们可以省去了一份进程内部的缓存消耗，同时还可以通过结构紧凑的字节码来替代使用对象的方式以节省更多的空间。如此，我们可以在32GB的机器上使用28GB至30GB的内存而不用担心GC所带来的性能问题。此外，即使Kafka服务重启，页缓存还是会保持有效，然而进程内的缓存却需要重建。这样也极大地简化了代码逻辑，因为维护页缓存和文件之间的一致性交由操作系统来负责，这样会比进程内维护更加安全有效。

Kafka中大量使用了页缓存，这是Kafka实现高吞吐的重要因素之一。虽然消息都是先被写入页缓存，然后由操作系统负责具体的刷盘任务的，但在Kafka中同样提供了同步刷盘及间断性强制刷盘（ fsync ）的功能，这些功能可以通过log.flush.interval.messages、log.flush.interval.ms等参数来控制。同步刷盘可以提高消息的可靠性，防止由于机器断电等异常造成处于页缓存而没有及时写入磁盘的消息丢失。不过并不建议这么做，刷盘任务就应交由操作系统去调配，消息的可靠性应该由多副本机制来保障，而不是由同步刷盘这种严重影响性能的行为来保障。

零拷贝

除了消息顺序追加、页缓存等技术，Kafka还使用零拷贝（Zero-Copy）技术来进一步提升性能。所谓的零拷贝是指将数据直接从磁盘文件复制到网卡设备中，而不需要经由应用程序之手。零拷贝大大提高了应用程序的性能，减少了内核和用户模式之间的上下文切换。对Linux操作系统而言，零拷贝技术依赖于底层的sendfile()方法实现。对应于Java语言,FileChannal.transferTo()方法的底层实现就是sendfile()方法。
单纯从概念上理解“零拷贝”比较抽象，这里简单地介绍一下它。考虑这样一种常用的情形：你需要将静态内容（类似图片、文件）展示给用户。这个情形就意味着需要先将静态内容从磁盘中复制出来放到一个内存buf中，然后将这个buf通过套接字（Socket）传输给用户，进而用户获得静态内容。这看起来再正常不过了，但实际上这是很低效的流程，我们把上面的这种情形抽象成下面的过程：
read(file,tmp buf, len);
write(socket,tmp buf, len) ;
首先调用read()将静态内容（这里假设为文件A）读取到tmp buf，然后调用write()将tmp_buf写入 Socket，如下图所示。在这个过程中，文件A经历了4次复制的过程：
（1）调用 read()时，文件 A 中的内容被复制到了内核模式下的 Read Buffer 中。
（2）CPU 控制将内核模式数据复制到用户模式下。
（3）调用 write()时，将用户模式下的内容复制到内核模式下的 Socket Buffer 中。
（4）将内核模式下的 Socket Buffer 的数据复制到网卡设备中传迭。

从上面的过程可以看出，数据平白无故地从内核模式到用户模式“走了一圈”，浪费了 2 次复制过程：第一次是从内核模式复制到用户模式；第二次是从用户模式再复制回内核模式，即上面 4 次过程中的第 2 步和第 3 步。而且在上面的过程中，内核和用户模式的上下文的切换也是 4 次。如果采用了零拷贝技术，那么应用程序可以直接请求内核把磁盘中的数据传输给 Socket, 如下图所示。

零拷贝技术通过 DMA (Direct Memory Access）技术将文件内容复制到内核模式下的 Read Buffer 中。不过没有数据被复制到 Socket Buffer，相反只有包含数据的位置和长度的信息的文件描述符被加到 Socket Buffer 中。 DMA引擎直接将数据从内核模式中传递到网卡设备（协议引擎）。这里数据只经历了 2 次复制就从磁盘中传送出去了，并且上下文切换也变成了 2 次。 零拷贝是针对内核模式而言的，数据在内核模式下实现了零拷贝 。

kafka 学习笔记3-传统部署Kraft模式集群——筑梦之路筑梦之路 kafka 学习笔记
部署kafka集群规划一般模式下，元数据在zookeeper中，运行时动态选举controller，由controller进行Kafka集群管理。kraft模式架构下，不再依赖zookeeper集群，而是用三台controller节点代替zookeeper，元数据保存在controller中，由controller直接进行Kafka集群管理。ip主机名角色nodeid192.168.100.131
【kafka】简单运用go语言操作kafka实现生产者和消费者功能的包，confluent-kafka-go和sarama {⌐■_■} kafka golang 分布式
confluent-kafka-go和sarama对比特性confluent-kafka-gosarama底层实现基于librdkafkaC库完全用Go实现性能高吞吐量、低延迟吞吐量较低，适合常规应用安装依赖需要C编译器和librdkafka无需外部依赖，纯Go实现功能支持Kafka所有功能，包括事务支持Kafka核心功能，事务支持较弱使用难度配置复杂，需理解底层C库使用简便，快速上手社区支持由C
flume系列之：flume落cos 快乐骑行^_^ 日常分享专栏 flume系列
flume系列之：flume落cos一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS或COSflumetocos使用指南二、安装cosjar包将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.ve
新一代实时神器-Fluss初识及部署本旺大数据 Flink Fluss flink 大数据数据结构 etl
Fluss简介Fluss是一种为实时分析而构建的流式存储，可以用作Lakehouse架构的实时数据层。Fluss支持亚秒级延迟的流式读取和写入，并以列格式存储数据，从而提高查询性能并降低存储成本。它提供灵活的表类型，包括仅追加日志表和可更新的PrimaryKey表，以满足不同的实时分析和处理需求。在作者看来，其实Fluss目前的主要替换者是Kafka，它的出现也是为了替换kafka在实时数仓链路中
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
kafka 宋song一中间件 kafka big data
Kafka学习之路Kafka必知必会kafka核心原理go操作kafka消息队列之-KafkaKafka分区分配策略或(https://blog.csdn.net/u013256816/article/details/81123625)kafka怎么保证消息顺序？StickyAssignor:0.11.x版本引入,消费者尽量不离开分区.即BalanceStrategySticky:重平衡策略,适用
揭秘 Fluss 架构组件 java
这是Fluss系列的第四篇文章了，我们先回顾一下前面三篇文章主要说了哪些内容。Fluss部署，带领大家部署Fluss环境，体验一下Fluss的功能Fluss整合数据湖的操作，体验Fluss与数据湖的结合讲解了Fluss、Kafka、Paimon之间的区别和联系前面三篇文章可以让大家上手玩起来Fluss这个框架，并说明了它与Kafka、Paimon数据湖的关系，接下来的文章就深入Fluss细节来说一
深入探讨Kafka：架构、实现原理与开发实践 Ceramist kafka 架构分布式
深入探讨Kafka：架构、实现原理与开发实践ApacheKafka是一个高性能的分布式流处理平台，广泛应用于实时数据处理、日志收集、消息发布/订阅等领域。本文将详细解析Kafka的架构、实现原理，并提供一些开发中的注意事项，帮助读者更好地理解和使用Kafka。一、Kafka简介Kafka由LinkedIn开发，并于2011年开源，2012年成为Apache顶级项目。Kafka的设计目标是为处理实时
9.kafka单实例安装小黑要上天 Kafka kafka 分布式
1.环境信息OSVersionZookeeperVersionUserRHEL7.73.8.0rootkafka官网下载地址：ApacheKafka备注：与在同一台服务器。也需要jdk支持2.kafka单实例安装1.上传kafka_2.13-3.3.2.tgzE.g：上传至/opt目录2.解压命令：tar-zxvfkafka_2.13-3.3.2.tgz3.配置server.properties命
Kafka面试夺命连环30问（一）知否&知否 kafka 面试分布式
1、kafka消息发送的流程？Producer创建并配置。发送消息，消息被序列化，并通过配置的分区规则决定发送的分区。Producer发送请求，通过网络将消息发送到相应的Broker。Broker存储消息，将消息写入分区日志。Producer等待ACK确认，根据acks配置等待响应。成功或失败，根据结果执行回调，消息成功则继续发送，失败则重试。2、Kafka的设计架构你知道吗？Kafka的设计架构
docker部署ELK日志系统+kafka weixin_50837690 docker kafka elk elasticsearch
docker部署ELK日志系统+kafka1.部署elasticsearch#拉取镜像dockerpullelasticsearch:7.6.2#创建文件夹mkdir-p/data/elk/es/config#创建elasticsearch.yml文件vi/data/elk/es/config/elasticsearch.yml------------------------写入---------
基于docker微服务日志ELK+Kafka搭建我是奶龙！我是奶龙！我是奶龙！ docker 微服务 elk spring cloud spring boot kafka
ELK是Elasticsearch、Logstash、Kibana的简称Elasticsearch是实时全文搜索和分析引擎，提供搜集、分析、存储数据三大功能；是一套开放REST和JAVAAPI等结构提供高效搜索功能，可扩展的分布式系统。它构建于ApacheLucene搜索引擎库之上。Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志，包括系统日志、错误日志和自定义应用程
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Flink 使用 Kafka 作为数据源时遇到了偏移量提交失败的问题 java我跟你拼了异常笔记 flink kafka 大数据
具体的错误日志21:43:57.069[KafkaFetcherforSource:CustomSource->Map->Filter(1/1)#2]ERRORorg.apache.kafka.clients.consumer.internals.ConsumerCoordinator-[ConsumerclientId=consumer-my-group-6,groupId=my-group]O
kafka+connector集群迁移 mark.meng 中间件 kafka 分布式
示例环境ip部署信息备注192.168.181.121zookeeper、kafka、connecter待迁移集群节点1192.168.181.14zookeeper、kafka、connecter待迁移集群节点2192.168.181.49zookeeper、kafka、connecter待迁移集群节点3192.168.181.61zookeeper、kafka、connecter新集群节点11
使用java代码消费kafka数据二进制_博客大数据 java kafka
首先创建maven项目，导入jar包org.apache.kafkakafka-clients3.0.0org.slf4jslf4j-log4j121.7.25示例一：使用java代码消费kafka所有数据packagecom.bigdata.day03;importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.
【大数据学习 | kafka】kafka的组件架构 Vez'nan的幸福生活大数据 mysql oracle json sql kafka
broker:每个kafka的机器节点都会运行一个进程，这个进程叫做broker，负责管理自身的topic和partition，以及数据的存储和处理，因为kafka是集群形式的，所以一个集群中会存在多个broker，但是kafka的整体又不是一个主从集群，需要选举出来一个broker节点为主节点，管理整个集群中所有的数据和操作，以及所有节点的协同工作。每个broker上面都存在一个controll
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
Springboot项目如何消费Kafka数据布朗克168 Kafka spring boot kafka 后端
目录一、引入依赖二、添加Kafka配置三、创建Kafka消费者（一）Kafka生产的消息是JSON字符串1、方式一2、方式二：需要直接访问消息元数据（二）Kafka生产的消息是对象Order四、创建启动类五、配置Kafka生产者（可选）（一）消息类型为json串（二）消息类型为对象Order六、启动Kafka服务七、测试Kafka消费者九、测试和调试十、结语一、引入依赖你需要在pom.xml中添加
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
拒绝 Helm？如何在 K8s 上部署 KRaft 模式 Kafka 集群？后端
首发：运维有术今天分享的主题是：不使用Helm、Operator，如何在K8s集群上手工部署一个开启SASL认证的KRaft模式的Kafka集群？本文，我将为您提供一份全面的实战指南，逐步引导您完成以下关键任务：配置KafkaSecret：管理用户密码和集群ID配置KafkaService：使用NodePort对外发布Kafka服务使用StatefulSet部署KRaft模式Kafka集群如何测试
采用海豚调度器+Doris开发数仓保姆级教程（满满是踩坑干货细节，持续更新）大模型大数据攻城狮海豚调度器从入门到精通 doris 海豚调度器离线数仓实时数仓国产代替信创大数据 flink数仓
目录一、采用海豚调度器+Doris开发平替CDHHdfs+Yarn+Hive+Oozie的理由。1.架构复杂性2.数据处理性能3.数据同步与更新4.资源利用率与成本6.生态系统与兼容性7.符合信创或国产化要求二、ODS层接入数据接入kafka实时数据踩坑的问题细节三、海豚调度器调度Doris进行报表开发创建带分区的表在doris进行开发调试开发海豚调度器脚本解决shell脚本使用MySQL命令行给
kafka直接对接nginx Lu_Xiao_Yue nginx kafka
很多时候我们要对nginx产生的日志进行分析都是通过flume监控nginx产生的日志，通过flume把日志文件发送该kafka，flume作为生产者，但是这种方式的缺点就是可能效率会比较慢，除此之外还可以使用kafka直接对接nginx，nginx作为生产者，把log日志直接对接到kafka的某些分区中，这种方法的效率比较高，但是缺点就是可能会出现数据丢失，可以通过把nginx的日志进行一份给k
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据框架之kafka详解 xingchensuiyue 大数据 zookeeper kafka kafka
目录1kafka介绍1.1kalka是什么？1.2Kafka内部原理1.3为什么需要消息队列？2Kafka的消息系统语义3Kafka生产过程分析3.1写入方式3.2分区（Partition）3.3副本（Replication）3.4Producer写入流程3.5消费者组3.6消费方式扩展：纠删码技术1kafka介绍1.1kalka是什么？可以简单的将kafka看做是一种消息队列，启动生产者与消费者
消息中间件的基础概念入门全镇人的希望概念消息平台 kafka
目录一、什么是消息中间件1.1、简介1.2、消息中间件的主要作用解耦合异步通信负载均衡可靠性与持久性消息路由与调度削峰事务支持监控与审计跨平台和跨语言支持二、常用消息中间件对比2.1、RabbitMQ2.1.1、特点2.1.2、适用场景2.2、ApacheKafka2.2.1、特点2.2.2、适用场景2.3、ActiveMQ2.3.1、特点2.3.2、适用场景2.4、Redis（使用Pub/Sub
Kafuka查看版本的方法 thinking-fish 大数据大数据 kafka
kafka查看版本方法：定位到kafka的安装目录，然后执行以下脚本find./libs/-name\*kafka_\*|head-1|grep-o'\kafka[^\n]*'执行结果：运行结果：kafka_2.12-1.1.0-sources.jar，其中2.12表示Scala版本；1.1.0表示kafka版本！
中间件 MetaQ Zero_pl 中间件
MetaQ（全称Metamorphosis）是一个高性能、高可用、可扩展的分布式消息中间件，其思路起源于LinkedIn的Kafka，但并不是Kafka的一个Copy。以下是关于MetaQ的详细介绍：基本特性•高性能：具有消息存储顺序写、吞吐量大等特性，适用于大吞吐量、顺序消息、广播和日志数据传输等场景。•高可用：基于其物理部署架构实现高可用性。生产者为消息定义topic后，消费者可以订阅该top
Kafka介绍 Zero_pl kafka
ApacheKafka是一个高性能、低延迟的分布式流处理平台，广泛用于构建实时数据管道和流式应用。以下是关于Kafka的详细介绍：核心概念•生产者（Producer）：负责向Kafka集群发送消息。生产者可以指定消息的键（key）和值（value），并将消息发送到指定的主题（Topic）。•消费者（Consumer）：从Kafka集群订阅并消费消息。消费者可以订阅一个或多个主题，并从每个主题的分区
Spring Boot教程之五十七：在 Apache Kafka 上发布 JSON 消息潜洋 Java中级 Spring Boot spring boot apache kafka
SpringBoot|如何在ApacheKafka上发布JSON消息ApacheKafka是一个发布-订阅消息系统。消息队列允许您在进程、应用程序和服务器之间发送消息。在本文中，我们将了解如何在SpringBoot应用程序中向ApacheKafka发送JSON消息。为了了解如何创建SpringBoot项目，请参阅本文。JSON的全称是JavaScriptObjectNotation。JSON是一种
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/