酱g

Kafka RecordAccumulator源码

RecordAccumulator

其作用相当于一个缓冲队列,会根据主题和分区(TopicPartition对象)对消息进行分组,每一个TopicPartition对象会对应一个双端队列Deque,ProducerBatch表示一批消息,在KafkaProducer发送消息时,总是从队列队尾 (Tail)取出ProducerBatch(如果队列不为空),而Sender是从队列头(Head)取ProducerBatch进行处

RecordAccumulator里面包含 ConcurrentMap> batches；

ConcurrentMap-->实现类 CopyOnWriteMap

TopicPartition-->对应的分区

Deque RecordBatch包含多个MemoryRecords，才是真正放消息的地方

大致结构

ConcurrentMap> batches;

所以Kafka这个核心数据结构在这里之所以采用CopyOnWriteMap思想来实现，就是因为这个Map的key-value对，其实没那么频繁更新。也就是TopicPartition-Deque这个key-value对，更新频率很低。

但是他的get操作却是高频的读取请求，因为会高频的读取出来一个TopicPartition对应的Deque数据结构，来对这个队列进行入队出队等操作，所以对于这个map而言，高频的是其get操作。

这个时候，Kafka就采用了CopyOnWrite思想来实现这个Map，避免更新key-value的时候阻塞住高频的读操作，实现无锁的效果，优化线程并发的性能。

MemeoryRecords里面有下面四个字段比较重要：
buffer：用于保存消息数据的java NIO ByteBuffer
writeLimit：记录buffer字段最多可以写入多少个字节的数据
compressor：压缩器，对消息数据进行压缩，然后将压缩的数据输出到buffer。
writable：标记是只读模式还是可写模式

public Compressor(ByteBuffer buffer, CompressionType type) {
		//保存压缩的类型，和buffer开始的位置
        this.type = type;
        this.initPos = buffer.position();

        this.numRecords = 0;
        this.writtenUncompressed = 0;
        this.compressionRate = 1;
        this.maxTimestamp = Record.NO_TIMESTAMP;

        if (type != CompressionType.NONE) {
            // for compressed records, leave space for the header and the shallow message metadata
            // and move the starting position to the value payload offset
            buffer.position(initPos + Records.LOG_OVERHEAD + Record.RECORD_OVERHEAD);
        }

        // 创建合适的输入流
        bufferStream = new ByteBufferOutputStream(buffer);
        //根据压缩类型创建压缩流
        appendStream = wrapForOutput(bufferStream, type, COMPRESSION_DEFAULT_BUFFER_SIZE);
    }

再Compressor的构造方法里面最终会调用wrapForOutput方法为当前的buffer创建指定类型的压缩流

public static DataOutputStream wrapForOutput(ByteBufferOutputStream buffer, CompressionType type, int bufferSize) {
        try {
            switch (type) {
                case NONE:
                    return new DataOutputStream(buffer);
                case GZIP:
                    return new DataOutputStream(new GZIPOutputStream(buffer, bufferSize));
                case SNAPPY:
                    try {
                        OutputStream stream = (OutputStream) snappyOutputStreamSupplier.get().newInstance(buffer, bufferSize);
                        return new DataOutputStream(stream);
                    } catch (Exception e) {
                        throw new KafkaException(e);
                    }
                case LZ4:
                    try {
                        OutputStream stream = (OutputStream) lz4OutputStreamSupplier.get().newInstance(buffer);
                        return new DataOutputStream(stream);
                    } catch (Exception e) {
                        throw new KafkaException(e);
                    }
                default:
                    throw new IllegalArgumentException("Unknown compression type: " + type);
            }
        } catch (IOException e) {
            throw new KafkaException(e);
        }
    }

在wrapForOutput方法里面主要也是根据指定的压缩类型创建输出流，所以说，在Compressor中通过利用装饰者模式使buffer有了自动扩容和压缩的功能。
下面我们机选看MemoryRecords里面几个比较重要的方法：
emptyRecords：我们只能通过它来返回MemoryRecords对象
append：首先会判断是否是可写模式，然后调用Compressor的put方法
hasRoomFor：根据Compressor估算已写字节数
close：当有扩容的情况时，MemoryRecords.buffer字段ByteBufferOutputStream.buffer字段所指向的不再是同一个ByteBuffer对象，所以close方法会将MemoryRecords.buffer指向扩容后的对象，同时，设置为只读模式。
sizeInBytes：对于可写返回的是ByteBufferOutputStream.buffer大小，对于只读返回的是MemoryRecords.buffer大小
下面来看一下RecordBatch的核心方法：

public FutureRecordMetadata tryAppend(long timestamp, byte[] key, byte[] value, Callback callback, long now) {
		//判断是否还有空间
        if (!this.records.hasRoomFor(key, value)) {
            return null;
        } else {
        	//向MemoryRecords里面添加内容
            long checksum = this.records.append(offsetCounter++, timestamp, key, value);
           //更新统计信息
            this.maxRecordSize = Math.max(this.maxRecordSize, Record.recordSize(key, value));
            this.lastAppendTime = now;
            //创建FutureRecordMetadata对象
            FutureRecordMetadata future = new FutureRecordMetadata(this.produceFuture, this.recordCount,
                                                                   timestamp, checksum,
                                                                   key == null ? -1 : key.length,
                                                                   value == null ? -1 : value.length);
            //将用户自定义的callback和FutureRecordMetadata封装成Thunk封装到thunks里面
            if (callback != null)
                thunks.add(new Thunk(callback, future));
            this.recordCount++;
            return future;
        }
    }

当RecordBatch成功收到正常响应或超时或关闭生产者的时候，都会调用RecordBatch的done方法：

public void done(long baseOffset, long timestamp, RuntimeException exception) {
        log.trace("Produced messages to topic-partition {} with base offset offset {} and error: {}.",
                  topicPartition,
                  baseOffset,
                  exception);
        // 执行保存的所有回调方法
        for (int i = 0; i < this.thunks.size(); i++) {
            try {
                Thunk thunk = this.thunks.get(i);
                if (exception == null) {
                    //将服务端返回的消息返回封装成RecordMetadata 
                    RecordMetadata metadata = new RecordMetadata(this.topicPartition,  baseOffset, thunk.future.relativeOffset(),
                                                                 timestamp == Record.NO_TIMESTAMP ? thunk.future.timestamp() : timestamp,
                                                                 thunk.future.checksum(),
                                                                 thunk.future.serializedKeySize(),
                                                                 thunk.future.serializedValueSize());
                    thunk.callback.onCompletion(metadata, null);
                } else {
                    thunk.callback.onCompletion(null, exception);
                }
            } catch (Exception e) {
                log.error("Error executing user-provided callback on message for topic-partition {}:", topicPartition, e);
            }
        }
        //标识整个RecordBatch都处理完成
        this.produceFuture.done(topicPartition, baseOffset, exception);

在done方法中，会调用全部消息的callback方法并且最后会标识整个RecordBatch都处理完成。
ByteBuffer 的创建和释放时比较消耗资源的，我们之前介绍Netty的时候，Netty自己有一个内存池，需要内存的时候基本都会在里面分配，Kafka客户端也有自己的内存管理机制，它使用BufferPool来实现ByteBuffer的复用，每个BufferPool只针对特定大小的ByteBuffer进行管理，对于其他大小的ByteBuffer并不会缓存金BufferPool。下面是几个重要的字段：
free：是一个ArrayDeque队列，其中缓存了指定大小的ByteBuffer对象。
ReentrantLock：因为多线程并发分配和回收ByteBuffer，所以使用锁控制并发
waiters：记录因申请不到足够空间而阻塞的线程，此队列实际记录的是阻塞线程对应的Condition对象
totalMemory：记录整个Pool的大小
availbleMemory：记录了可用空间大小

public ByteBuffer allocate(int size, long maxTimeToBlockMs) throws InterruptedException {
        if (size > this.totalMemory)
            throw new IllegalArgumentException("Attempt to allocate " + size + " bytes, but there is a hard limit of "   + this.totalMemory   + " on memory allocations.");
		//获取内存加锁
        this.lock.lock();
        try {
            // 检查当前申请的大小是否符合规定，并且有空闲的Bytebuffer，如果符合直接从free中返回一个
            if (size == poolableSize && !this.free.isEmpty())
                return this.free.pollFirst();

            // 记录整个free队列的大小
            int freeListSize = this.free.size() * this.poolableSize;
            //可用的内容空间大小加空闲队列的大小和我们要申请的空间大小比较
            if (this.availableMemory + freeListSize >= size) {
                // 如果有足够的内存，那么会不断释放free队列里面的ByteBuffer使availableMemory 来满足这次申请
                freeUp(size);
                //成功后重新计算可用内存的大小
                this.availableMemory -= size;
                //解锁
                lock.unlock();
                //直接分配指定大小的内存
                return ByteBuffer.allocate(size);
            } else {
                // 没有足够的内存可以被分配，需要被阻塞
                int accumulated = 0;
                ByteBuffer buffer = null;
                Condition moreMemory = this.lock.newCondition();
                long remainingTimeToBlockNs = TimeUnit.MILLISECONDS.toNanos(maxTimeToBlockMs);
                //添加到waiters
                this.waiters.addLast(moreMemory);
                //循环等待
                while (accumulated < size) {
                    long startWaitNs = time.nanoseconds();
                    long timeNs;
                    boolean waitingTimeElapsed;
                    try {
                        waitingTimeElapsed = !moreMemory.await(remainingTimeToBlockNs, TimeUnit.NANOSECONDS);
                    } catch (InterruptedException e) {
                        this.waiters.remove(moreMemory);
                        throw e;
                    } finally {
                    	//统计等待的时间
                        long endWaitNs = time.nanoseconds();
                        timeNs = Math.max(0L, endWaitNs - startWaitNs);
                        this.waitTime.record(timeNs, time.milliseconds());
                    }
					//如果超时要抛出异常
                    if (waitingTimeElapsed) {
                        this.waiters.remove(moreMemory);
                        throw new TimeoutException("Failed to allocate memory within the configured max blocking time " + maxTimeToBlockMs + " ms.");
                    }

                    remainingTimeToBlockNs -= timeNs;
                    //重新检查
                    if (accumulated == 0 && size == this.poolableSize && !this.free.isEmpty()) {
                        // just grab a buffer from the free list
                        buffer = this.free.pollFirst();
                        accumulated = size;
                    } else {
                        // 先分配一部分内存在继续等待
                        freeUp(size - accumulated);
                        int got = (int) Math.min(size - accumulated, this.availableMemory);
                        this.availableMemory -= got;
                        accumulated += got;
                    }
                }

                // 分配成功后，动waiters里面移除
                Condition removed = this.waiters.removeFirst();
                if (removed != moreMemory)
                    throw new IllegalStateException("Wrong condition: this shouldn't happen.");

                // 要是还有空闲的空间唤醒下一个线程
                if (this.availableMemory > 0 || !this.free.isEmpty()) {
                    if (!this.waiters.isEmpty())
                        this.waiters.peekFirst().signal();
                }

                // 解锁返回buffer
                lock.unlock();
                if (buffer == null)
                    return ByteBuffer.allocate(size);
                else
                    return buffer;
            }
        } finally {
            if (lock.isHeldByCurrentThread())
                lock.unlock();
        }
    }

接下来看一下deallocate方法

public void deallocate(ByteBuffer buffer, int size) {
		//加锁
        lock.lock();
        try {
        	//判断是否是符合规定的内存大小，如果符合清空里面的数据后直接放到free里面
            if (size == this.poolableSize && size == buffer.capacity()) {
                buffer.clear();
                this.free.add(buffer);
            } else {
            	//否则等待GC回收
                this.availableMemory += size;
            }
            //唤醒等待队列里面的线程
            Condition moreMem = this.waiters.peekFirst();
            if (moreMem != null)
                moreMem.signal();
        } finally {
        	//解锁
            lock.unlock();
        }
}

在释放内存的时候对内存大小进行了区分，如果释放的内存大小是可以管理的，那么就放到free里面，否则等待GC来回收，释放结束后会唤醒等待对了里面的一个线程。
RecordAccumulator里面用到的几个类基本就介绍完了，下面我们来看RecordAccumulator的关键字段和方法
batches：Topic域RecordBatch集合的映射关系，类型是CopyOnWriteMap，
batchSize：指定每个RecordBatch底层ByteBuffer的大小
Compression：压缩类型
incomplete：未发送完成的RecordBatch集合，底层通过Set集合实现。
free：BufferPool对象
drainIndex：使用drain方法批量导出RecordBatch时，为了防止饥饿，使用drainIndex记录上次发送停止时的位置，下次继续从此位置开始发送。
我们回到上一节中没有仔细看的那行代码，就是将消息添加到RecordAccumulator中：

public RecordAppendResult append(TopicPartition tp,
                                     long timestamp,
                                     byte[] key,
                                     byte[] value,
                                     Callback callback,
                                     long maxTimeToBlock) throws InterruptedException {
        // 记录当前添加任务的线程的数量
        appendsInProgress.incrementAndGet();
        try {
            // 找到对应的Deque
            Deque dq = getOrCreateDeque(tp);
            //加锁
            synchronized (dq) {
                if (closed)
                    throw new IllegalStateException("Cannot send after the producer is closed.");
                //尝试添加当前消息
                RecordAppendResult appendResult = tryAppend(timestamp, key, value, callback, dq);
                //如果添加成功直接返回
                if (appendResult != null)
                    return appendResult;
            }

            int size = Math.max(this.batchSize, Records.LOG_OVERHEAD + Record.recordSize(key, value));
            log.trace("Allocating a new {} byte message buffer for topic {} partition {}", size, tp.topic(), tp.partition());
            //添加失败重新申请内存空间
            ByteBuffer buffer = free.allocate(size, maxTimeToBlock);
            //加锁
            synchronized (dq) {
                // Need to check if producer is closed again after grabbing the dequeue lock.
                if (closed)
                    throw new IllegalStateException("Cannot send after the producer is closed.");
				//继续追加
                RecordAppendResult appendResult = tryAppend(timestamp, key, value, callback, dq);
                if (appendResult != null) {
                    // 追加成功释放空间
                    free.deallocate(buffer);
                    return appendResult;
                }
                //生成一个新的RecordBatch，添加到batches集合中
                MemoryRecords records = MemoryRecords.emptyRecords(buffer, compression, this.batchSize);
                RecordBatch batch = new RecordBatch(tp, records, time.milliseconds());
                
                FutureRecordMetadata future = Utils.notNull(batch.tryAppend(timestamp, key, value, callback, time.milliseconds()));

                dq.addLast(batch);
                //将新建的batch添加到incomplete集合中
                incomplete.add(batch);
                return new RecordAppendResult(future, dq.size() > 1 || batch.records.isFull(), true);
            }
        } finally {
            appendsInProgress.decrementAndGet();
        }
    }

我们总结一下添加方法里主要的工作：
1、首先在batches集合里面找到TopicPartition对应的Deque，查找不到则创建一个新的
2、对Deque加锁
3、调用tryAppend方法，尝试向Deque中最后一个RecordBatch追加Record
4、解锁
5、追加成功，返回
6、追加失败，重新申请内存
7、再次尝试2、3
8、追加成功，返回，同时释放6申请的内存。追加失败那么新建一个RecordBatch
9、Record追加到新建的RecordBatch中，将RecordBatch添加到Deque的尾部
10、将新建的RecordBatch添加到incomplete集合中
11、解锁
12、返回RecordAppenResult，它里面的字段会作为唤醒Sender线程的条件。
doSend方法最后一步就是根据RecordAppenResult判断是否需要唤醒Sender线程，唤醒条件是：
1、消息所在队列的最后一个RecordBatch满了
2、此队列中不止一个RecordBatch
在客户端将消息发送给服务端之前，会调用RecordAccumulator.ready()方法获取集群中符合发送消息条件的节点集合：

public ReadyCheckResult ready(Cluster cluster, long nowMs) {
		//用来记录可以向哪些Node节点发送消息
        Set readyNodes = new HashSet<>();
        //记录下次需要调用ready方法的时间间隔
        long nextReadyCheckDelayMs = Long.MAX_VALUE;
        //根据Metadata中是否有找不到Leader副本的分区
        boolean unknownLeadersExist = false;
		//是否有线程在阻塞等待BufferPool释放空间
        boolean exhausted = this.free.queued() > 0;
        //遍历batchs
        for (Map.Entry> entry : this.batches.entrySet()) {
            TopicPartition part = entry.getKey();
            //获取一个TopicPartition的队列
            Deque deque = entry.getValue();
			//查找分区的Leader副本所在的Node
            Node leader = cluster.leaderFor(part);
            //如果找不到，那么就不能发送信息，之后会触发MetaData更新
            if (leader == null) {
                unknownLeadersExist = true;
            } else if (!readyNodes.contains(leader) && !muted.contains(part)) {
            	//对队列上锁
                synchronized (deque) {
                	//获取第一个RecoardBatch
                    RecordBatch batch = deque.peekFirst();
                    //如果不为null
                    if (batch != null) {
                    	//计算发送的条件
                        boolean backingOff = batch.attempts > 0 && batch.lastAttemptMs + retryBackoffMs > nowMs;
                        long waitedTimeMs = nowMs - batch.lastAttemptMs;
                        long timeToWaitMs = backingOff ? retryBackoffMs : lingerMs;
                        long timeLeftMs = Math.max(timeToWaitMs - waitedTimeMs, 0);
                        boolean full = deque.size() > 1 || batch.records.isFull();
                        boolean expired = waitedTimeMs >= timeToWaitMs;
                        boolean sendable = full || expired || exhausted || closed || flushInProgress();
                        if (sendable && !backingOff) {
                            readyNodes.add(leader);
                        } else {
                            // 记录下次需要调用ready方法检查的时间间隔
                            nextReadyCheckDelayMs = Math.min(timeLeftMs, nextReadyCheckDelayMs);
                        }
                    }
                }
            }
        }

        return new ReadyCheckResult(readyNodes, nextReadyCheckDelayMs, unknownLeadersExist);
    }

对Node进行筛选有下面这几个条件：
1、Deque中有多个RecordBatch或是第一个RecordBatch是否满了
2、是否超时了
3、是否有其他线程在等待BufferPool释放空间
4、是否有线程正在等待flush操作完成
5、Sender线程准备关闭
调用完ready方法获得readyNodes集合后，此集合还要经过Network Client的过滤之后才能得到发送消息的Node集合
获取的Node集合后，RecordAccumulator会带用drain方法，将TopicPartition->RecordBatch集合映射成NodeId->RecordBatch集合，因为在网络层，生产者只关心它向哪个Node节点发送消息数据，并不关系这些数据属于哪个TopicPartition。

public Map> drain(Cluster cluster,
                                                 Set nodes,
                                                 int maxSize,
                                                 long now) {
      	//如果nodes为空，直接返回一个空集合
        if (nodes.isEmpty())
            return Collections.emptyMap();

        Map> batches = new HashMap<>();
        //遍历所有的筛选出来的node
        for (Node node : nodes) {
            int size = 0;
            //获取当前node的所有分区信息
            List parts = cluster.partitionsForNode(node.id());
            List ready = new ArrayList<>();
           //获取到这次开始发送的下标
            int start = drainIndex = drainIndex % parts.size();
            do {
            	//得到当前分区的信息
                PartitionInfo part = parts.get(drainIndex);
                //封装成TopicPartition对象
                TopicPartition tp = new TopicPartition(part.topic(), part.partition());
                // Only proceed if the partition has no in-flight batches.
                if (!muted.contains(tp)) {
                    Deque deque = getDeque(new TopicPartition(part.topic(), part.partition()));
                    if (deque != null) {
                    	//锁住当前队列
                        synchronized (deque) {
                        	//从队列中获取到一个RecordBatch
                            RecordBatch first = deque.peekFirst();
                            //如果不为null
                            if (first != null) {
                                boolean backoff = first.attempts > 0 && first.lastAttemptMs + retryBackoffMs > now;
                                // Only drain the batch if it is not during backoff period.
                                if (!backoff) {
                                    if (size + first.records.sizeInBytes() > maxSize && !ready.isEmpty()) {
                                        // 数据量已满，之后会以一个单独的请求来发送它
                                        break;
                                    } else {
                                    	//获取一个RecordBatch 添加到ready集合中
                                        RecordBatch batch = deque.pollFirst();
                                        batch.records.close();
                                        size += batch.records.sizeInBytes();
                                        ready.add(batch);
                                        batch.drainedMs = now;
                                    }
                                }
                            }
                        }
                    }
                }
                this.drainIndex = (this.drainIndex + 1) % parts.size();
            } while (start != drainIndex);
            batches.put(node.id(), ready);
        }
        return batches;
    }

遍历所有的node，获取每个node的所有分区，以每个分区的分区号和topic获取到对应的队列，每次之后从一个队列中获得一个RecordBatch,如果太大了，那么会把这个RecordBatch在下次发送，遍历完之后，回到这一个node.id和要发送整个node的消息的集合。

主流程图

1、ProducerInterceptors对消息进行拦截。
2、Serializer对消息的key和value进行序列化
3、Partitioner为消息选择合适的Partition
4、RecordAccumulator收集消息，实现批量发送
5、Sender从RecordAccumulator获取消息
6、构造ClientRequest
7、将ClientRequest交给NetworkClient，准备发送
8、NetworkClient将请求放入KafkaChannel的缓存
9、执行网络I/O，发送请求
10、收到响应，调用Client Request的回调函数
11、调用RecordBatch的回调函数，最终调用每个消息注册的回调函数
消息发送的过程中，设计两个线程协同工作。主线程首先将业务数据封装成ProducerRecord对象，之后调用send方法将消息放入RecordAccumulator中暂存，Sender线程负责将消息信息构成请求，并最终执行网络I/O的线程，他从Record Accumulator中取出消息并批量发送出去。

kafka日志策略神云瑟瑟 kafka kafka 日志删除配置
kafka日志清除策略kafkalog的清理策略有两种：delete,compact,默认是delete这个对应了kafka中每个topic对于record的管理模式delete：一般是使用按照时间保留的策略，当不活跃的segment的时间戳是大于设置的时间的时候，当前segment就会被删除compact:日志不会被删除，会被去重清理，这种模式要求每个record都必须有key，然后kafka会
Kafka 日志存储 — 日志索引黄名富微服务 kafka 分布式 java 微服务
每个日志分段文件对应两个索引文件：偏移量索引文件用来建立消息偏移量到物理地址之间的映射；时间戳索引文件根据指定的时间戳来查找对应的偏移量信息。1日志索引Kafka的索引文件以稀疏索引的方式构造消息的索引。它并不保证每个消息在索引文件中都有对应的索引项。每当写入一定量的消息时，偏移量索引文件和时间戳索引文件分别增加一个索引项。使用二分查找法来快速定位偏移量的位置。1.1日志分段切分的条件日志分段文件
Kafka 2.2.0 消息日志清理机制：日志删除日志压缩 A__Plus kafka Kafka 消息队列
Kafka将消息持久化到磁盘中的Log中，为了控制日志文件的大小就需要对消息进行清理操作。每个Log对应一个分区副本，Log可以分为多个日志分段，便于日志的清理操作。在了解日志清理机制之前，请先了解日志存储方式Kafka有两种日志清理策略：日志删除：按照保留策略删除日志分段需要将Broker端参数log.cleanup.policy设置为delete（默认值）日志压缩：根据每个消息的key进行整合
[每周一更]-(第121期)：模拟面试｜微服务架构面试思路解析 ifanatic 每周一更 Go 面试架构面试微服务
这一系列针对Go面试题整理，仅供参考文章目录00｜综合服务治理方案：怎么保证微服务应用的高可用？1.**什么是微服务架构？**2.**怎么保证微服务架构的高可用？**3.**怎么判定服务是否已经健康？**4.**如果服务不健康该怎么办？**5.**怎么判定服务已经从不健康状态恢复过来了？**6.**Redis崩溃时如何处理？**7.**Kafka崩溃时如何处理？**8.**设计开放平台时需要考虑哪
Flink读写Kafka（Table API） sf_www 实时计算Flink flink kafka 大数据
前面（Flink读写Kafka（DataStreamAPI）_flinkkafkascram-CSDN博客）我们已经讲解了使用DataStreamAPI来读取Kafka，在这里继续讲解下使用TableAPI来读取Kafka，和前面一样也是引入相同的依赖即可。org.apache.flinkflink-connector-kafka1.15.41.创建KafkaTable可以使用以下方式来创建Kaf
【Nginx系列】Nginx配置超时时间 m0_74824552 面试学习路线阿里巴巴 nginx 运维
???欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,G
kafka内部工作机制一只叫狗的猫 #kafka
集群中成员关系kafka使用zookeeper来维护成员信息。没个broker都有唯一的id，这个标识可以在配置文件中配置，在broker启动的时候，它会创建临时的节点把id注册到zookeeper中，当有其他broker加入集群中时，会判断是否已经有这个id，如果有相同的id则会注册失败。当broker宕机的时候，broker创建的临时节点会从zookeeper中移除，其它的kafka组件也都会
Kafka 消息存储与销毁机制 AI天才研究院大数据AI人工智能计算 kafka wpf 分布式
Kafka消息存储与销毁机制文章目录Kafka消息存储与销毁机制1.背景介绍1.1什么是Kafka1.2Kafka的基本概念解释2.核心概念与联系2.1消息存储机制2.2消息销毁机制2.3分区与副本机制3.核心算法原理具体操作步骤3.1消息存储过程3.2消息消费过程3.3消息销毁过程3.4分区副本同步过程4.数学模型和公式详细讲解举例说明4.1消息存储模型4.2消息销毁模型4.3分区副本同步模型5
【Kafka：概念、架构与应用】三日看尽长安花系统架构师 kafka 架构分布式
Kafka：概念、架构与应用目录什么是KafkaKafka的核心概念2.1生产者（Producer）2.2消费者（Consumer）2.3主题（Topic）2.4分区（Partition）2.5消息偏移量（Offset）2.6消费组（ConsumerGroup）Kafka的架构设计3.1Broker与集群3.2Zookeeper的作用Kafka的工作流程Kafka的应用场景Kafka的优缺点分析<
Kafka：架构与核心机制 J老熊 kafka 架构分布式面试系统架构后端
ApacheKafka是一种高吞吐量的分布式消息队列，广泛应用于实时数据流处理和大数据架构中。本文将详细探讨Kafka的架构、Replica管理、消息读取、分区策略、可靠性保障等核心机制。1.Kafka的架构1.1组件概述Kafka的架构由多个组件构成，主要包括以下部分：Broker：Kafka集群中的服务器，每个Broker存储一部分消息。Kafka集群通常由多个Broker组成，以提高可用性和
服务行业的数据管理实践：TapData Cloud 如何助力连锁酒店物业的全球化运营优化数据库
使用TapData，化繁为简，摆脱手动搭建、维护数据管道的诸多烦扰，轻量替代OGG,Kettle等同步工具，以及基于Kafka的ETL解决方案，「CDC+流处理+数据集成」组合拳，加速仓内数据流转，帮助企业将真正具有业务价值的数据作用到实处，将“实时数仓”方法论落进现实。TapData持续迭代产品能力，优化用户体验的同时，也在不断探索各行各业数据需求的底层逻辑，力求为行业用户提供更加简洁、更具针对
python消费kafka数据nginx日志实时_Openresty+Lua+Kafka实现日志实时采集 weixin_39997311
简介在很多数据采集场景下，Flume作为一个高性能采集日志的工具，相信大家都知道它。许多人想起Flume这个组件能联想到的大多数都是Flume跟Kafka相结合进行日志的采集，这种方案有很多他的优点，比如高性能、高吞吐、数据可靠性等。但是我们如果要求对日志进行实时的采集，这显然不是一个好的解决方案。原因如下：就目前来说，Flume能支持实时监控一个目录的数据文件，一旦对某个目录的文件采集完成，就会
【原创】运维基础之OpenResty(Nginx+Lua)+Kafka weixin_30293079 大数据运维 lua
使用docker部署1下载#wgethttps://github.com/doujiang24/lua-resty-kafka/archive/v0.06.tar.gz#tarxvfv0.06.tar.gz2准备配置文件testkafka.conf#vitestkafka.conflua_package_path"/usr/local/openresty/lualib/resty/kafka/?.
openresty+lua实现实时写kafka sky@梦幻未来大数据 openresty nginx openresty lua
一.背景在使用openresty+lua+nginx+flume，通过定时切分日志发送kafka的方式无法满足实时性的情况下，小编开始研究openresty+lua+nginx+kafka实时写kafka，从而达到数据实时性，和高性能保证。二.实现1.openresty安装nginx，以及lua的使用请看博主上一篇博客https://blog.csdn.net/qq_29497387/articl
Kafka的Partition故障恢复机制与HW一致性保障-Epoch更新机制详解大树~~ #Kafka java kafka 分布式后端
在分布式系统中，节点的故障是不可避免的。为了确保系统的高可用性和数据的一致性，Kafka设计了一系列机制来应对Broker或Partition的故障。本文将详细解析Kafka的Partition故障恢复机制和HW一致性保障-Epoch更新机制，帮助深入理解Kafka在面对故障时的处理逻辑和一致性保障手段。一、Partition故障恢复机制1.概述Kafka中的每个Topic被划分为多个Partit
Openresty+Lua+Kafka实现日志实时采集（已测试）野兽先辈 nginx kafka lua linux
概况最近实习领导要我了解一下nginx+lua实现日志采集，我们这边日志的采集好像就是用的这个。然后就在网上找了一下教程，说老实话，因为以前没接触过过这两个东西所以一开始比较懵。最终决定参考一位大哥的教程。不得不说他的教程应该是救了很多人，因为我看到的Openresty+Lua+Kafka的教程八成都是原封不动搬他的，连图都没改就离谱。甚至到google上还有英文版的，截图用的也是一模一样。（当然
openresty+lua+kafka 日志采集 CHENYANG123 大数据 lua kafka nginx
背景：大流量服务收集用户行为日志需求:根据业务把不同的日志发送到不同主题中数据实时性高性能保证方案一自己写个接收程序转发到kafka方案二采用nginx+lua方案采用方案二，原因是nginx高性能，编写代码少，维护少，满足业务场景实施步骤线上请求到nginx后，使用lua组装json格式日志，异步发送到kafka集群根据不同业务日志,划分不同的topic推荐业务实施实时消费安装步骤安装openr
SpringBoot日常：集成Kafka 码至终章 spring boot kafka java 后端
文章目录1、pom.xml文件2、application.yml3、生产者配置类4、消费者配置类5、消息订阅6、生产者发送消息7、测试发送消息本章内容主要介绍如何在springboot项目对kafka进行整合，最终能达到的效果就是能够在项目中通过配置相关的kafka配置，就能进行消息的生产和消费。1、pom.xml文件原本项目用SpringBoot的版本为2.6.X，所以这里用spring-clo
Kafka 原理深入解析啥子都不会吖分布式 kafka 分布式
1.Kafka简介ApacheKafka是一个分布式流处理平台，由LinkedIn开发并于2011年开源，后成为Apache软件基金会的顶级项目。核心概念Topic：主题，是消息分类的逻辑概念，生产者将消息发送到特定的Topic，消费者从Topic中订阅消息。Partition：分区，每个Topic可以被划分为多个Partition，每个Partition是一个有序的队列。Broker：Kafka
分布式微服务系统架构第87集：kafka 掘金-我是哪吒分布式微服务系统架构 kafka 架构
Kafka就是为了解决上述问题而设计的一款基于发布与订阅的消息系统。它一般被称为“分布式提交日志”或者“分布式流平台”。文件系统或数据库提交日志用来提供所有事务的持久记录，通过重放这些日志可以重建系统的状态。同样地，Kafka的数据是按照一定顺序持久化保存的，可以按需读取。此外，Kafka的数据分布在整个系统里，具备数据故障保护和性能伸缩能力。消息和批次消息和批次Kafka的数据单元被称为消息。如
Flink之kafka消息解析器2 怎么才能努力学习啊 flink kafka 大数据
概要昨天的话题，FlinkSource消费kafka数据自定义反序列化，获取自己想要的数据和类型实现过程publicclassTestWithMetadataDeserializationSchemaimplementsKafkaRecordDeserializationSchema{第一步：自定义实现这个接口，这里的泛型一般的都是自定义类@Overridepublicvoiddeserializ
Flink之kafka消费数据怎么才能努力学习啊 flink kafka 大数据
场景：本地构建Flink程序问题描述消费Kafka的数据时，使用Flink新的KakfaSource。会报如下错误KafkaSourcekafkaSource=KafkaSource.builder().setBootstrapServers(kafkaProperties.getProperty("kafka.bootstrap.servers")).setTopics("test2").set
日志收集平台day01：项目设计 intqao 日志收集平台项目 linux kafka zookeeper nginx python
一、项目需求本项目的目的是模拟生产环境下对web服务器产生的日志进行收集并存入数据库，最终以web应用方式展示日志数据。二、技术选型环境：CentOs7web服务器：nginx/1.20.1（仅测试使用）消息队列：kafka2.12分布式应用程序协调服务软件：zookeeper3.6.3生产者：filebeat-7.17.5-1.x86_64消费者：使用python中的模块pykafka实现消费者
SpringBoot使用Kafka如何保证消息不丢失小信丶消息队列技术栈 spring boot kafka 后端
概述在SpringBoot中使用Kafka时，要确保消息不丢失，主要涉及到生产者（Producer）、消费者（Consumer）以及KafkaBroker的配置和设计。1.SpringBoot与Kafka配置SpringBoot中使用Kafka时，可以通过spring-kafka来简化配置和操作。以下是如何保证消息不丢1.1Producer配置Kafka生产者是消息的发送方，确保消息的可靠性和不丢
logback+kafka+ELK实现日志记录（操作）酷酷的码农小哥 java kafka spring boot spring
logback+kafka+ELK实现日志记录前言环境准备配置Logbackpom文件改造新增logback-spring.xmlboot配置文件一下怎么去下载安装我就不多说了，直接上代码。日志平台业务思路用户请求进入后台根据搜索的参数去查询内容返回所有信息,返回json数据，当用户查看详情后根据查询到的内容里面的traceId去es里查询和traceId相等的所有日志信息最后返回给前端业务流程[
Databend 产品月报（2024年8月）数据库
很高兴为您带来Databend2024年8月的最新更新、新功能和改进！我们希望这些增强功能对您有所帮助，并期待您的反馈。KafkaConnectSinkConnector插件我们推出了一种将Kafka连接到Databend的新方式：databend-kafka-connect，这是一个KafkaConnectsinkconnector插件。该插件支持AppendOnly和Upsert两种写入模式，
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
【檀越剑指大厂--RocketMQ】RocketMQ运维篇 Kwan的解忧杂货铺@新空间代码工作室 s总檀越剑指大厂 java-rocketmq rocketmq 运维
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
c#使用Confluent.Kafka实现生产者发送消息至kafka（远程连接kafka发送消息超时的解决 Local：Message timed out） Shinobi_Jack kafka 分布式
水一篇：参考：c#使用Confluent.Kafka实现生产者发送消息至kafka（远程连接kafka发送消息超时的解决Local：Messagetimedout）-寒冰之光-博客园该死的Kafka，远程连接Kafka超时以及解决办法-博客王大锤-博客园
Kafka、ActiveMQ、RabbitMQ、RocketMQ消息队列和消息中间件MQ与RabbitMQ面试题【推荐】王大师王文峰 Java基础到框架面经吐血整理 RabbitMQ 消息队列消息中间件面试题 kafka activeMQ
‍Kafka、ActiveMQ、RabbitMQ、RocketMQ消息队列和消息中间件MQ与RabbitMQ面试题【推荐】学习目标（附超链接传送门）❔消息队列前言❔面试官提问：为什么使用消息队列？消息队列有什么优点和缺点？❔消息队列怎么路由❔为什么使用消息队列，他的场景有哪些❔面试官问:MQ消息队列是什么❔消息队列怎么传输❔其他消息队列应用场景❔传统的做法有两种1.串行的方式；2.并行方式❔Kaf
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

Kafka RecordAccumulator源码

RecordAccumulator

你可能感兴趣的:(kafka)