酱g

Kafka producer源码解析

KafkaProducer

从 procuder.send 说起

         try {
              val kafkaProducerRecord =new ProducerRecord[String, String]("live_order_id_info_back", sedMsg)
              procuder.send(kafkaProducerRecord)
            } catch {
              case _: Exception => procuder.close()
            }

调用的是 KafkaProducer构造函数, 调用send发送(其实都是异步处理) ----> 调用的doSend()

 public Future send(ProducerRecord record) {
        return this.send(record, (Callback)null);
    }

    public Future send(ProducerRecord record, Callback callback) {
        ProducerRecord interceptedRecord = this.interceptors.onSend(record);
        return this.doSend(interceptedRecord, callback);
    }

    private void throwIfProducerClosed() {
        if (this.ioThread == null || !this.ioThread.isAlive()) {
            throw new IllegalStateException("Cannot perform operation after producer has been closed");
        }
    }

    private Future KafkaProducer(ProducerConfig config, Serializer keySerializer, Serializer valueSerializer)  {
        try {
            log.trace("Starting the Kafka producer");
            Map userProvidedConfigs = config.originals();
            this.producerConfig = config;
            this.time = new SystemTime();

            clientId = config.getString(ProducerConfig.CLIENT_ID_CONFIG);
            //配置中解析出clientId,用于跟踪程序运行情况,在有多个KafkProducer时,若没有配置 client.id则clientId 以前 辍”producer-”后加一个从 1 递增的整数
            if (clientId.length() <= 0)
                clientId = "producer-" + PRODUCER_CLIENT_ID_SEQUENCE.getAndIncrement();
            //注册用于Kafka metrics指标收集的相关对象,用于对 Kafka 集群相关指标的追踪
            Map metricTags = new LinkedHashMap();
            metricTags.put("client-id", clientId);
            MetricConfig metricConfig = new MetricConfig().samples(config.getInt(ProducerConfig.METRICS_NUM_SAMPLES_CONFIG))
                    .timeWindow(config.getLong(ProducerConfig.METRICS_SAMPLE_WINDOW_MS_CONFIG), TimeUnit.MILLISECONDS)
                    .tags(metricTags);
            List reporters = config.getConfiguredInstances(ProducerConfig.METRIC_REPORTER_CLASSES_CONFIG,
                    MetricsReporter.class);
            reporters.add(new JmxReporter(JMX_PREFIX));
            this.metrics = new Metrics(metricConfig, reporters, time);
            //初始化分区选择器 通過反射獲取
            this.partitioner = config.getConfiguredInstance(ProducerConfig.PARTITIONER_CLASS_CONFIG, Partitioner.class);
            long retryBackoffMs = config.getLong(ProducerConfig.RETRY_BACKOFF_MS_CONFIG);
            //初始集群元数据、消息缓冲区大小、压缩策略
            this.metadata = new Metadata(retryBackoffMs, config.getLong(ProducerConfig.METADATA_MAX_AGE_CONFIG));
            this.maxRequestSize = config.getInt(ProducerConfig.MAX_REQUEST_SIZE_CONFIG);
            this.totalMemorySize = config.getLong(ProducerConfig.BUFFER_MEMORY_CONFIG);
            this.compressionType = CompressionType.forName(config.getString(ProducerConfig.COMPRESSION_TYPE_CONFIG));
       
            //实例化用于存储消息的RecordAccumulator,作用类似一个队列 
            //指定每个RecordBatch的大小，单位是字节
            this.accumulator = new RecordAccumulator(config.getInt(ProducerConfig.BATCH_SIZE_CONFIG),
                    this.totalMemorySize,
                    this.compressionType,
                    config.getLong(ProducerConfig.LINGER_MS_CONFIG),
                    retryBackoffMs,
                    metrics,
                    time);
            List addresses = ClientUtils.parseAndValidateAddresses(config.getList(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG));
            this.metadata.update(Cluster.bootstrap(addresses), time.milliseconds());
            ChannelBuilder channelBuilder = ClientUtils.createChannelBuilder(config.values());
            //NetworkClient对象构造一个用于数据发送的Sender实例sender 线程,最后通过sender创建一个KafkaThread线 程,启动该线程,该线程是一个守护线程,在后台不断轮询,将消息发送给代理
            NetworkClient client = new NetworkClient(
                    new Selector(config.getLong(ProducerConfig.CONNECTIONS_MAX_IDLE_MS_CONFIG), this.metrics, time, "producer", channelBuilder),
                    this.metadata,
                    clientId,
                    config.getInt(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION),
                    config.getLong(ProducerConfig.RECONNECT_BACKOFF_MS_CONFIG),
                    config.getInt(ProducerConfig.SEND_BUFFER_CONFIG),
                    config.getInt(ProducerConfig.RECEIVE_BUFFER_CONFIG),
                    this.requestTimeoutMs, time);
            this.sender = new Sender(client,
                    this.metadata,
                    this.accumulator,
                    config.getInt(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION) == 1,
                    config.getInt(ProducerConfig.MAX_REQUEST_SIZE_CONFIG),
                    (short) parseAcks(config.getString(ProducerConfig.ACKS_CONFIG)),
                    config.getInt(ProducerConfig.RETRIES_CONFIG),
                    this.metrics,
                    new SystemTime(),
                    clientId,
                    this.requestTimeoutMs);
            String ioThreadName = "kafka-producer-network-thread" + (clientId.length() > 0 ? " | " + clientId : "");
            this.ioThread = new KafkaThread(ioThreadName, this.sender, true);
            this.ioThread.start();

            this.errors = this.metrics.sensor("errors");
            //序列化key
            if (keySerializer == null) {
                this.keySerializer = config.getConfiguredInstance(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,
                        Serializer.class);
                this.keySerializer.configure(config.originals(), true);
            } else {
                config.ignore(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG);
                this.keySerializer = keySerializer;
            }
            //序列化value
            if (valueSerializer == null) {
                this.valueSerializer = config.getConfiguredInstance(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,
                        Serializer.class);
                this.valueSerializer.configure(config.originals(), false);
            } else {
                config.ignore(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG);
                this.valueSerializer = valueSerializer;
            }

            
            log.debug("Kafka producer started");
        } catch (Throwable t) {
            ....
        }
          
    }

dosend()调用

 private Future doSend(ProducerRecord record, Callback callback) {
        TopicPartition tp = null;
        try {
            // first make sure the metadata for the topic is available
            //步骤一：同步等待拉取元数据。maxBlockTimeMs 最多能等待多久。
             ClusterAndWaitTime clusterAndWaitTime = waitOnMetadata(record.topic(), record.partition(), maxBlockTimeMs);
            //clusterAndWaitTime.waitedOnMetadataMs 代表的是拉取元数据用了多少时间。
            //maxBlockTimeMs -用了多少时间 = 还剩余多少时间可以使用。
            long remainingWaitMs = Math.max(0, maxBlockTimeMs - clusterAndWaitTime.waitedOnMetadataMs);
            //获取元数据里面的集群相关信息
            Cluster cluster = clusterAndWaitTime.cluster;
            //对key进行序列化
           byte[] serializedKey;
            try {
                serializedKey = keySerializer.serialize(record.topic(), record.key());
            } catch (ClassCastException cce) {
                throw new SerializationException("Can't convert key of class " + record.key().getClass().getName() +
                        " to class " + producerConfig.getClass(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG).getName() +
                        " specified in key.serializer");
            }
            //对value进行序列化
            byte[] serializedValue;
            try {
                serializedValue = valueSerializer.serialize(record.topic(), record.value());
            } catch (ClassCastException cce) {
                throw new SerializationException("Can't convert value of class " + record.value().getClass().getName() +
                        " to class " + producerConfig.getClass(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG).getName() +
                        " specified in value.serializer");
            }
            //根据分区器选择消息应该发送的分区
            //根据元数据的信息计算一下，我们应该要把这个数据发送到哪个分区上面。
            int partition = partition(record, serializedKey, serializedValue, cluster);
            int serializedSize = Records.LOG_OVERHEAD + Record.recordSize(serializedKey, serializedValue);
            //确认一下消息的大小是否超过了最大值， KafkaProdcuer初始化的时候，
            //指定了一个参数，代表的是Producer这儿最大能发送的是一条消息能有多大
            //默认最大是1M，我们一般都回去修改它
            ensureValidRecordSize(serializedSize);
            //根据元数据信息，封装分区对象
            tp = new TopicPartition(record.topic(), partition);
            //给每一条消息都绑定他的回调函数。因为我们使用的是异步的方式发送的消息
            long timestamp = record.timestamp() == null ? time.milliseconds() : record.timestamp();
            log.trace("Sending record {} with callback {} to topic {} partition {}", record, callback, record.topic(), partition);
            // producer callback will make sure to call both 'callback' and interceptor callback
            Callback interceptCallback = this.interceptors == null ? callback : new InterceptorCallback<>(callback, this.interceptors, tp);
             //将要发送的消息追加到RecordAccmulator里面
             RecordAccumulator.RecordAppendResult result = accumulator.append(tp, timestamp, serializedKey, serializedValue, interceptCallback, remainingWaitMs);
           // 把消息放入accumulator（32M的一个内存）
           //然后有accumulator把消息封装成为一个批次一个批次的去发送。
           if (result.batchIsFull || result.newBatchCreated) {
                log.trace("Waking up the sender since topic {} partition {} is either full or getting a new batch", record.topic(), partition);
                //唤醒sender线程,他才是真正发送数据的线程。
                this.sender.wakeup();
            }
           //返回最后的结果  
           return result.future;
            // handling exceptions and record the errors;
            // for API exceptions return them in the future,
            // for other exceptions throw directly
        } catch (ApiException e) {
            // ..................省略
        }
    }

在分析waitOnMetadata之前，先说一下kafka集群的元数据，我们知道，每个topic有多个分区，每个分区有多个副本，而每个分区的副本里面都需要有一个Leader副本，其他副本只需要同步leader副本的数据即可，而Kafak的元数据就是记录了比如某个分区有哪些副本，leader副本在哪台机器上，follow副本在哪台机器上，哪些副本在ISR（可以理解为follower副本中数据和Leader副本数据相差不大的副本节点）里面 , 在kafka里面主要通过下面的几个类来进行元数据的维护

接下来我们回到waitOnMetadata，来看一下元数据是如何更新的

private ClusterAndWaitTime waitOnMetadata(String topic, Integer partition, long maxWaitMs) throws InterruptedException {
        // add topic to metadata topic list if it is not there already and reset expiry
        // 把当前的topic存入到元数据里面 
        metadata.add(topic);
        //我们使用的是场景驱动的方式，然后我们目前代码执行到的producer端初始化完成。
        //我们知道这个cluster里面其实没有元数据，只是有我们写代码的时候设置address
        Cluster cluster = metadata.fetch();
        //根据当前的topic从这个集群的cluster元数据信息里面查看分区的信息。
        //因为我们目前是第一次执行这段代码，所以这儿肯定是没有对应的分区的信息的。
        Integer partitionsCount = cluster.partitionCountForTopic(topic);
        // Return cached metadata if we have it, and if the record's partition is either undefined
        // or within the known partition range
        //如果在元数据里面获取到了 分区的信息
        //我们用场景驱动的方式，我们知道如果是第一次代码进来这儿，代码是不会运行这儿。
        if (partitionsCount != null && (partition == null || partition < partitionsCount))
            //直接返回cluster元数据信息，拉取元数据花的时间。
            return new ClusterAndWaitTime(cluster, 0);
        //如果代码执行到这儿，说明，真的需要去服务端拉取元数据。
        //记录当前时间
        long begin = time.milliseconds();
        //剩余多少时间，默认值给的是 最多可以等待的时间。
        long remainingWaitMs = maxWaitMs;
        //已经花了多少时间。
        long elapsed;
        // Issue metadata requests until we have metadata for the topic or maxWaitTimeMs is exceeded.
        // In case we already have cached metadata for the topic, but the requested partition is greater
        // than expected, issue an update request only once. This is necessary in case the metadata
        // is stale and the number of partitions for this topic has increased in the meantime.
        do {
            log.trace("Requesting metadata update for topic {}.", topic);
            //1)获取当前元数据的版本
            //在Producer管理元数据时候，对于他来说元数据是有版本号的。
            //每次成功更新元数据，都会递增这个版本号。
            //2)把needUpdate 标识赋值为true
            int version = metadata.requestUpdate();
            /**
             * 我们发现这儿去唤醒sender线程。
             * 其实是因为，拉取有拉取元数据这个操作是有sender线程去完成的。
             * 这个地方把线程给唤醒了以后
             * 我们知道sender线程肯定就开始进行干活了！！
             * 很明显，真正去获取元数据是这个线程完成。
             */
            sender.wakeup();
            try {
                //TODO 等待元数据
                //同步的等待
                //等待这sender线程获取到元数据。
                metadata.awaitUpdate(version, remainingWaitMs);
            } catch (TimeoutException ex) {
                // Rethrow with original maxWaitMs to prevent logging exception with remainingWaitMs
                throw new TimeoutException("Failed to update metadata after " + maxWaitMs + " ms.");
            }
            //尝试获取一下集群的元数据信息。
            cluster = metadata.fetch();
            //计算一下 拉取元数据已经花了多少时间
            elapsed = time.milliseconds() - begin;
            //如果花的时间大于 最大等待的时间，那么就报超时。
            if (elapsed >= maxWaitMs)
                throw new TimeoutException("Failed to update metadata after " + maxWaitMs + " ms.");
            //如果已经获取到了元数据，但是发现topic没有授权
            if (cluster.unauthorizedTopics().contains(topic))
                throw new TopicAuthorizationException(topic);
            //计算出来 还可以用的时间。
            remainingWaitMs = maxWaitMs - elapsed;
            //尝试获取一下，我们要发送消息的这个topic对应分区的信息。
            //如果这个值不为null，说明前面sender线程已经获取到了元数据了。
            partitionsCount = cluster.partitionCountForTopic(topic);
            //如果获取到了元数据以后，这儿代码就会退出。
            //
        } while (partitionsCount == null);

        if (partition != null && partition >= partitionsCount) {
            throw new KafkaException(
                    String.format("Invalid partition given with record: %d is not in the range [0...%d).", partition, partitionsCount));
        }
      //代码就执行到这儿，返回一个对象
        //有两个参数：
        //cluster: 集群的元数据
        //elapsed: 代表的是拉取元数据花了多少时间。
        return new ClusterAndWaitTime(cluster, elapsed);
    }

当元数据更新后，下一步选择一个分区用来存放咱们的消息，

   int partition = partition(record, serializedKey, serializedValue, cluster);

如果你发过来的消息已经指定了某个分区，那么直接返回即可。

private int partition(ProducerRecord record, byte[] serializedKey, byte[] serializedValue, Cluster cluster) {
        Integer partition = record.partition();
        return partition != null ?
                partition :
                partitioner.partition(
                        record.topic(), record.key(), serializedKey, record.value(), serializedValue, cluster);

如果没有指定，调用partitioner.partition进行判断，kafka提供了默认的实现，当然你可以自己定制分发策略

public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
       //根据指定topic获取所有分区信息
        List partitions = cluster.partitionsForTopic(topic);
        //获取分区个数
         int numPartitions = partitions.size();
         //如果没有指定消息key
          if (keyBytes == null) {
            
            int nextValue = counter.getAndIncrement();
           //获取指定topic对应的可利用的分区信息，这些可利用是说副本有leader副本的，有些分区他是没有leader副本的，有可能因为一些原因导致
           List availablePartitions = cluster.availablePartitionsForTopic(topic);
            if (availablePartitions.size() > 0) {
                 // 对可利用的分区数取模获取下标 
                int part = Utils.toPositive(nextValue) % availablePartitions.size();
                return availablePartitions.get(part).partition();
            } else {
                // no partitions are available, give a non-available partition
                return Utils.toPositive(nextValue) % numPartitions;
            }
       //如果指定了消息key,直接对key进行hash后然后对分区数大小进行取模操作   
       } else {
            // hash the keyBytes to choose a partition
            return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;
        }
    }

总结一下：

1、如果你指定了分区，那么只会将这条消息发送到指定分区

2、如果你同时指定了分区和消息key，也是指发送到这个分区

3、如果没有指定分区，指定了消息key，那么对key进行hash后对当前分区数进行取模后得出消息应该放到哪个分区

4、如果没有分区，也没有指定key，则按照一定的轮询方式(counter和分区数取模，counter每次递增，确保消息不会发送到同一个分区里面)来获取分区数

说完如何获取消息发送的分区后，下一步就是将消息放到暂存区RecordAccumulator，我们下一节RecordAccumulator
具体说明。

doSend在这个方法中一共做了下面这几件事：
1、waitOnMetadata阻塞方式采用RPC方式获取到broker cluster 上broker cluster的信息

2、将key和value序列化 (内置了基于String、Integer、Long、Double、Bytes、ByteBuffer、ByteArray的序列化工具。)
3、为当前消息选择一个合适的分区
4、确保消息的大小合法
MAX_REQUEST_SIZE_CONFIG=”max.request.size”
BUFFER_MEMORY_CONFIG=”buffer.memory”
5、创建要给TopicPartition对象
6、将该record压缩后放到BufferPool中
   关于record的压缩方式，kafka producer在支持了几种方式：
   ·NONE：就是不压缩。
   ·GZIP：压缩率为50%
   ·SNAPPY：压缩率为50%
   ·LZ4：压缩率为50%
这一步是由RecordAccumulator来完成的。RecordAccumulator中为每一个topic维护了一个双端队列Deque，队列中的元素是RecordBatch（RecordBatch则由多个record压缩而成）。RecordAccumulator要做的就是将record压缩后放到与之topic关联的那个Deque的最后面。具体源码可以查看CopyOnWriteMap类
7、唤醒Sender线程、(这个一步的目的就是唤醒NIO Selector)

kafka日志策略神云瑟瑟 kafka kafka 日志删除配置
kafka日志清除策略kafkalog的清理策略有两种：delete,compact,默认是delete这个对应了kafka中每个topic对于record的管理模式delete：一般是使用按照时间保留的策略，当不活跃的segment的时间戳是大于设置的时间的时候，当前segment就会被删除compact:日志不会被删除，会被去重清理，这种模式要求每个record都必须有key，然后kafka会
Kafka 日志存储 — 日志索引黄名富微服务 kafka 分布式 java 微服务
每个日志分段文件对应两个索引文件：偏移量索引文件用来建立消息偏移量到物理地址之间的映射；时间戳索引文件根据指定的时间戳来查找对应的偏移量信息。1日志索引Kafka的索引文件以稀疏索引的方式构造消息的索引。它并不保证每个消息在索引文件中都有对应的索引项。每当写入一定量的消息时，偏移量索引文件和时间戳索引文件分别增加一个索引项。使用二分查找法来快速定位偏移量的位置。1.1日志分段切分的条件日志分段文件
Kafka 2.2.0 消息日志清理机制：日志删除日志压缩 A__Plus kafka Kafka 消息队列
Kafka将消息持久化到磁盘中的Log中，为了控制日志文件的大小就需要对消息进行清理操作。每个Log对应一个分区副本，Log可以分为多个日志分段，便于日志的清理操作。在了解日志清理机制之前，请先了解日志存储方式Kafka有两种日志清理策略：日志删除：按照保留策略删除日志分段需要将Broker端参数log.cleanup.policy设置为delete（默认值）日志压缩：根据每个消息的key进行整合
[每周一更]-(第121期)：模拟面试｜微服务架构面试思路解析 ifanatic 每周一更 Go 面试架构面试微服务
这一系列针对Go面试题整理，仅供参考文章目录00｜综合服务治理方案：怎么保证微服务应用的高可用？1.**什么是微服务架构？**2.**怎么保证微服务架构的高可用？**3.**怎么判定服务是否已经健康？**4.**如果服务不健康该怎么办？**5.**怎么判定服务已经从不健康状态恢复过来了？**6.**Redis崩溃时如何处理？**7.**Kafka崩溃时如何处理？**8.**设计开放平台时需要考虑哪
Flink读写Kafka（Table API） sf_www 实时计算Flink flink kafka 大数据
前面（Flink读写Kafka（DataStreamAPI）_flinkkafkascram-CSDN博客）我们已经讲解了使用DataStreamAPI来读取Kafka，在这里继续讲解下使用TableAPI来读取Kafka，和前面一样也是引入相同的依赖即可。org.apache.flinkflink-connector-kafka1.15.41.创建KafkaTable可以使用以下方式来创建Kaf
【Nginx系列】Nginx配置超时时间 m0_74824552 面试学习路线阿里巴巴 nginx 运维
???欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,G
kafka内部工作机制一只叫狗的猫 #kafka
集群中成员关系kafka使用zookeeper来维护成员信息。没个broker都有唯一的id，这个标识可以在配置文件中配置，在broker启动的时候，它会创建临时的节点把id注册到zookeeper中，当有其他broker加入集群中时，会判断是否已经有这个id，如果有相同的id则会注册失败。当broker宕机的时候，broker创建的临时节点会从zookeeper中移除，其它的kafka组件也都会
Kafka 消息存储与销毁机制 AI天才研究院大数据AI人工智能计算 kafka wpf 分布式
Kafka消息存储与销毁机制文章目录Kafka消息存储与销毁机制1.背景介绍1.1什么是Kafka1.2Kafka的基本概念解释2.核心概念与联系2.1消息存储机制2.2消息销毁机制2.3分区与副本机制3.核心算法原理具体操作步骤3.1消息存储过程3.2消息消费过程3.3消息销毁过程3.4分区副本同步过程4.数学模型和公式详细讲解举例说明4.1消息存储模型4.2消息销毁模型4.3分区副本同步模型5
【Kafka：概念、架构与应用】三日看尽长安花系统架构师 kafka 架构分布式
Kafka：概念、架构与应用目录什么是KafkaKafka的核心概念2.1生产者（Producer）2.2消费者（Consumer）2.3主题（Topic）2.4分区（Partition）2.5消息偏移量（Offset）2.6消费组（ConsumerGroup）Kafka的架构设计3.1Broker与集群3.2Zookeeper的作用Kafka的工作流程Kafka的应用场景Kafka的优缺点分析<
Kafka：架构与核心机制 J老熊 kafka 架构分布式面试系统架构后端
ApacheKafka是一种高吞吐量的分布式消息队列，广泛应用于实时数据流处理和大数据架构中。本文将详细探讨Kafka的架构、Replica管理、消息读取、分区策略、可靠性保障等核心机制。1.Kafka的架构1.1组件概述Kafka的架构由多个组件构成，主要包括以下部分：Broker：Kafka集群中的服务器，每个Broker存储一部分消息。Kafka集群通常由多个Broker组成，以提高可用性和
服务行业的数据管理实践：TapData Cloud 如何助力连锁酒店物业的全球化运营优化数据库
使用TapData，化繁为简，摆脱手动搭建、维护数据管道的诸多烦扰，轻量替代OGG,Kettle等同步工具，以及基于Kafka的ETL解决方案，「CDC+流处理+数据集成」组合拳，加速仓内数据流转，帮助企业将真正具有业务价值的数据作用到实处，将“实时数仓”方法论落进现实。TapData持续迭代产品能力，优化用户体验的同时，也在不断探索各行各业数据需求的底层逻辑，力求为行业用户提供更加简洁、更具针对
python消费kafka数据nginx日志实时_Openresty+Lua+Kafka实现日志实时采集 weixin_39997311
简介在很多数据采集场景下，Flume作为一个高性能采集日志的工具，相信大家都知道它。许多人想起Flume这个组件能联想到的大多数都是Flume跟Kafka相结合进行日志的采集，这种方案有很多他的优点，比如高性能、高吞吐、数据可靠性等。但是我们如果要求对日志进行实时的采集，这显然不是一个好的解决方案。原因如下：就目前来说，Flume能支持实时监控一个目录的数据文件，一旦对某个目录的文件采集完成，就会
【原创】运维基础之OpenResty(Nginx+Lua)+Kafka weixin_30293079 大数据运维 lua
使用docker部署1下载#wgethttps://github.com/doujiang24/lua-resty-kafka/archive/v0.06.tar.gz#tarxvfv0.06.tar.gz2准备配置文件testkafka.conf#vitestkafka.conflua_package_path"/usr/local/openresty/lualib/resty/kafka/?.
openresty+lua实现实时写kafka sky@梦幻未来大数据 openresty nginx openresty lua
一.背景在使用openresty+lua+nginx+flume，通过定时切分日志发送kafka的方式无法满足实时性的情况下，小编开始研究openresty+lua+nginx+kafka实时写kafka，从而达到数据实时性，和高性能保证。二.实现1.openresty安装nginx，以及lua的使用请看博主上一篇博客https://blog.csdn.net/qq_29497387/articl
Kafka的Partition故障恢复机制与HW一致性保障-Epoch更新机制详解大树~~ #Kafka java kafka 分布式后端
在分布式系统中，节点的故障是不可避免的。为了确保系统的高可用性和数据的一致性，Kafka设计了一系列机制来应对Broker或Partition的故障。本文将详细解析Kafka的Partition故障恢复机制和HW一致性保障-Epoch更新机制，帮助深入理解Kafka在面对故障时的处理逻辑和一致性保障手段。一、Partition故障恢复机制1.概述Kafka中的每个Topic被划分为多个Partit
Openresty+Lua+Kafka实现日志实时采集（已测试）野兽先辈 nginx kafka lua linux
概况最近实习领导要我了解一下nginx+lua实现日志采集，我们这边日志的采集好像就是用的这个。然后就在网上找了一下教程，说老实话，因为以前没接触过过这两个东西所以一开始比较懵。最终决定参考一位大哥的教程。不得不说他的教程应该是救了很多人，因为我看到的Openresty+Lua+Kafka的教程八成都是原封不动搬他的，连图都没改就离谱。甚至到google上还有英文版的，截图用的也是一模一样。（当然
openresty+lua+kafka 日志采集 CHENYANG123 大数据 lua kafka nginx
背景：大流量服务收集用户行为日志需求:根据业务把不同的日志发送到不同主题中数据实时性高性能保证方案一自己写个接收程序转发到kafka方案二采用nginx+lua方案采用方案二，原因是nginx高性能，编写代码少，维护少，满足业务场景实施步骤线上请求到nginx后，使用lua组装json格式日志，异步发送到kafka集群根据不同业务日志,划分不同的topic推荐业务实施实时消费安装步骤安装openr
SpringBoot日常：集成Kafka 码至终章 spring boot kafka java 后端
文章目录1、pom.xml文件2、application.yml3、生产者配置类4、消费者配置类5、消息订阅6、生产者发送消息7、测试发送消息本章内容主要介绍如何在springboot项目对kafka进行整合，最终能达到的效果就是能够在项目中通过配置相关的kafka配置，就能进行消息的生产和消费。1、pom.xml文件原本项目用SpringBoot的版本为2.6.X，所以这里用spring-clo
Kafka 原理深入解析啥子都不会吖分布式 kafka 分布式
1.Kafka简介ApacheKafka是一个分布式流处理平台，由LinkedIn开发并于2011年开源，后成为Apache软件基金会的顶级项目。核心概念Topic：主题，是消息分类的逻辑概念，生产者将消息发送到特定的Topic，消费者从Topic中订阅消息。Partition：分区，每个Topic可以被划分为多个Partition，每个Partition是一个有序的队列。Broker：Kafka
分布式微服务系统架构第87集：kafka 掘金-我是哪吒分布式微服务系统架构 kafka 架构
Kafka就是为了解决上述问题而设计的一款基于发布与订阅的消息系统。它一般被称为“分布式提交日志”或者“分布式流平台”。文件系统或数据库提交日志用来提供所有事务的持久记录，通过重放这些日志可以重建系统的状态。同样地，Kafka的数据是按照一定顺序持久化保存的，可以按需读取。此外，Kafka的数据分布在整个系统里，具备数据故障保护和性能伸缩能力。消息和批次消息和批次Kafka的数据单元被称为消息。如
Flink之kafka消息解析器2 怎么才能努力学习啊 flink kafka 大数据
概要昨天的话题，FlinkSource消费kafka数据自定义反序列化，获取自己想要的数据和类型实现过程publicclassTestWithMetadataDeserializationSchemaimplementsKafkaRecordDeserializationSchema{第一步：自定义实现这个接口，这里的泛型一般的都是自定义类@Overridepublicvoiddeserializ
Flink之kafka消费数据怎么才能努力学习啊 flink kafka 大数据
场景：本地构建Flink程序问题描述消费Kafka的数据时，使用Flink新的KakfaSource。会报如下错误KafkaSourcekafkaSource=KafkaSource.builder().setBootstrapServers(kafkaProperties.getProperty("kafka.bootstrap.servers")).setTopics("test2").set
日志收集平台day01：项目设计 intqao 日志收集平台项目 linux kafka zookeeper nginx python
一、项目需求本项目的目的是模拟生产环境下对web服务器产生的日志进行收集并存入数据库，最终以web应用方式展示日志数据。二、技术选型环境：CentOs7web服务器：nginx/1.20.1（仅测试使用）消息队列：kafka2.12分布式应用程序协调服务软件：zookeeper3.6.3生产者：filebeat-7.17.5-1.x86_64消费者：使用python中的模块pykafka实现消费者
SpringBoot使用Kafka如何保证消息不丢失小信丶消息队列技术栈 spring boot kafka 后端
概述在SpringBoot中使用Kafka时，要确保消息不丢失，主要涉及到生产者（Producer）、消费者（Consumer）以及KafkaBroker的配置和设计。1.SpringBoot与Kafka配置SpringBoot中使用Kafka时，可以通过spring-kafka来简化配置和操作。以下是如何保证消息不丢1.1Producer配置Kafka生产者是消息的发送方，确保消息的可靠性和不丢
logback+kafka+ELK实现日志记录（操作）酷酷的码农小哥 java kafka spring boot spring
logback+kafka+ELK实现日志记录前言环境准备配置Logbackpom文件改造新增logback-spring.xmlboot配置文件一下怎么去下载安装我就不多说了，直接上代码。日志平台业务思路用户请求进入后台根据搜索的参数去查询内容返回所有信息,返回json数据，当用户查看详情后根据查询到的内容里面的traceId去es里查询和traceId相等的所有日志信息最后返回给前端业务流程[
Databend 产品月报（2024年8月）数据库
很高兴为您带来Databend2024年8月的最新更新、新功能和改进！我们希望这些增强功能对您有所帮助，并期待您的反馈。KafkaConnectSinkConnector插件我们推出了一种将Kafka连接到Databend的新方式：databend-kafka-connect，这是一个KafkaConnectsinkconnector插件。该插件支持AppendOnly和Upsert两种写入模式，
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
【檀越剑指大厂--RocketMQ】RocketMQ运维篇 Kwan的解忧杂货铺@新空间代码工作室 s总檀越剑指大厂 java-rocketmq rocketmq 运维
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
c#使用Confluent.Kafka实现生产者发送消息至kafka（远程连接kafka发送消息超时的解决 Local：Message timed out） Shinobi_Jack kafka 分布式
水一篇：参考：c#使用Confluent.Kafka实现生产者发送消息至kafka（远程连接kafka发送消息超时的解决Local：Messagetimedout）-寒冰之光-博客园该死的Kafka，远程连接Kafka超时以及解决办法-博客王大锤-博客园
Kafka、ActiveMQ、RabbitMQ、RocketMQ消息队列和消息中间件MQ与RabbitMQ面试题【推荐】王大师王文峰 Java基础到框架面经吐血整理 RabbitMQ 消息队列消息中间件面试题 kafka activeMQ
‍Kafka、ActiveMQ、RabbitMQ、RocketMQ消息队列和消息中间件MQ与RabbitMQ面试题【推荐】学习目标（附超链接传送门）❔消息队列前言❔面试官提问：为什么使用消息队列？消息队列有什么优点和缺点？❔消息队列怎么路由❔为什么使用消息队列，他的场景有哪些❔面试官问:MQ消息队列是什么❔消息队列怎么传输❔其他消息队列应用场景❔传统的做法有两种1.串行的方式；2.并行方式❔Kaf
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

Kafka producer源码解析

KafkaProducer

从 procuder.send 说起

你可能感兴趣的:(kafka)