香山上的麻雀1008

Fetcher: KafkaConsumer消息消费的管理者

原文链接： https://blog.csdn.net/zhanyuanlin/article/details/76269308

poll(timeout){
    根据poll(timeout)参数，估算剩余时间
    while(还有剩余时间)
      从Fetcher端拉取消费到的消息
      if(消息数量不为空)
         创建发送请求
         立刻将请求发送
      else
         return
      end   //if ends
      计算剩余时间
    end  //while ends
}

从上述伪代码可以看到，在超时时间到达之前，KafkaConsumer会反复通过调用KafkaConsumer.poll()进行消息的拉取，其实这次消息的获取是上一次请求的返回数据，同时，每一次poll请求，KafkaConsumer都会顺便再一次发送请求以便下一次poll操作能够直接获取返回结果。
看到这里，肯定有人会问，每次poll完成以后都再一次发送请求，那是否会让每一次poll()的执行时间延长?答案是否定的，请求的发送是异步执行的。这个可以通过ConsumerNetworkClient.send()方法看出，读者可自行阅读代码。

    public ConsumerRecords poll(long timeout) {
        acquire();//确保只有一个唯一线程调用poll方法
        try {
            if (timeout < 0)
                throw new IllegalArgumentException("Timeout must not be negative");

            // poll for new data until the timeout expires
            long start = time.milliseconds();
            long remaining = timeout;
            do {
                //进行一次消费操作
                Map>> records = pollOnce(remaining);
                if (!records.isEmpty()) {
                    fetcher.sendFetches();//在请求到数据以后，顺便发送下一次请求，由于请求是异步发送，因此并不会影响本次消息消费的效率
                    client.pollNoWakeup();//发送一个poll请求，并且是立刻返回的，因为timeout=0

                    if (this.interceptors == null)
                        return new ConsumerRecords<>(records);
                    else
                        return this.interceptors.onConsume(new ConsumerRecords<>(records));
                }

                long elapsed = time.milliseconds() - start;//计算剩余可用的时间
                remaining = timeout - elapsed;
            } while (remaining > 0);

            return ConsumerRecords.empty();
        } finally {
            release();
        }
    }

在保证超时时间没有到达的前提下，通过调用pollOnce()来进行一次消息的拉取，其实是调用一次Fetcher.fetchedRecords()方法取出已经收到的Kafka消息：

    /**
     * 进行一次消费操作，如果这次操作直接在fetcher已经存在，则直接返回这些已经完成的结果，而如果fetcher没有返回任何结果，则会强行进行一次poll操作。
     */
    private Map>> pollOnce(long timeout) {
        // TODO: Sub-requests should take into account the poll timeout (KAFKA-1894)
        //确认服务端的GroupCoordinator已经获取并且已经能够接受请求
        coordinator.ensureCoordinatorReady();

        // ensure we have partitions assigned if we expect to
        //确认已经完成了分区分配
        if (subscriptions.partitionsAutoAssigned())
            coordinator.ensurePartitionAssignment();

        // fetch positions if we have partitions we're subscribed to that we
        // don't know the offset for
        if (!subscriptions.hasAllFetchPositions())
            updateFetchPositions(this.subscriptions.missingFetchPositions());

        long now = time.milliseconds();

        // execute delayed tasks (e.g. autocommits and heartbeats) prior to fetching records
        //执行heartbeat任务或者自动提交offset任务
        client.executeDelayedTasks(now);

        // init any new fetches (won't resend pending fetches)
        Map>> records = fetcher.fetchedRecords();//直接获取已经收到的数据

        // if data is available already, e.g. from a previous network client poll() call to commit,
        // then just return it immediately
        if (!records.isEmpty())
            return records;
        //如果没有接收到任何一条消息，则真正地发送fetch请求
        fetcher.sendFetches();
        client.poll(timeout, now);
        return fetcher.fetchedRecords();
    }

pollOnce()的基本执行逻辑，就是首先确保远程的GroupCoordinator是正常并且已经连接的状态。在这里我需要解释一下Kafka的两种类型的Coordinator：

ConsumerCoordinator：客户端角色，每一个客户端的Consumer都会有一个ConsumerCoordinator与之对应，ConsumerCoordinator负责代理这个Consumer与远程的GroupCoordinator进行沟通，比如joinGroup、针对自己在group中的leader或者follower身份进行不同的操作(必须被选举为leader的ConsumerCoordinator会获取整个group的消费者的订阅情况然后进行分区分派，follower身份的ConsumerCoordinator只需要被动接受分派给自己的分区)
GroupCoordinator：服务端角色，每一个Group的管理者，用来管理这个Group中所有的ConsumerCoordinator，比如leader的选举。注意，我们必须把group leader选举和分区分派区别开。一个ConsumerCoordinator在进行joinGroup操作的时候，GroupCoordinator会从所有的ConsumerCoordinator选举出来一个Leader，然后Leader进行分区分派，即为Group中的所有ConsumerCoordinator分派分区。即分区分派其实是在客户端进行，而不是服务端进行。

在pollOnce()开始时，首先需要确认消费消息以前的所有准备工作已经做完，包括：

已经确认远程的GroupCoordinator：在初始化状态下，一个Consumer并不清楚自己所在的Group对应的GroupCoordinator会在哪台Kafka Server上，因此会选择一个Kafka Server，发送请求获取GroupCoordinator
已经完成joinGroup操作：在获取了GroupCoordinator的身份以后，会进行joinGroup操作。GroupCoordinator会从所有的ConsumerCoordinator中选举一个作为这个group的leader，剩余的作为follower。因此需要确认自己已经成功进行了joinGroup操作。
已经完成了分区分派：在joinGroup操作中被选举为leader的ConsumerCoordinator会负责进行分区分派，即将group中所有topic的每个分区分派给对应的ConsumerCoordinator进行消费，因此需要确认。

通过coordinator.ensureCoordinatorReady();确认GroupCoordinator的身份已经明确并且可以接收请求。如果发现GroupCoordinator还没有准备好，则该方法会一直block直到其处于ready的状态：

  /**
     * Block until the coordinator for this group is known and is ready to receive requests.
     * 等待直到我们和服务端的GroupCoordinator取得连接
     */
    public void ensureCoordinatorReady() {
        while (coordinatorUnknown()) {//无法获取GroupCoordinator
            RequestFuture future = sendGroupCoordinatorRequest();//发送请求
            client.poll(future);//同步等待异步调用的结果
            if (future.failed()) {
                if (future.isRetriable())
                    client.awaitMetadataUpdate();
                else
                    throw future.exception();
            } else if (coordinator != null && client.connectionFailed(coordinator)) {
                // we found the coordinator, but the connection has failed, so mark
                // it dead and backoff before retrying discovery
                coordinatorDead();
                time.sleep(retryBackoffMs);//等待一段时间，然后重试
            }

        }
    }

同时，通过 coordinator.ensurePartitionAssignment();确认已经成功加入了group并且分派给自己的分区都是正常的。

当确认了自己与GroupCoordinator的所有状态都正常，在正式获取数据之前，还会对已经到达运行时间的定时任务执行。这种定时任务主要包括两种：

心跳任务：心跳任务(HeartbeatTask)用来告知GroupCoordinator自己还活着。如果GroupCoordinator长期没有收到心跳，将会认为这个ConsumerCordinator已经退出，从而通过rebalance来将ConsumerCoordinator从group中移除。
offset提交任务：offset提交任务(AutoCommitTask)是当用户设置了consumer的offset提交模式为自动提交以后，用来告知远程的ConsumerCoordinator自己已经消费到的消息位置。每次提交，都会运行AutoCommitTask.run()方法，同时，AutoCommitTask.run()中，会调用AutoCommitTask.reschedule()再次提交一个任务，从而实现这个定时任务的不断提交，即offset的不断提交。

注意，这两种定时任务在Kafka上叫做delayedTask，即可以 容忍适当延迟 的任务。客户端每次执行poll操作，都会检查这些延迟任务的执行时间是否已经到了，如果到了就执行。同时，我们看到，远程的GroupCoordinator是通过心跳来判断ConsumerCoordinator的心跳来判断ConsumerCoordinator是否还活着，而心跳信息只有在poll()被调用的时候发出，因此，如果我们在两次相邻地poll之间的时间超过阈值，GroupCoordinator会认为ConsumerCoordinator已经消失并进行rebalance操作。咋大多数情况下，无论Kafka的代码多么的健壮，一次rebalce都会是一次不稳定因素，是应该竭力避免的行为。因此，我们应该通过合理设置一下两个参数，来竭力避免两次poll相邻时间过长导致的rebalance：

max.poll.records：合理设置每次poll的消息消费数量，如果数量过多，导致一次poll操作返回的消息记录无法在指定时间内完成，则会出发rebalance；
max.poll.interval.ms：尽力保证一次poll的消息能够很快完成，无论我们的业务代码在拿到poll()的结果之后做了什么操作，比如需要存入hdfs、需要存入hive、关系型数据库，都需要对消耗的时间进行预估，保证时间不会太长；

在执行完了中的延迟任务以后，开始调用fetcher.fetchedRecords();获取数据。上面已经说过，这次获取的数据是上一次poll发出的请求所返回的数据，因此是直接从内存中获取的已有数据：

    public Map>> fetchedRecords() {
        if (this.subscriptions.partitionAssignmentNeeded()) {//是否需要重新进行分区分配
            return Collections.emptyMap();//返回空结果
        } else {
            //保存返回结果，key为TopicPartition,value为这个TopicPartition的所有消费到到数据
            Map>> drained = new HashMap<>();
            int recordsRemaining = maxPollRecords;
            //从方法sendFetches可以看到，每一个CompletedFetch的一条数据，是某个TopicPartition的一批数据
            Iterator completedFetchesIterator = completedFetches.iterator();//遍历已经返回的结果
            while (recordsRemaining > 0) {//计算剩余可以poll的消息量
                if (nextInLineRecords == null || nextInLineRecords.isEmpty()) {//第一次进入循环
                    if (!completedFetchesIterator.hasNext())
                        break;

                    CompletedFetch completion = completedFetchesIterator.next();
                    completedFetchesIterator.remove();
                    //将字节消息转换成ConsumerRecord对象
                    nextInLineRecords = parseFetchedData(completion);
                } else {
                    //将数据从nextInLineRecords中取出，放入到drained中，并且清空nextInLineRecords，更新offset
                    recordsRemaining -= append(drained, nextInLineRecords, recordsRemaining);
                }
            }
            return drained;
        }
    }

fetchedRecords()方法中，通过不停地迭代遍历保存了已完成的消费请求所返回到数据的List completedFetches,从中取出CompletedFetch，但是由于CompletedFetch中保存是返回的原始字节码数据，因此会将字节码翻译为数据对象，依照数据的TopicPartition，存入到Map>> drained中。当消息数量已经不小于用户配置的最大消费消息数量，活着当前completedFetches已经没有了数据，则循环退出，返回数据。其中比较重要的方法是private int append(Map>> drained,PartitionRecords partitionRecords, int maxRecords)方法：

   private int append(Map>> drained,
                       PartitionRecords partitionRecords,
                       int maxRecords) {
        if (partitionRecords.isEmpty())
            return 0;

        if (!subscriptions.isAssigned(partitionRecords.partition)) {//判断是否是分配给自己的分区
            // this can happen when a rebalance happened before fetched records are returned to the consumer's poll call
            log.debug("Not returning fetched records for partition {} since it is no longer assigned", partitionRecords.partition);
        } else {//是自己的分区
            // note that the consumed position should always be available as long as the partition is still assigned
            long position = subscriptions.position(partitionRecords.partition);//当前的分区消费位置
            //当且仅当1.这个分区的确是分派给这个consumer 2当前不是pause状态 3.当前存在合法的分区位置，这个分区才会是fetchable
            if (!subscriptions.isFetchable(partitionRecords.partition)) {
                // this can happen when a partition is paused before fetched records are returned to the consumer's poll call
                log.debug("Not returning fetched records for assigned partition {} since it is no longer fetchable", partitionRecords.partition);
            } else if (partitionRecords.fetchOffset == position) {//分区位置校验通过
                // we are ensured to have at least one record since we already checked for emptiness
                List> partRecords = partitionRecords.take(maxRecords);
                long nextOffset = partRecords.get(partRecords.size() - 1).offset() + 1;//下一个offset是当前收到的最后一条消息的offset+1

                log.trace("Returning fetched records at offset {} for assigned partition {} and update " +
                        "position to {}", position, partitionRecords.partition, nextOffset);

                //将这一批数据保存到map中
                List> records = drained.get(partitionRecords.partition);
                if (records == null) {
                    records = partRecords;
                    drained.put(partitionRecords.partition, records);
                } else {
                    records.addAll(partRecords);
                }

                //更新offset
                subscriptions.position(partitionRecords.partition, nextOffset);
                return partRecords.size();
            } else {
                // these records aren't next in line based on the last consumed position, ignore them
                // they must be from an obsolete request
                log.debug("Ignoring fetched records for {} at offset {} since the current position is {}",
                        partitionRecords.partition, partitionRecords.fetchOffset, position);
            }
        }

        partitionRecords.discard();
        return 0;
    }

这个方法等职责比较关键，核心任务是把返回的一批数据按照TopicPartition归类，存入Map>> drained作为最终返回数据，同时，还进行了数据校验：

对于每条数据，校验数据所在的分区是不是分派给自己的分区，因为所有Consumer只有权利消费自己订阅的并且在分区分派时的确分派给了自己的分区；
判断这个分区处于fetchable状态，判断标准是：
- 这个分区的确是分派给这个consumer；
- 当前不是pause状态，pause的发生是显式调用KafkaConsuer.pause()方法，用来暂停消费；
- 当前存在合法的分区位置，所谓合法，即Consumer端记录的上次的消费位置是存在的，而不是空的；
分区位置严格校验：Kafka客户端本地保存了上一次消费的最后一条消息的下一个offset值，因此，在正常情况下，本次请求的一批记录的第一条的offset值，必须等于该值，如果不等于，则忽略数据。

当所有校验通过，则将数据保存在drained中作为最终返回结果，同时，通过subscriptions.position(partitionRecords.partition, nextOffset);更新本地保存的该TopicPartition对应的分区位置为nextOffset：
从上述代码：long nextOffset = partRecords.get(partRecords.size() - 1).offset() + 1;，nextoffset是下一条消息的offset值。

在上文中，我们从KafkaConsumer.poll(timeout)方法为入口，分析了消费者如何通过Fetcher进行消息消费的。我们说过，每次消息消费，都是上一次请求对应的返回结果，是从内存中直接获取的请求。因此，现在我们来看看每一次的消费请求是如何发出的。

其实，从poll(timeout)的代码可以看到，每次消费完数据，都会通过Fetcher.sendFetches()顺带发送下一次的消费请求：

    public void sendFetches() {
        //调用createFetchRequests创建发送请求，然后逐个请求发送到远程broker
        for (Map.Entry fetchEntry: createFetchRequests().entrySet()) {
            final FetchRequest request = fetchEntry.getValue();//request是对某个节点上的某个TopicPartition的请求数据
            //ConsumerNetworkClient.send会将请求放到unsend中
            client.send(fetchEntry.getKey(), ApiKeys.FETCH, request)
                    .addListener(new RequestFutureListener() {
                        @Override
                        public void onSuccess(ClientResponse resp) {
                            FetchResponse response = new FetchResponse(resp.responseBody());
                            //获取这一批响应数据中的所有的TopicPartition
                            Set partitions = new HashSet<>(response.responseData().keySet());
                            FetchResponseMetricAggregator metricAggregator = new FetchResponseMetricAggregator(sensors, partitions);

                            //对响应数据进行遍历
                            for (Map.Entry entry : response.responseData().entrySet()) {
                                TopicPartition partition = entry.getKey();
                                long fetchOffset = request.fetchData().get(partition).offset;//请求发送的时候这个TopicPartition的offset
                              FetchResponse.PartitionData fetchData = entry.getValue();//fetchData中存放了这个TopicPartition所返回的数据
                                completedFetches.add(new CompletedFetch(partition, fetchOffset, fetchData, metricAggregator));
                            }         sensors.fetchLatency.record(resp.requestLatencyMs());             sensors.fetchThrottleTimeSensor.record(response.getThrottleTime());
                        }
                        @Override
                        public void onFailure(RuntimeException e) {
                            log.debug("Fetch failed", e);
                        }
                    });
        }
    }

sendFetches()方法通过createFetchRequests()来创建请求，然后，将请求通过ConsumerNetworkClient.send()逐渐发送出去。ApiKeys.FETCH 代表了请求类型为数据请求，即消费请求，除了数据消费请求，还有各种其它请求，都是通过ConsumerNetworkClient.send()发送到远程的，比如：

ApiKeys.PRODUCE 生产消息的请求
ApiKeys.METADATA：获取服务器元数据的请求
ApiKeys.JOIN_GROUP：加入到group的请求
ApiKeys.LEAVE_GROUP：离开group请求
ApiKeys.SYNC_GROUP：同步group信息的请求
ApiKeys.HEARTBEAT：心跳请求
ApiKeys.OFFSET_COMMIT：提交offset的请求
ApiKeys.OFFSET_FETCH：获取远程offset的请求

client.send(fetchEntry.getKey(), ApiKeys.FETCH, request) .addListener()是通过异步回调的方式来处理返回结果，通过定义一个实现了RequestFutureListener的匿名实现类，实现了收到相应成功或者失败以后的回调：

public interface RequestFutureListener {
    void onSuccess(T value);
    void onFailure(RuntimeException e);
}

当成功收到相应，会将消息经过处理放入到List completedFetches中。上文已经说过，Fetcher.fetchedRecords就是从completedFetches获取消息的。

同时，我们一起来看看Fetcher是如何创建数据消费请求的：

    /**
     * Create fetch requests for all nodes for which we have assigned partitions
     * that have no existing requests in flight.
     * 创建fetch请求，这个请求的key是node，value是一个FetchRequest对象，这个对象封装了对这个节点上的一个或者多个TopicPartition的数据获取请求
     */
    private Map createFetchRequests() {
        // create the fetch info
        Cluster cluster = metadata.fetch();
        //fetchable的key是节点，value是在这个节点上所有TopicPartition的请求信息
        Map> fetchable = new HashMap<>();

        for (TopicPartition partition : fetchablePartitions()) {//对于每一个partition
            Node node = cluster.leaderFor(partition);//查看这个partition的leader节点
            if (node == null) {
                metadata.requestUpdate();//node是空，则重新更新元数据
            } else if (this.client.pendingRequestCount(node) == 0) {//如果这个节点上的pending请求为0,pending既包括in-flight，也包括unsent
                // if there is a leader and no in-flight requests, issue a new fetch
                Map fetch = fetchable.get(node);
                if (fetch == null) {
                    fetch = new HashMap<>();
                    fetchable.put(node, fetch);
                }

                long position = this.subscriptions.position(partition);
                //将当前的offset信息、请求数据的大小放入request中
                fetch.put(partition, new FetchRequest.PartitionData(position, this.fetchSize));//将每个partition的请求保存
                log.trace("Added fetch request for partition {} at offset {}", partition, position);
            }
        }

        // create the fetches
        Map requests = new HashMap<>();
        for (Map.Entry> entry : fetchable.entrySet()) {
            Node node = entry.getKey();
            FetchRequest fetch = new FetchRequest(this.maxWaitMs, this.minBytes, entry.getValue());
            requests.put(node, fetch);
        }
        return requests;
    }

createFetchRequests()的执行伪代码:

获取集群元数据
获取所有的fetchablePartitions
for(每一个fetchablePartition){
  获取这个partition的leader node
  if(无法获取lead node信息)
      发送元数据更新请求
  else
    {
       创建对这个节点的数据获取请求，保存在一个Map中
    }
}
请求创建完毕，保存在Map中，返回这个Map

createFetchRequests会获取所谓fetchablePartitions，那么，究竟哪些TopicPartition被认为是fetchable的呢？
我们一起来看：

    private Set fetchablePartitions() {
        Set fetchable = subscriptions.fetchablePartitions();
        //从fetchedRecords()方法中可以看到，nextInLineRecords代表正在进行处理的返回结果
        if (nextInLineRecords != null && !nextInLineRecords.isEmpty())
            fetchable.remove(nextInLineRecords.partition);
        //completedFetches代表已经取回的等待消费的数据
        for (CompletedFetch completedFetch : completedFetches)
            fetchable.remove(completedFetch.partition);
        return fetchable;
    }

首先，当然，这个TopicPartition必须是分派给自己的TopicPartition
这个TopicPartition不是处于paused状态
这个TopicPartition有合法的position，即对于这个TopicPartition有合法的消费位置offset的记录
这个TopicPartition在Fetcher对象里面不存在已经取回但是还没被消费的数据

以上就是KafkaConsumer委托Fetcher创建消费请求、获取消费数据的基本流程，其实涉及到比较多的东西，包括通过ConsumerCoordinator代理自己与远程的GroupCoordinator进行沟通，进入和离开Group，分区的分派，通过ConsumerNetworkClient负责底层的网络通信，通过SubscriptionState对象维护本地的TopicPartition的信息，获取到消息以后的校验，通过定时任务进行自动offset提交，通过定时任务进行心跳以报告活性等等。有兴趣的读者可以自行详细阅读代码。我将会有更多的博客来对本过程涉及到的其他方面进行专门的介绍。

虽然Kafka的核心代码在Server端，但是从Consumer或者Producer端进入，基本上可以看到整个消息通信的基本逻辑、设计和业务流程。Consumer端的代码在保证高效、节点网络流量的负载均衡以及客户端和服务端所有状态的一致性、单线程方面做了大量非常好的设计和解决方案，同时，通过ConsumerGroup的概念、Topic订阅的概念、基于Master/Slave设计的Group责任制(一个Group只有一个Consumer会被选举为Group Leader，剩余未Follower)、基于Master/Slave设计的TopicPartition责任制（对于每一个TopicPartition，只有一个Consumer会被选举为Leader，剩余作为Repliation），使得Kafka的消息系统具有非常棒的轻松横向扩展性，分布式环境下也有了很好的数据一致性(所有TopicParition的请求都发往这个TopicParition 的leader)，这是我非常喜欢Kafka的一个重要原因。当然，这也对服务端的Leader角色提出了非常高的并发性。后面我们会介绍基于Reactor模式的设计，Kafka Server能够很好处理高并发响应、多任务处理的切换等。

你可能感兴趣的:(Kafka)

Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Docker安装Kafka和Kafka-Manager 阿靖哦
本文介绍如何通过Docker安装kafka与kafka界面管理界面一、拉取zookeeper由于kafka需要依赖于zookeeper，因此这里先运行zookeeper1、拉取镜像dockerpullwurstmeister/zookeeper2、启动dockerrun-d--namezookeeper-p2181:2181-eTZ="Asia/Shanghai"--restartalwayswu
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
分布式消息队列Kafka 叶域大数据分布式 kafka scala spark
分布式消息队列Kafka简介：Kafka是一个分布式消息队列系统，用于处理实时数据流。消息按照主题（Topic）进行分类存储，发送消息的实体称为Producer，接收消息的实体称为Consumer。Kafka集群由多个Kafka实例（Server）组成，每个实例称为Broker。主要用途：广泛应用于构建实时数据管道和流应用程序，适用于需要高吞吐量和低延迟的数据处理场景依赖：Kafka集群和消费者依
K8S学习之PV&&PVC david161
部署mysql之前我们需要先了解一个概念有状态服务。这是一种特殊的服务，简单的归纳下就是会产生需要持久化的数据，并且有很强的I/O需求，且重启需要依赖上次存储到磁盘的数据。如典型的mysql，kafka，zookeeper等等。在我们有比较优秀的商业存储的前提下，非常推荐使用有状态服务进行部署，计算和存储分离那是相当的爽的。在实际生产中如果没有这种存储，localPV也是不错的选择，当然local
Kafka系列之：kafka命令详细总结快乐骑行^_^ 日常分享专栏 Kafka Kafka系列 kafka命令详细总结
Kafka系列之：kafka命令详细总结一、添加和删除topic二、修改topic三、平衡领导者四、检查消费者位置五、管理消费者群体一、添加和删除topicbin/kafka-topics.sh--bootstrap-serverbroker_host:port--create--topicmy_topic_name\--partitions20--replication-factor3--con
搭建Kafka+zookeeper集群调度 krb___ kafka 分布式
前言硬件环境172.18.0.5kafkazk1Kafka+zookeeperKafkaBroker集群172.18.0.6kafkazk2Kafka+zookeeperKafkaBroker集群172.18.0.7kafkazk3Kafka+zookeeperKafkaBroker集群软件环境zookeeper3.5.9资源调度、写作Kafka2.8.0消息通信中间件安装JDK1.8安装搭建zo
Kafka和Pulsar深入解析 jasen91 大数据开发 kafka 分布式
Kafka多租户：单租户系统数据迁移：依赖MirrorMaker，需要额外维护。市场上也有ConfluentReplicator等供应商工具。分层存储：由供应商提供商业使用。组件依赖：KafkaRaft（KRaft）从Kafka2.8开始处于早期访问模式，允许Kafka在没有ZooKeeper的情况下工作。这对Kafka来说是一个显著的优势，因为它简化了Kafka的体系结构并降低了学习成本。云原生
Linux系统部署Kafka教学情书学长 linux 学习笔记 kafka
第一步：Zookeeper安装（准备工作）1、解压安装将安装包上传到/opt/software目录下，解压并修改名称tar-zxvfapache-zookeeper-3.5.7-bin.tar.gz-C/opt/module/mvapache-zookeeper-3.5.7-bin/zookeeper2、配置服务器编号1)在/opt/module/zookeeper-3.5.7/这个目录下创建zk
数仓开发之DWD层完整使用 (第五章) 小坏讲微服务数据仓库 hadoop scala kafka
数仓开发之DWD层完整使用一、流量域未精加工的事务事实表1、主要任务1）数据清洗（ETL）2）新老访客状态标记修复3）分流2、思路1）数据清洗（ETL）2）新老访客状态标记修复（1）前端埋点新老访客状态标记设置规则（2）新老访客状态标记修复思路3）利用侧输出流实现数据拆分（1）埋点日志结构分析（2）分流日志分类（3）分流思路3、图解4、代码1）在KafkaUtil工具类中补充getKafkaPro
Kafka 应用场景 zinuxer kafka 分布式
数据流处理：Kafka支持实时数据流处理，能够在数据流动时进行处理和分析，确保应用程序与最新信息保持同步！日志聚合：可以将来自不同来源的日志集中和聚合，简化应用程序的调试和监控！消息队列：Kafka充当高性能的消息队列，确保不同系统组件之间可靠且可扩展的通信！网络活动追踪：Kafka可以追踪网络活动，改进用户体验和推动业务增长！数据复制：Kafka允许在多个集群之间实现无缝数据复制，确保高可用性和
Kafka的ack机制香山上的麻雀
ack=0/1/-1的不同情况：0：producer不等待broker的ack，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；-1：producer等待broker的ack，partition的
Kafka 实战 - Kafka分区和副本机制理解用心去追梦 kafka 分布式
ApacheKafka的分区（Partition）和副本（Replica）机制是其核心架构和可靠性保证的关键组成部分。以下是对其理解的详细解释：分区（Partition）分区概念：在Kafka中，每个主题（Topic）可以被划分为多个分区。分区是一个有序的、不可变的消息序列。这意味着消息在分区中按生成顺序存储，每个消息都有一个唯一的偏移量（Offset）。目的：分区的主要目的是为了水平扩展和并行处
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
zookeeper+kafka消息队列部署 TBF610218 zookeeper kafka 分布式
消息队列的概念什么是消息队列消息是指在应用间传送的数据消息队列是一种应用间的通信方式解决方法，确保消息的可靠传递专门为消息做缓存的消息队列的特征存储将消息存储在某个类型的缓冲区中，指导目标进读取这些消息或者将其从消息队列中显示移除为止异步消息队列通过缓冲消息可以在应用程序当中公开一定程度的异步性，允许源进程发送消息并在队列当中累积消息，而且目标进程可以挑选消息并进行处理为什么需要消息队列解耦冗余扩
分布式中间件-几个常用的消息中间件问道飞鱼分布式技术分布式中间件
文章目录常见消息中间件1.RabbitMQ2.ApacheKafka3.RedisPub/Sub4.ActiveMQ5.AmazonSimpleNotificationService(SNS)和SimpleQueueService(SQS)6.RocketMQ差异总结消息协议1.AMQP(AdvancedMessageQueuingProtocol)2.STOMP(SimpleTextOrient
kafka php 教程,php 使用kafka weixin_39713841 kafka php 教程
准备工作gitclonehttps://github.com/edenhill/librdkafka.git./configuremakesudomakeinstall$gitclonehttps://github.com/arnaud-lb/php-rdkafka.git#生成configure文件$/Users/shiyibo/LNMP/php/bin/phpize#编译安装$./config
Kafka快速入门 G丶AEOM 速成学习区 kafka linq 分布式
讲一下什么是Kafka首先引入这样一个场景：A服务可以发送200qps（QueriesPerSecond，是指每秒查询率），而B服务可以处理100qps。很显然，B服务很可能会被A服务压垮掉。怎么为了保证B不被压垮的同时还能处理A消息，没有什么是不能通过一层中间件解决的，如果有，那就再加一层。开始很容易想到，可以在B服务中增加一个队列，其实就是个链表，B服务根据自己的消费能力，消费链表中的消息。每
【Python系列】异步任务的终止 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
老版本kafka查询topic消费情况(python查询) 代码是谁 kafka python 分布式
由于老版本的kafka缺少shell，导致无法通过命令直接进行查询，所以通过python代码，实现消费情况查询安装必须的包#pyhon2.5pipinstallkafka-python==1.4.7python脚本#!/usr/bin/envpythonimportsysfromkafkaimportKafkaConsumer,TopicPartitioniflen(sys.argv)!=2:pr
【Python系列】使用切片移动元素位置 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
字节架构师：来说说 Kafka 的消费者客户端详解，你都搞懂了吗？ 2401_84049200 程序员 kafka linq 分布式
点对点模式基于队列，类似于同一个消费者组中的数据，由生产者发送数据到分区，然后消费者拉取分区的消息进行消费，此时消息只能被同一个消费者组的消费者消费一次。发布订阅模式模式就是kafka中的分区消息可以被不同消费者组的消费者消费。这就是一对多的广播模式应用。当然，消费者组是一个逻辑的概念，通过客户端参数group.id来配置，默认值为空字符串。而消费者并不是逻辑的概念，它是真正消费数据的实体，可以是
Java Kafka生产者实现 stormsha Java web java kafka linq
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~专栏导航Python系列:Python面试题合集，剑指大厂Git系列:Git操作技巧GO系列:记录博主学习GO语言的笔记，该笔记专栏
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文