拾牙慧者

kafka丢数据的原因

背景

采用的client是librdkafka，在producerClient Send的数据时候发现会有数据丢失，并没有到达kafka对应topic的xxx.log中。

写ut测试

kafka_config为：

{
    "kafka_config": {
        "is_async_sending": true,
        "kafka_consume_batch": 5000,
        "kafka_consume_millsec": 1000,
        "kafka_ip_list": [
            "kafka-0.kafka-headless.middlewares.svc.cluster.local"
        ],
        "kafka_port": 9092,
        "kafka_type": "librdkafka"
    },
    "operation_logger_thread_num": 16
}

UT测试，当is_async_sending设置为false的时候，测试推送1、10、100均无问题，当推送1k-1w时，发现这一次插入的数据均丢失，也就是说send前后kafka的offset没有变化

#include "xxx/common/kafka/kafka_log_producer.h"
#include "xxx/common/kafka/kafka_log_consumer.h"
#include 
#include 
#include 
#include "common/storage/log/log_factory.h"
#include "common/config/rapidjson_helper.h"
#include "common/config/json_config_helper.h"
#include "common/error_code.h"
#include "common/config/jsonizable.h"
#include 
#include 
#include 
#include 

using namespace std;
using namespace xxx;


DEFINE_int32(total_num, 100, "导入的数据总量");
DEFINE_string(kfk_topic, "track_surveillance", "需要检查的topic");
int main(int argc, char **argv)
{
    int rtn;
    google::ParseCommandLineFlags(&argc, &argv, false);
    JsonConfigHelper mConfig;
    mConfig.Load("kfk_config.json");
    xxx::common::storage::kafka::KafkaClientConfig kafkaConfig;
    rtn = xxx::product::face_platform::fig_app_worker_helper::GetKafkaConfig(mConfig, kafkaConfig);
    if (rtn < 0)
    {
        CHECK_RTN_LOGE_DESC(XXX_INVALID_ARGUMENT_ERROR, "GetKafkaConfig ERROR config = " + mConfig.ToString());
    }
    boost::shared_ptr producer(new common::storage::kafka::KafkaLogProducer(kafkaConfig));
    boost::shared_ptr consumer(new common::storage::kafka::KafkaLogConsumer(kafkaConfig));
    // JsonConfigHelper config;
    // config.Load("op_log_sample.json");
    std::cout << "FLAGS_total_num: " << FLAGS_total_num;
    std::cout << "FLAGS_kfk_topic: " << FLAGS_kfk_topic;
    // SAMPLE data
    JsonConfigHelper config;
    config.Load("kfk_sample_data.json");
    std::string data = config.ToString();
    std::cout << "data=" << data.c_str() << std::endl;
    int64_t currentOffset = 0;
    currentOffset = consumer->GetCurrentOffset(FLAGS_kfk_topic, 0);
    // 循环插入
    for (int i = 0; i < FLAGS_total_num; i++)
    {
        xxx::common::storage::log::LogEnvelope logEnv(FLAGS_kfk_topic, 0, data);
        int rtn = producer->SendMessage(logEnv);
        std::cout << "第" << i << "轮" << std::endl;
    }
    boost::this_thread::sleep(boost::posix_time::seconds(5));
    int64_t tmpOffset = consumer->GetCurrentOffset(FLAGS_kfk_topic, 0);
    if (tmpOffset > 0 && (tmpOffset - currentOffset) == FLAGS_total_num)
    {
        std::cout << "UT PASS"<< std::endl;
    }
    else
    {
        std::cout << "DIFF OFFSET = " << (tmpOffset - currentOffset) << std::endl;
    }
    return 0;

当改成同步的时候，每次推送耗时稳定在100ms，观察librdkafka的发送代码可以看出异步的话发送流程会多一个ProducerFlush流程

kafkaClient代码

// For Producer
int RdKafkaClient::Send(const std::string &topic, int partition,
                        const std::vector &messages)
{
    if (!mInitSucc)
    {
        LOG(ERROR) << "Fail to Initialize";
        return XXX_KAFKA_FAILED_TO_SENDING_MESSAGES_ERROR;
    }
    RdkafkaTopicPtr pTopicPtr;
    CHECK_RTN_LOGE_OF_FUNC(GetTopic(topic, "producer", pTopicPtr));
    VLOG(1) << "finished getting topic for producer, topic name: " << topic;

    // Produce Message
    for (int i = 0; i < messages.size(); ++i)
    {
        RdKafka::ErrorCode resp = mpProducer->produce(pTopicPtr.get(), partition,
                                                      RdKafka::Producer::RK_MSG_COPY,
                                                      const_cast(messages[i].mValue.c_str()),
                                                      messages[i].mValue.size(), &messages[i].mKey, nullptr);
        if (resp != RdKafka::ERR_NO_ERROR)
        {
            if (resp == RdKafka::ERR__QUEUE_FULL)
            {
                // retry for queue full
                int reservedEventsNum = mpProducer->poll(mConfigParam.produceTimeout);
                LOG(WARNING) << "Fail to Produce, error: " << RdKafka::err2str(resp)
                             << "\nWaiting for queue space, reservedEventsNum: " << reservedEventsNum;
                i--;
                continue;
            }
            LOG(ERROR) << "Fail to produce, error: " << RdKafka::err2str(resp);
            if (resp == RdKafka::ERR_MSG_SIZE_TOO_LARGE)
            {
                LOG(ERROR) << "Message is too large, message len: " << messages[i].mValue.size();
            }
            return XXX_KAFKA_FAILED_TO_SENDING_MESSAGES_ERROR;
        }
        else
        {
            // Serve the queued callbacks waiting to be called
            mpProducer->poll(0);
        }
    }

    if (!mConfigParam.isAsyncSending)
    {
        CHECK_RTN_LOGE_OF_FUNC(ProducerFlush());
    }
    return XXX_SUCC;
}

int RdKafkaClient::ProducerFlush()
{
    int reservedEventsNum = 0, sumWaitTime = 0;
    if (mpProducer.get() == nullptr)
    {
        // 现在的代码计算是用作consumer也会创建producer实例
        LOG(WARNING) << "This is not a producer, no need to flush producer";
    }
    else
        while (mpProducer->outq_len() > 0)
        {
            reservedEventsNum = mpProducer->poll(mConfigParam.pollTimeout);
            LOG_EVERY_N(INFO, 100) << "ReservedEventsNum: " << reservedEventsNum
                                   << ", Waiting for: " << mpProducer->outq_len();
            sumWaitTime += mConfigParam.pollTimeout;
            if (sumWaitTime > mConfigParam.flushTimeout)
            {
                CHECK_RTN_LOGE_DESC(XXX_UNEXPECTED_ERROR,
                                    "fail to wait all messages be sent, timeout: " << mConfigParam.flushTimeout);
            }
        }
    return XXX_SUCC;
}

mpProducer->outq_len():当前等待发送的消息数量

poll()方法的返回值reservedEventsNum表示处理的事件数量。

该函数通过循环调用poll()方法等待所有消息被发送和确认，以确保消息成功提交到Kafka服务器。如果在规定的等待时间内无法完成发送操作，将输出错误日志并返回错误码

消息丢失的可能原因

消息丢失可能由以下原因导致，需要从客户端到Kafka内部的各个组件进行分析：

客户端配置：首先，您应该检查客户端的配置是否正确。确保您设置了适当的参数，例如bootstrap.servers、acks和retries等。这些参数控制着消息发送的行为，错误的配置可能导致消息丢失。
1. bootstrap.servers：这个参数指定了 Kafka 服务的地址列表，用于在 Producer 初始化时建立与 Kafka 集群的连接。如果配置错误，Producer 将无法连接到正确的 Kafka 集群，导致消息无法发送。
2. acks：该参数指定了 Producer 在发送消息后需要收到多少个副本的确认才视为成功。可选的值包括 "all"（所有副本都确认）、"0"（不需要任何确认）和大于等于 1 的整数值（表示需要指定数量的副本确认）。如果设置得太低，可能会导致消息发送后因为网络延迟或节点故障而丢失；如果设置得太高，可能会影响性能和吞吐量。
3. retries：该参数指定了在发生可重试的发送错误时，Producer 进行重试的次数。如果设置得太低，可能会导致消息发送失败后未经过足够多次的重试；如果设置得太高，可能会增加延迟和网络负载。
网络故障：网络问题可能导致消息丢失。当客户端无法连接到Kafka集群或与其中的某个节点断开连接时，消息可能会丢失。您可以检查网络连接并确认没有防火墙或其他网络设备阻止了消息的传输。
Kafka集群状态：确认Kafka集群是否正常工作。如果集群中的某个Broker发生故障或宕机，那么在该Broker上分布的分区可能无法接收到消息。使用Kafka命令行工具或Kafka管理界面来监控集群状态，并确保所有Broker都处于正常运行状态。
分区分配策略：Kafka使用分区来存储和分发消息。如果未正确配置分区分配策略，消息可能会被发送到错误的分区中，或者分区可能无法分配给任何可用的Broker，导致消息丢失。
消息过大：如果您发送的消息超出了Kafka Broker的message.max.bytes配置值，那么消息将被拒绝并丢失。
发送速率过快：在连续发送大量消息的情况下，如果消息发送速率过快，可能会超出Kafka Broker的处理能力。这可能导致消息被丢弃或拒绝。您可以尝试控制消息发送速率，例如通过增加延迟或减少发送频率来避免过载。
异常处理：在使用librdkafka时，您应该适当处理异常情况。例如，检查消息发送结果的返回值、重试失败的消息等。没有正确处理异常可能导致消息丢失。

下面是遇到的问题：

`broker is down`

Kafka 打印 “broker is down” 的日志消息通常表示某个 Kafka 代理（broker）在集群中不可用或无法连接。

这种情况可能有几个原因：

代理故障：如果一个或多个 Kafka 代理发生故障，例如宕机、崩溃或网络故障，那么其他代理就可能无法与它建立连接。此时，其他代理将打印 “broker is down” 的日志消息来指示该故障代理的状态。
网络问题：Kafka 集群中的代理之间通过网络进行通信。如果代理之间的网络出现问题，如网络分区、延迟过高或丢包等，那么可能会导致某个代理被标记为不可用。这时其他代理可能会记录 “broker is down” 的日志消息。
配置错误：如果配置文件中的代理信息设置不正确，比如指定了错误的主机名或端口号，那么连接到该代理时会失败，并导致 “broker is down” 的日志消息出现。
资源不足：如果代理所在的机器资源不足，例如 CPU、内存或磁盘空间等，可能会影响代理的正常运行，并导致其他代理报告 “broker is down” 错误。

要解决 “broker is down” 的问题，可以考虑以下步骤：

检查故障的代理是否真正不可用，可以尝试连接到该代理并检查其状态。
检查网络是否正常，确保所有代理之间能够正常通信。
确保代理的配置信息正确，并且主机名、端口号等参数与实际情况匹配。
检查代理所在的机器资源是否充足，例如 CPU、内存和磁盘空间等。

`RD_KAFKA_MSG_SIZE_TOO_LARGE`

默认情况下，当消息大小超过message.max.bytes时，client 会返回一个RD_KAFKA_MSG_SIZE_TOO_LARGE错误码。这个错误表示消息大小超出了Broker设置的限制，并且不允许将该消息写入主题中。

message.max.bytes是Kafka Broker的一个配置参数，它用于限制单个消息的最大大小。该参数的默认值是1000000字节（1MB）

应用程序可以通过捕获此异常并采取适当的处理措施，例如拆分消息、压缩消息或增加message.max.bytes的值来适应更大的消息。

如果修改了这个值，还需要记得同步修改这几个参数：

包括replica.fetch.max.bytes和fetch.message.max.bytes

replica.fetch.max.bytes：该参数用于控制副本同步时从主题分区获取数据的最大字节大小。当副本需要从主题分区中拉取数据进行同步时，如果单个消息的大小超过该参数设置的值，则副本不会拉取该消息。默认情况下，该参数的值与message.max.bytes相同。
fetch.message.max.bytes：该参数用于控制消费者从Broker获取消息的最大字节大小。当消费者从主题分区中获取消息时，如果单个消息的大小超过该参数设置的值，则对应的消息将被截断，并且仅返回截断后的部分。默认情况下，该参数的值也与message.max.bytes相同。

这些参数的存在是为了限制单个消息的大小，以防止网络传输和存储负载过大，同时也可以保护系统免受恶意或异常情况下的过大消息影响。在调整这些参数时，需要综合考虑生产者、消费者和副本同步等方面的需求。

分区问题

如果未正确配置分区分配策略，可能会导致消息被发送到错误的分区中或者分区无法分配给可用的Broker，从而导致消息丢失。

librdkafka会返回一个错误码来指示问题。以下是一些常见的错误码及其含义：

RD_KAFKA_RESP_ERR__UNKNOWN_PARTITION：表示未知分区错误。这个错误码通常表示Producer尝试将消息发送到不存在的分区，或者未正确配置分区分配策略，导致无法确定应该将消息发送到哪个分区。
RD_KAFKA_RESP_ERR__UNKNOWN_TOPIC：表示未知主题错误。这个错误码通常表示Producer尝试将消息发送到不存在的主题，或者未正确配置主题和分区的元数据信息。
RD_KAFKA_RESP_ERR__PARTITION_EOF：表示分区已达到末尾错误。这个错误码通常表示Consumer尝试从分区中读取消息，但该分区已经没有更多消息可供消费。
RD_KAFKA_RESP_ERR__UNKNOWN_TOPIC_OR_PART：表示未知主题或分区错误。这个错误码通常表示Producer或Consumer尝试操作一个不存在的主题或分区。

注意分区数的设置依赖于创建主题时指定的num_partitions参数，一旦主题创建后，分区数通常是固定的，无法更改。

Kafka Broker的处理能力无法跟上，可能会出现以下情况

RequestTimedOut（请求超时）：当消息发送请求无法及时得到Broker的响应时，例如由于Broker过载导致无法及时处理请求，librdkafka会返回请求超时的错误。这通常意味着消息被丢弃，因为没有及时得到Broker的确认。
NotEnoughReplicas（副本不足）：在某些情况下，如果消息发送请求无法满足复制因子（replication factor）要求，例如由于可用的副本数量不足，Broker会拒绝接收消息并返回此错误。这表明消息可能会被丢弃或者在复制因子满足后重新发送。
LeaderNotAvailable（无可用Leader）：如果消息发送请求的分区的Leader不可用，例如由于Leader选举正在进行或Leader所在的Broker发生故障，那么Broker会拒绝接收消息并返回此错误。这可能会导致消息被丢弃或在Leader重新恢复后重新发送。

消息发送请求为什么需要满足复制因子的要求呢？

在Kafka中，每个分区都有若干个副本（Replica），其中一个被称为Leader副本（Leader），其他副本被称为追随者副本（Follower）。Leader负责处理消息的写入和读取请求，而追随者副本则用于实现数据的冗余备份。

当消息发送请求到达Kafka Broker时，Broker会将消息写入Leader副本，并通过一定的机制将消息复制到追随者副本。只有当消息被成功写入所有指定的副本（即满足复制因子）后，Kafka才会向Producer确认消息写入成功。

复制因子可以在创建主题时进行配置，指定了要为每个分区使用多少个副本。通常，常见的复制因子值为大于1的整数，例如3或2。这意味着每个分区将在多个Broker上维护多个副本，以提供数据冗余和容错能力。

容错性：如果某个Broker或副本发生故障，仍然可以从其他副本中获取数据，保证数据的可用性和服务的连续性。
可靠性：只有当消息被成功写入所有指定的副本后，Kafka才会向Producer确认消息写入成功。这样可以确保数据在多个副本之间得到复制，防止消息丢失。
可扩展性：通过在多个Broker上维护多个副本，Kafka能够提供更高的吞吐量和并行处理能力。

需要注意的是，复制因子也会对消息发送请求的性能产生一定的影响。增加复制因子将增加消息复制和同步的开销，可能导致稍微延迟较高的写入操作。tips:设置一个奇数的复制因子可以更容易进行Leader选举

Some基础知识补充

在Kafka中，分区（Partition）、Broker和Topic是三个核心概念，并且它们之间存在着密切的关系。

分区（Partition）：分区是Kafka中数据存储和分发的基本单元。每个主题（Topic）可以被分成多个分区，每个分区是一个有序、持久化的日志流。分区允许主题的数据水平扩展和并行处理。每个分区都有一个唯一的标识符（partition ID），从0开始递增。
Broker：Broker是Kafka集群中的一个节点或服务器实例。每个Broker负责管理若干个分区，并且可以接收来自Producers的消息和为Consumers提供消息数据。一个Kafka集群由多个Broker组成，它们协同工作来提供高可用性和扩展性。
主题（Topic）：主题是Kafka中数据记录的逻辑分类单元。生产者（Producers）将消息发布到特定的主题，消费者（Consumers）则从主题中读取消息进行处理。每个主题可以拥有一个或多个分区，这些分区可以分布在不同的Broker上，以实现数据的分散存储和负载均衡。

一个主题（Topic）可以由多个分区（Partition）组成，每个分区属于某个Broker，而一个Kafka集群由多个Broker组成。

在Kafka中，同一个主题的多个分区不会被强制地分布在同一个Broker上。相反，Kafka通过将不同分区均匀地分布在不同的Broker上实现负载均衡和容错性。

当创建一个新的主题并指定分区数时，Kafka会根据集群中可用的Broker数量，自动将分区分配到不同的Broker上。这样做可以确保消息在整个集群中的分散存储，并允许并行处理。

具体的分区分配策略是由Kafka的partitioner配置参数决定的。默认情况下，Kafka使用一种称为"consistent_random"的分区分配策略，它会根据Producer发送的消息键（如果有）进行计算，以确保具有相同键的消息被分配到同一个分区，而没有键的消息则随机分配到各个分区，当然也可以直接指定消息的分区id。

在分布式环境中，Kafka通过在Broker之间共享分区元数据信息来维护分区的分布情况。这样，当消费者（Consumer）需要读取消息时，它们可以根据分区元数据信息直接找到存储该分区的Broker，从而实现高效的消息传递和消费。

当创建一个新的主题并指定分区数时，Kafka会根据集群中可用的Broker数量自动将分区分配到不同的Broker上。如果主题的分区数大于可用的Broker数量，Kafka会对一些Broker进行多个分区的分配。

这种情况下，Kafka使用的是一种称为"partition reassignment"的机制。它会尽量将分区均匀地分配给可用的Broker，并确保每个Broker上承载的分区数量尽可能接近。这样可以实现负载均衡和高吞吐量。

然而，如果可用的Broker数量远远少于主题所需的分区数，那么可能无法保证每个分区都能被分配到不同的Broker上。在这种情况下，某些Broker可能需要承载多个相同主题的分区。

需要注意的是，虽然这种情况下会在一个Broker上存在多个同一主题的分区，但Kafka仍然能够正确处理消息的存储和传递。每个分区都是独立存储和维护的，Kafka可以根据分区元数据信息准确地将消息发送到目标分区，并由消费者进行消费。

Broker是以进程为单位的。在Kafka中，每个Broker都是一个独立的Kafka服务器实例，运行在单独的进程中。

一个机器上可以运行多个Broker实例，这样就可以创建一个Kafka集群。每个Broker都有一个唯一的标识符（Broker ID），用于在集群中进行识别和通信。在集群中，每个Broker负责管理若干个分区，并处理来自Producers的消息和为Consumers提供消息数据。

通过在不同的机器上运行多个Broker实例，可以实现高可用性和容错性。如果一个Broker因故障或其他原因不可用，仍然可以通过其他可用的Broker继续提供服务。此外，通过多个Broker，Kafka还能够将负载分布在不同的机器上，提供更好的吞吐量和性能。

每个Broker实例需要配置独立的端口、日志存储路径和其他相关参数，以确保它们之间的互相独立性和协作。同时，Broker之间会建立网络连接和通信，以便进行消息复制和集群管理操作，例如分区分配和Leader选举等。

总结起来，Broker是以进程为单位的，每个Broker是一个独立的Kafka服务器实例。在一个机器上可以运行多个Broker实例，形成一个Kafka集群，提供高可用性、容错性和负载均衡。

消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
esp32开发快速入门 8 : MQTT 的快速入门，基于esp32实现MQTT通信 z755924843 ESP32开发快速入门服务器网络运维
MQTT介绍简介MQTT（MessageQueuingTelemetryTransport，消息队列遥测传输协议），是一种基于发布/订阅（publish/subscribe）模式的"轻量级"通讯协议，该协议构建于TCP/IP协议上，由IBM在1999年发布。MQTT最大优点在于，可以以极少的代码和有限的带宽，为连接远程设备提供实时可靠的消息服务。作为一种低开销、低带宽占用的即时通讯协议，使其在物联
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
在RabbitMQ中四种常见的消息路由模式 Xwzzz_ rabbitmq 分布式
1.Fanout模式Fanout模式的交换机是扇出交换机（FanoutExchange），它会将消息广播给所有绑定到它的队列，而不考虑消息的内容或路由键。工作原理：生产者发送消息到FanoutExchange。FanoutExchange会将消息广播给所有绑定到它的队列，所有绑定的队列都会收到这条消息。消费者监听绑定的队列，处理收到的消息。特点：没有路由键：消息不需要路由键，所有绑定的队列都会接收
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
RabbitMQ生产者重复机制与确认机制 java炒饭小能手 java-rabbitmq rabbitmq java
重复机制生产者发送消息时，出现了网络故障，导致与MQ的连接中断。为了解决这个问题，SpringAMQP提供的消息发送时的重试机制。即：当RabbitTemplate与MQ连接超时后，多次重试。需要修该发送端模块的application.yaml文件，添加下面的内容：spring:rabbitmq:connection-timeout:1s#设置MQ的连接超时时间template:retry:ena
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
【RabbitMQ 项目】服务端数据管理模块之交换机管理月夜星辉雪 rabbitmq oracle 数据库
文章目录一.编写思路二.代码实践一.编写思路定义交换机类型直接交换广播交换主题交换定义交换机名字类型是否持久化定义交换机持久化类(持久化到sqlite3)构造函数(只能成功，不能失败)如果数据库(文件)不存在则创建打开数据库打开exchange_table数据库表插入交换机移除交换机将数据库中的交换机恢复到内存中传入一个哈希表，key为名字，value为交换机的智能指针，填充该哈希表定义交换机管理
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_