不吃香菜lw

kafka

1. Kafka概述

2. Kafka安装部署

3. Kafka架构深入

4. Kafka-eagle（kafka监控）

1. Kafka概述

1.1 定义

（1）Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。（传统使用）

分布式：多台服务器干一件事。

发布/订阅：消息的发布者不会将消息直接发送给特点的订阅者，而是将发布的消息（数据）分为不同的类型，订阅者只接收感兴趣的消息，根据需求选择性订阅。

（2）Kafka是一个开源的分布式事件流平台（event streaming platform），被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。（最新定位）

1.2 消息队列

1.2.1 传统消息队列的应用场景

使用消息队列的好处

1）解耦

允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。

2）可恢复性

系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。

3）缓冲

有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。

4）（削峰）灵活性 & 峰值处理能力

在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。

5）异步通信

很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

1.2.2 消息队列的两种模式

（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）灵活性非常差，生产者，不好用。一对一发布订阅模式，kafka 模式一对多模式

消息生产者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费消息。

消息被消费以后，queue中不再有存储，所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。

（2）发布/订阅模式（一对多，消费者消费数据之后不会清除消息）

Kafka是发布订阅模式。消息生产者（发布）将消息发布到topic中，同时有多个消息消费者（订阅）消费该消息。和点对点方式不同，发布到topic的消息会被所有订阅者消费。

1.3 Kafka基础架构

1）Producer ：消息生产者，就是向kafka broker发消息的客户端；

2）Consumer ：消息消费者，向kafka broker取消息的客户端；

3）Consumer Group （CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据，同一个topic的一个分区只能由同一个组内一个消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。比如组长组员大家共同干一件事，每个人干一件事，干了什么是由kafka记录组长也记录一份，这样大家在聚集在一起的时候，还是可以复原原文件。

4）Broker ：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic。

5）Topic ：可以理解为一个队列，生产者和消费者面向的都是一个topic；

6）Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列；

7）Replica：副本，为保证集群中的某个节点发生故障时，该节点上的partition数据不丢失，且kafka仍然能够继续工作，kafka提供了副本机制，一个topic的每个分区都有若干个副本，一个leader和若干个follower。

8）leader：每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是leader。

9）follower：每个分区多个副本中的“从”，实时从leader中同步数据，保持和leader数据的同步。leader发生故障时，某个follower会成为新的leader。

2.Kafka安装部署

2.1 单机版安装部署及简单命令操作

解压，改名

[root@kb129 install]# tar -xvf ./kafka_2.12-2.8.0.tgz -C ../soft/

[root@kb129 soft]# mv kafka_2.12-2.8.0/ kafka212

配置环境变量并source

[root@kb129 soft]# vim /etc/profile

#KAFKA_HOME

export KAFKA_HOME=/opt/soft/kafka212

export PATH=$KAFKA_HOME/bin:$PATH

创建kfk消息目录

[root@kb129 kafka212]# mkdir ./kfkdata

编辑配置文件

[root@kb129 kafka212]# vim ./config/server.properties

21 broker.id=0

36 advertised.listeners=PLAINTEXT://192.168.142.129:9092

60 log.dirs=/opt/soft/kafka212/kfkdata #消息存放目录

103 log.retention.hours=1680 #消息存放时间小时（70天）

123 zookeeper.connect=192.168.142.129:2181 #连接zookeeper

137 delete.topic.enable=true #设置可以对topic删除，默认不能删除

启动zookeeper

[root@kb129 kafka212]# zkServer.sh start

启动kafka服务

[root@kb129 kafka212]# nohup kafka-server-start.sh /opt/soft/kafka212/config/server.properties &

[root@kb129 kafka212]# jps

12162 Kafka

查看zookeeper客户端文件夹

[zk: localhost:2181(CONNECTED) 0] ls /

[cluster, controller, brokers, zookeeper, admin, isr_change_notification, log_dir_event_notification, controller_epoch, feature, consumers, latest_producer_id_block, config, hbase]

创建一个topic

[root@kb129 kafka212]# kafka-topics.sh --create --zookeeper 192.168.142.129:2181 --topic kb23 --partitions 1 --replication-factor 1

Created topic kb23.

查看topic

[root@kb129 kafka212]# kafka-topics.sh --zookeeper 192.168.142.129:2181 --list

kb23

打开生产者（发布消息，消费者可以收到消息）

[root@kb129 kafka212]# kafka-console-producer.sh --topic kb23 --broker-list 192.168.142.129:9092

打开消费者

[root@kb129 kafka212]# kafka-console-consumer.sh --bootstrap-server 192.168.142.129:9092 --topic kb23 --from-beginning

--from-beginning会收取以前发布的消息，不加则只接受新消息

查看topic详情

[root@kb129 kafka212]# kafka-topics.sh --zookeeper 192.168.142.129:2181 --describe --topic kb23

Topic: kb23 TopicId: gU3K3a9SR1Gl0zQlPiIuwA PartitionCount: 1 ReplicationFactor: 1 Configs:

Topic: kb23 Partition: 0 Leader: 0 Replicas: 0 Isr: 0

查看topic分区消息数量

[root@kb129 kafka212]# kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list 192.168.142.129:9092 --topic kb23

kb23:0:1 kb23，0号分区，1条消息

删除topic

[root@kb129 kafka212]# kafka-topics.sh --zookeeper 192.168.142.129:2181 --delete --topic kb23

创建3分区topic

[root@kb129 kafka212]# kafka-topics.sh --create --zookeeper 192.168.142.129:2181 --topic bigdata --partitions 3 --replication-factor 1

查看topic详情

[root@kb129 kafka212]# kafka-topics.szookeeper 192.168.142.129:2181 --describe --topic bigdata

Topic: bigdata TopicId: jGAbV19lRjG_qpF4VyLHaA PartitionCount: 3 ReplicationFactor: 1 Configs:

Topic: bigdata Partition: 0 Leader: 0 Replicas: 0 Isr: 0

Topic: bigdata Partition: 1 Leader: 0 Replicas: 0 Isr: 0

Topic: bigdata Partition: 2 Leader: 0 Replicas: 0 Isr: 0

发布11条消息后查看分区分布情况

[root@kb129 kafka212]# kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list 192.168.142.129:9092 --topic bigdata

bigdata:0:5

bigdata:1:2

bigdata:2:4

2.2 集群版安装部署及简单命令操作

在node1节点上解压，改名

[root@node1 install]# tar -xvf ./kafka_2.12-2.8.0.tgz -C ../soft/

[root@ node1 soft]# mv kafka_2.12-2.8.0/ kafka212

配置环境变量并source

[root@ node1 soft]# vim /etc/profile

#KAFKA_HOME

export KAFKA_HOME=/opt/soft/kafka212

export PATH=$KAFKA_HOME/bin:$PATH

创建kfk消息目录

[root@ node1 kafka212]# mkdir ./kfkdata

编辑配置文件

[root@ node1 kafka212]# vim ./config/server.properties

21 broker.id=0

36 advertised.listeners=PLAINTEXT://192.168.142.136:9092

60 log.dirs=/opt/soft/kafka212/kfkdata #消息存放目录

103 log.retention.hours=1680 #消息存放时间小时（70天）

123 zookeeper.connect=192.168.142.136:2181, 192.168.142.137:2181, 192.168.142.138:2181 #连接zookeeper

137 delete.topic.enable=true #设置可以对topic删除，默认不能删除

拷贝文件至node2和node3节点

[root@node1 ~]# scp /etc/profile root@node2:/etc/

[root@node1 ~]# scp /etc/profile root@node3:/etc/

[root@node1 ~]# scp -r /opt/soft/kafka212/ root@node2:/opt/soft/

[root@node1 ~]# scp -r /opt/soft/kafka212/ root@node3:/opt/soft/

至node2和node3上source /etc/profile，并更改vim server.properties中的

21行的broker.id=1和broker.id=2

36行的advertised.listeners为本机IP

启动zookeeper

[root@ node1 kafka212]# zkServer.sh start

[root@ node2 kafka212]# zkServer.sh start

[root@ node3 kafka212]# zkServer.sh start

启动kafka服务

[root@ node1 kafka212]# nohup kafka-server-start.sh /opt/soft/kafka212/config/server.properties &

[root@ node2 kafka212]# nohup kafka-server-start.sh /opt/soft/kafka212/config/server.properties &

[root@ node3 kafka212]# nohup kafka-server-start.sh /opt/soft/kafka212/config/server.properties &

[root@ node1 kafka212]# jps

12162 Kafka

创建3分区3副本的topic

[root@node1 config]# kafka-topics.sh --create --zookeeper 192.168.142.136:2181,192.168.142.137:2181,192.168.142.138:2181 --topic njzb --partitions 3 --replication-factor 3

Created topic njzb.

或创建6分区，3副本的topic（命令稍优化）

[root@node1 ~]# kafka-topics.sh --create --bootstrap-server node1:9092 --topic bigdata --partitions 6 --replication-factor 3

Created topic bigdata.

查看topic详情

[root@node1 shell]# kafka-topics.sh --zookeeper 192.168.142.136:2181,192.168.142.137:2181,192.168.142.138:2181 --describe --topic njzb

Topic: njzb TopicId: 1emHF1NNT-ScfQ5rsgXSAg PartitionCount: 3 ReplicationFactor: 3 Configs:

Topic: njzb Partition: 0 Leader: 2 Replicas: 2,0,1 Isr: 2,0,1

Topic: njzb Partition: 1 Leader: 0 Replicas: 0,1,2 Isr: 0,1,2

Topic: njzb Partition: 2 Leader: 1 Replicas: 1,2,0 Isr: 1,2,0

[root@node1 ~]# kafka-topics.sh --bootstrap-server node1:9092 --describe --topic bigdata

Topic: bigdata TopicId: _E1iavb_TiyCxGCnO_UUqA PartitionCount: 6 ReplicationFactor: 3 Configs: segment.bytes=1073741824

Topic: bigdata Partition: 0 Leader: 0 Replicas: 0,2,1 Isr: 0,2,1

Topic: bigdata Partition: 1 Leader: 2 Replicas: 2,1,0 Isr: 2,1,0

Topic: bigdata Partition: 2 Leader: 1 Replicas: 1,0,2 Isr: 1,0,2

Topic: bigdata Partition: 3 Leader: 0 Replicas: 0,1,2 Isr: 0,1,2

Topic: bigdata Partition: 4 Leader: 2 Replicas: 2,0,1 Isr: 2,0,1

Topic: bigdata Partition: 5 Leader: 1 Replicas: 1,2,0 Isr: 1,2,0

3. Kafka架构深入

3.1 Kafka工作流程及文件存储机制

Kafka中消息是以topic进行分类的，生产者生产消息，消费者消费消息，都是面向topic的。

一个topic下的每一个分区都单独维护自己的offset，所以分发到不同分区中的数据是不同的数据。消费者的分区维护是一个消费者组一个主题的一个分区维护一个offset。

topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是producer生产的数据。Producer生产的数据会被不断追加到该log文件末端，且每条数据都有自己的offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个offset，以便出错恢复时，从上次的位置继续消费。

由于生产者生产的消息会不断追加到log文件末尾，为防止log文件过大导致数据定位效率低下，Kafka采取了分片和索引机制，将每个partition分为多个segment。每个segment对应两个文件——“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名规则为：topic名称+分区序号。例如，first这个topic有三个分区，则其对应的文件夹为first-0,first-1,first-2。

00000000000000000000.index

00000000000000000000.log

00000000000000170410.index

00000000000000170410.log

00000000000000239430.index

00000000000000239430.log

index和log文件以当前segment的第一条消息的offset命名。下图为index文件和log文件的结构示意图。

“.index”文件存储大量的索引信息，索引信息按照数组的逻辑排列，“.log”文件存储大量的数据，数据直接紧密排列，索引文件中的元数据指向对应数据文件中message的物理偏移地址。

二分查找的方式迅速定位我们的offset 在哪里！

3.2 Kafka生产者

3.2.1 消息发送流程

Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中，涉及到了两个线程——main线程和Sender线程，以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulator，Sender线程不断从RecordAccumulator中拉取消息发送到Kafka broker。

相关参数：

batch.size：只有数据积累到batch.size之后，sender才会发送数据。

linger.ms：如果数据迟迟未达到batch.size，sender等待linger.time之后就会发送数据。

备注：在实际工作中 linger.ms=0;

3.2.2 数据可靠性保证

1）生产者发送数据到topic partition的可靠性保证

为保证producer发送的数据，能可靠的发送到指定的topic，topic的每个partition收到producer发送的数据后，都需要向producer发送ack（acknowledgement确认收到），如果producer收到ack，就会进行下一轮的发送，否则重新发送数据。

2）Topic partition存储数据的可靠性保证

（1）副本数据同步策略

方案	优点	缺点
半数以上完成同步，就发送ack	延迟低	选举新的leader时，容忍n台节点的故障，需要2n+1个副本
全部完成同步，才发送ack	选举新的leader时，容忍n台节点的故障，需要n+1个副本	延迟高

Kafka选择了第二种方案，原因如下：

①同样为了容忍n台节点的故障，第一种方案需要2n+1个副本，而第二种方案只需要n+1个副本，而Kafka的每个分区都有大量的数据，第一种方案会造成大量数据的冗余。

②虽然第二种方案的网络延迟会比较高，但网络延迟对Kafka的影响较小。

（2）ISR

采用第二种方案之后，设想以下情景：leader收到数据，所有follower都开始同步数据，但有一个follower，因为某种故障，迟迟不能与leader进行同步，那leader就要一直等下去，直到它完成同步，才能发送ack。这个问题怎么解决呢？

Leader维护了一个动态的in-sync replica set (ISR)，意为和leader保持同步的follower集合。当ISR中的follower完成数据的同步之后，leader就会给producer发送ack。如果follower长时间未向leader同步数据，则该follower将被踢出ISR，该时间阈值由replica.lag.time.max.ms参数设定。Leader发生故障之后，就会从ISR中选举新的leader。

（3）ack应答级别

对于某些不太重要的数据，对数据的可靠性要求不是很高，能够容忍数据的少量丢失，所以没必要等ISR中的follower全部接收成功。

所以Kafka为用户提供了三种可靠性级别，用户根据对可靠性和延迟的要求进行权衡，选择以下的配置。

acks参数配置：

acks：

0：这一操作提供了一个最低的延迟，partition的leader接收到消息还没有写入磁盘就已经返回ack，当leader故障时有可能丢失数据；

1： partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；

-1（all）： partition的leader和follower全部落盘成功后才返回ack。但是如果在follower同步完成后，broker发送ack之前，leader发生故障，那么会造成数据重复。

3）leader和 follower故障处理细节

LEO：指的是每个副本最大的offset；

HW：指的是消费者能见到的最大的offset，ISR队列中最小的LEO。

（1）follower故障

follower发生故障后会被临时踢出ISR，待该follower恢复后，follower会读取本地磁盘记录的上次的HW，并将log文件高于HW的部分截取掉，从HW开始向leader进行同步。等该follower的LEO大于等于该Partition的HW，即follower追上leader之后，就可以重新加入ISR了。

（2）leader故障

leader发生故障之后，会从ISR中选出一个新的leader，之后，为保证多个副本之间的数据一致性，其余的follower会先将各自的log文件高于HW的部分截掉，然后从新的leader同步数据。

注意：这只能保证副本之间的数据一致性，并不能保证数据不丢失或者不重复。

3.2.3 Producer事务

0.11版本的Kafka同时引入了事务的特性，为了实现跨分区跨会话的事务，需要引入一个全局唯一的Transaction ID，并将Producer获得的PID和Transaction ID绑定。这样当Producer重启后就可以通过正在进行的Transaction ID获得原来的PID。

为了管理Transaction，Kafka引入了一个新的组件Transaction Coordinator。Producer就是通过和Transaction Coordinator交互获得Transaction ID对应的任务状态。Transaction Coordinator还负责将事务所有写入Kafka的一个内部Topic，这样即使整个服务重启，由于事务状态得到保存，进行中的事务状态可以得到恢复，从而继续进行。

3.2.4 发送API

1）导入依赖


  org.apache.kafka
  kafka-clients
  2.8.0


  org.apache.kafka
  kafka_2.12
  2.8.0

2）编写代码

需要用到的类：

KafkaProducer：需要创建一个生产者对象，用来发送数据

ProducerConfig：获取所需的一系列配置参数

ProducerRecord：每条数据都要封装成一个ProducerRecord对象

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.common.serialization.StringSerializer;

import java.util.Properties;
import java.util.Scanner;

/*
* kafka生产者
* */
public class MyProducer {
    public static void main(String[] args) {
        // 1. 创建kafka生产者配置类
        Properties properties = new Properties();

        // 2. 添加配置参数
        // 添加连接
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.142.129:9092");
        // 配置key,value序列化
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
            properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,StringSerializer.class);

        /*配置ack响应，
        0：不等待broker响应，无法确保数据正确送到broker中
        1：只需要得到分区副本中Leader确认就OK，可能会数据丢失
        -1：等到所有副本确认收到信息，响应时间最长，数据最安全，不会丢失数据，可能会数据重复
        */
        properties.put(ProducerConfig.ACKS_CONFIG,"-1");

        // 3. 创建kafka生产者对象
        KafkaProducer kafkaProducer = new KafkaProducer(properties);

        // 4. 循环输入，调用send方法,发送消息
        Scanner scanner = new Scanner(System.in);
        while (true){
            System.out.print("请输入内容：");
            String msg = scanner.nextLine();
            if(msg.equals("tt")){
                break;
            }
            ProducerRecord record = new ProducerRecord("bigdata", msg);
            kafkaProducer.send(record);
        }

        // 5. 关闭资源
        kafkaProducer.close();
    }
}

2）多线程测试数据丢失（通过配置参数，线程休眠时间解决）

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.common.serialization.StringSerializer;

import java.util.Properties;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

public class Myproducer2 {
    public static void main(String[] args) {
        // 1. 创建kafka生产者配置类
        final Properties properties = new Properties();

        // 2. 添加配置参数
        // 添加连接
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.142.129:9092");
        // 配置key,value序列化
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,StringSerializer.class);
        // 配置消息发送失败重试次数3（默认为0）
        properties.put(ProducerConfig.RETRIES_CONFIG,3);
        //两次重试时间间隔ms（默认为100ms）,设置1000ms后重试
        properties.put(ProducerConfig.RECONNECT_BACKOFF_MAX_MS_CONFIG,1000);
        // 批次大小 默认16K,16384byte
        properties.put("batch.size", 102400);
        //发送缓存大小
        properties.put(ProducerConfig.SEND_BUFFER_CONFIG,102400);
        // RecordAccumulator缓冲区大小 默认32M，33554432
        properties.put("buffer.memory", 67108864);
        /*
        // 等待时间
        properties.put("linger.ms", 1);
        */
       
        /*配置ack响应，
        0：不等待broker响应，无法确保数据正确送到broker中
        1：只需要得到分区副本中Leader确认就OK，可能会数据丢失
        -1：等到所有副本确认收到信息，响应时间最长，数据最安全，不会丢失数据，可能会数据重复
        */
        properties.put(ProducerConfig.ACKS_CONFIG,"-1");

        ExecutorService executorService = Executors.newCachedThreadPool();

        // 3. 调用线程循环输入，调用send方法,发送消息
        for (int i = 0; i < 10; i++) {
            Thread thread = new Thread(new Runnable() {
                public void run() {
                    // 4. 创建kafka生产者对象
                    KafkaProducer kafkaProducer = new KafkaProducer(properties);
                    String threadName = Thread.currentThread().getName();
                    for (int j = 0; j < 100000; j++) {
                        ProducerRecord record = new ProducerRecord("bigdata", threadName + " " + j);
                        kafkaProducer.send(record);
                    }
                }
            });
            executorService.execute(thread);
        }
        executorService.shutdown();
        while (true){
            try {
                //设置主程序休眠时间，程序可以等待，或者进入retries重发
                Thread.sleep(10000);
            } catch (InterruptedException e) {
                throw new RuntimeException(e);
            }
            if (executorService.isTerminated()){
                System.out.println("game over");
                break;
            }
        }
    }
}

3.3 Kafka消费者

3.3.1 消费方式

consumer采用pull（拉）模式从broker中读取数据。

push（推）模式很难适应消费速率不同的消费者，因为消息发送速率是由broker决定的。它的目标是尽可能以最快速度传递消息，但是这样很容易造成consumer来不及处理消息，典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息。

pull模式不足之处是，如果kafka没有数据，消费者可能会陷入循环中，一直返回空数据。针对这一点，Kafka的消费者在消费数据时会传入一个时长参数timeout，如果当前没有数据可供消费，consumer会等待一段时间之后再返回，这段时长即为timeout。

3.3.2 基础消费者

注意：在消费者代码中必须配置消费者组，命令行启动消费者不填写消费者组会被自动填写随机的消费者组。

1）编写代码

需要用到的类：

KafkaConsumer：需要创建一个消费者对象，用来消费数据

ConsumerConfig：获取所需的一系列配置参数

ConsuemrRecord：每条数据都要封装成一个ConsumerRecord对象

为了使我们能够专注于自己的业务逻辑，Kafka提供了自动提交offset的功能。

自动提交offset的相关参数：

enable.auto.commit：是否开启自动提交offset功能

auto.commit.interval.ms：自动提交offset的时间间隔

2）消费者自动提交和手动提交offset

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.time.Duration;
import java.util.Collections;
import java.util.Properties;

public class MyConsumer2 {
    public static void main(String[] args) {
        // 1.创建消费者的配置对象
        Properties properties = new Properties();

        // 2.给消费者配置对象添加参数 必须设置
        properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "kb129:9092");

        // 配置反序列化 必须设置
        properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
        properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);

        /*
        * earliest:当各分区下有已提交的offset时，从提交的offset开始消费（第二次消费）；无提交的offset时（等于第一次消费），从头开始消费
        * latest:  当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，仅消费新消息
        * none:    当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，抛出异常
        */
        properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"earliest");
        //设置是否自动提交，获取数据的状态，false为手动提交
        properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,"false");
        //设置提交的时间间隔，1000ms提交一次
        properties.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG,"1000");

        // 配置消费者组 必须设置
        properties.put(ConsumerConfig.GROUP_ID_CONFIG, "threadGroup1");

        for (int i = 0; i < 3; i++) {
            new Thread(new Runnable() {
                @Override
                public void run() {
                    // 创建消费者对象
                    KafkaConsumer kafkaConsumer = new KafkaConsumer(properties);
                    // 连接topic主题
                    kafkaConsumer.subscribe(Collections.singleton("xxww"));
                    // 拉取数据打印
                    while (true) {
                        ConsumerRecords consumerRecords = kafkaConsumer.poll(Duration.ofMillis(100));
                        for (ConsumerRecord record : consumerRecords) {
                            System.out.println(Thread.currentThread().getName() +"  topic: " + record.topic()
                                    + "  partition: "+ record.partition() +"  offset:"+record.offset()
                                    +"  value:"+record.value()+"  timestamp:"+record.timestamp());
                        }
                        //手动提交offset代码
                        //kafkaConsumer.commitAsync();
                    }
                }
            }).start();
        }
    }
}

3.3.3 重置Offset

auto.offset.reset = earliest | latest | none |

当Kafka中没有初始偏移量（消费者组第一次消费）或服务器上不再存在当前偏移量时（例如该数据已被删除），该怎么办：

（1）earliest：自动将偏移量重置为最早的偏移量

（2）latest(默认值)：自动将偏移量重置为最新偏移量

（3）none：如果未找到消费者组的先前偏移量，则向消费者抛出异常

数据漏消费和重复消费分析

我们知道消息的拉取是根据poll（）方法中的逻辑来处理的，这个poll（）方法中的逻辑对于普通的开发人员而言是一个黑盒，无法精确地掌控其消费的起始位置。提供的auto.offset.reset 参数也只能在找不到消费位移或位移越界的情况下粗粒度地从开头或末尾开始消费。无论怎么设置auto.offset.reset都有可能会造成数据的漏消费或者重复消费。先提交offset后消费，有可能造成数据的漏消费；而先消费后提交offset，有可能会造成数据的重复消费。

使用seek，记录上次消费offset，即可精准消费，这种指定方式的特点：可以立刻从offset消费，即使上次已经消费到末尾，也能马上回到特定的offset

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.TopicPartition;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.time.Duration;
import java.util.Collections;
import java.util.HashSet;
import java.util.Properties;
import java.util.Set;

public class MyConsumerSeek {
    public static void main(String[] args) {
        // 1.创建消费者的配置对象
        Properties properties = new Properties();

        // 2.给消费者配置对象添加参数 必须设置
        properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "kb129:9092");

        // 配置反序列化 必须设置
        properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
        properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);

        /*
        * earliest:当各分区下有已提交的offset时，从提交的offset开始消费（第二次消费）；无提交的offset时（第一次消费），从头开始消费
        * latest:  当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，消费新消息
        * none:    当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，抛出异常
        */
        properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"earliest");
        //设置是否自动提交，获取数据的状态，false为手动提交
        properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,"false");
        //设置提交的时间间隔，1000ms提交一次
        properties.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG,"1000");

        // 配置消费者组 必须设置
        properties.put(ConsumerConfig.GROUP_ID_CONFIG, "groupA3");

        // 创建消费者对象
        KafkaConsumer kafkaConsumer = new KafkaConsumer(properties);
        // 连接主题
        kafkaConsumer.subscribe(Collections.singleton("kb23"));

        Set assignment = new HashSet();
        while (assignment.size() == 0){
            kafkaConsumer.poll(Duration.ofMillis(1000));
            assignment = kafkaConsumer.assignment();
        }
        for (TopicPartition topicPartition : assignment) {
            System.out.println("topic: " + topicPartition.topic() + "  partition: "+ topicPartition.partition());
            // 精准从某某分区，某某offset开始消费，partition0:offset1  1:2  2:0
            if (topicPartition.partition() == 0){
                kafkaConsumer.seek(topicPartition, 1);
            } else if (topicPartition.partition() == 1) {
                kafkaConsumer.seek(topicPartition, 2);
            } else if (topicPartition.partition() == 2) {
                kafkaConsumer.seek(topicPartition, 0);
            }
        }

        // 拉取数据打印
        while (true) {
            ConsumerRecords records = kafkaConsumer.poll(Duration.ofMillis(100));
            for (ConsumerRecord record : records) {
                System.out.println("topic: " + record.topic() + "  partition: "+ record.partition()
                        +"  offset:"+record.offset()+"  value:"+record.value()+"  timestamp:"+record.timestamp());
            }
            /*//手动提交代码
            kafkaConsumer.commitAsync();*/
        }
    }
}

3.3.4 offset的维护

由于consumer在消费过程中可能会出现断电宕机等故障，consumer恢复后，需要从故障前的位置的继续消费，所以consumer需要实时记录自己消费到了哪个offset，以便故障恢复后继续消费。

Kafka 0.9版本之前，consumer默认将offset保存在Zookeeper中，从0.9版本开始，consumer默认将offset保存在Kafka一个内置的topic中，该topic为__consumer_offsets。

3.3.5 分区分配策略

一个consumer group中有多个consumer，一个 topic有多个partition，所以必然会涉及到partition的分配问题，即确定那个partition由哪个consumer来消费。

Kafka有两种分配策略，RoundRobin，Range。

1）RoundRobin

2）Range

修改主题first为7个分区

[atguigu@hadoop102 ~]$ kafka-topics.sh --bootstrap-server hadoop102:9092 --alter --topic first --partitions 7

复制基础消费者一个三个，消费者组都是“test”，同时启动3个消费者。

启动生产者，发送500条消息，随机发送到不同的分区：

// 4. 调用send方法发送消息

for (int i = 0; i < 500; i++) {

kafkaProducer.send(new ProducerRecord<>("first","atguigu" + i));

// 避免发送到同一个分区

Thread.sleep(2);

}

观看3个消费者分别消费哪些分区的数据

默认使用Range的分区分配策略，可以通过参数"partition.assignment.strategy"的值进行修改，可以使用多个分区分配策略。

注意：3个消费者都应该修改分区分配策略，避免出现错误，如果重启失败，则全部停止消费者等一会再启动即可

// 修改分区分配策略

properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, "org.apache.kafka.clients.consumer.RoundRobinAssignor");

重启3个消费者，重复发送消息的步骤，观看分区结果

3）Sticky

特殊的分配策略StickyAssignor，Kafka从0.11.x版本开始引入这种分配策略，在出现同一消费者组内消费者出现问题的时候，会进行使用。

在上个演示基础上，停止2号消费者，重新发送500条消息

可以看到分区重新进行了划分，此时没有使用粘性分区器。

修改分区分配策略

注意：3个消费者都应该注释掉，之后重启3个消费者，如果出现报错，全部停止等会再重启，或者修改为全新的消费者组

// 修改分区分配策略

ArrayList strings = new ArrayList<>();

strings.add("org.apache.kafka.clients.consumer.RoundRobinAssignor");

strings.add("org.apache.kafka.clients.consumer.StickyAssignor");

properties.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, strings);

使用同样的生产者发送500条消息

可以看到按照roundRobin规则划分分区

停止掉0号消费者，重新发送消息观看结果

保留了上一次分配中对于消费者1号和2号的所有分配结果，只分配0号原先消费的分区，1号消费2 、5 、3号分区，2号消费1、 4 、 6 、0号分区。

3.4 Kafka 高效读写数据

1，分区

1）顺序写磁盘

Kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到600M/s，而随机写只有100K/s。这与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。

2）应用 Pagecache

Kafka数据持久化是直接持久化到Pagecache中，这样会产生以下几个好处：

I/O Scheduler 会将连续的小块写组装成大块的物理写从而提高性能
I/O Scheduler 会尝试将一些写操作重新按顺序排好，从而减少磁盘头的移动时间
充分利用所有空闲内存（非 JVM 内存）。如果使用应用层 Cache（即 JVM 堆内存），会增加 GC 负担
读操作可直接在 Page Cache 内进行。如果消费和生产速度相当，甚至不需要通过物理磁盘（直接通过 Page Cache）交换数据
如果进程重启，JVM 内的 Cache 会失效，但 Page Cache 仍然可用

尽管持久化到Pagecache上可能会造成宕机丢失数据的情况，但这可以被Kafka的Replication机制解决。如果为了保证这种情况下数据不丢失而强制将 Page Cache 中的数据 Flush 到磁盘，反而会降低性能。

3）零复制技术

kafka数据可靠性深度解读：kafka数据可靠性深度解读_朱小厮的博客-CSDN博客

4. Kafka-eagle（kafka监控）

解压至当前目录

[root@node1 install]# tar -zxf ./kafka-eagle-bin-3.0.1.tar.gz

[root@node1 install]# cd ./kafka-eagle-bin-3.0.1

[root@node1 kafka-eagle-bin-3.0.1]# tar -xvf ./efak-web-3.0.1-bin.tar.gz -C /opt/soft/

[root@node1 soft]# mv ./efak-web-3.0.1/ efak

配置环境变量并source

# kafkaEagle

export KE_HOME=/opt/soft/efak

export PATH=$KE_HOME/bin:$PATH

更改kafka启动命令脚本

[root@node1 ~]# vim /opt/soft/kafka212/bin/kafka-server-start.sh

28 if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then

29 #export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G"

30 export KAFKA_HEAP_OPTS="-server -Xms2G -Xmx2G -XX:PermSize=128m -XX:+UseG1GC -X X:MaxGCPauseMillis=200 -XX:ParallelGCThreads=8 -XX:ConcGCThreads=5 -XX:InitiatingHe apOccupancyPercent=70"

31 export JMX_PORT="9999"

32 fi

更改完成后分发至其他节点

[root@node1 ~]# scp /opt/soft/kafka212/bin/kafka-server-start.sh root@node2:/opt/soft/kafka212/bin/

[root@node1 ~]# scp /opt/soft/kafka212/bin/kafka-server-start.sh root@node3:/opt/soft/kafka212/bin/

更改efak内部配置文件

[root@node1 install]# vim /opt/soft/efak/conf/system-config.properties

5 efak.zk.cluster.alias=cluster1

6 cluster1.zk.list=node1:2181,node2:2181,node3:2181

52 cluster1.efak.offset.storage=kafka

#删除53行多余的集群

122 efak.driver=com.mysql.cj.jdbc.Driver

123 efak.url=jdbc:mysql://192.168.142.129:3306/ke?useUnicode=true&characterEncoding=UTF -8&zeroDateTimeBehavior=convertToNull

124 efak.username=root

125 efak.password=123456

启动zookeeper集群

启动kafka集群

在node1上启动efak

[root@node1 ~]# ke.sh start

进入网页，输入用户名密码可查看kafka集群实时状态

结合API模拟生产者和消费者，生产数据和消费数据

（1）页面生产消息至指定topic，可在控制台实时查看消费情况

（2）可通过ksql查看分区内offset数据

（3）查看消费者实时消费情况

你可能感兴趣的:(kafka,分布式)

亿级分布式系统架构演进实战（七）- 横向扩展（安全防护设计） power-辰南 java技术架构师成长专栏 spring boot 分布式架构设计高并发安全防护
亿级分布式系统架构演进实战（一）-总体概要亿级分布式系统架构演进实战（二）-横向扩展（服务无状态化）亿级分布式系统架构演进实战（三）-横向扩展（数据库读写分离）亿级分布式系统架构演进实战（四）-横向扩展（负载均衡与弹性伸缩）亿级分布式系统架构演进实战（五）-横向扩展（缓存策略设计）亿级分布式系统架构演进实战（六）-横向扩展（监控与日志体系）核心目标保障系统免受攻击，确保数据安全一、安全防护设计1.
亿级分布式系统架构演进实战（一）- 总体概要 power-辰南 java技术架构师成长专栏高并发分布式系统微服务架构设计 springcloud
前言不说废话，这次分享是某500强企业真实亿级流量业务中台技术架构演进过程实战。核心目标构建一个兼具高性能、高可用、强一致性的分布式系统，支撑亿级流量场景下的稳定运行。演进路线大纲阶段一：横向扩展（应对万级QPS）核心目标：突破单机性能瓶颈，建立弹性基础[Nginx]/|\[App1][App2][App3]←无状态服务集群\|/[DBProxy]←读写分离中间件/\[Master]←写节点[Sl
亿级分布式系统架构演进实战（三）- 横向扩展（数据库读写分离） power-辰南 java技术架构师成长专栏数据库 mysql 分布式系统 springcloud 架构设计
亿级分布式系统架构演进实战（一）-总体概要亿级分布式系统架构演进实战（二）-横向扩展（服务无状态化）核心目标分散数据库压力，提升读性能1.数据库架构设计数据库由原理的单实例变成主从模式，主主要负责写，从负责读。1.1主从角色定义节点类型数据流向核心职责主库读写（Write）处理事务性写操作（INSERT/UPDATE/DELETE）/部分读从库只读（Read）承担查询请求（SELECT），支持水平
亿级分布式系统架构演进实战（五）- 横向扩展（缓存策略设计） power-辰南 java技术架构师成长专栏多级缓存策略 spring cloud 分布式系统缓存一致性高并发缓存问题解决方案
亿级分布式系统架构演进实战（一）-总体概要亿级分布式系统架构演进实战（二）-横向扩展（服务无状态化）亿级分布式系统架构演进实战（三）-横向扩展（数据库读写分离）亿级分布式系统架构演进实战（四）-横向扩展（负载均衡与弹性伸缩）核心目标降低数据库读压力，提升响应速度一、多级缓存架构客户端CDN/浏览器缓存本地应用缓存分布式缓存数据库缓冲池1.1客户端缓存缓存数据类型：•静态资源（JS/CSS/图片）•
Kafka深度解析 GarfieldEr007 Kafka/MQ Kafka 深度解析 MQ
原创文章，转载请务必将下面这段话置于文章开头处（保留超链接）。本文转发自Jason’sBlog，原文链接http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍Kafka简介Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价
SpringBoot整合阿里云、腾讯云、minio、百度云、华为云、天翼云、金山云、七牛云、移动云、网易数帆等等有关于S3协议下文分布式对象存储接口 java初学者分享阿里云腾讯云华为云
前提：在可运行的SpringBoot的项目内引用以下JAR包整个工具的代码都在Gitee或者Github地址内gitee：solomon-parent:这个项目主要是总结了工作上遇到的问题以及学习一些框架用于整合例如:rabbitMq、reids、Mqtt、S3协议的文件服务器、mongodbgithub：GitHub-ZeroNing/solomon-parent:这个项目主要是总结了工作上遇到
传统金融和分布式金融倒霉男孩 DeFi 金融分布式
文章目录传统金融和分布式金融一、传统金融机构的核心问题深度剖析1.支付与清算系统的结构性缺陷2.金融排斥（FinancialExclusion）的根源3.中心化风险的爆发与传导二、DeFi的技术突破与创新机制1.支付与清算：区块链的底层重构2.普惠金融的技术民主化3.去中心化治理与透明化运作三、DeFivs传统金融的范式革命1.价值传递范式的颠覆2.风险分散机制的升级3.经济模型的创新实验四、De
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
关于kafka常见的问题小结 BAStriver #Kafka 中间件 kafka 分布式
目录1.Kafka怎么避免重复消费1.1什么时候出现重复消费1.2如何处理重复消费问题2.Kafka怎么保证消息不丢失2.1Producer2.2Broker2.3Consumer3.Kafka怎么保证消息消费的顺序最近面试遇到一些常见kafka问题，所以做一下总结。1.Kafka怎么避免重复消费1.1什么时候出现重复消费1)Kafka的broker上存储的消息都有一个offset作为标记，然后K
【Kafka高级】Kafka性能优化与调优实践全栈追梦人 kafka 性能优化 linq
在大规模数据处理和实时消息传递场景中，Kafka的性能优化至关重要。本文将从生产者性能优化、消费者性能优化以及集群性能调优三个方面展开，结合实际代码示例和配置参数，帮助读者更好地理解和应用Kafka性能优化策略。一、生产者性能优化Kafka生产者的性能直接影响消息发送的效率和系统的吞吐量。以下是一些关键优化策略：1.1批量发送生产者会将消息批量发送到Kafka，减少网络请求次数。以下参数对批量发送
消息中间件：RabbitMQ、Kafka 和 Redis如何选择？一文让您了解！写bug如流水架构设计 rabbitmq kafka redis 中间件
RabbitMQ、Kafka和Redis是三种常见的消息中间件，它们各自具有不同的特点和适用的场景。以下是对它们使用场景及选择的分析：1.RabbitMQRabbitMQ是一个基于AMQP（AdvancedMessageQueuingProtocol）的消息队列系统，主要用于消息传递和任务分发，具有可靠的消息传递机制。使用场景：复杂的路由机制：RabbitMQ支持多种交换器类型（如fanout、d
Kafka Connect Node.js Connector 指南丁操余
KafkaConnectNode.jsConnector指南kafka-connectequivalenttokafka-connect:wrench:fornodejs:sparkles::turtle::rocket::sparkles:项目地址:https://gitcode.com/gh_mirrors/ka/kafka-connect项目介绍KafkaConnectNode.jsConn
消息中间件选型: kafka与rabbitmq的对比 HS_Henry 消息中间件 rabbitmq kafka 消息中间件选型
RabbitMQ总结_陈海龙的格物之路-CSDN博客https://blog.csdn.net/chl87783255/article/details/122606212kafka总结_陈海龙的格物之路-CSDN博客kafka，仅支持拉取的分布式流式平台。本文从简介、使用场景、设计、实现四个方面阐述kafka。https://blog.csdn.net/chl87783255/article/de
RabbitMQ 与 Kafka：消息中间件的终极对比与选型指南海上彼尚 node.js rabbitmq kafka 分布式 node.js
引言在分布式系统架构中，消息中间件是异步通信的核心组件。RabbitMQ和Kafka作为两大主流技术，常被开发者拿来比较。本文深入解析两者的设计哲学、性能差异和典型场景，助你做出精准技术选型。目录引言一、核心设计差异1.定位与数据模型二、性能与架构对比1.吞吐量与延迟2.集群与扩展三、功能特性对决1.消息可靠性2.消息路由四、典型场景与选型决策1.优先选择Kafka的场景2.优先选择RabbitM
哈希表的前沿演进：从经典实现到未来潜力大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
摘要：哈希表（HashTable）作为一种基本且高效的数据结构，已广泛应用于计算机科学的各个领域。从数据库的索引、缓存系统到密码学、分布式系统中，哈希表都发挥着至关重要的作用。随着计算需求的不断增长，哈希表的性能优化及其新型变种已成为当前研究的热点。本文将探讨哈希表的经典实现方式及其优化技术，并展望未来在量子计算、分布式存储等领域的潜在应用。1.引言：哈希表作为一种具有常数时间复杂度（O(1)）的
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
SVN学习无妄无望工具使用 svn 学习
1、SVN是什么SVN（Subversion）是一个开源的版本控制系统，用于跟踪文件和目录的更改。它允许团队协作开发项目，管理代码的版本历史，并支持多人同时对代码进行修改和提交。SVN是集中式版本控制系统（CVCS）的代表之一，与Git（分布式版本控制系统）不同，SVN的代码库通常存储在一个中央服务器上。SVN的主要特点版本控制：记录文件和目录的每一次更改，支持版本回溯和历史查看。多人协作：允许多
【服务器数据恢复】数据中心存储服务器VMware vSAN分布式存储架构数据恢复解析海境超备服务器分布式架构网络安全系统安全运维
随着企业数据中心的数据量的不断增加，数据存储和恢复成为了企业必须面对的重要问题。vSAN（VirtualStorageAreaNetwork）分布式存储架构是一种新型的存储技术，它可以有效地解决企业数据存储和管理方面的问题。本文将详细介绍vSAN分布式存储架构的原理和特点，并解析其数据恢复的原理和方法。分布式文件系统（DistributedFileSystem，DFS）是一种能够在多台计算机之间共
HarmonyOS第27天:鸿蒙开发新征程探索未来，持续进阶老三不说话、 HarmonyOS开发 harmonyos 华为
HarmonyOS：开发领域的璀璨新星在万物互联的时代浪潮中，HarmonyOS犹如一颗璀璨的新星，照亮了智能设备的发展道路。作为一款由华为公司开发的面向万物互联时代的全场景分布式操作系统，HarmonyOS自诞生以来，就以其独特的技术架构和卓越的性能表现，吸引了全球开发者的目光。HarmonyOS的分布式架构是其核心优势之一。它将各个终端设备视为一个整体，通过分布式软总线、分布式数据管理等技术，
Redis: 深入解析高性能内存数据库的实现原理一休哥助手数据库数据库 redis 缓存
一、Redis简介Redis是一种基于内存的键值存储数据库，支持丰富的数据类型，如字符串、列表、集合、有序集合和哈希表。它不仅具有极高的性能，还支持数据持久化、主从复制和分布式架构，使其在各种应用场景中表现出色。1.1Redis的特点高性能：Redis所有操作都在内存中完成，读写速度非常快。丰富的数据类型：支持字符串、列表、集合、有序集合和哈希表等多种数据类型。持久化：支持RDB（RedisDat
Redis 三主三从集群部署的完整方案 Honmaple redis 数据库缓存
一、架构设计原理‌分布式数据分片哈希槽机制‌：RedisCluster将数据划分为16384个槽位，每个主节点负责部分槽位（如主节点1管理槽0-5460，主节点2管理5461-10922等）。自动负载均衡‌：数据按哈希值分配到不同节点，避免单点性能瓶颈。高可用基础‌：每个主节点配置至少一个从节点，主节点故障时自动切换从节点接替。故障转移流程哨兵协同‌：3个哨兵节点通过投票机制（quorum=2）决
C++,Go 语言开发危险化学品流动跟踪APP Geeker-2025 c++golang
开发一款危险化学品流动跟踪APP是一个非常重要且复杂的项目，主要用于监控和管理危险化学品的运输、存储和使用过程，确保其符合安全规范，防止泄漏、误用或其他安全事故。该APP需要具备实时跟踪、数据记录、报警机制、权限管理等功能。C++和Go语言的结合在这个项目中可以发挥各自的优势：C++适合高性能计算、底层硬件交互和实时数据处理，而Go语言适合高性能后端服务、并发处理和分布式系统。---##1.**项
解析：浏览器事件冒泡及事件捕获 C860 浏览器浏览器
今天的效率有点奇葩，说高吧，一个上午做了不少事。说低吧，因为一个分布式的算法花了我不少时间，终于有点头绪。估计明天会写一篇文章来讲述一下自己的看法。而今天，还是回到前端。今天来说说事件冒泡和事件捕获。首先肯定是概念：什么是事件冒泡？什么是事件捕获？简单地说，事件冒泡和事件捕获都是一种事件传递的机制。这种机制可以使事件在不同级的元素间传递。事件冒泡是从事件触发的源节点，向父节点传递，直到到达最顶节点
Redis 详解 z小天才b Redis redis 数据库缓存
1.NoSQL的核心概念和应用场景核心概念NoSQL（NotOnlySQL）：一类非关系型数据库的统称，专为处理大规模数据存储而设计特点：高扩展性、高性能、灵活的数据模型、分布式架构CAP理论：一致性(Consistency)、可用性(Availability)、分区容错性(Partitiontolerance)，NoSQL通常优先保证AP或CP主要类型键值存储：Redis,Memcached文档
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
StarRocks 主键（Primary Key）深度解析数据库数据分析主键缓存物化视图
一、StarRocks产品简介StarRocks是一款高性能分析型数据库，专为海量数据的实时分析而设计。作为新一代湖仓（Lakehouse）加速引擎，StarRocks融合了MPP架构和列式存储引擎的优势，能够支持亿级数据秒级查询响应。核心特性：全面的数据模型：支持明细模型、主键模型和聚合模型，满足多样化业务场景实时数据分析：提供高效的数据导入与更新能力，支持实时数据处理分布式架构：采用无共享（S
【Redis系列】Redis从入门到进阶顶级教程小夕Coding 大数据系列数据库 redis java 缓存分布式
文章目录Redis单机环境搭建（1）下载并解压（2）编译（3）启动服务（4）启动客户端（5）修改访问配置一、概述二、数据类型（1）STRING（2）LIST（3）SET（4）HASH（5）ZSET三、数据结构（1）字典（2）跳跃表四、使用场景（1）计数器（1）缓存（2）查找表（3）消息队列（4）会话缓存（5）分布式锁实现（6）其它五、Redis与Memcached（1）数据类型（2）数据持久化（3
AI系统API网关原理与代码实战案例讲解 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI系统API网关原理与代码实战案例讲解1.背景介绍在现代分布式系统中，API网关作为一个重要的组件，起到了至关重要的作用。它不仅仅是一个简单的请求路由器，更是一个集成了安全、负载均衡、缓存、监控等多种功能的综合性服务。特别是在AI系统中，API网关的作用尤为重要，因为AI系统通常需要处理大量的数据请求，并且需要保证高可用性和高性能。API网关的概念最早出现在微服务架构中，旨在解决微服务之间的通信
算力技术演进与多场景融合路径智能计算研究中心其他
内容概要算力技术的演进正经历从异构计算到量子计算的范式跃迁。当前技术图谱中，芯片制程突破与架构创新持续推动算力密度提升，如5nm以下先进工艺与存算一体设计显著增强运算单元效率。与此同时，模型压缩、数据预处理等算法优化手段使单位算力产出提高30%以上。典型应用场景中，工业互联网通过自适应计算实现毫秒级实时控制，医疗影像领域借助分布式计算完成TB级数据处理，而智能安防系统依托边缘计算降低端到端时延至5
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement