Key-Key

大数据开发之Kafka（概述、快速入门、生产者）

第 1 章：Kafka概述

1.1 定义

Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。
发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息。

1.2 消息队列

目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。
在大多数场景主要采用Kafka作为消息队列
在JavaEE开发中主要采用ActiveMQ、RabbitMQ、RocketMQ

1.2.1 传统消息队列的应用场景

1、传统的消费队列的主要应用场景有：缓存/削峰（缓冲）、解耦（少依赖）、异步通信（不必要及时处理）
1）缓存/削峰（缓冲）：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。

2）解耦：允许你独立的扩展或修改两边的处理过程，只要确保它们遵循同样的接口约束。

3）异步通信：允许用户把一个消息放入队列，但并不立即处理它，然后再需要的时候再去处理它们。

1.2.2 消息队列的两种模式

消息队列主要分为两种模式：点对点模式（一个生产者对口一个消费者）和发布/订阅模式（一对多）

1.3 Kafka基础框架

1、Producer：消息生产者，就是向Kafka broker发消息的客户端
2、Consumer：消息消费者，向kafka broker获取消息的客户端
3、Consumer Group（CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据，一个broker可以由多个不同的topic，一个topic下的一个分区只能被一个消费者组内的一个消费者所消费；消费者之间不受影响。消费者组是逻辑上的一个订阅者。
4、Broker：一个kafka服务器就是一个broker。一个broker可以容纳多个不同topic
5、Topic：可以理解为一个队列，生产者和消费者面向的都是一个topic
6、Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列
7、Replica：副本，为保证集群中的某个节点发生故障时，该节点上的partition数据不丢失，且kafka仍然能够继续工作，kafka提供了副本机制，一个topic的每个发你去都有若干个副本，一个leader和若干个follower
8、leader：每个分区副本中的”主“，生产者发送数据的对象，以及消费者消费数据的对象都是leader
9、followeer：每个分区副本中的“从”，实现于leader副本保持同步，在leader发送故障时，称为新的leader

第 2 章：Kafka快速入门

2.1 安装部署

2.1.1 集群部署

2.1.2 集群部署

1、官方下载地址：http://kafka.apache.org/downloads.html
2、上传安装包到102的/opt/software目录下：

[atguigu@hadoop102 software]$ ll
-rw-rw-r--. 1 atguigu atguigu  86486610 3月  10 12:33 kafka_2.12-3.0.0.tgz

3、解压安装包到/opt/module/目录下

[atguigu@hadoop102 software]$ tar -zxvf kafka_2.12-3.0.0.tgz -C /opt/module/

4、进入到/opt/module目录下，修改解压包名为kafka

[atguigu@hadoop102 module]$ mv kafka_2.12-3.0.0 kafka

5、修改config目录下的配置文件server.properties内容如下

[atguigu@hadoop102 kafka]$ cd config/
[atguigu@hadoop102 config]$ vim server.properties
#broker的全局唯一编号，不能重复，只能是数字。
broker.id=102
#处理网络请求的线程数量
num.network.threads=3
#用来处理磁盘IO的线程数量
num.io.threads=8
#发送套接字的缓冲区大小
socket.send.buffer.bytes=102400
#接收套接字的缓冲区大小
socket.receive.buffer.bytes=102400
#请求套接字的缓冲区大小
socket.request.max.bytes=104857600
#kafka运行日志(数据)存放的路径，路径不需要提前创建，kafka自动帮你创建，可以配置多个磁盘路径，路径与路径之间可以用"，"分隔
log.dirs=/opt/module/kafka/datas
#topic在当前broker上的分区个数
num.partitions=1
#用来恢复和清理data下数据的线程数量
num.recovery.threads.per.data.dir=1
# 每个topic创建时的副本数，默认时1个副本
offsets.topic.replication.factor=1
#segment文件保留的最长时间，超时将被删除
log.retention.hours=168
#每个segment文件的大小，默认最大1G
log.segment.bytes=1073741824
# 检查过期数据的时间，默认5分钟检查一次是否数据过期
log.retention.check.interval.ms=300000
#配置连接Zookeeper集群地址（在zk根目录下创建/kafka，方便管理）
zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181/kafka

6、配置环境变量

[atguigu@hadoop102 kafka]$ sudo vim /etc/profile.d/my_env.sh
#KAFKA_HOME
export KAFKA_HOME=/opt/module/kafka
export PATH=$PATH:$KAFKA_HOME/bin
[atguigu@hadoop102 kafka]$ source /etc/profile

7、分发环境变量文件并source

[atguigu@hadoop102 kafka]$ xsync /etc/profile.d/my_env.sh
==================== hadoop102 ====================
sending incremental file list

sent 47 bytes  received 12 bytes  39.33 bytes/sec
total size is 371  speedup is 6.29
==================== hadoop103 ====================
sending incremental file list
my_env.sh
rsync: mkstemp "/etc/profile.d/.my_env.sh.Sd7MUA" failed: Permission denied (13)

sent 465 bytes  received 126 bytes  394.00 bytes/sec

total size is 371  speedup is 0.63
rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1178) [sender=3.1.2]
==================== hadoop104 ====================
sending incremental file list
my_env.sh
rsync: mkstemp "/etc/profile.d/.my_env.sh.vb8jRj" failed: Permission denied (13)

sent 465 bytes  received 126 bytes  1,182.00 bytes/sec
total size is 371  speedup is 0.63
rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1178) [sender=3.1.2]，
# 这时你觉得适用sudo就可以了，但是真的是这样吗？
[atguigu@hadoop102 kafka]$ sudo xsync /etc/profile.d/my_env.sh
sudo: xsync：找不到命令
# 这时需要将xsync的命令文件，copy到/usr/bin/下，sudo（root）才能找到xsync命令
[atguigu@hadoop102 kafka]$ sudo cp /home/atguigu/bin/xsync /usr/bin/
[atguigu@hadoop102 kafka]$ sudo xsync /etc/profile.d/my_env.sh
# 在每个节点上执行source命令,如何你没有xcall脚本，就手动在三台节点上执行source命令。
[atguigu@hadoop102 kafka]$ xcall source /etc/profile

8、分发安装包

[atguigu@hadoop102 module]$ xsync kafka/

9、修改配置文件的brokerid
分别在hadoop103和104上修改配置文件server.properties中的broker.id=103、broker.id=104
注：broker.id不得重复

[atguigu@hadoop103 kafka]$ vim config/server.properties
broker.id=103	
[atguigu@hadoop104 kafka]$ vim config/server.properties
broker.id=104

10、启动集群
1）先启动Zookeeper集群

[atguigu@hadoop102 kafka]$ zk.sh start

2）一次在102、103、104节点启动kafka

[atguigu@hadoop102 kafka]$ bin/kafka-server-start.sh -daemon config/server.properties	[atguigu@hadoop103 kafka]$ bin/kafka-server-start.sh -daemon config/server.properties	[atguigu@hadoop104 kafka]$ bin/kafka-server-start.sh -daemon config/server.properties

11、关闭集群

[atguigu@hadoop102 kafka]$ bin/kafka-server-stop.sh	
[atguigu@hadoop103 kafka]$ bin/kafka-server-stop.sh	
[atguigu@hadoop104 kafka]$ bin/kafka-server-stop.sh

2.1.4 kafka群起脚本

1、脚本编写
在/home/atguigu/bin目录下创建文件kafka.sh脚本文件：

#! /bin/bash
if (($#==0)); then
  echo -e "请输入参数：\n start  启动kafka集群;\n stop  停止kafka集群;\n" && exit
fi

case $1 in
  "start")
    for host in hadoop103 hadoop102 hadoop104
      do
        echo "---------- $1 $host 的kafka ----------"
        ssh $host "/opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/server.properties"
      done
      ;;
  "stop")
    for host in hadoop103 hadoop102 hadoop104
      do
        echo "---------- $1 $host 的kafka ----------"
        ssh $host "/opt/module/kafka/bin/kafka-server-stop.sh"
      done
      ;;
    *)
        echo -e "---------- 请输入正确的参数 ----------\n"
        echo -e "start  启动kafka集群;\n stop  停止kafka集群;\n" && exit
      ;;
esac

2、脚本文件添加权限

[atguigu@hadoop102 bin]$ chmod +x kafka.sh

注意：
停止Kafka集群时，一定要等kafka所有节点进程全部停止后再停止Zookeeper集群。
因为Zookeeper集群当中记录着kafka集群相关信息，Zookeeper集群一旦先停止，Kafka集群就没有办法再获取停止进程的信息，只能手动杀死Kafka进程了。

2.2 Kafka命令行操作

2.2.1 主题命令行操作

1、查看操作主题命令需要的参数

2、重要的参数如下

参数	描述
–bootstrap-server	连接kafka Broker主机名称和端口号
–topic	操作的topic名称
–create	创建主题
–delete	删除主题
–alter	修改主题
–list	查看所有主题
–describe	查看主题详细描述
–partitions	设置主题分区数
–replication-factor	设置主题分区副本
–config	更新系统默认的配置

3、查看当前服务器中的所有topic

[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --list

4、创建一个主题名称为first的topic

[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --create --replication-factor 3 --partitions 3 --topic first

5、查看topic的详情

[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --describe --topic first
Topic: first    TopicId: EVV4qHcSR_q0O8YyD32gFg PartitionCount: 1       ReplicationFactor: 3    Configs: segment.bytes=1073741824
        Topic: first    Partition: 0    Leader: 102     Replicas: 102,103,104   Isr: 102,103,104

6、修改分区数（注意：分区数只能增加，不能减少）

[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --alter --topic first --partitions 3

7、再次查看Topic的详情

[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --describe --topic first
Topic: first    TopicId: EVV4qHcSR_q0O8YyD32gFg PartitionCount: 3       ReplicationFactor: 3    Configs: segment.bytes=1073741824
        Topic: first    Partition: 0    Leader: 102     Replicas: 102,103,104   Isr: 102,103,104
        Topic: first    Partition: 1    Leader: 103     Replicas: 103,104,102   Isr: 103,104,102
        Topic: first    Partition: 2    Leader: 104     Replicas: 104,102,103   Isr: 104,102,103

8、删除topic

[atguigu@hadoop102 kafka]$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --delete --topic first

2.2.2 生产者命令行操作

1、查看命令行生产者的参数

[atguigu@hadoop102 kafka]$ bin/kafka-console-producer.sh

2、重要的参数如下：

参数	描述
–bootstrap-server	连接kafka Broker主机名称和端口号
–topic	操作的topic名称
3、生产消息

[atguigu@hadoop102 kafka]$ bin/kafka-console-producer.sh --broker-list hadoop102:9092 --topic first
>hello world
>atguigu  atguigu

2.2.3 消费者命令行操作

1、查看命令行消费者的参数

[atguigu@hadoop102 kafka]$ bin/kafka-console-consumer.sh

2、重要的参数如下：

参数	描述
–bootstrap-server	连接kafka Broker主机名称和端口号
–topic	操作的topic名称
–from-beginning	从头开始消费
–group	指定消费者组名称
3、消费消息

[atguigu@hadoop102 kafka]$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first

4、从头开始消费

[atguigu@hadoop102 kafka]$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --from-beginning --topic first

思考：再次查看当前kafka中的topic列表，发现了什么？为什么？

第 3 章：Kafka生产者

3.1 生产者消息发送流程

3.1.1 发送原理

Kafka的Producer发送消息采用的是异步发送的方式。
在消息发送的过程中，涉及到了两个线程：main线程和Sender线程，以及一个线程共享变量：RecordAccumulator。
1、main线程中创建了一个双端队列RecordAccumulator，将消息发送给RecordAccumulator。
2、Sender线程不断从RecordAccumulator中拉取消息发送到Kafka broker。

batch.size：只有数据积累到batch size之后，sender才会发送数据。默认16k
linger.ms：如果数据迟迟未达到batch.size，sender等待linger.ms设置的时间到了之后就会发送数据。单位ms，默认值0ms，表示没有延迟。
0：生产者发送过来的数据，不需要等数据磁盘应答。
1：生产者发送过来的数据，Leader收到数据后应答。
2：-l（all）：生产者发送过来的数据，Leader和SR队列里面的所有节点收起数据后应答。-l和all等价。

3.1.2 生产者重要参数列表

参数名称	描述
bootstrap.servers	生产者连接集群所需的broker地址清单。可以设置1个或者多个，中间用逗号隔开。生产者从给定的broker里查找到其它broker信息。
key.serializer、value.serializer	指定发送消息的key和value的序列化类型。要写全类名。（反射获取）
buffer.memory	RecordAccumulator缓冲区大小，默认32m。
batch.size	缓冲区一批数据最大值，默认16k。适当增加该值，可以提高吞吐量，但是如果该值设置太大，会导致数据传输延迟增加。
linger.ms	如果数据迟迟未达到batch.size，sender等待linger.time之后就会发送数据。单位ms，默认值是0ms，表示没有延迟。生产环境建议该值大小为5-100ms之间。
acks	0：生产者发送过来的数据，不需要等数据落盘应答。1：生产者发送过来的数据，Leader数据落盘后应答。-1（all）：生产者发送过来的数据，Leader和isr队列里面的所有节点数据都落盘后应答。默认值是-1
max.in.flight.requests.per.connection	允许最多没有返回ack的次数，默认为5，开启幂等性要保证该值是1-5的数字。
Retries（重试）	当消息发送出现错误的时候，系统会重发消息。retries表示重试次数。默认是int最大值，2147483647。如果设置了重试，还想保证消息的有序性，需要设置MAX_IN_flight_requests_per_connection=1否则在重试此失败消息的时候，其它的消息可能发送成功了。
retry.backoff.ms	两次重试之间的时间间隔，默认是100ms。
enable.idempotence	是否开启幂等性，默认true，开启幂等性。
compression.type	生产者发送的所有数据的压缩方式。默认是none，不压缩。支持压缩类型：none、gzip、snappy、lz4和zstd。

3.2 异步发送API

3.2.1 普通异步发送

1、需求：创建Kafka生产者，采用异步的方式发送到Kafka broker
2、异步发送流程如下：

3、代码编写
1）创建工程kafka-demo
2）导入依赖

<!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients -->
<dependencies>
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>3.0.0</version>
        </dependency>
</dependencies>

3）创建包名：com.atguigu.kafka.producer
4）编写代码：不带回调函数的API

package com.atguigu.kafka.producer;

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;

public class CustomProducer {
    public static void main(String[] args) throws InterruptedException {
        // 1. 创建kafka生产者的配置对象
        Properties properties = new Properties();

        // 2. 给kafka配置对象添加配置信息
        properties.put("bootstrap.servers","hadoop102:9092");

        // key,value序列化
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        // 3. 创建kafka生产者对象
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);

        // 4. 调用send方法,发送消息
        for (int i = 0; i < 10; i++) {
            kafkaProducer.send(new ProducerRecord<>("first","kafka" + i));
        }

        // 5. 关闭资源
        kafkaProducer.close();
    }
}

5）测试：
在hadoop102上开启kafka消费者

[atguigu@hadoop104 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first

在IDEA中执行上述代码，观察hadoop102消费者输出

[atguigu@hadoop104 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first
kafka0
kafka1
kafka2
kafka3
……

3.2.2 带回调函数的异步发送

1、回调函数callback()会在producer受到ack时调用，为异步屌用。
该方法有两个参数分别是RecordMetadata（元数据信息）和Exception（异常信息）。
1）如果Exception为null，说明消息发送成功。
2）如果Exception不为null，说明消息发送不成功。
2、带回掉函数的异步调用发送流程

注意：消息发送失败会自动重试，不需要我们在回调函数中手动重试。
3、编写代码：带回调函数的生产者

package com.atguigu.kafka.producer;

import org.apache.kafka.clients.producer.*;
import java.util.Properties;

public class CustomProducerCallback {
    public static void main(String[] args) throws InterruptedException {
        // 1. 创建kafka生产者的配置对象
        Properties properties = new Properties();

        // 2. 给kafka配置对象添加配置信息
        properties.put("bootstrap.servers", "hadoop102:9092");
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");
        // key,value序列化(必须)
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        // 3. 创建kafka生产者对象
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);

        // 4. 调用send方法,发送消息
        for (int i = 0; i < 10; i++) {
            // 添加回调
            kafkaProducer.send(new ProducerRecord<>("first", "kafka" + i), new Callback() {
                // 该方法在Producer收到ack时调用，为异步调用
                @Override
                public void onCompletion(RecordMetadata metadata, Exception exception) {
                    if (exception == null) 
                        // 没有异常,输出信息到控制台
                        System.out.println("主题"+recordMetadata.topic() +", 分区："+recordMetadata.partition()+", 偏移量："+recordMetadata.offset());
                }
            });
        }

        // 5. 关闭资源
        kafkaProducer.close();
    }
}

4、测试
1）在hadoop102上开启kafka消费者

[atguigu@hadoop104 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first

2）在IDEA中执行代码，观察hadoop102消费者输出

[atguigu@hadoop104 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first
kafka0
kafka1
kafka2
……

3）在IDEA控制台观察回调函数

主题first, 分区：0, 偏移量：10
主题first, 分区：0, 偏移量：11
主题first, 分区：0, 偏移量：12
主题first, 分区：0, 偏移量：13
主题first, 分区：0, 偏移量：14
主题first, 分区：0, 偏移量：15
主题first, 分区：0, 偏移量：16
主题first, 分区：0, 偏移量：17
主题first, 分区：0, 偏移量：18
主题first, 分区：0, 偏移量：19
……

3.3 同步发送API

1、同步发送的意思就是，一条消息发送之后，会阻塞当前线程，直至返回ack。
由于send方法返回的是一个Future对象，根据Future对象的特点，我们也可以实现同步发送的效果，只需要调用Future对象的get方法即可。
2、同步发送流程示意图如下：

3、编写代码：同步发送消息的生产者

package com.atguigu.kafka.producer;

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;
import java.util.concurrent.ExecutionException;

public class ConsumerProducerSync {
    public static void main(String[] args) throws InterruptedException, ExecutionException {
        // 1. 创建kafka生产者的配置对象
        Properties properties = new Properties();

        // 2. 给kafka配置对象添加配置信息
        //properties.put("bootstrap.servers","hadoop102:9092");
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop102:9092");
        // key,value序列化(必须)
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        // 3. 创建kafka生产者对象
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);

        // 4. 调用send方法,发送消息
        for (int i = 0; i < 10; i++) {

            // 同步发送
            kafkaProducer.send(new ProducerRecord<>("first","kafka" + i)).get();
        }

        // 5. 关闭资源
        kafkaProducer.close();
    }
}

4、测试
1）在hadoop102上开启kafka消费者

[atguigu@hadoop104 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first

2）在IDEA中执行代码，观察102消费者的消费情况

[atguigu@hadoop104 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first
kafka0
kafka1
kafka2
……

3.4 生产者分区

3.4.1 分区的原因

1、便于合理使用存储资源，每个Partition在一个Broker上存储，可以把海量的数据按照分区切割成一块一块的数据存储在多台Broker上。合理控制分区的任务，可以实现负载均衡的效果。
2、提高并行度，生产者可以以分区为单位发送数据；消费者可以以分区为单位进行消费数据。

3.4.2 生产者分区策略

1、默认分区器DefaultPartitioner

The default partitioning strategy:
·If a partition is specified in the record, use it
·If no partition is specified but a key is present choose a partition based on a hash of the key
·If no partition or key is present choose the sticky partition that changes when the batch is full.
public class DefaultPartitioner implements Partitioner {
… …
}

2、使用：
1）我们需要将producer发送的数据封装成一个ProducerRecord对象。
2）上述的分区策略，我们在ProducerRecord对象中进行配置。

3）策略实现

代码	解释
ProducerRecord(topic,partition_num,…)	指明partition的情况下直接发往指定的分区，key的分配方式将无效
ProducerRecord(topic,key,value)	没有指明partition值但有key的情况下：将key的hash值与topic的partition个数进行取余得到分区号
ProducerRecord(topic,value)	既没有partition值又没有key值得情况下：kafka采用Sticky Partition（黏性分区器），会随机选择一个分区，并尽可能一直使用该分区，待该分区的batch已满或者已完成，kafka再随机一个分区（绝对不会是上一个）进行使用。
3、案例：
1）案例1：将数据发送到指定partition的情况下，如：将所有消息发送到分区1中。

package com.atguigu.kafka.producer;

import org.apache.kafka.clients.producer.*;
import java.util.Properties;

public class CustomProducerCallbackPartitions {
    public static void main(String[] args) {

        // 1. 创建kafka生产者的配置对象
        Properties properties = new Properties();

        // 2. 给kafka配置对象添加配置信息
      properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop102:9092");

        // key,value序列化（必须）：
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        // 3. 创建生产者对象
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<>(properties);
        // 4. 造数据
        for (int i = 0; i < 5; i++) {
            // 指定数据发送到1号分区，key为空（IDEA中ctrl + p查看参数）
            kafkaProducer.send(new ProducerRecord<>("first", 1,"","atguigu " + i), new Callback() {
                @Override
                public void onCompletion(RecordMetadata metadata, Exception e) {
                    if (e == null){
                        System.out.println("主题：" + metadata.topic() + "->"  + "分区：" + metadata.partition()
                        );
                    }else {
                        e.printStackTrace();
                    }
                }
            });
        }

        kafkaProducer.close();
    }
}

2）测试：
（1）在hadoop102上开启kafka消费者

[atguigu@hadoop104 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first

（2）在IDEA中执行代码，观察hadoop102上的消费者消费情况

[atguigu@hadoop104 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first
atguigu0
atguigu1
kafka2
……

（3）观察IDEA中控制台输出

主题：first->分区：1
主题：first->分区：1
主题：first->分区：1
主题：first->分区：1
主题：first->分区：1

3）案例2：没有指明partition但是有key的情况下的消费者分区分配

package com.atguigu.kafka.producer;

import org.apache.kafka.clients.producer.*;
import java.util.Properties;

public class CustomProducerCallbackKey {
    public static void main(String[] args) {
        // 1. 创建配置对象
        Properties properties = new Properties();
        // 2. 配置属性
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop102:9092");

        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        // 3. 创建生产者对象
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<>(properties);
        // 4. 造数据
        for (int i = 1; i < 11; i++) {
            // 创建producerRecord对象
            final ProducerRecord<String, String> producerRecord = new ProducerRecord<>(
                        "first", 
                        i + "",// 依次指定key值为i
                        "atguigu " + i);
            kafkaProducer.send(producerRecord, new Callback() {
                @Override
                public void onCompletion(RecordMetadata metadata, Exception e) {
                    if (e == null){
                        System.out.println("消息："+producerRecord.value()+", 主题：" + metadata.topic() + "->" + "分区：" + metadata.partition()
                        );
                    }else {
                        e.printStackTrace();
                    }
                }
            });
        }

        kafkaProducer.close();
    }
}

4）测试
观察IDEA中控制台输出

消息：atguigu 1, 主题：first->分区：0
消息：atguigu 5, 主题：first->分区：0
消息：atguigu 7, 主题：first->分区：0
消息：atguigu 8, 主题：first->分区：0
消息：atguigu 2, 主题：first->分区：2
消息：atguigu 3, 主题：first->分区：2
消息：atguigu 9, 主题：first->分区：2
消息：atguigu 4, 主题：first->分区：1
消息：atguigu 6, 主题：first->分区：1
消息：atguigu 10, 主题：first->分区：1

3.4.3 自定义分区器

1、生产环境中，我们往往需要更加自由的分区需求，我们可以自定义分区器。
2、需求：在上面的根据key分区案例中，我们发现与我们知道的hash分区结果不同。那么我们就实现一个。
3、实现步骤：
1）定义类，实现Partitioner接口
2）重写partition()方法
4、代码实现

package com.atguigu.kafka.partitioner;

import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;
import java.util.Map;

/**
 * @author leon
 * @create 2020-12-11 10:43
 * 1. 实现接口Partitioner
 * 2. 实现3个方法:partition,close,configure
 * 3. 编写partition方法,返回分区号
 */
public class MyPartitioner implements Partitioner {
    /**
    *  分区方法
    **/
    @Override
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
       // 1. 获取key
        String keyStr = key.toString();
        // 2. 创建分区号，返回的结果
        int partNum;
        // 3. 计算key的hash值
        int keyStrHash = keyStr.hashCode();
        // 4. 获取topic的分区个数
        int partitionNumber = cluster.partitionCountForTopic(topic);
        // 5. 计算分区号
        partNum = Math.abs(keyStrHash) % partitionNumber;
        // 4. 返回分区号
        return partNum;
    }

    // 关闭资源
    @Override
    public void close() {
    }

    // 配置方法
    @Override
    public void configure(Map<String, ?> configs) {
    }
}

5、测试
在生产者代码中，通过配置对象，添加自定义分区器

// 添加自定义分区器
properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG," com.atguigu.kafka.partitioner.MyPartitioner ");

在hadoop102上启动kafka消费者

[atguigu@hadoop102 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first

在IDEA中观察回调信息

消息：atguigu 2, 主题：first->分区：2
消息：atguigu 5, 主题：first->分区：2
消息：atguigu 8, 主题：first->分区：2
消息：atguigu 1, 主题：first->分区：1
消息：atguigu 4, 主题：first->分区：1
消息：atguigu 7, 主题：first->分区：1
消息：atguigu 10, 主题：first->分区：1
消息：atguigu 3, 主题：first->分区：0
消息：atguigu 6, 主题：first->分区：0
消息：atguigu 9, 主题：first->分区：0

3.5 生产经验-生产者如何提高吞吐量

3.5.1 吞吐量

3.5.2 实例

1、编写代码

package com.atguigu.kafka.producer;

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;

public class CustomProducerParameters {

    public static void main(String[] args) throws InterruptedException {

        // 1. 创建kafka生产者的配置对象
        Properties properties = new Properties();

        // 2. 给kafka配置对象添加配置信息：bootstrap.servers
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");
        
        // key,value序列化（必须）：key.serializer，value.serializer
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");

        // batch.size：批次大小，默认16K
        properties.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);

        // linger.ms：等待时间，默认0
        properties.put(ProducerConfig.LINGER_MS_CONFIG, 1);

        // RecordAccumulator：缓冲区大小，默认32M：buffer.memory
        properties.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 33554432);

        // compression.type：压缩，默认none，可配置值gzip、snappy、lz4和zstd
properties.put(ProducerConfig.COMPRESSION_TYPE_CONFIG,"snappy");

        // 3. 创建kafka生产者对象
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);

        // 4. 调用send方法,发送消息
        for (int i = 0; i < 5; i++) {
            kafkaProducer.send(new ProducerRecord<>("first","atguigu" + i));
        }

        // 5. 关闭资源
        kafkaProducer.close();
    }
}

2、测试：
1）在hadoop102上开启kafka消费者

[atguigu@hadoop102 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first

2）在IDEA中执行代码，观察hadoop102上的消费者消费情况

[atguigu@hadoop102 kafka]$ sbin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first
atguigu0
atguigu0
atguigu0
……

3.6 生产经验-数据可靠性

1、回顾消费发送流程

2、ack应答机制

3、ack应答级别

背景：leader收到数据，所有follower都开始同步数据，但有一个follower，因为某种故障，迟迟不能与leader进行同步，那leader就要一直等下去，直到它完成同步，才能发送ack。这个问题怎么解决呢？
Kafka提供的解决方案：ISR队列
1）Leader维护了一个动态的in-sync replica set（ISR）和leader保持同步的follower集合。
2）当ISR中的follower完成数据的同步之后，leader就会给producer发送ack。
3）如果follower长时间（replica.lag.time.max.ms）未向leader同步数据，则该follower将被提出ISR。
Leader发生故障之后，就会从ISR中选举新的leader。
ack应答级别
对于某些不太重要的数据，对数据的可靠性要求不是很高，能够容忍数据的少量丢失，所以没必要等ISR中的follower全部接收成功。
所以Kafka为用户提供了三种可靠性级别，用户根据对可靠性和延迟的要求进行权衡，选择以下的配置。

acks=0	这一操作提供了一个最低的延迟，partition的leader副本接收到消息还没有写入磁盘就已经返回ack，当leader故障时有可能丢失数据
acks=1	partition的leader副本落盘后返回ack，如果在follower副本同步数据之前leader故障，那么将对丢失数据
acks=-1	partition的leader和follower副本全部落盘成功后才返回ack。但是如果在follower副本同步完成后，leader副本所在节点发送ack之前，leader副本发送故障，那么会造成数据重复

4、ack应答机制

5、案例
代码编写：

package com.atguigu.kafka.producer;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;

public class CustomProducerAck {
    public static void main(String[] args) throws InterruptedException {

        // 1. 创建kafka生产者的配置对象
        Properties properties = new Properties();

        // 2. 给kafka配置对象添加配置信息：bootstrap.servers
        properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");

        // key,value序列化（必须）：key.serializer，value.serializer
        properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());

        // 设置acks
        properties.put(ProducerConfig.ACKS_CONFIG, "all");

        // 重试次数retries，默认是int最大值，2147483647
        properties.put(ProducerConfig.RETRIES_CONFIG, 3);

        // 3. 创建kafka生产者对象
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);

        // 4. 调用send方法,发送消息
        for (int i = 0; i < 5; i++) {
            kafkaProducer.send(new ProducerRecord<>("first","atguigu " + i));
        }

        // 5. 关闭资源
        kafkaProducer.close();
    }
}

3.7 生产经验-数据去重

3.7.1 数据传递语义

至少一次（At Least Once）=ACK级别设置为-1+分区副本大于等于2+ISR里应答的最小副本数量大于等于2
最多一次（At More Once）=ACK级别设置为0
总结：
1）At Least Once可以保证数据不丢失，但是不能保证数据不重复
2）At More Once可以保证数据不重复，但是不能保证数据不丢失
精确一次（Exactly Once）：对于一些非常重要的信息，比如和钱相关的数据，要求数据既不能重复也不丢失。

3.7.2 幂等性

1、幂等性原理：
幂等性就是指Producer不论向Broker发送多少次重复数据，Broker端都只会持久化一条，保证了不重复。
精确一次（Exactly Once）=幂等性+至少一次（ack=-1+分区副本数>=2+ISR最小副本数量>=2）。
重复数据的判断标准：具有相同主键的消息提交时，Broker只会持久化一条。其中PID是producer每次重启都会分配一个新的：Partition表示分区号；SequenceNumber是单调自增的。
所以幂等性只能保证的是在单分区单会话内不重复。

2、开启幂等性
在producer的配置对象中，添加参数enable.idempotence，参数值默认为true，设置为false就关闭了。

3.7.3 生产者事务

1、kafka事务原理

2、事务代码流程

// 1初始化事务
void initTransactions();
// 2开启事务
void beginTransaction() throws ProducerFencedException;
// 3在事务内提交已经消费的偏移量（主要用于消费者）
void sendOffsetsToTransaction(Map<TopicPartition, OffsetAndMetadata> offsets,
                              String consumerGroupId) throws ProducerFencedException;
// 4提交事务
void commitTransaction() throws ProducerFencedException;
// 5放弃事务（类似于回滚事务的操作）
void abortTransaction() throws ProducerFencedException;

3.8 生产经验-数据有序

3.9生产经验-数据乱序

1、kafka在1.x版本之前保证单分区有序，条件如下：
max.in.flight.requests.per.connection=1（不需要考虑是否开启幂等性）
2、kafka在1.x及以后版本保证数据单分区有序，条件如下：
1）未开启幂等性
max.in.flight.requests.per.connection需要设置为1
2）开启幂等性
max.in.flight.requests.per.connection需要设置小于等于5
原因说明：因为在kafka1.x以后，启用幂等后，kafka服务器会缓存producer发来的最近5个request的元数据，故无论如何，都可以保证最近5个request的数据都是有序的。

你可能感兴趣的:(大数据,kafka,分布式)

java cap理论_架构设计之「 CAP 定理」 Can Li java cap理论
点击上方“Java知音”，选择“置顶公众号”技术文章第一时间送达！作者：奎哥来源：不止思考在计算机领域，如果是初入行就算了，如果是多年的老码农还不懂CAP定理，那就真的说不过去了。CAP可是每一名技术架构师都必须掌握的基础原则啊。现在只要是稍微大一点的互联网项目都是采用分布式结构了，一个系统可能有多个节点组成，每个节点都可能需要维护一份数据。那么如何维护各个节点之间的状态，如何保障各个节点之间数据
SpringCloud分布式中怎么使用open-feign来相互调用微服务(前提是服务都要注册到注册中心【zookeeper,或者nocas】) JISOOLUO 实用的示例网关 java 接口 spring
1、引入open-feignorg.springframework.cloudspring-cloud-starter-openfeign
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
spark集群完全分布式搭建。。，。，。分布式 spark 大数据
1.spark的运行架构（主从模式）主节点：master-----资源管理调度和任务的分配---------类似yarn从节点：worker-----执行具体的计算任务整体运行架构：编写spark运行程序用户将应用程序提交给spark集群驱动其会创建对应的编程入口（sparkcontext/sparksession）主节点复制资源管理调度和任务分配从节点执行计算任务（多个计算任务：每个计算任务会分
【Python】RocketMQ 基础使用 Encarta1993 Python rocketmq
目录1.介绍2.实践2.1.启动消费者2.2.启动生产者1.介绍RocketMQ是一个开源的分布式消息传递系统，最初由阿里巴巴集团开发并于2012年开源。它旨在解决高可靠性、高吞吐量、低延迟和可伸缩性等大规模分布式系统下的消息通信需求。RocketMQ的设计目标是提供一种灵活、可靠、高性能的消息传递解决方案，适用于各种场景，包括在线消息通信、日志处理、流式处理、事件驱动架构等。下面是对Rocket
基于Spark的实时计算服务的流程架构小小搬运工40 spark 大数据
基于Spark的实时计算服务的流程架构通常涉及多个组件和步骤，从数据采集到数据处理，再到结果输出和监控。以下是一个典型的基于Spark的实时计算服务的流程架构：1.数据源数据源是实时计算服务的起点，常见的数据源包括：消息队列：如Kafka、RabbitMQ、AmazonKinesis等。日志系统：如Flume、Logstash等。传感器数据：物联网设备产生的数据流。数据库变更数据捕获（CDC）：如
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
Apache STORM工作原理详解 Neil Parker apache storm java
ApacheStorm是一个分布式实时计算系统，允许用户在集群上运行流式数据处理应用程序。它的核心原理是将流式数据分割成多个小块，每个小块都会被分配给不同的计算节点进行处理，并且处理结果会被发送到下一个节点，直到达到最终结果。以下是ApacheStorm的工作原理：Nimbus是整个集群的控管核心，负责topology的提交、运行状态监控、任务重新分配等工作。zk就是一个管理者，监控者。总体描述：
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
Spring Boot 整合 Apollo 配置中心实战疯狂的键盘侠 spring boot java apollo spring boot java
SpringBoot整合Apollo配置中心实战一、Apollo简介二、环境准备三、项目整合步骤四、配置使用示例五、常见问题及解决在分布式系统开发中，配置管理至关重要。Apollo作为携程开源的一款可靠的配置中心，能高效地集中管理应用配置，实现实时更新推送，助力开发者轻松应对复杂多变的配置场景。本文将带你一步步完成SpringBoot项目与Apollo配置中心的整合，让你的应用配置管理如鱼得水。一
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
3步搞定：java分布式WebSocket与消息队列的奇妙邂逅？墨瑾轩一起学学Java【一】分布式 websocket 网络协议 java
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，亲爱的开发者们！今天我们要聊的是那个让分布式系统心跳加速的热门话题——如何用消息队列轻松实现分布式WebSocket。别急，我会一步步带你走进这个奇妙的世界，让你轻松掌握这门技艺。准备好了吗？让我们开始这场技术盛宴吧！引言在这个信息爆炸的时代，WebSoc
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
HBase-2.5.10 伪分布式环境搭建【Mac】凡许真 hbase 伪分布式 zk mac
文章目录前言一、搭建单节点Zookeeper1.解压zookeeper2.配置环境变量3.修改配置文件4.启动zk二、搭建伪分布式Hbase1.解压hbase2.配置环境变量3.修改配置4.启动HBase前言搭建hbase伪分布式环境提示：以下是本篇文章正文内容，下面案例仅供参考一、搭建单节点Zookeeper1.解压zookeeper版本：3.8.02.配置环境变量vi~/.bash_profi
Hadoop3.3.4伪分布式环境搭建凡许真分布式 hadoop 伪分布式 hadoop3.3.4
文章目录前言一、准备1.下载Hadoop2.配置环境变量3.配置免密二、Hadoop配置1.hadoop-env.sh2.hdfs-site.xml3.core-site.xml4.mapred-site.xml5.yarn-site.xml三、格式化四、启动五、访问web页面前言hadoop学习——伪分布式环境——普通用户搭建一、准备1.下载Hadoop2.配置环境变量vi~/.bash_pro
【热门主题】000045 分布式数据库：技术演进与应用探索宝码香车热门主题数据库
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录【热门主题】000045分布式数据库：技术演进与应用探索一、分布式数据库概述（一）定义与原理（二）发展历程二、数据一致性实现方法（一）传统方法与挑战（二）多种实现方案三、架构设计（一）MySQL常见架构1.搭建步骤2.复制原理3.优缺点（二）
【热门主题】000059 分布式数据库：技术演进与未来展望宝码香车热门主题数据库
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录【热门主题】000059分布式数据库：技术演进与未来展望一、分布式数据库概述二、发展历程（一）传统单机数据库的局限（二）互联网时代的挑战与探索（三）分布式数据库的崛起三、核心技术（一）数据复制（二）数据分区（三）分布式事务四、架构类型（一）分
Redis部署方式全解析：优缺点大对比恩爸编程 redis redis 数据库缓存 redis部署方式对比 redis部署介绍 redis有几种部署方式 redis怎样部署
Redis部署方式全解析：优缺点大对比一、引言Redis作为一款高性能的内存数据库，在分布式系统、缓存、消息队列等众多场景中都有着广泛的应用。选择合适的Redis部署方式，对于系统的性能、可用性、可扩展性以及成本等方面都有着至关重要的影响。本文将详细介绍Redis的几种常见部署方式，并对它们的优缺点进行全面对比。二、单机部署2.1原理单机部署是Redis最基础的部署方式，即将Redis服务安装在一
金融行业关系型数据库信创技术路线选型实践总结罗伯特之技术屋人工智能与智能系统专栏金融数据库
【摘要】数据库信创改造是当前金融领域信息化建设的迫切需求和难点之一。本文重点分析关系型数据库的国产化技术路线，从金融行业数据库国产化发展现状入手，分析了国产化集中式数据库与分布式数据库的特性对比，作者结合选型实践，重点介绍了基于PostgreSQL系列的国产集中式数据库实现和应用场景。该总结内容实用，虽立足于金融行业，其他行业用户也可以对照业务特点，撷取共性部分进行参考。1背景当前，随着数字化技术
云计算技术深度解析与代码使用案例我的运维人生云计算运维开发技术共享
云计算技术深度解析与代码使用案例引言随着信息技术的飞速发展，云计算作为一种革命性的技术，正在逐步改变我们的生活和工作方式。云计算不仅提供了前所未有的计算能力和存储资源，还以其灵活性和可扩展性，成为现代企业数字化转型的重要支撑。本文将深入探讨云计算的核心技术、应用场景，并通过一个具体的代码使用案例，展示如何在云计算平台上实现一个基本的应用程序。云计算技术特点云计算是网格计算、分布式计算、并行计算、效
java获取本地文件和远程文件的方式码至终章 java 开发语言 servlet
问题背景：我们项目开发的时候，经常会读取文件，如果文件在本服务器，则直接用newFile()读取即可，但是有时候需要远程读取文件，比如读取分布式存储服务器的内容或者是别人家的图片资源，这个时候newFile就无法满足要求了。下面提供列出获取远程文件和本地文件的方式1、获取远程文件如图片路径为https://kk360.com/user/20230622/gm/30293817365.jpgimpo
Kafka 消费端反复 Rebalance: `Attempt to heartbeat failed since group is rebalancing` 大秦王多鱼 Kafka修炼手册 kafka 分布式运维 apache
文章目录Kafka消费端反复Rebalance:`Attempttoheartbeatfailedsincegroupisrebalancing`1.Rebalance过程概述2.错误原因分析2.1消费者组频繁加入或退出2.1.1消费者故障导致频繁重启2.1.2.消费者加入和退出导致的Rebalance2.1.3消费者心跳超时导致的Rebalance2.1.4如何解决频繁触发Rebalance的问
中国BI步入增长大周期，腾讯云ChatBI加速AI+BI融合大数据在线 AI 云静思园人工智能腾讯云大数据 ChatBI AI+BI
过去十年，大数据技术的快速发展，让数据消费前进一大步，数据价值得到一定程度的挖掘与释放，真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式，让“数据消费”的门槛始终降不下来，一定程度制约着企业迈向“用好数”的新阶段。如今，随着大模型和生成式AI的迅猛发展，数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性，使得商业智能（以下简称：BI）迎来全面重塑，BI
深度剖析分布式数据库：突破数据存储与管理的界限 Darryl大数据数据库大数据分布式
“”"深度剖析分布式数据库：突破数据存储与管理的界限在当今这个数字化浪潮汹涌澎湃、势不可挡的时代背景之下，数据量正以一种令人惊叹的指数级增长态势不断攀升。传统的数据库在面对海量数据的处理以及高并发读写等复杂场景时，逐渐开始显得力不从心、捉襟见肘。而分布式数据库则恰似一场及时雨，在这样的关键时刻顺势而生，为现代企业的数字化转型成功开辟出一片崭新的天地。此时此刻，让我们一同深入地探究分布式数据库这一神
乐学智伴：基于人工智能与大数据的学生个性化学习辅助平台 IT源码大师人工智能大数据学习
详细描述：1.引言：教育科技的时代背景在信息化和数字化的浪潮下，教育领域正经历着深刻的变革。传统的教学模式以教师为中心，难以满足学生个性化学习的需求。随着人工智能、大数据和云计算等技术的快速发展，教育科技（EdTech）为个性化学习提供了全新的解决方案。通过智能化工具和数据分析，学生可以根据自身的学习特点和进度，制定个性化的学习计划，从而提高学习效率和效果。“乐学智伴”是一款基于人工智能与大数据技
Python开发FastAPI从入门到精通赵梓宇 Python权威教程合集 fastapi python 前端
想用Python写API快到飞起？FastAPI就是你的“代码瑞士军刀”！这本书不讲玄学，只教真功夫——从零搭建高性能API，到微服务、分布式事务、熔断限流，连异步编程都能玩成魔法！小白也能变大神：路由、依赖注入、数据库集成手把手教学；老鸟直呼内行：服务网格、Saga模式、K8s部署实战全覆盖。附赠三个硬核项目：任务管理、在线商城、实时聊天系统，代码跑起来比老裁缝织毛衣还丝滑！别说我没提醒你：翻开
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
企业数字化转型AI能力中台（总体架构、系统功能）建设方案公众号：优享智库数字化转型数据治理主数据数据仓库人工智能架构
**企业数字化转型AI能力中台建设方案**一、建设背景与目标随着大数据、云计算、人工智能等技术的快速发展，企业正面临着数字化转型的重要机遇。为了提升企业的智能化水平，加快业务创新，建设AI能力中台成为企业的迫切需求。本方案旨在为企业打造一套功能完善的AI能力中台，实现数据采集与整合、算法模型管理、智能分析与可视化等核心功能，推动企业在各个业务领域实现智能化升级和创新。二、总体架构设计AI能力中台采
「SpringCloudAlibaba系列」分布式限流框架Sentinel基本引用｜我有一头小花驴分布式 sentinel
分布式限流框架Sentinel基本引用Sentinel的基本引用使用Sentinel的核心库实现限流，主要分以下几个步骤：定义资源定义限流规则校验规则是否生效Sentinel实现限流引入Sentinel核心库com.alibaba.cspsentinel-core1.8.2复制代码定义普通业务方法privatestaticvoiddoLimiting(){try(Entrylimiting=Sph
rate-limit 一款 java 开源渐进式分布式限流框架使用介绍老马啸西风动手写框架 java 开源 spring
项目简介rate-limit是一个为java设计的渐进式限流工具。目的是为了深入学习和使用限流，后续将会持续迭代。特性渐进式实现支持独立于spring使用支持整合spring支持整合spring-boot内置多种限流策略快速开始需求jdk1.7maven3.x+maven导入com.github.houbbrate-limit-core1.1.0入门例子方法定义@RateLimit限流注解放在方法
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l