王多鱼的梦想～

Kafka 压缩算法详细介绍

文章目录

一、Kafka 压缩算法概述
二、Kafka 压缩的作用
- 2.1 降低网络带宽消耗
- 2.2 提高 Kafka 生产者和消费者吞吐量
- 2.3 减少 Kafka 磁盘存储占用
- 2.4 减少 Kafka Broker 负载
- 2.5 降低跨数据中心同步成本
三、Kafka 压缩的原理
- 3.1 Kafka 压缩的基本原理
- 3.2. Kafka 压缩的工作流程
- 3.3 Kafka 压缩的数据存储格式
四、Kafka 压缩方式配置
- 4.1 Kafka 生产者（Producer）端压缩配置
- 4.2 Kafka Broker 端压缩配置
- 4.3 Kafka 消费者（Consumer）端解压缩
五、不同压缩方式对比
- 5.1 Kafka 支持的四种压缩方式
- 5.2 Kafka 压缩方式对比分析
六、Kafka 压缩场景
- 6.1 日志收集与分析（ELK / Flink / Kafka）
- 6.2 实时流数据处理（Flink / Spark Streaming）
- 6.3 电商高并发订单系统
- 6.4. 跨数据中心（Multi-DC）Kafka 同步
- 6.5 数据存储优化（Kafka + HDFS）

一、Kafka 压缩算法概述

Kafka 支持 GZIP、Snappy、LZ4 和 Zstd 四种压缩算法，以减少网络传输负担、降低存储成本，同时提高 Kafka 吞吐量。压缩的主要作用是优化 Kafka 的生产（Producer）、存储（Broker）和消费（Consumer）过程，从而提高消息系统的整体效率。

二、Kafka 压缩的作用

Kafka 压缩的主要作用是 提高吞吐量、减少存储占用、降低网络带宽消耗，并优化整体性能。

2.1 降低网络带宽消耗

Kafka 作为分布式消息系统，数据在 生产者（Producer）、Broker、消费者（Consumer） 之间传输。未压缩的数据体积大，会导致：

网络流量增加，影响 Kafka 集群性能。
数据传输速度变慢，影响吞吐量。

Kafka 压缩的好处：
✅ 减少带宽占用 → 适用于跨数据中心同步。
✅ 提升吞吐量 → 生产者和消费者都能更快发送和接收消息。
✅ 降低网络成本 → 特别是在云环境或受限带宽的场景。

示例：

未压缩消息：1000 条 JSON 消息 50MB
使用 Zstd 压缩：仅 10MB，减少 80% 的网络流量。

2.2 提高 Kafka 生产者和消费者吞吐量

Kafka 处理批量数据（batch processing），压缩后可以减少单个 batch 的大小，从而：

生产者（Producer）可以更快地发送消息
Broker 可以更快地写入磁盘
消费者（Consumer）可以更快地消费数据

示例：

Producer 批量发送未压缩数据（每条 1KB，1000 条消息）：
- 发送数据量 = 1MB
- Kafka 需要处理的 batch 很大，写入磁盘速度慢。
Producer 采用 Snappy 压缩（50% 压缩率）：
- 发送数据量 = 500KB
- Kafka 处理的数据减少一半，提升吞吐量。

✅ 适用于高并发写入场景，如电商订单流、日志数据流。

2.3 减少 Kafka 磁盘存储占用

Kafka 消息存储在 Broker 上，未压缩的数据会占用大量磁盘空间，导致：

磁盘利用率增加，需要更多存储。
I/O 负载加大，影响 Kafka 读取性能。

示例：

数据量	未压缩存储 (MB)	Snappy 压缩后 (MB)	GZIP 压缩后 (MB)
100 万条日志	500 MB	250 MB	100 MB

Kafka 压缩带来的好处：
✅ 减少磁盘存储需求（压缩率通常在 30%-90%）。
✅ 降低存储成本（云存储或本地磁盘使用更少）。
✅ 适用于日志归档、数据存储优化等场景。

2.4 减少 Kafka Broker 负载

Kafka Broker 负责持久化消息和转发数据，如果数据未压缩：

磁盘 I/O 负担加重 → 影响写入和读取速度。
分区数据量过大 → Broker 压力大，影响副本同步。
网络传输慢 → 影响消费者消费速度。

解决方案：

采用Zstd或Snappy压缩，在保证吞吐量的同时降低 Broker 负载。
适用于高并发日志流、事件流、实时数据传输等场景。

✅ 压缩后，Kafka 需要处理的 I/O 数据变少，性能更优。

2.5 降低跨数据中心同步成本

在跨数据中心部署 Kafka（如灾备中心或全球业务同步），数据需要在不同机房同步。如果数据未压缩：

带宽成本高，影响云服务费用（AWS/GCP）。
延迟增加，导致跨数据中心数据同步慢。

示例：
未压缩： 10GB 日志/小时 → 需要大带宽传输。
Zstd 压缩（90%） → 仅 1GB，带宽节省 90%。

✅ 适用于跨地域业务、CDN 日志同步、全球电商架构。

作用	具体表现
减少网络带宽	压缩 50%~90%，适用于跨数据中心
提升吞吐量	Producer 发送更快，Consumer 消费更快
减少磁盘占用	存储节省 30%~90%
降低 Broker 负载	减少磁盘 I/O，优化 Kafka 处理效率
降低跨数据中心成本	跨机房同步更快，节省流量费用

三、Kafka 压缩的原理

Kafka 通过批量（Batch）压缩的方式减少数据传输和存储的开销，从而提高吞吐量、降低网络带宽占用、减少磁盘存储成本。Kafka 的压缩主要在 Producer 端执行，并在 Consumer 端自动解压，而 Broker 仅存储和转发压缩数据。

3.1 Kafka 压缩的基本原理

Kafka 不会对单条消息进行压缩，而是采用批量（Batch）压缩：

Producer 端：批量收集消息后，对整个 Batch 进行压缩，然后发送到 Kafka Broker。
Broker 端：直接存储和转发压缩后的数据，而不会解压消息。
Consumer 端：读取 Broker 发送的压缩 Batch，并在消费时解压。

关键点

Kafka 只压缩批量数据（Batch），不会压缩单条消息。
Broker 不解压数据，仅存储 Producer 发送的压缩数据。
Consumer 端必须支持相应的压缩算法，否则无法解压数据。

3.2. Kafka 压缩的工作流程

Kafka 压缩主要涉及 Producer（生产者）、Broker（消息代理）、Consumer（消费者），其工作流程如下：

生产者端（Producer）压缩
Producer 批量收集消息，然后进行压缩

Producer 端接收到多条待发送的消息。
Producer 进行批量处理（Batching），将多条消息合并到一个 Batch 中。
选择指定的压缩算法（如 GZIP、Snappy、LZ4、Zstd）。
对整个 Batch 进行压缩，然后发送到 Kafka Broker。

示例：
假设 Producer 发送 5 条 JSON 消息：

[
  {"id":1, "name":"A"},
  {"id":2, "name":"B"},
  {"id":3, "name":"C"},
  {"id":4, "name":"D"},
  {"id":5, "name":"E"}
]

如果不压缩，发送的数据大小为 5KB，但如果使用 GZIP 压缩，则大小可能只有 1KB，节省 80% 网络带宽。

Producer 配置示例（producer.properties）：

compression.type=snappy  # 可选 gzip, snappy, lz4, zstd
batch.size=65536         # 设定批次大小，提高吞吐量
linger.ms=10             # 允许 Kafka 等待 10ms 批量收集消息，提高压缩效果

Broker 端（Kafka 存储与转发）

Broker 直接存储 Producer 发送的压缩 Batch，不进行解压。
Consumer 读取数据时才会解压，Kafka 仅作为存储和转发的角色。

示例：
Producer 发送压缩后的数据：

[Compressed Batch (Snappy)] -> Kafka Topic Partition

Kafka 不会解压，而是原样存储，并在 Consumer 端解压。

Broker 配置（server.properties）：

compression.type=producer  # 继承 Producer 端的压缩方式

Kafka Broker 的 compression.type=producer 让 Kafka 直接存储 Producer 的压缩格式，而不会重新压缩数据。

Consumer 端（解压数据）

Consumer 读取 Kafka Broker 发送的压缩数据。
Consumer 端会自动解压，然后消费单条消息。

示例：
Consumer 端读取 GZIP 压缩的 Batch，并进行解压：

[Compressed Batch (GZIP)] -> 解压 -> 单条消息处理

Consumer 配置（consumer.properties）：

fetch.min.bytes=1048576  # 限制最小 fetch 批次，提高吞吐量
fetch.max.wait.ms=500  # 适当增加等待时间，提高 batch 读取效率

Kafka Consumer 自动解压缩，不需要额外的配置。

3.3 Kafka 压缩的数据存储格式

Kafka 采用批量压缩，因此存储格式如下：

未压缩的 Kafka 消息存储格式

[Message1][Message2][Message3][Message4][Message5]

使用压缩后的 Kafka 消息存储格式

[Compressed Batch (Snappy)]

整个 Batch 作为一个数据块压缩，并存储在 Kafka 主题（Topic）中。
Kafka 只存储和转发已压缩的 Batch，不会解压数据。

四、Kafka 压缩方式配置

4.1 Kafka 生产者（Producer）端压缩配置

Kafka Producer 端负责压缩数据，并发送给 Kafka Broker。

✅ 生产者配置参数
在 producer.properties 中，配置 compression.type：

compression.type=snappy  # 可选值：gzip, snappy, lz4, zstd
batch.size=65536         # 设定批次大小，提高吞吐量
linger.ms=10             # 允许 Kafka 等待 10ms 批量收集消息，提高压缩效果

✅ 代码示例
使用 Java 代码配置 Kafka Producer

import org.apache.kafka.clients.producer.*;

import java.util.Properties;

public class KafkaProducerCompressionExample {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put("bootstrap.servers", "localhost:9092");
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        // 配置压缩方式
        props.put("compression.type", "snappy"); // 可选 gzip, lz4, zstd
        props.put("batch.size", 16384); // 16KB 批次大小
        props.put("linger.ms", 5); // 5ms 等待时间，提高批量压缩效果

        KafkaProducer<String, String> producer = new KafkaProducer<>(props);
        ProducerRecord<String, String> record = new ProducerRecord<>("test_topic", "key", "message with compression");
        
        producer.send(record);
        producer.close();
    }
}

4.2 Kafka Broker 端压缩配置

Kafka Broker 可以控制是否允许压缩消息传输，并决定是否改变 Producer 发送的压缩方式。

✅ Broker 配置参数
在 server.properties 中：

log.cleanup.policy=delete  # Kafka 日志清理策略
compression.type=producer  # 继承 Producer 端的压缩方式
log.segment.bytes=1073741824  # 每个分段日志文件最大 1GB

compression.type=producer 让 Broker 直接存储 Producer 压缩的消息，而不会改变其压缩格式。

Broker 端压缩策略

配置项	作用
`compression.type=none`	Kafka 不进行任何压缩，存储 Producer 发送的原始数据
`compression.type=producer`	Broker 采用 Producer 发送的数据的压缩格式
`compression.type=gzip`	强制所有数据存储为 GZIP 压缩
`compression.type=snappy`	强制所有数据存储为 Snappy 压缩

4.3 Kafka 消费者（Consumer）端解压缩

Kafka Consumer 端会自动解压 Producer 发送的压缩数据，因此默认无需额外配置。

✅ Consumer 配置参数
在 consumer.properties 中：

fetch.min.bytes=1048576  # 限制最小 fetch 批次，提高吞吐量
fetch.max.wait.ms=500  # 增加等待时间，提高 batch 读取效率

✅ 代码示例
使用 Java 配置 Kafka Consumer

import org.apache.kafka.clients.consumer.*;

import java.util.Collections;
import java.util.Properties;

public class KafkaConsumerCompressionExample {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put("bootstrap.servers", "localhost:9092");
        props.put("group.id", "test-group");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList("test_topic"));

        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {
                System.out.println("Received: " + record.value());
            }
        }
    }
}

Consumer 端压缩行为

Kafka Consumer 自动解压缩 Producer 端压缩的数据。
不需要额外配置，但如果批量消费，可以调整 fetch.min.bytes 和 fetch.max.wait.ms 以提高吞吐量。

五、不同压缩方式对比

5.1 Kafka 支持的四种压缩方式

Kafka 主要支持以下压缩算法：

压缩方式	介绍	压缩率	压缩速度	解压速度	CPU 占用
GZIP	经典的高压缩率算法	高	低	低	高
Snappy	Google 开发的快速压缩	低	高	很高	低
LZ4	适用于高吞吐的快速压缩	中	很高	极高	低
Zstd	Facebook 开发的新一代压缩	最高	中等	高	中等

5.2 Kafka 压缩方式对比分析

(1) 压缩率对比
压缩率决定了 Kafka 消息存储占用多少空间，压缩率越高，磁盘存储和网络传输占用越少。

压缩方式	压缩率 (%)	示例数据 (100MB 日志文件压缩后大小)
GZIP	85-90%	10MB
Snappy	50-60%	50MB
LZ4	60-70%	40MB
Zstd	90-95%	5-8MB

结论：

Zstd 和 GZIP 的压缩率最高，适用于存储优化和跨数据中心数据同步。
Snappy 和 LZ4 压缩率较低，但速度快，适用于高吞吐场景。

(2) 压缩速度对比
压缩速度影响 Kafka Producer 端的吞吐量，速度越快，Kafka 生产端的效率越高。

压缩方式	压缩速度 (MB/s)
GZIP	30-50MB/s
Snappy	150-250MB/s
LZ4	200-400MB/s
Zstd	100-300MB/s

结论：

LZ4 和 Snappy 压缩速度最快，适合高吞吐量、低延迟的实时数据流。
GZIP 压缩速度最慢，适用于存储优化而不是高并发场景。
Zstd 在不同压缩级别下可调节压缩速度，适用于平衡吞吐量和存储需求的场景。

(3) 解压速度对比
解压速度影响 Kafka Consumer 端的消费吞吐量。

压缩方式	解压速度 (MB/s)
GZIP	50-100MB/s
Snappy	300-500MB/s
LZ4	400-800MB/s
Zstd	200-600MB/s

结论：

LZ4 和 Snappy 解压速度最快，适用于需要低延迟消费的应用，如日志流分析、流式计算。
GZIP 解压速度最慢，会影响消费者消费吞吐量。
Zstd 解压速度介于 GZIP 和 Snappy 之间，且压缩率更高。

(4) CPU 占用对比
CPU 占用影响 Kafka 生产者和消费者的性能，CPU 负载越低，Kafka 处理能力越强。

压缩方式	CPU 占用率
GZIP	高 (占用 40-70%)
Snappy	低 (占用 5-15%)
LZ4	低 (占用 5-15%)
Zstd	中等 (占用 10-30%)

结论：

GZIP 消耗 CPU 最多，影响 Kafka 高吞吐应用。
Snappy 和 LZ4 CPU 占用最低，适用于高并发场景。
Zstd 占用适中，可调节压缩级别来平衡 CPU 负载。

六、Kafka 压缩场景

Kafka 的压缩适用于多个场景，不同业务需求决定了选择不同的压缩方式。

6.1 日志收集与分析（ELK / Flink / Kafka）

场景描述

业务系统（微服务、Web 服务器）产生大量日志数据，需要采集并存储到 Kafka。
这些日志最终会被消费，并存入 Elasticsearch 或 HDFS 进行分析。

❌ 传统方式的痛点

日志量庞大，未压缩时数据传输慢，网络负载高。
生产者（如 Filebeat）发送未压缩数据，导致 Kafka 磁盘占用过多。

✅ 解决方案

使用 GZIP 或 Zstd 压缩：高压缩率，减少磁盘占用和网络流量。
示例：
- 未压缩：100 万条日志 500MB
- GZIP 压缩后：仅 80MB，节省 84% 存储
- Zstd 压缩后：仅 60MB，比 GZIP 还少 20%

Kafka 配置

compression.type=gzip  # 也可以使用 zstd（更快更高效）

适用场景
✅ ELK 日志分析（Filebeat + Kafka + Logstash）
✅ Flink 处理 Kafka 日志流
✅ CDN 访问日志传输

6.2 实时流数据处理（Flink / Spark Streaming）

场景描述

电商订单、用户行为数据、监控指标需要实时流式处理。
生产者每秒写入 几十万 条事件，消费者（Flink/Spark）进行计算。

❌ 传统方式的痛点

未压缩数据会导致 Kafka 传输延迟增加。
高吞吐数据增加 Kafka Broker 负载，影响集群稳定性。

✅ 解决方案

使用 Snappy 或 LZ4 压缩：保证低延迟，高吞吐，快速解压。
示例：
- 未压缩：1 秒 100 万条，每条 1KB → 总量 1GB/s
- LZ4 压缩后：仅 400MB/s，解压极快，适用于流式计算。

Kafka 配置

compression.type=snappy  # 或 lz4，适用于高吞吐场景

适用场景
✅ 实时订单处理（Kafka + Flink）
✅ 用户行为分析（Spark Streaming）
✅ 监控系统数据流（Prometheus + Kafka）

6.3 电商高并发订单系统

场景描述

订单系统需要将支付、库存变更等数据通过 Kafka 传输到多个消费者（结算、物流、推荐）。
订单数据量巨大，高并发时每秒处理数十万条消息。

❌ 传统方式的痛点

高并发导致 Kafka 负载飙升，影响延迟。
订单数据结构复杂，未压缩时数据量较大。

✅ 解决方案

使用 LZ4 或 Snappy 压缩：快速压缩解压，适应高吞吐写入。
示例：
- 未压缩：1 小时 500GB 订单数据
- LZ4 压缩后：仅 150GB，减少 70% 传输成本
- Snappy 压缩后：仅 200GB，解压更快

Kafka 配置

compression.type=lz4  # 适用于高吞吐订单流

适用场景
✅ 秒杀系统订单处理（Kafka + Redis）
✅ 库存变更消息流（Kafka + MySQL）
✅ 支付流水异步处理

6.4. 跨数据中心（Multi-DC）Kafka 同步

场景描述

企业在多个地区部署 Kafka，需要跨数据中心同步日志或交易数据。
由于带宽有限，未压缩数据传输成本高，速度慢。

❌ 传统方式的痛点

Kafka MirrorMaker 传输数据时，占用大量带宽，增加延迟。
存储数据量大，导致远程机房的存储成本上升。

✅ 解决方案

使用 Zstd 或 GZIP 压缩：降低带宽消耗，提高传输效率。
示例：
- 未压缩：每天跨数据中心传输 10TB 日志
- GZIP 压缩后：仅 2TB
- Zstd 压缩后：仅 1.5TB，节省 85% 带宽

Kafka 配置

compression.type=zstd  # 推荐 Zstd，节省带宽 & 高效

适用场景
✅ 全球业务同步（美洲-欧洲-亚洲数据中心）
✅ 金融数据跨机房同步（Kafka MirrorMaker）
✅ AWS/GCP/Azure 云环境带宽优化

6.5 数据存储优化（Kafka + HDFS）

场景描述

Kafka 消息最终存储到 HDFS / S3 / ClickHouse，数据存储成本高。
需要降低 Kafka 存储和 HDFS 存储成本，同时保持查询性能。

❌ 传统方式的痛点

Kafka 数据存储占用大量磁盘，导致 Broker 负载增加。
HDFS 存储成本高，特别是数据湖存储。

✅ 解决方案

使用 GZIP 或 Zstd 压缩：最大限度减少存储空间。
示例：
- 未压缩：1 天 Kafka 消息 5TB
- GZIP 压缩后：仅 1TB
- Zstd 压缩后：800GB

Kafka 配置

compression.type=gzip  # 或 zstd，存储优化

适用场景
✅ Kafka + HDFS（数据归档）
✅ Kafka + ClickHouse（大数据查询）
✅ Kafka + Presto（数据湖查询）

Kafka 压缩方式选择总结

场景	推荐压缩算法	目标
日志收集（ELK、CDN）	GZIP / Zstd	存储优化，减少磁盘占用
实时流处理（Flink、Spark）	Snappy / LZ4	低延迟，高吞吐
电商订单高并发	LZ4 / Snappy	快速压缩解压，减少 Kafka 负载
跨数据中心同步	Zstd / GZIP	降低带宽，提升传输效率
大数据存储（HDFS、ClickHouse）	GZIP / Zstd	存储优化，减少磁盘开销

你可能感兴趣的:(kafka,分布式,运维,apache)

Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
消息中间件巡检搬砖小常消息中间件运维笔记 RocketMQ kafka 中间件巡检运维
除资源使用情况外，消息中间件RocketMQ、kafka还可以巡检哪些？一、RocketMQ巡检1、检查broker写入耗时是否有压力2、检查brokerbusy的数量与频率3、主题发送TPS、发送错误率巡检4、从节点消费情况检查5、集群各broker消息流转情况巡检二、Kafka巡检1、检查是否有分区发生ISR频繁扩张收缩2、检查分区leader选举值是否处于正常水平3、检查controller
RocketMQ 核心特性实战详解愤怒的代码 RocketMQ实战 rocketmq
RocketMQ核心特性实战详解本文基于RocketMQ4.x+rocketmq-spring-boot-starter2.3.1，从零搭建，逐步讲解RocketMQ11大核心特性，每一段代码都能直接跑。0.项目环境准备依赖引入在pom.xml文件添加：org.apache.rocketmqrocketmq-spring-boot-starter2.3.1配置文件application.ymlse
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
为什么你的服务器总被攻击？运维老兵的深度分析
作为运维人员，最头疼的莫过于服务器在毫无征兆的情况下变得异常缓慢、服务中断，甚至数据泄露。事后查看日志，常常发现一些“莫名其妙”的攻击痕迹。为什么服务器会成为攻击者的目标？这些攻击又是如何悄无声息发生的？今天，我们就从实战角度分析几种常见且容易被忽视的攻击模式，并教你如何通过日志分析初步定位问题。一、服务器被攻击的常见“莫名其妙”原因“扫楼式”探测与弱口令爆破：现象：服务器CPU、内存无明显异常，
如何在Windows系统下使用Dockerfile构建Docker镜像：完整指南 996蹲坑 windows docker 容器
前言Docker作为当前最流行的容器化技术，已经成为开发、测试和运维的必备工具。本文将详细介绍在Windows系统下使用Dockerfile构建Docker镜像的完整流程，包括两种镜像构建方式的对比、Dockerfile核心指令详解、实战案例演示以及Windows系统下的特殊注意事项。一、Docker镜像构建的两种方式1.容器转为镜像（不推荐）这种方式适合临时保存容器状态，但不适合生产环境使用：#
2025年网络安全人员薪酬趋势程序员肉肉 web安全安全网络安全计算机信息安全程序员
2025年网络安全人员薪酬趋势一、网络安全行业为何成“香饽饽”？最近和几个朋友聊起职业规划，发现一个有趣的现象：不管原来是程序员、运维还是产品经理，都想往网络安全领域跳槽。问原因，答案出奇一致——“听说这行工资高”。确实，从2025年的数据来看，网络安全行业的薪资水平不仅跑赢了大多数IT岗位，甚至成了“技术岗里的天花板”。但高薪背后到底有哪些门道？哪些职位最赚钱？城市和经验如何影响收入？今天我们就
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
flink自定义函数逆风飞翔的小叔 flink 入门到精通 flink 大数据 big data
前言在很多情况下，尽管flink提供了丰富的转换算子API可供开发者对数据进行各自处理，比如map()，filter()等，但在实际使用的时候仍然不能满足所有的场景，这时候，就需要开发人员基于常用的转换算子的基础上，做一些自定义函数的处理1、来看一个常用的操作原始待读取的文件核心代码importorg.apache.flink.api.common.functions.FilterFunction
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Apache Dubbo实战：JavaSDK使用秃了也弱了。 Dubbo apache dubbo
文章目录一、写在前面二、基于zookeeper：快速创建dubbo应用1、maven包（客户端+服务端）（注意spring版本）2、application.yml配置文件（客户端+服务端）3、定义公共接口4、启动类添加注解@EnableDubbo5、服务端6、客户端7、启动试试吧8、拓展：使用JavaConfig代替注解三、拓展配置1、注册中心2、版本与分组3、传递调用参数4、泛化调用5、泛化实现
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Apache http 强制 https 熊猫小账本App Web Linux Safe http apache https ssl
1.修改一下文件配置sudonano/etc/apache2/sites-enabled/000-default.confServerNamehongweizhu.comServerAliaswww.hongweizhu.comServerAdminwebmaster@localhostDocumentRoot/var/www/html#强制重定向到HTTPSRewriteEngineOnRewr
【ceph】坏盘更换，osd的具体操作向往风的男子 ceph ceph
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

Kafka 压缩算法详细介绍

文章目录

一 、Kafka 压缩算法概述

二、Kafka 压缩的作用

2.1 降低网络带宽消耗

2.2 提高 Kafka 生产者和消费者吞吐量

2.3 减少 Kafka 磁盘存储占用

2.4 减少 Kafka Broker 负载

2.5 降低跨数据中心同步成本

三、Kafka 压缩的原理

3.1 Kafka 压缩的基本原理

3.2. Kafka 压缩的工作流程

3.3 Kafka 压缩的数据存储格式

四、Kafka 压缩方式配置

4.1 Kafka 生产者（Producer）端压缩配置

4.2 Kafka Broker 端压缩配置

4.3 Kafka 消费者（Consumer）端解压缩

五、不同压缩方式对比

5.1 Kafka 支持的四种压缩方式

5.2 Kafka 压缩方式对比分析

六、Kafka 压缩场景

6.1 日志收集与分析（ELK / Flink / Kafka）

6.2 实时流数据处理（Flink / Spark Streaming）

6.3 电商高并发订单系统

6.4. 跨数据中心（Multi-DC）Kafka 同步

6.5 数据存储优化（Kafka + HDFS）

你可能感兴趣的:(kafka,分布式,运维,apache)

一、Kafka 压缩算法概述