叫我小蟹

Flume：自定义拦截器-选择器-kafka

文章目录

一、kafka基本操作与flume级联案例操作手册（不使用选择器、拦截器）
- 1、启动hdfs、kafka
- 2、准备级联配置：（第一版：不使用选择器、拦截器）
- 3、kafka的基本命令操作：
- 4、启动flume
二、channel选择器-自定义拦截器-项目分流需求
- 1、调用：
- 2、两种选择器：
- 3、复制选择器（默认）：replicating selector
- 4、多路复用选择器：multiplexing selector
三、序列化和反序列化
- 1、序列化的定义：
- 2、如何实现序列化：
- 3、几种序列化方式：
四、级联下的高可用
- 1、grouping processor（组处理器）
- 2、实现第二级高可用：

一、kafka基本操作与flume级联案例操作手册（不使用选择器、拦截器）

1、启动hdfs、kafka

（1）如果是第一次启动kafka，启动前需要设置一下broker.id=0或1：

vi /opt/apps/kafka_2.11-2.0.0/config/server.properties

①broker.id=0或broker.id=1

②zookeeper地址：

zookeeper.connect=doitedu01:2181,doitedu02:2181,doitedu03:2181

（2）①先启动zookeeper：

zkall.sh start

②后台启动kafka：（后台：-daemon；三台都需要启动）

bin/kafka-server-start.sh  -daemon config/server.properties

③查看端口：jps -m

④如果出现下面这种情况：

1356 -- process information unavailable

说明进程程序已经退出的，但是进程没有关掉

⑤找到这个进程：

find / -name 1356

得到如下地址：

/tmp/hsperfdata_impala/1356

这是个impala的进程

⑥删掉即可：

rm -rf /tmp/hsperfdata_impala

2、准备级联配置：（第一版：不使用选择器、拦截器）

agent级联配置，没有加选择器和拦截器，使用avro，kafka sink

##第一级配置，第一级所有的节点配置都一样

a1.sources = r1
a1.channels = c1
a1.sinks = k1

a1.sources.r1.channels = c1
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = g1
a1.sources.r1.filegroups.g1 = /logdata/a.*
a1.sources.r1.fileHeader = false

a1.channels.c1.type = file

a1.sinks.k1.channel = c1
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = doitedu02
a1.sinks.k1.port = 4444

##第二级agent配置，使用file channel，下一级bind、端口决定上一级

a1.sources = r1
a1.channels = c1
a1.sinks = k1

a1.sources.r1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.bind = doitedu02
a1.sources.r1.port = 4444
a1.sources.r1.batchSize = 100

a1.channels.c1.type = file

a1.sinks.k1.channel = c1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers = doitedu01:9092,doitedu02:9092,doitedu03:9092
a1.sinks.k1.topic = doitedu17
a1.sinks.k1.flumeBatchSize = 100
a1.sinks.k1.producer.acks = 1

3、kafka的基本命令操作：

启动kafka

bin/kafka-server-start.sh  -daemon config/server.properties

（1）topic查看

bin/kafka-topics.sh --list --zookeeper doitedu01:2181

（2）topic创建（指定topic名、分区数、副本数）

bin/kafka-topics.sh --create --topic topic2 --partitions 2 --replication-factor 2 --zookeeper doitedu01:2181

（3）启动一个控制台生产者来生产数据

bin/kafka-console-producer.sh --broker-list doitedu01:9092,doitedu02:9092,doitedu03:9092 --topic topic2

（4）启动一个控制台消费者来消费数据

bin/kafka-console-consumer.sh --bootstrap-server doitedu01:9092,doitedu02:9092,doitedu03:9092 --topic topic2 --from-beginning

（5）kafka基本概念示意图：

4、启动flume

doitedu01作为第一级，doitedu02作为第二级

（1）将配置文件按分级放在不同机器上

①第一台机器：

vi /opt/apps/flume-1.9.0/agentconf/tail-flume-avrosink.properties

将第一级配置放入properties中

②第二台机器：

vi /opt/apps/flume-1.9.0/agentconf/tail-flume-avrosink.properties

将第一级配置放入properties中

（2）模拟日志生成：

cd /logdata

while true;do echo "123456$RANDOM i love you" >> a.log;sleep 0.2;done

（3）启动kafka

bin/kafka-server-start.sh  -daemon config/server.properties

（4）启动flume；

①先启动第二级：（doitedu02中）

bin/flume-ng agent -c conf -f agentconf/avro-flume-kfksink.properties -n a1 -Dflume.root.logger=debug,console

查看进程得知，启动了一个application，可以查看一下application的端口号：

netstat -nltp  | grep 120017

得到结果如下：

tcp6       0      0 192.168.77.42:4444      :::*                    LISTEN      120017/java

②再启动第一级：（doitedu01中）

bin/flume-ng agent -c conf -f agentconf/avro-flume-kfksink.properties -n a1 -Dflume.root.logger=debug,console

（5）查看kafka中：

①查看是否写入：

bin/kafka-topics.sh --list --zookeeper doitedu01:2181

②检查数据是否到了kafka，启动消费者：

bin/kafka-console-consumer.sh --bootstrap-server doitedu01:9092,doitedu02:9092,doitedu03:9092 --topic doitedu17

③停止：CTRL+C

二、channel选择器-自定义拦截器-项目分流需求

1、调用：

source先调用拦截器，得到结果，再调用选择器，将结果放入指定channel。

2、两种选择器：

replicating selector和multiplexing selector

3、复制选择器（默认）：replicating selector

（1）场景：

selector将event复制，taildir采集完，分发给所有下游节点，一个是hdfs，一个是kafka

（2）配置：

a1.sources = r1
a1.channels = c1 c2
a1.sinks = k1 k2

a1.sources.r1.channels = c1 c2
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = g1
a1.sources.r1.filegroups.g1 = /logdata/a.*
a1.sources.r1.fileHeader = false
a1.sources.r1.selector.type = replicating
a1.sources.r1.selector.optional = c2
a1.sources.r1.interceptors = i1 i2

a1.sources.r1.interceptors.i1.type = timestamp
a1.sources.r1.interceptors.i1.headerName = timestamp

a1.sources.r1.interceptors.i2.type = cn.doitedu.yiee.flume.MultiplexingInterceptor$MultiplexingInterceptorBuilder
a1.sources.r1.interceptors.i2.flagfield = 2

a1.channels.c1.type = memory

a1.channels.c2.type = memory

a1.sinks.k1.channel = c1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers = doitedu01:9092,doitedu02:9092,doitedu03:9092
a1.sinks.k1.kafka.topic = doitedu17
a1.sinks.k1.kafka.producer.acks = 1


a1.sinks.k2.channel = c2
a1.sinks.k2.type = hdfs
a1.sinks.k2.hdfs.path = hdfs://doitedu01:8020/flumedata/%Y-%m-%d/%H
a1.sinks.k2.hdfs.filePrefix = doitedu-log-
a1.sinks.k2.hdfs.fileSuffix = .log
a1.sinks.k2.hdfs.rollSize = 268435456
a1.sinks.k2.hdfs.rollInterval = 120
a1.sinks.k2.hdfs.rollCount = 0
a1.sinks.k2.hdfs.batchSize = 1000
a1.sinks.k2.hdfs.fileType = CompressedStream
a1.sinks.k2.hdfs.codeC = snappy
a1.sinks.k2.hdfs.useLocalTimeStamp = false

注：
source中：

①type：selector的类型使用复制选择器replicating。

②optional：选择器的可选channel，如果不写，代表c1和c2都是必须的。

③interceptors：拦截器。

sink中：

①k1是kafka，k2是hdfs。

②k1.kafka.bootstrap.servers：服务器地址，写法：主机名:端口号，用逗号隔开。

③rollInterval：大小与hdfs切块大小无关。

4、多路复用选择器：multiplexing selector

（1）简介：

①可以根据event中的一个指定key的value来决定这条消息会写入哪个channel，具体在选择时，需要配置一个映射关系；

②场景：多路选择器是用来做分流的，将不同类型的数据写入到不同目的地；

③关键：需要在event中加入不同标记，然后去找header，根据header带的值（CZ、US、default），由source将消息发给不同的channel。

④例子：

Example for agent named a1 and it's source called r1：
a1.sources = r1
a1.channel = c1 c2 c3 
a1.sources.r1.selector.type = multiplexing
a1.sources.r1.selector.header = state
a1.sources.r1.selector.mapping.CZ = c1
a1.sources.r1.selector.mapping.US = c2
a1.sources.r1.selector.default = c3

注：

header：去找source定的header；CZ、US、default都是header带的值；

CZ表示：如果state=CZ，发给c1；US表示：如果state=US，发给c2；default表示：如果默认default，发给c3。

（2）写java程序（MultiplexingInterceptor.java）；打成jar包，上传到flume-1.9.0/lib下。

（3）模拟日志生成：

while true
do
if [ $(($RANDOM % 2)) -eq 0 ]
then
echo "u$RANDOM,e1,waimai,`date +%s`000" >> a.log
else
echo "u$RANDOM,e1,mall,`date +%s`000" >> a.log
fi
sleep 0.2
done

注：
日志格式：u01,ev1,mall,1564598789

模拟生成日志中，``是成对出现，里面放指令（date+%s是指令，表示时间，默认单位是秒）

（4）flume的agent配置：

1个source，2个channel，2个sink，一个分路选择器：multiplexing，一个自定义拦截器（type是自定义拦截器的全类名）

a1.sources = r1
a1.channels = c1 c2
a1.sinks = k1 k2

a1.sources.r1.channels = c1 c2
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = g1
a1.sources.r1.filegroups.g1 = /logdata/a.*
a1.sources.r1.fileHeader = false

##自定义拦截器

a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = cn.doitedu.yiee.flume.MultiplexingInterceptor$MultiplexingInterceptorBuilder
a1.sources.r1.interceptors.i1.flagfield = 2
a1.sources.r1.interceptors.i1.timestampfield = 3

##选择器

a1.sources.r1.selector.type = multiplexing
a1.sources.r1.selector.header = flag
a1.sources.r1.selector.mapping.mall = c1
a1.sources.r1.selector.mapping.waimai = c2
a1.sources.r1.selector.default = c2

##channel：c1和c2

a1.channels.c1.type = memory
a1.channels.c1.capacity = 2000
a1.channels.c1.transactionCapacity = 1000

a1.channels.c2.type = memory
a1.channels.c2.capacity = 2000
a1.channels.c2.transactionCapacity = 1000

##kafka sink：k1和k2

##k1：kafka sink

a1.sinks.k1.channel = c1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers = doitedu01:9092,doitedu03:9092
a1.sinks.k1.kafka.topic = mall
a1.sinks.k1.kafka.producer.acks = 1

##k2：hdfs sink

a1.sinks.k2.channel = c2
a1.sinks.k2.type = hdfs
a1.sinks.k2.hdfs.path = hdfs://doitedu01:8020/waimai/%Y-%m-%d/%H
a1.sinks.k2.hdfs.filePrefix = doitedu-log-
a1.sinks.k2.hdfs.fileSuffix = .log
a1.sinks.k2.hdfs.rollSize = 268435456
a1.sinks.k2.hdfs.rollInterval = 120
a1.sinks.k2.hdfs.rollCount = 0
a1.sinks.k2.hdfs.batchSize = 1000
a1.sinks.k2.hdfs.fileType = DataStream
a1.sinks.k2.hdfs.useLocalTimeStamp = false

将配置文件上传到flume/agentconf，文件名：multiplexing-interceptor.properties

（5）启动kafka

bin/kafka-server-start.sh  -daemon config/server.properties

（6）启动hdfs

start-dfs.sh

（7）启动flume agent

bin/flume-ng agent -c conf -f agentconf/multiplexing-interceptor.properties -n a1 -Dflume.root.logger=debug,console

(8)检查数据是否到了kafka，启动消费者：

bin/kafka-console-consumer.sh --bootstrap-server doitedu01:9092,doitedu02:9092,doitedu03:9092 --topic mall from-beginning

三、序列化和反序列化

1、序列化的定义：

序列化：将一个有结构的对象转换成一串线性的二进制序列。

2、如何实现序列化：

开发人员自己控制，把这个对象的方方面面的信息（字段值，字段名，类名，继承体系…），依次表达成二进制。

3、几种序列化方式：

ObjectOutputStream：

（1）jdk中自带的序列化工具，它会把这个对象的方方面面的信息都序列化出去，产生的二进制序列体积臃肿庞大，但是信息很全。

（2）为什么要实现Serializable接口？

①Serializable接口是一个标记接口，实现此接口不用重写方法；

②有些对象不应该被序列化，比如：对象中存储的数据是与本机挂钩的，或者有些存在时间令牌等，如果被反序列化到其他机器上不能使用；

③实现接口是为了提醒写代码的人这个对象应不应该被序列化。

（3）代码实现：

序列化的类：
    
import java.io.FileOutputStream;
import java.io.ObjectOutputStream;

public class SerDeDemo {
    public static void main(String[] args) throws Exception {
        Person p = new Person("小明", 288899998.8, 18);
        
		ObjectOutputStream objout = new ObjectOutputStream(new FileOutputStream("d:/p.obj"));
        objout.writeObject(p);
        objout.close();
    }
}

bean类：
    
import java.io.Serializable;
public class Person implements Serializable {
    private String name;
    private Double salary;
    private int age;

    public Person() {
    }

    public Person(String name, Double salary, int age) {
        this.name = name;
        this.salary = salary;
        this.age = age;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public Double getSalary() {
        return salary;
    }

    public void setSalary(Double salary) {
        this.salary = salary;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }
}

DataOutputStream

（1）DataOutputStream是以字节(byte)为基本处理单位，从OutputStream派生而来，不用实现Serializable接口；

而且使用DataOutputStream序列化后的文件占用体积比较小。

（2）代码实现：

序列化的类：
import java.io.DataOutputStream;
import java.io.FileOutputStream;

public class SerDeDemo {
    public static void main(String[] args) throws Exception {
        Person p = new Person("小明", 288899998.8, 18);
        
        DataOutputStream dataout = new DataOutputStream(new FileOutputStream("d:/p2.obj"));
        dataout.writeUTF(p.getName());
        dataout.writeDouble(p.getSalary());
        dataout.writeInt(p.getAge());


        DataOutputStream dataout2 = new DataOutputStream(new FileOutputStream("d:/p3.obj"));
        dataout2.writeInt(18);
        dataout2.writeUTF("18");
    }
}

bean类：
public class Person {
    private String name;
    private Double salary;
    private int age;

    public Person() {
    }

    public Person(String name, Double salary, int age) {
        this.name = name;
        this.salary = salary;
        this.age = age;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public Double getSalary() {
        return salary;
    }

    public void setSalary(Double salary) {
        this.salary = salary;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }
}

分布式计算框架中实现序列化的方法：

Writable

（1）MapReduce中将对象序列化，实现Writable接口，是调用了对象上的write方法，反序列化调用readFields方法；借鉴了DateOutputStream和DateInputStream；

（2）实例是FSDataOutputStream和FSDataInputStream，FSDataOutputStream和FSDataInputStream又继承了DataOutputStream和DataInputStream；

（3）write方法和 readFields方法都是类的定义者自己实现的，相当于序列化的具体行为是由开发者自己控制的；

Kryo

（1）spark中将对象序列化，默认调用都是jdk的objectoutputstream（serializable），效率低；

所以，我们在spark代码中，一般都要修改序列化器，可以用kryo序列化框架；

kryo序列化框架的序列化结果要比jdk的序列化结果更精简（少了一些类的元信息）；

（2）kryo在序列化时，还是会带上一些必要的类元信息，以便于下游task能正确反序列化；

可以提前将这些可能要被序列化的类型，注册到kryo的映射表中，这样，kryo在序列化时就不需要序列化类元信息了。

（3）代码实现：

主类
    
import java.util
import java.util.{ArrayList, List}
import org.apache.spark.SparkConf
import org.apache.spark.serializer.KryoSerializer
import org.apache.spark.sql.SparkSession

object SparkSerde {

  def main(args: Array[String]): Unit = {

    /**
    spark中将对象序列化，默认调用都是jdk的objectoutputstream（serializable），效率低；
    所以，我们在spark代码中，一般都要修改序列化器，可以用kryo序列化框架；
    kryo序列化框架的序列化结果要比jdk的序列化结果更精简（少了一些类的元信息）。
    */
    val spark1 = SparkSession.builder.config("spark.serializer", classOf[KryoSerializer].getName).appName("").master("local").getOrCreate
    
    //导入隐式转换
    import spark1.implicits._
    spark1.createDataset(Seq(new Person("zz", 1888.8, 28)));

    /** 
    上面的做法中：kryo在序列化时，还是会带上一些必要的类元信息，以便于下游task能正确反序列化；
    下面的做法中：可以提前将这些可能要被序列化的类型，注册到kryo的映射表中，这样，kryo在序列化时就不需要序列化类元信息了。
    */
    val conf = new SparkConf
    conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    conf.registerKryoClasses(Array(classOf[Person],classOf[Person2]))
    val spark2 = SparkSession.builder()
      .config(conf)
      .master("local")
      .appName("序列化案例")
      .getOrCreate()
  }
}

bean类
    
public class Person {
    private String name;
    private Double salary;
    private int age;

    public Person() {
    }

    public Person(String name, Double salary, int age) {
        this.name = name;
        this.salary = salary;
        this.age = age;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public Double getSalary() {
        return salary;
    }

    public void setSalary(Double salary) {
        this.salary = salary;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }
}

avro

avro与kryo类似，但是avro是个跨平台、跨语言的序列化工具。

四、级联下的高可用

1、grouping processor（组处理器）

一个agent中，多个sink可以被组装到一个组，而数据在组内多个sink之间发送，有两种模式：

（1）模式1：Failover Sink Processor失败切换

一组中只有优先级高的那个sink在工作，另一个是等待中

如果高优先级的sink发送数据失败，则专用低优先级的sink去工作！并且，在配置时间penalty之后，还会尝试用高优先级的去发送数据！

a1.sinkgroups = g1

a1.sinkgroups.g1.sinks = k1 k2

a1.sinkgroups.g1.processor.type = failover

\## 对两个sink分配不同的优先级

a1.sinkgroups.g1.processor.priority.k1 = 200

a1.sinkgroups.g1.processor.priority.k2 = 100

\## 主sink失败后，停用惩罚时间

a1.sinkgroups.g1.processor.maxpenalty = 5000

（2）模式2：Load balancing Sink Processor负载均衡

允许channel中的数据在一组sink中的多个sink之间进行轮转，策略有：

****round-robin****（轮着发）

****random****（随机挑）

a1.sinkgroups = g1 

a1.sinkgroups.g1.sinks = k1 k2 

a1.sinkgroups.g1.processor.type = load_balance 

a1.sinkgroups.g1.processor.backoff = true 

a1.sinkgroups.g1.processor.selector = random

2、实现第二级高可用：

在传输过程中做分流处理，第二级中设置两个或多个agent，实现第二级的高可用。

你可能感兴趣的:(flume,kafka,flume,kafka)

Kafka跨集群数据备份与同步：MirrorMaker运用磐基Stack专业服务团队 Kafka kafka 分布式
#作者：张桐瑞文章目录前言MirrorMaker是什么运行MirrorMaker各个参数的含义前言在大多数情况下，我们会部署一套Kafka集群来支撑业务需求。但在某些特定场景下，可能需要同时运行多个Kafka集群。比如，为了实现灾难恢复，你可以在不同机房分别部署独立的Kafka集群。如果一个机房发生故障，你可以快速切换流量到另一个正常运行的机房。另外，如果你希望为地理上较近的客户提供低延迟的消息服
【大模型系列】SFT（Supervised Fine-Tuning，监督微调） Kwan的解忧杂货铺@新空间代码工作室 s2 AIGC 大模型
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
深入理解 Kafka 的 ConsumerRebalanceListener t0_54coder 编程问题解决手册 kafka linq 分布式
深入理解Kafka的ConsumerRebalanceListener在分布式系统中，数据的一致性和可靠性是至关重要的。ApacheKafka作为一个流行的分布式流处理平台，提供了强大的数据传输和处理能力。在Kafka中，消费者组（ConsumerGroup）的概念允许多个消费者实例共同处理一个主题的数据。然而，当消费者实例的个数发生变化时，如何确保数据的平衡和一致性呢？这就引出了我们今天要讨论的
如何解决Kafka Rebalance引起的重复消费 maozexijr kafka linq 分布式
在Kafka中，Rebalance（再平衡）是消费者组（ConsumerGroup）动态调整分区分配的过程。当消费者组中的成员发生变化（例如消费者加入或退出）、订阅的Topic分区数量变化、或者消费者长时间未发送心跳时，都会触发Rebalance。虽然Rebalance有助于负载均衡和容错，但它也可能导致重复消费的问题。以下是一些解决因Rebalance引起的重复消费问题的方法：1.禁用自动提交O
Kafka深度解析 GarfieldEr007 Kafka/MQ Kafka 深度解析 MQ
原创文章，转载请务必将下面这段话置于文章开头处（保留超链接）。本文转发自Jason’sBlog，原文链接http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍Kafka简介Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价
关于kafka常见的问题小结 BAStriver #Kafka 中间件 kafka 分布式
目录1.Kafka怎么避免重复消费1.1什么时候出现重复消费1.2如何处理重复消费问题2.Kafka怎么保证消息不丢失2.1Producer2.2Broker2.3Consumer3.Kafka怎么保证消息消费的顺序最近面试遇到一些常见kafka问题，所以做一下总结。1.Kafka怎么避免重复消费1.1什么时候出现重复消费1)Kafka的broker上存储的消息都有一个offset作为标记，然后K
【Kafka高级】Kafka性能优化与调优实践全栈追梦人 kafka 性能优化 linq
在大规模数据处理和实时消息传递场景中，Kafka的性能优化至关重要。本文将从生产者性能优化、消费者性能优化以及集群性能调优三个方面展开，结合实际代码示例和配置参数，帮助读者更好地理解和应用Kafka性能优化策略。一、生产者性能优化Kafka生产者的性能直接影响消息发送的效率和系统的吞吐量。以下是一些关键优化策略：1.1批量发送生产者会将消息批量发送到Kafka，减少网络请求次数。以下参数对批量发送
消息中间件：RabbitMQ、Kafka 和 Redis如何选择？一文让您了解！写bug如流水架构设计 rabbitmq kafka redis 中间件
RabbitMQ、Kafka和Redis是三种常见的消息中间件，它们各自具有不同的特点和适用的场景。以下是对它们使用场景及选择的分析：1.RabbitMQRabbitMQ是一个基于AMQP（AdvancedMessageQueuingProtocol）的消息队列系统，主要用于消息传递和任务分发，具有可靠的消息传递机制。使用场景：复杂的路由机制：RabbitMQ支持多种交换器类型（如fanout、d
Kafka Connect Node.js Connector 指南丁操余
KafkaConnectNode.jsConnector指南kafka-connectequivalenttokafka-connect:wrench:fornodejs:sparkles::turtle::rocket::sparkles:项目地址:https://gitcode.com/gh_mirrors/ka/kafka-connect项目介绍KafkaConnectNode.jsConn
消息中间件选型: kafka与rabbitmq的对比 HS_Henry 消息中间件 rabbitmq kafka 消息中间件选型
RabbitMQ总结_陈海龙的格物之路-CSDN博客https://blog.csdn.net/chl87783255/article/details/122606212kafka总结_陈海龙的格物之路-CSDN博客kafka，仅支持拉取的分布式流式平台。本文从简介、使用场景、设计、实现四个方面阐述kafka。https://blog.csdn.net/chl87783255/article/de
RabbitMQ 与 Kafka：消息中间件的终极对比与选型指南海上彼尚 node.js rabbitmq kafka 分布式 node.js
引言在分布式系统架构中，消息中间件是异步通信的核心组件。RabbitMQ和Kafka作为两大主流技术，常被开发者拿来比较。本文深入解析两者的设计哲学、性能差异和典型场景，助你做出精准技术选型。目录引言一、核心设计差异1.定位与数据模型二、性能与架构对比1.吞吐量与延迟2.集群与扩展三、功能特性对决1.消息可靠性2.消息路由四、典型场景与选型决策1.优先选择Kafka的场景2.优先选择RabbitM
RocketMQ 和 Kafka 重生之我在成电转码 rocketmq Kafka java 消息队列
✅RocketMQ和Kafka是两种非常流行的分布式消息队列系统，它们广泛用于大规模、高并发的消息传递和事件驱动架构中。虽然它们都属于消息队列，但在设计理念、特性和应用场景上有一些差异。接下来，我们来深入分析这两者的区别与优缺点。一、Kafka和RocketMQ的概述✅1️⃣KafkaKafka是一个分布式的流处理平台，由Apache软件基金会开发，最初由LinkedIn开发并开源。Kafka主要
springboot+kafka+邮件发送（最佳实践） weixin_30347335 大数据 java 数据库
导读集成spring-kafka，生产者生产邮件message，消费者负责发送引入线程池，多线程发送消息多邮件服务器配置定时任务生产消息；计划邮件发送实现过程导入依赖1.85.1.382.1.51.3.22.8.23.4org.springframework.bootspring-boot-starterorg.springframework.bootspring-boot-starter-tes
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
zookeeper&nacos&kafka之间的联系 Gold Steps. 技术博文分享 zookeeper kafka 微服务服务发现
一、ZooKeeper与Kafka的协同工作原理1.核心关系：Kafka对ZooKeeper的依赖在Kafka2.8版本之前，ZooKeeper是Kafka集群的“大脑”，负责管理集群元数据、协调节点状态和故障恢复。两者的协同主要通过以下关键机制实现：Broker注册与心跳KafkaBroker启动时会在ZooKeeper的/brokers/ids路径下注册临时节点（EphemeralNode），
Kafka集群部署实战 Gold Steps. 技术博文分享 kafka 分布式
服务背景ApacheKafka作为分布式流处理平台，在金融交易系统、物联网数据处理、实时日志分析等场景中发挥关键作用。某电商平台日均处理订单消息1.2亿条，峰值QPS达5万，采用Kafka集群实现订单状态流转、用户行为追踪和库存同步等功能。以下是经过生产验证的集群部署方案及典型故障处理经验。集群运维最佳实践1.容量规划建议指标推荐值监控阈值分区数量/Broker≤4000≥3500告警副本同步延迟
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Kafka系列之—向Kafka 写入数据（四）葛旭朋 Kafka kafka 分布式 java
一，创建Kafka生产者1.1必选的三个属性1.1.1bootstrap.servers指定broker的地址清单，不需要包含所有的broker地址，生产者会从给定的broker里找到其它broker的信息，建议最少提供两个broker的信息。1.1.2key.serializerbroker希望接收到的消息的键和值都是字节数组。1.1.3value.serializer指定的类会将值序列化。1.
Kafka 数据写入问题喝醉酒的小白 DBA kafka 分布式
目录标题分析思路1.**生产者配置问题**：Kafka生产者的配置参数生产者和消费者的处理确定并优化2.**网络问题**：3.**Kafka集群配置问题**：unclean.leader.election.enable4.**Zookeeper配置问题**：5.**JVM参数调优**：6.**副本因子和同步复制**：分析思路针对您提到的Kafka数据写入问题，以下是一些具体的原因和排查命令：1.生
【Kafka】Kafka写入数据此木|西贝 Kafka kafka 分布式
不管是把Kafka作为消息队列还是数据存储平台，总是需要一个可以往Kafka写入数据的生产者，一个可以从Kafka读取数据的消费者。生产者创建一个ProducerRecord对象，包含目标topic和发送的内容；另外可以指定键、分区、时间戳或标头对数据进行分区；如果没有显示指定分区，数据将会传给分区器，确定往哪个主题和分区发送数据。消息添加到一个消息批次，该批次所有的消息被发送到同一个主题和分区；
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
kafka相关问题给我个面子中不 Java学习 kafka 分布式 java
Kafka通过事务机制与幂等性功能相结合，实现了跨会话的幂等性。以下是详细解释：kafka是怎么通过事物保证跨会话的幂等性？1.幂等性与跨会话幂等性幂等性：指相同的操作被执行多次，其结果是一样的。在Kafka中，主要是指生产者发送相同的消息不会导致重复。跨会话幂等性：在生产者会话关闭并重启后，Kafka仍能保证发送的消息不会被重复处理。2.Kafka的幂等性原理Kafka的幂等性主要通过Produ
kafka详细介绍以及使用酷爱码经验分享 kafka 分布式
ApacheKafka是一个由Apache软件基金会开发的开源流式数据平台和消息系统。它被设计用于处理实时数据流，并能够支持高容错性、可伸缩性和可靠性。Kafka最初是由LinkedIn开发，并于2011年捐赠给Apache软件基金会。它现在被许多公司广泛应用于构建实时数据流架构和事件驱动型应用程序。Kafka提供了一种高性能、持久性的消息传递系统，通过将消息发布到主题（topic）和订阅这些主题
Kafka 同步机制关键点 2分钟讲明白大博士.J kafka
ApacheKafka通过副本同步机制来保证数据的高可用性和可靠性。Kafka的同步机制主要涉及以下几个核心概念：副本（Replication）Kafka的每个Partition都会有多个副本（Replica），分为：Leader副本：负责处理生产者和消费者的所有请求。Follower副本：仅从Leader同步数据，不直接处理请求。副本数由replication.factor参数配置。例如：rep
Debezium系列之：使用Debezium采集oceanbase数据库快乐骑行^_^ debezium Debezium系列采集oceanbase数据库
Debezium系列之：使用Debezium采集oceanbase数据库一、oceanbase数据库二、安装OceanBase三、安装oblogproxy四、基于Docker的简单采集案例五、生产实际应用案例Debezium是一个开源的分布式平台，用于监控数据库变化和捕捉数据变动事件，并以事件流的形式导出到各种消费者。Debezium基于ApacheKafka实现，并支持多种数据库系统。一、oce
3.7 Spring Boot整合Kafka：消息顺序性与消费幂等性保障 Sendingab Spring boot 从入门到精通零基础7天精通Spring Boot linq c#spring boot kafka
在SpringBoot中整合Kafka并保障消息顺序性与消费幂等性，可以通过以下步骤实现：一、消息顺序性保障1.生产者配置相同Key写入同一分区：Kafka保证同一分区内消息的顺序性，生产者发送消息时指定相同Key，确保相关消息进入同一分区。java@AutowiredprivateKafkaTemplatekafkaTemplate;publicvoidsendMessage(Stringkey
Flume详解——介绍、部署与使用克里斯蒂亚诺罗纳尔多阿维罗 flume 大数据分布式
1.Flume简介ApacheFlume是一个专门用于高效地收集、聚合、传输大量日志数据的分布式、可靠的系统。它特别擅长将数据从各种数据源（如日志文件、消息队列等）传输到HDFS、HBase、Kafka等大数据存储系统。特点：可扩展：支持大规模数据传输，灵活扩展容错性：支持数据恢复和失败重试，确保数据不丢失多种数据源：支持日志文件、网络数据、HTTP请求、消息队列等多种来源流式处理：数据边收集边传
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多