快快乐乐#

kafka系列（04）：Kafka分区和副本机制理解

1.kafka分区机制

分区机制是kafka实现高吞吐的秘密武器，但这个武器用得不好的话也容易出问题，今天主要就来介绍分区的机制以及相关的部分配置。

首先，从数据组织形式来说，kafka有三层形式，kafka有多个主题，每个主题有多个分区，每个分区又有多条消息。

而每个分区可以分布到不同的机器上，这样一来，从服务端来说，分区可以实现高伸缩性，以及负载均衡，动态调节的能力。

当然多分区就意味着每条消息都难以按照顺序存储，那么是不是意味着这样的业务场景kafka就无能为力呢？不是的，最简单的做法可以使用单个分区，单个分区，所有消息自然都顺序写入到一个分区中，就跟顺序队列一样了。而复杂些的，还有其他办法，那就是使用按消息键，将需要顺序保存的消息存储的单独的分区，其他消息存储其他分区，这个在下面会介绍。

我们可以通过replication-factor指定创建topic时候所创建的分区数。

bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic test

比如这里就是创建了1个分区，的主题。值得注意的是，还有一种创建主题的方法，是使用zookeeper参数的，那种是比较旧的创建方法，这里是使用bootstrap参数的。

1.1 分区个数选择

既然分区效果这么好，是不是越多分区越好呢？显而易见并非如此。

分区越多，所需要消耗的资源就越多。甚至如果足够大的时候，还会触发到操作系统的一些参数限制。比如linux中的文件描述符限制，一般在创建线程，创建socket，打开文件的场景下，linux默认的文件描述符参数，只有1024，超过则会报错。

看到这里有读者就会不耐烦了，说这么多有啥用，能不能直接告诉我分区分多少个比较好？很遗憾，暂时没有。

因为每个业务场景都不同，只能结合具体业务来看。假如每秒钟需要从主题写入和读取1GB数据，而消费者1秒钟最多处理50MB的数据，那么这个时候就可以设置20-25个分区，当然还要结合具体的物理资源情况。

而如何无法估算出大概的处理速度和时间，那么就用基准测试来测试吧。创建不同分区的topic，逐步压测测出最终的结果。如果实在是懒得测，那比较无脑的确定分区数的方式就是broker机器数量的2~3倍。

1.2 分区写入策略

所谓分区写入策略，即是生产者将数据写入到kafka主题后，kafka如何将数据分配到不同分区中的策略。

常见的有三种策略，轮询策略，随机策略，和按键保存策略。其中轮询策略是默认的分区策略，而随机策略则是较老版本的分区策略，不过由于其分配的均衡性不如轮询策略，故而后来改成了轮询策略为默认策略。

轮询策略

所谓轮询策略，即按顺序轮流将每条数据分配到每个分区中。

举个例子，假设主题test有三个分区，分别是分区A，分区B和分区C。那么主题对接收到的第一条消息写入A分区，第二条消息写入B分区，第三条消息写入C分区，第四条消息则又写入A分区，依此类推。

轮询策略是默认的策略，故而也是使用最频繁的策略，它能最大限度保证所有消息都平均分配到每一个分区。除非有特殊的业务需求，否则使用这种方式即可。

随机策略

随机策略，也就是每次都随机地将消息分配到每个分区。其实大概就是先得出分区的数量，然后每次获取一个随机数，用该随机数确定消息发送到哪个分区。

在比较早的版本，默认的分区策略就是随机策略，但其实使用随机策略也是为了更好得将消息均衡写入每个分区。但后来发现对这一需求而言，轮询策略的表现更优，所以社区后来的默认策略就是轮询策略了。

按键保存策略

按键保存策略，就是当生产者发送数据的时候，可以指定一个key，计算这个key的hashCode值，按照hashCode的值对不同消息进行存储。

至于要如何实现，那也简单，只要让生产者发送的时候指定key就行。欸刚刚不是说默认的是轮询策略吗？其实啊，kafka默认是实现了两个策略，没指定key的时候就是轮询策略，有的话那激素按键保存策略了。

上面有说到一个场景，那就是要顺序发送消息到kafka。前面提到的方案是让所有数据存储到一个分区中，但其实更好的做法，就是使用这种按键保存策略。

让需要顺序存储的数据都指定相同的键，而不需要顺序存储的数据指定不同的键，这样一来，即实现了顺序存储的需求，又能够享受到kafka多分区的优势，岂不美哉。

1.3 实现自定义分区

说了这么多，那么到底要如何自定义分区呢？

kafka提供了两种让我们自己选择分区的方法，第一种是在发送producer的时候，在ProducerRecord中直接指定，但需要知道具体发送的分区index，所以并不推荐。

第二种则是需要实现Partitioner.class类，并重写类中的partition(String topic, Object key, byte[] keyBytes,Object value, byte[] valueBytes, Cluster cluster) 方法。后面在生成kafka producer客户端的时候直接指定新的分区类就可以了。

package kafkaconf;
import java.util.List;
import java.util.Map;
import java.util.concurrent.ThreadLocalRandom;

import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;
import org.apache.kafka.common.PartitionInfo;


public class MyParatitioner implements Partitioner {
    @Override
    public void configure(Map configs) {
    }

    @Override
    public int partition(String topic, Object key, byte[] keyBytes,
                         Object value, byte[] valueBytes, Cluster cluster) {
        //key不能空，如果key为空的会通过轮询的方式 选择分区
        if(keyBytes == null || (!(key instanceof String))){
            throw new RuntimeException("key is null");
        }
        //获取分区列表
        List partitions = cluster.partitionsForTopic(topic);

        //以下是上述各种策略的实现，不能共存
        //随机策略
        return ThreadLocalRandom.current().nextInt(partitions.size());

        //按消息键保存策略
        return Math.abs(key.hashCode()) % partitions.size();

        //自定义分区策略, 比如key为123的消息，选择放入最后一个分区
        if(key.toString().equals("123")){
            return partitions.size()-1;
        }else{
            //否则随机
            ThreadLocalRandom.current().nextInt(partitions.size());
        }
    }

    @Override
    public void close() {
    }
}

然后需要在生成kafka producer客户端的时候指定该类就行：

    val properties = new Properties()
	......
	props.put("partitioner.class", "kafkaconf.MyParatitioner");  //主要这个配置指定分区类
	......其他配置
	val producer = new KafkaProducer[String, String](properties)

2.kafka副本机制

说完了分区，再来说说副本。先说说副本的基本内容，在kafka中，每个主题可以有多个分区，每个分区又可以有多个副本。这多个副本中，只有一个是leader，而其他的都是follower副本。仅有leader副本可以对外提供服务。

多个follower副本通常存放在和leader副本不同的broker中。通过这样的机制实现了高可用，当某台机器挂掉后，其他follower副本也能迅速”转正“，开始对外提供服务。

这里通过问题来整理这部分内容。

kafka的副本都有哪些作用？

在kafka中，实现副本的目的就是冗余备份，且仅仅是冗余备份，所有的读写请求都是由leader副本进行处理的。follower副本仅有一个功能，那就是从leader副本拉取消息，尽量让自己跟leader副本的内容一致。

说说follower副本为什么不对外提供服务？

这个问题本质上是对性能和一致性的取舍。试想一下，如果follower副本也对外提供服务那会怎么样呢？首先，性能是肯定会有所提升的。但同时，会出现一系列问题。类似数据库事务中的幻读，脏读。

比如你现在写入一条数据到kafka主题a，消费者b从主题a消费数据，却发现消费不到，因为消费者b去读取的那个分区副本中，最新消息还没写入。而这个时候，另一个消费者c却可以消费到最新那条数据，因为它消费了leader副本。

看吧，为了提高那么些性能而导致出现数据不一致问题，那显然是不值得的。

leader副本挂掉后，如何选举新副本？

如果你对zookeeper选举机制有所了解，就知道zookeeper每次leader节点挂掉时，都会通过内置id，来选举处理了最新事务的那个follower节点。

从结果上来说，kafka分区副本的选举也是类似的，都是选择最新的那个follower副本，但它是通过一个In-sync（ISR）副本集合实现。

kafka会将与leader副本保持同步的副本放到ISR副本集合中。当然，leader副本是一直存在于ISR副本集合中的，在某些特殊情况下，ISR副本中甚至只有leader一个副本。

当leader挂掉时，kakfa通过zookeeper感知到这一情况，在ISR副本中选取新的副本成为leader，对外提供服务。

但这样还有一个问题，前面提到过，有可能ISR副本集合中，只有leader，当leader副本挂掉后，ISR集合就为空，这时候怎么办呢？这时候如果设置unclean.leader.election.enable参数为true，那么kafka会在非同步，也就是不在ISR副本集合中的副本中，选取出副本成为leader，但这样意味这消息会丢失，这又是可用性和一致性的一个取舍了。

ISR副本集合保存的副本的条件是什么？

上面一直说ISR副本集合中的副本就是和leader副本是同步的，那这个同步的标准又是什么呢？

答案其实跟一个参数有关：replica.lag.time.max.ms。

前面说到follower副本的任务，就是从leader副本拉取消息，如果持续拉取速度慢于leader副本写入速度，慢于时间超过replica.lag.time.max.ms后，它就变成“非同步”副本，就会被踢出ISR副本集合中。但后面如何follower副本的速度慢慢提上来，那就又可能会重新加入ISR副本集合中了。

producer的acks参数

前面说了那么多理论的知识，那么就可以来看看如何在实际应用中使用这些知识。

跟副本关系最大的，那自然就是acks机制，acks决定了生产者如何在性能与数据可靠之间做取舍。

配置acks的代码其实很简单，只需要在新建producer的时候多加一个配置：

    val properties = new Properties()
	......
	props.put("acks", "0/1/-1");  //配置acks，有三个可选值
	......其他配置
	val producer = new KafkaProducer[String, String](properties)

acks这个配置可以指定三个值，分别是0，1和-1。我们分别来说三者代表什么：

acks为0：这意味着producer发送数据后，不会等待broker确认，直接发送下一条数据，性能最快
acks为1：为1意味着producer发送数据后，需要等待leader副本确认接收后，才会发送下一条数据，性能中等
acks为-1：这个代表的是all，意味着发送的消息写入所有的ISR集合中的副本（注意不是全部副本）后，才会发送下一条数据，性能最慢，但可靠性最强

还有一点值得一提，kafka有一个配置参数，min.insync.replicas，默认是1（也就是只有leader，实际生产应该调高），该属性规定了最小的ISR数。这意味着当acks为-1（即all）的时候，这个参数规定了必须写入的ISR集中的副本数，如果没达到，那么producer会产生异常。

以上~

spark集群，kafka集群和zookeeper的docker集群快速搭建醉与浮 tools docker spark kafka
准备操作安装docker(宿主机)yuminstalldocker(宿主机时centos用yum管理包)systemctldaemon-reload(重加载deamon服务，是docker的核心)systemctlrestartdocker.service(重启docker服务)docker常用命令dockerps-a查看所有容器dockersearchUbuntu寻找Ubuntu的镜像docke
Ubuntu快速安装kafka集群拥抱世界的精彩 kafka集群 ubuntu搭建kafka集群 kafka集群
搭建集群做少需要三台服务器一个centos和两个ubuntu每台都按照下面做：安装JDKsudoapt-getinstalldefault-jrejava-versionapt-getinstalldefault-jdkjava-version安装：sudoapt-getinstallzookeeper/etc/init.d/zookeeperstart//自启动默认信息：#安装路径/usr/sh
Kafka 在 Linux 下的集群配置和安装 J老熊 kafka linux java 面试系统架构运维 docker
Kafka在Linux下的集群配置和安装ApacheKafka是一个流行的分布式流处理平台，广泛用于实时数据管道和流处理应用。本文将详细讲解如何在Linux环境中配置和安装Kafka集群，并包括通过Docker安装和配置Kafka的步骤。每个步骤都将提供详细的解释，力求帮助读者深入理解。1.环境准备在开始之前，请确保您的Linux系统满足以下要求：操作系统：推荐使用Ubuntu20.04或Cent
linux上卸载kafka,kafka安装在linux上的安装飞鼠明天做窝 linux上卸载kafka
kafka安装第一关java的安装捞得嘛，不谈第二关zookeeper的安装及配置1.直接打开Apachzookeeper进行下载Tips:source是源文件，需要编译后才能继续使用，所以一般直接下载上面的源文件。2.安装zookeeper传到linux里面进行解压3.配置zookeeper打开/etc/profile文件进行配置exportZOOKEEPER_INSTALL=/usr/loca
Kafka 茶本无香 kafka 分布式
1.概述ApacheKafka是一个分布式流处理平台，由LinkedIn开发并开源，具有高吞吐、低延迟、可水平扩展等特性。它广泛应用于实时数据管道、日志聚合、事件溯源、消息队列等场景。2.核心原理2.1架构组成Broker：Kafka集群中的单个节点，负责消息存储和传递。Producer：向KafkaTopic发布消息的客户端。Consumer：从Topic订阅并消费消息的客户端。ZooKeepe
Kafka 消息不丢失：全方位保障策略艾斯比的日常 kafka linq 分布式
Kafka消息不丢失：全方位保障策略引言在现代分布式系统中，Kafka作为一款高性能、高可扩展性的消息队列，被广泛应用于数据传输、日志收集、实时流处理等场景。然而，消息丢失是使用Kafka时可能面临的一个严重问题，这可能会导致数据不一致、业务逻辑错误等后果。因此，确保Kafka消息不丢失至关重要。本文将从生产者、Broker和消费者三个层面详细介绍保障Kafka消息不丢失的方法。生产者层面保障确认
kafka+zk三台集群问题排查未竟大数据组件消息队列 kafka zookeeper big data
问题描述：项目中人大金仓同步工具同步数据增量到kafka集群，无法自动创建topic，以及出现同步到topic时连接失败的问题，经过排查修改配置参数最终解决。重新安装zk和kafka操作步骤1、先把zk和kafka都停掉三台都执行zookeeper/bin/zkServer.shstop三台都执行kafka/bin/kafka-server-stop.sh2、把之前的目录文件都备份删除mv/dat
kafka+zk docker环境搭建 wtopps Linux kafka docker kafka搭建 kafka zk搭建
文章目录背景docker-compose安装构建docker-compose配置文件Kafka命令行测试消息的生产和消费使用Kafka自带工具执行压测背景本篇主要记录一下使用docker搭建kafka+zk的开发环境的过程。使用工具：dockerdocker-compose环境：CentOS7.2docker-compose安装安装前需确认已经安装Docker，这里不过多说明Docker的安装。安
分分钟搞定分布式技术专题面试——Nginx+ZK+ActiveMQ+Kafka+RabbitMQ+MongoDB+Redis！独孤球球 java 开发语言
前些日子听很多朋友说面试跪在分布式，所以今天特地来总结一波分布式技术专题面试，限流、通讯、缓存：01分布式限流：Nginx+ZooKeeper1.1分布式限流之Nginx请解释一下什么是Nginx?请列举xNginx的一些特性。请列举xNginx和和Apache之间的不同点请解释xNginx如何处理PHTTP请求。在xNginx中，如何使用未定义的服务器名称来阻止处理请求?使用“反向代理服务器”请
Canal+MySQL+Kafka+Zookeeper 正大光明瑞士卷 mysql kafka java-zookeeper
目录一、CanalⅠ、下载安装Ⅱ、配置主要配置文件（1）conf/canal.properties（2）conf/example/instance.propertiesⅢ、开启canal二、MySQLⅠ、搭建与基础使用Ⅱ、开启二进制日志三、Kafka+Zookeeper集群Ⅰ、搭建与基础使用Ⅱ、创建topic四、测试Ⅰ、数据库操作Ⅱ、kafka消费一、Canal阿里巴巴B2B公司，因为业务的特性，
kafka 在Linux上的安装部署 The博宇软件安装 linux kafka 运维
一、前言Kafka是一个分布式流处理平台，在大数据领域有着广泛的应用。在Linux系统上安装部署Kafka可以为我们搭建高效的数据处理环境。本教程将详细介绍在Linux中安装和部署Kafka的步骤。二、准备工作2.1系统要求确保你的Linux系统已经安装并配置好。本教程以CentOS7为例，但其他常见的Linux发行版（如Ubuntu等）步骤也大致相似。系统需要有足够的磁盘空间、内存等资源，一般建
Linux系统上安装kafka auspicious航大数据相关学习资料 linux kafka 运维
目录1.安装Java环境2.下载和解压Kafka3.配置Kafka4.启动ZooKeeper和Kafka5.测试Kafka6.停止服务7.常见问题1.安装Java环境Kafka依赖Java运行环境（JDK8或更高版本）：#安装OpenJDK（推荐）yuminstallopenjdk-11-jdk#验证安装java-version如果已经安装Java环境，可通过如下方式进行检查。#检查当前JAVA
KubeBlocks 喝醉酒的小白 K8s 学习
KubeBlocks笔记概述KubeBlocks是一个开源的Kubernetes数据库Operator，旨在帮助用户在Kubernetes上运行和管理多种类型的数据库。它提供了通用的API和命令行工具kbcli，支持MySQL、PostgreSQL、MongoDB、Redis、Kafka等多种数据库引擎。主要特点高可用性：集成成熟的高可用解决方案，如Orchestrator、Patroni和Sen
Doris 数据集成 Kafka 不二人生 Doris 实战 doris 数据仓库
Doris数据集成Kafka这是我们Doris数据集成篇的第二篇，前面我们介绍过通过Catalog进行集成的例子Doris基础篇—数据集成Catalog目前公司的很多数据服务都开始使用Doris了，目前使用下来感觉还是很方便的，比起Hadoop那一套少了很多运维的成本，而且整体的效率也不错，现在也要把ELK那一套日志分析的替换掉，后面日志分析也走Doris。关于如何使用Doris做日志分析，可以参
Spring Boot——消息队列集成RabbitMQ详细步骤大全程序员阿皓 SpringBoot java-rabbitmq spring boot rabbitmq
SpringBoot提供了与多种消息队列系统集成的支持，其中最常见的是集成RabbitMQ或Kafka。以RabbitMQ为例集成的详细步骤如下：1.添加RabbitMQ的依赖首先，在SpringBoot项目的pom.xml文件中添加RabbitMQ的依赖：org.springframework.bootspring-boot-starter-amqp2.配置RabbitMQ的连接信息在appli
【中国首个AI原生IDE：字节跳动发布AI编程工具Trae，开启智能编程新时代】 Kwan的解忧杂货铺@新空间代码工作室 s2 AIGC AI-native ide AI编程
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
解决kafka3.0.0在windows下不能启动的问题 raiseup2 practice windows kafka java 后端开发语言
看到一个问题，说在用java代码发送kafka消息的时候能指定一个partition参数：importorg.apache.kafka.clients.producer.ProducerRecord;publicclassKafkaProducerExample{publicstaticvoidmain(String[]args){Stringtopic="test";intpartition=0
Flume-HBase-Kafka 正在緩沖҉99% kafka Flume HBase 大数据
Flume-HBase-Kafka一、各自介绍1.Flume简介和特征2.HBase简介和特征3.Kafka简介和特征二、通过Flume读取日志文件写入到Kafka中在写入HBase各自作用一、各自介绍1.Flume简介和特征一、简介Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方
大数据环境（单机版） Flume传输数据到Kafka 凡许真大数据 flume kafka 数据采集
文章目录前言一、准备二、安装三、配置环境变量四、修改配置4.1、kafka配置4.2、Flume配置五、启动程序5.1、启动zk5.2、启动kafka5.3、启动flume六、测试6.1、启动一个kafka终端，用来消费消息6.2、写入日志其他前言flume监控指定目录，传输数据到kafka一、准备flume-1.10.1kafka_2.11-2.4.1zookeeper-3.4.13二、安装使用
为什么使用 RocketMQ？ rocketmq消息中间件
RocketMQ与其他主流消息队列（如Kafka、RabbitMQ、ActiveMQ）的优缺点对比如下：一、RocketMQ的核心优势高吞吐与低延迟吞吐量：单机可达10万级消息/秒，介于Kafka（29万/秒）与RabbitMQ（2.6万/秒）之间。延迟：毫秒级响应，适用于实时性要求较高的在线业务（如交易系统）。适用场景：大规模分布式系统，日均处理百亿级消息，尤其适合金融交易、订单处理等高并发场景
Redis面试——redis基础、5种数据类型、持久化、主从模式、哨兵丢丢diu丢 Redis面试分布式数据库
问题目录1.5种基本数据类型2.分布式锁3.缓存一致性4.缓存穿透、击穿、雪崩5.跳表1.Redis前言0.Redis为什么这么快？1.纯内存操作：读取不需要进行磁盘I/O，所以比传统数据库要快上不少；(但不要有误区说磁盘就一定慢，例如Kafka就是使用磁盘顺序读取但仍然较快)2.单线程，无锁竞争：这保证了没有线程的上下文切换，不会因为多线程的一些操作而降低性能；3.多路I/O复用模型，非阻塞I/
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成 flink大数据实时计算
这篇教程将展示如何基于FlinkCDCYAML快速构建MySQL到Kafka的流式数据集成作业，包含整库同步、表结构变更同步的演示和特色功能的介绍。本教程的演示都将在FlinkCDCCLI中进行，无需一行Java/Scala代码，也无需安装IDE。准备阶段准备FlinkStandalone集群下载Flink1.19.2，解压后得到flink-1.19.2目录。使用下面的命令跳转至Flink目录下，
kafka-4：常见面试题小技工丨大数据技术学习 kafka 分布式大数据
4.1如何提升生产者的吞吐量？1）buffer.memory：设置发送消息的缓冲区，默认值是33554432，就是32MB如果发送消息出去的速度小于写入消息进去的速度，就会导致缓冲区写满，此时生产消息就会阻塞住，所以说这里就应该多做一些压测，尽可能保证说这块缓冲区不会被写满导致生产行为被阻塞住LongstartTime=System.currentTime();producer.send(reco
Kafka 主题 retention.ms 配置修改及深度问题排查指南 XMYX-0 kafka 分布式
文章目录Kafka主题retention.ms配置修改及深度问题排查指南版本背景查看Kafka主题当前状态修改retention.ms配置的正确方式为什么不能使用kafka-topics.sh？使用kafka-configs.sh动态更新配置深入解析retention配置retention.ms与retention.bytes的关系配置生效机制ISR异常（Isr:0）深度排查什么是ISR？常见原因
37.索引生命周期管理—kibana 索引配置大勇任卷舒 ELK elasticsearch 大数据 big data
37.1背景引入索引生命周期管理的一个最重要的目的就是对大量时序数据在es读写操作的性能优化如通过sparkstreaming读取Kafka中的日志实时写入es，这些日志高峰期每天10亿+，每分钟接近100w，希望es能够对单分片超过50g或者30天前的索引进行归档，并能够自动删除90天前的索引这个场景可以通过ILM进行策略配置来实现37.2介绍ES索引生命周期管理分为4个阶段：hot、warm、
初学者如何用 Python 写第一个爬虫？ ADFVBM 面试学习路线阿里巴巴 python 爬虫开发语言
??欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。??博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark
kafka入门基础 kafka
1.Java安装1.1下载https://download.oracle.com/java/18/archive/jdk-18.0.2.1_linu...1.2安装tarzxvfjdk-18.0.2.1_linux-x64_bin.tar.gz-C/usr/local/share/#vim/etc/profile//添加以下内容#ThejavaenvirmentJAVA_HOME=/usr/loc
Kafka 迁移 AutoMQ 时 Flink 位点管理的挑战与解决方案后端java
编辑导读：AutoMQ是一款与ApacheKafka100%完全兼容的新一代Kafka，可以做到至多10倍的成本降低和极速的弹性。凭借其与Kafka的完全兼容性可以与用户已有的Flink等大数据基础设施进行轻松整合。Flink是重要的流处理引擎，与Kafka有着密切的关系。本文重点介绍了当用户需要将生产Kafka集群迁移到AutoMQ时，如何处理好Flink的位点来确保整体迁移的平滑过渡。引言在云
英伟达DeepStream学习笔记30——kafka和AMQP的区别翟羽嚄英伟达TX2 /Xavier /deepstream开发 kafka 学习 rabbitmq
作为消息队列来说，企业中选择mq的还是多数，因为像Rabbit，Rocket等mq中间件都属于很成熟的产品，性能一般但可靠性较强，而kafka原本设计的初衷是日志统计分析，现在基于大数据的背景下也可以做运营数据的分析统计，而redis的主要场景是内存数据库，作为消息队列来说可靠性太差，而且速度太依赖网络IO，在服务器本机上的速度较快，且容易出现数据堆积的问题，在比较轻量的场合下能够适用。Rabbi
部署Wordpress(LNMP)+ELK 多练项目 Linux 系统架构 linux elk 运维
LNMP+EFK主机软件服务版本主机名192.168.100.100Nginx-1.18、Filebeatnode100192.168.100.101PHP-5.6.27node101192.168.100.102MySQL5.7node102192.168.100.103Kafkakafka103192.168.100.104Kafkanode104192.168.100.105Kafkanod
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb