weixin_30674525

Kafka集群的安装和使用

Kafka是一种高吞吐量的分布式发布订阅的消息队列系统，原本开发自LinkedIn，用作LinkedIn的活动流（ActivityStream）和运营数据处理管道（Pipeline）的基础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。

1 Kafka消息队列简介

1.1 基本术语

Broker

Kafka集群包含一个或多个服务器，这种服务器被称为broker[5]
Topic

每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处）
Partition

Partition是物理上的概念，每个Topic包含一个或多个Partition.（一般为kafka节点数cpu的总核数）
Producer

负责发布消息到Kafka broker
Consumer

消息消费者，向Kafka broker读取消息的客户端。
Consumer Group

每个Consumer属于一个特定的Consumer Group（可为每个Consumer指定group name，若不指定group name则属于默认的group）。

1.2 消息队列

1.2.1 基本特性

可扩展
- 在不需要下线的情况下进行扩容
- 数据流分区(partition)存储在多个机器上
高性能
- 单个broker就能服务上千客户端
- 单个broker每秒种读/写可达每秒几百兆字节
- 多个brokers组成的集群将达到非常强的吞吐能力
- 性能稳定，无论数据多大
- Kafka在底层摒弃了Java堆缓存机制，采用了操作系统级别的页缓存，同时将随机写操作改为顺序写，再结合Zero-Copy的特性极大地改善了IO性能。
持久存储
- 存储在磁盘上
- 冗余备份到其他服务器上以防止丢失

1.2.2 消息格式

一个topic对应一种消息格式，因此消息用topic分类
一个topic代表的消息有1个或者多个patition(s)组成
一个partition中
- 一个partition应该存放在一到多个server上
  - 如果只有一个server，就没有冗余备份，是单机而不是集群
  - 如果有多个server
    - 一个server为leader，其他servers为followers；leader需要接受读写请求；followers仅作冗余备份；leader出现故障，会自动选举一个follower作为leader，保证服务不中断；每个server都可能扮演一些partitions的leader和其它partitions的follower角色，这样整个集群就会达到负载均衡的效果
- 消息按顺序存放，顺序不可变
- 只能追加消息，不能插入
- 每个消息都有一个offset，用作消息ID, 在一个partition中唯一
- offset有consumer保存和管理，因此读取顺序实际上是完全有consumer决定的，不一定是线性的
- 消息有超时日期，过期则删除

1.2.3 生产者 producer

producer将消息写入kafka
写入要指定topic和partition
消息如何分到不同的partition，算法由producer指定

1.2.4 消费者 consumer

consumer读取消息并作处理
consumer group
- 这个概念的引入为了支持两种场景：每条消息分发一个消费者，每条消息广播给消费组的所有消费者
- 多个consumer group订阅一个topic，该topci的消息广播给group内所有consumer
- 一条消息发送到一个consumer group后，只能由该group的一个consumer接收和使用
- 一个group中的每个consumer对应一个partition可以带来如下好处
  - 可以按照partition的数目进行并发处理
  - 每个partition都只有一个consumer读取，因而保证了消息被处理的顺序是按照partition的存放顺序进行，注意这个顺序受到producer存放消息的算法影响

一个Consumer可以有多个线程进行消费，线程数应不多于topic的partition数，因为对于一个包含一或多消费线程的consumer group来说，一个partition只能分给其中的一个消费线程消费，且让尽可能多的线程能分配到partition（不过实际上真正去消费的线程及线程数还是由线程池的调度机制来决定）。这样如果线程数比partition数多，那么单射分配也会有多出的线程，它们就不会消费到任何一个partition的数据而空转耗资源。
如果consumer从多个partition读到数据，不保证数据间的顺序性，kafka只保证在一个partition上数据是有序的，但多个partition，根据你读的顺序会有不同
增减consumer，broker，partition会导致rebalance，所以rebalance后consumer对应的partition会发生变化

2. 安装和使用

以kafka_2.11-0.10.0.0为例。

下载解压后，进入kafka_2.11-0.10.0.0/

2.1 启动Zookeeper

测试时可以使用Kafka附带的Zookeeper：

启动： ./bin/zookeeper-server-start.sh config/zookeeper.properties & ，config/zookeeper.properties是Zookeeper的配置文件。

结束： ./bin/zookeeper-server-stop.sh

不过最好自己搭建一个Zookeeper集群，提高可用性和可靠性。详见：Zookeeper的安装和使用——MarchOn

2.2 启动Kafka服务器

2.2.1 配置文件

配置config/server.properties文件，一般需要配置如下字段，其他按默认即可：

broker.id：    　　　　　　每一个broker在集群中的唯一表示，要求是正数
listeners（效果同之前的版本的host.name及port）：注意绑定host.name，否则可能出现莫名其妙的错误如consumer找不到broker。这个host.name是Kafka的server的机器名字，会注册到Zookeeper中
log.dirs：    　　　　　　 kafka数据的存放地址，多个地址的话用逗号分割,多个目录分布在不同磁盘上可以提高读写性能
log.retention.hours：   　数据文件保留多长时间， 存储的最大时间超过这个时间会根据log.cleanup.policy设置数据清除策略
zookeeper.connect：   　　指定ZooKeeper的connect string，以hostname:port的形式，可有多个以逗号分隔，如hostname1:port1,hostname2:port2,hostname3:port3，还可有路径，如：hostname1:port1,hostname2:port2,hostname3:port3/kafka，注意要事先在zk中创建/kafka节点，否则会报出错误：java.lang.IllegalArgumentException: Path length must be > 0

所有参数的含义及配置可参考：http://orchome.com/12、http://blog.csdn.net/lizhitao/article/details/25667831

一个配置示例如下：

1 # Licensed to the Apache Software Foundation (ASF) under one or more
2 # contributor license agreements. See the NOTICE file distributed with
3 # this work for additional information regarding copyright ownership.
4 # The ASF licenses this file to You under the Apache License, Version 2.0
5 # (the "License"); you may not use this file except in compliance with
6 # the License. You may obtain a copy of the License at
7 #
8 # http://www.apache.org/licenses/LICENSE-2.0
9 #
10 # Unless required by applicable law or agreed to in writing, software
11 # distributed under the License is distributed on an "AS IS" BASIS,
12 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13 # See the License for the specific language governing permissions and
14 # limitations under the License.
15 # see kafka.server.KafkaConfig for additional details and defaults
16
17 ############################# Server Basics #############################
18
19 # The id of the broker. This must be set to a unique integer for each broker.
20 broker.id=1
21
22 ############################# Socket Server Settings #############################
23
24 # The address the socket server listens on. It will get the value returned from
25 # java.net.InetAddress.getCanonicalHostName() if not configured.
26 # FORMAT:
27 # listeners = security_protocol://host_name:port
28 # EXAMPLE:
29 # listeners = PLAINTEXT://your.host.name:9092
30 listeners=PLAINTEXT://192.168.6.128:9092
31
32 # Hostname and port the broker will advertise to producers and consumers. If not set,
33 # it uses the value for "listeners" if configured. Otherwise, it will use the value
34 # returned from java.net.InetAddress.getCanonicalHostName().
35 #advertised.listeners=PLAINTEXT://your.host.name:9092
36
37 # The number of threads handling network requests
38 num.network.threads=3
39
40 # The number of threads doing disk I/O
41 num.io.threads=8
42
43 # The send buffer (SO_SNDBUF) used by the socket server
44 socket.send.buffer.bytes=102400
45
46 # The receive buffer (SO_RCVBUF) used by the socket server
47 socket.receive.buffer.bytes=102400
48
49 # The maximum size of a request that the socket server will accept (protection against OOM)
50 socket.request.max.bytes=104857600
51
52
53 ############################# Log Basics #############################
54
55 # A comma seperated list of directories under which to store log files
56 log.dirs=/usr/local/kafka/kafka_2.11-0.10.0.0/kfk_data/
57
58 # The default number of log partitions per topic. More partitions allow greater
59 # parallelism for consumption, but this will also result in more files across
60 # the brokers.
61 num.partitions=2
62 auto.create.topics.enable=false
63
64 # The number of threads per data directory to be used for log recovery at startup and flushing at shutdown.
65 # This value is recommended to be increased for installations with data dirs located in RAID array.
66 num.recovery.threads.per.data.dir=1
67
68 ############################# Log Flush Policy #############################
69
70 # Messages are immediately written to the filesystem but by default we only fsync() to sync
71 # the OS cache lazily. The following configurations control the flush of data to disk.
72 # There are a few important trade-offs here:
73 # 1. Durability: Unflushed data may be lost if you are not using replication.
74 # 2. Latency: Very large flush intervals may lead to latency spikes when the flush does occur as there will be a lot of data to flush.
75 # 3. Throughput: The flush is generally the most expensive operation, and a small flush interval may lead to exceessive seeks.
76 # The settings below allow one to configure the flush policy to flush data after a period of time or
77 # every N messages (or both). This can be done globally and overridden on a per-topic basis.
78
79 # The number of messages to accept before forcing a flush of data to disk
80 #log.flush.interval.messages=10000
81
82 # The maximum amount of time a message can sit in a log before we force a flush
83 #log.flush.interval.ms=1000
84
85 ############################# Log Retention Policy #############################
86
87 # The following configurations control the disposal of log segments. The policy can
88 # be set to delete segments after a period of time, or after a given size has accumulated.
89 # A segment will be deleted whenever *either* of these criteria are met. Deletion always happens
90 # from the end of the log.
91
92 # The minimum age of a log file to be eligible for deletion
93 log.retention.hours=4
94
95 # A size-based retention policy for logs. Segments are pruned from the log as long as the remaining
96 # segments don't drop below log.retention.bytes.
97 #log.retention.bytes=1073741824
98
99 # The maximum size of a log segment file. When this size is reached a new log segment will be created.
100 log.segment.bytes=1073741824
101
102 # The interval at which log segments are checked to see if they can be deleted according
103 # to the retention policies
104 log.retention.check.interval.ms=300000
105
106 ############################# Zookeeper #############################
107
108 # Zookeeper connection string (see zookeeper docs for details).
109 # This is a comma separated host:port pairs, each corresponding to a zk
110 # server. e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002".
111 # You can also append an optional chroot string to the urls to specify the
112 # root directory for all kafka znodes.
113 zookeeper.connect=192.168.6.131:2181,192.168.6.132:2181,192.168.6.133:2181
114
115 # Timeout in ms for connecting to zookeeper
116 zookeeper.connection.timeout.ms=6000

注意auto.create.topics.enable字段，若为true则如果producer写入某个不存在的topic时会自动创建该topic，若为false则需要事先创建否则会报错：failed after 3 retries。

2.2.2 命令

启动： bin/kafka-server-start.sh config/server.properties ，生产环境最好以守护程序启动：nohup &

结束： bin/kafka-server-stop.sh

2.2.3 Kafka在Zookeeper中的存储结构

若上述的zookeeper.connect的值没有路径，则为根路径，启动Zookeeper和Kafka，命令行连接Zookeeper后，用 get / 命令可发现有 consumers、config、controller、admin、brokers、zookeeper、controller_epoch 这几个目录。

其结构如下：（具体可参考：apache kafka系列之在zookeeper中存储结构）

2.3 使用

kafka本身是和zookeeper相连的，而对应producer和consumer的状态保存也都是通过zookeeper完成的。对Kafka的各种操作通过其所连接的Zookeeper完成。

2.3.1 命令行客户端

创建topic： bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

列出所有topic： bin/kafka-topics.sh --list --zookeeper localhost:2181

查看topic信息（包括分区、副本情况等）： kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic ，会列出分区数、副本数、副本leader节点、副本节点、活着的副本节点

往某topic生产消息： bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test

从某topic消费消息： bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning （默认用一个线程消费指定topic的所有分区的数据）

删除某个Kafka groupid：连接Zookeeper后用rmr命令，如删除名为JSI的消费组： rmr /consumers/JSI

查看消费进度：

./bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --group test-mirror-consumer-zsm --zkconnect ec2-12345.cn-north-1.compute.amazonaws.com.cn:2181/kafka/blink/0822 --topic GPS2
    各参数：
    --group指MirrorMaker消费源集群时指定的group.id
    -zkconnect指源集群的zookeeper地址
    --topic指定查的topic，没指定则返回所有topic的消费情况

2.3.2 Java客户端

1、Topic操作：

 1 import kafka.admin.DeleteTopicCommand;
 2 import kafka.admin.TopicCommand;
 3 
 4 /**
 5  * @author zsm
 6  * @date 2016年9月27日 上午10:26:42
 7  * @version 1.0
 8  * @parameter
 9  * @since
10  * @return
11  */
12 public class JTopic {
13     public static void createTopic(String zkAddr, String topicName, int partition, int replication) {
14         String[] options = new String[] { "--create", "--zookeeper", zkAddr, "--topic", topicName, "--partitions",
15                 partition + "", "--replication-factor", replication + "" };
16         TopicCommand.main(options);
17     }
18 
19     public static void listTopic(String zkAddr) {
20         String[] options = new String[] { "--list", "--zookeeper", zkAddr };
21         TopicCommand.main(options);
22     }
23 
24     public static void describeTopic(String zkAddr, String topicName) {
25         String[] options = new String[] { "--describe", "--zookeeper", zkAddr, "--topic", topicName, };
26         TopicCommand.main(options);
27     }
28 
29     public static void alterTopic(String zkAddr, String topicName) {
30         String[] options = new String[] { "--alter", "--zookeeper", zkAddr, "--topic", topicName, "--partitions", "5" };
31         TopicCommand.main(options);
32     }
33 
34     // 通过删除zk里面对应的路径来实现删除topic的功能,只会删除zk里面的信息，Kafka上真实的数据并没有删除
35     public static void deleteTopic(String zkAddr, String topicName) {
36         String[] options = new String[] { "--zookeeper", zkAddr, "--topic", topicName };
37         DeleteTopicCommand.main(options);
38     }
39 
40     public static void main(String[] args) {
41         // TODO Auto-generated method stub
42 
43         String myTestTopic = "ZsmTestTopic";
44         int myPartition = 4;
45         int myreplication = 1;
46 
47         //createTopic(ConfigureAPI.KafkaProperties.ZK, myTestTopic, myPartition, myreplication);
48         // listTopic(ConfigureAPI.KafkaProperties.ZK);
49         describeTopic(ConfigureAPI.KafkaProperties.ZK, myTestTopic);
50         // alterTopic(ConfigureAPI.KafkaProperties.ZK, myTestTopic);
51         // deleteTopic(ConfigureAPI.KafkaProperties.ZK, myTestTopic);
52     }
53 
54 }

2、写：（写时可以指定key以供Kafka根据key将数据写入某个分区，若无指定，则几乎就是随机找一个分区发送无key的消息，然后把这个分区号加入到缓存中以备后面直接使用——当然，Kafka本身也会清空该缓存（默认每10分钟或每次请求topic元数据时））

  1 package com.zsm.kfkdemo;
  2 
  3 import java.util.ArrayList;
  4 import java.util.List;
  5 import java.util.Properties;
  6 
  7 import com.zsm.kfkdemo.ConfigureAPI.KafkaProperties;
  8 
  9 import kafka.javaapi.producer.Producer;
 10 import kafka.producer.KeyedMessage;
 11 import kafka.producer.ProducerConfig;
 12 
 13 /**
 14  * 可以指定规则(key和分区函数)以让消息写到特定分区：
 15  * 
 16  * 1、若发送的消息没有指定key则Kafka会随机选择一个分区
 17  * 
 18  * 
 19  * 2、否则，若指定了分区函数(通过partitioner.class)则该函数以key为参数确定写到哪个分区
 20  * 
 21  * 
 22  * 3、否则，Kafka根据hash(key)%partitionNum确定写到哪个分区
 23  * 
 24  * 
 25  * @author zsm
 26  * @date 2016年9月27日 上午10:26:42
 27  * @version 1.0
 28  * @parameter
 29  * @since
 30  * @return
 31  */
 32 public class JProducer extends Thread {
 33     private Producer producer;
 34     private String topic;
 35     private final int SLEEP = 10;
 36     private final int msgNum = 1000;
 37 
 38     public JProducer(String topic) {
 39         Properties props = new Properties();
 40         props.put("metadata.broker.list", KafkaProperties.BROKER_LIST);// 如192.168.6.127:9092,192.168.6.128:9092
 41         // request.required.acks
 42         // 0, which means that the producer never waits for an acknowledgement from the broker (the same behavior as 0.7). This option provides the lowest latency but the weakest durability guarantees
 43         // (some data will be lost when a server fails).
 44         // 1, which means that the producer gets an acknowledgement after the leader replica has received the data. This option provides better durability as the client waits until the server
 45         // acknowledges the request as successful (only messages that were written to the now-dead leader but not yet replicated will be lost).
 46         // -1, which means that the producer gets an acknowledgement after all in-sync replicas have received the data. This option provides the best durability, we guarantee that no messages will be
 47         // lost as long as at least one in sync replica remains.
 48         props.put("request.required.acks", "-1");
 49         // 配置value的序列化类
 50         props.put("serializer.class", "kafka.serializer.StringEncoder");
 51         // 配置key的序列化类
 52         props.put("key.serializer.class", "kafka.serializer.StringEncoder");
 53         // 提供自定义的分区函数将消息写到分区上，未指定的话Kafka根据hash(messageKey)%partitionNum确定写到哪个分区
 54         props.put("partitioner.class", "com.zsm.kfkdemo.MyPartitioner");
 55         producer = new Producer(new ProducerConfig(props));
 56         this.topic = topic;
 57     }
 58 
 59     @Override
 60     public void run() {
 61         boolean isBatchWriteMode = true;
 62         System.out.println("isBatchWriteMode: " + isBatchWriteMode);
 63         if (isBatchWriteMode) {
 64             // 批量发送
 65             int batchSize = 100;
 66             List> msgList = new ArrayList>(batchSize);
 67             for (int i = 0; i < msgNum; i++) {
 68                 String msg = "Message_" + i;
 69                 msgList.add(new KeyedMessage(topic, i + "", msg));
 70                 // msgList.add(new KeyedMessage(topic, msg));//未指定key，Kafka会自动选择一个分区
 71                 if (i % batchSize == 0) {
 72                     producer.send(msgList);
 73                     System.out.println("Send->[" + msgList + "]");
 74                     msgList.clear();
 75                     try {
 76                         sleep(SLEEP);
 77                     } catch (Exception ex) {
 78                         ex.printStackTrace();
 79                     }
 80                 }
 81             }
 82             producer.send(msgList);
 83         } else {
 84             // 单个发送
 85             for (int i = 0; i < msgNum; i++) {
 86                 KeyedMessage msg = new KeyedMessage(topic, i + "", "Message_" + i);
 87                 // KeyedMessage msg = new KeyedMessage(topic, "Message_" + i);//未指定key，Kafka会自动选择一个分区
 88                 producer.send(msg);
 89                 System.out.println("Send->[" + msg + "]");
 90                 try {
 91                     sleep(SLEEP);
 92                 } catch (Exception ex) {
 93                     ex.printStackTrace();
 94                 }
 95             }
 96         }
 97 
 98         System.out.println("send done");
 99     }
100 
101     public static void main(String[] args) {
102         JProducer pro = new JProducer(KafkaProperties.TOPIC);
103         pro.start();
104     }
105 }

3、读：（对于Consumer，需要注意 auto.commit.enable 和 auto.offset.reset 这两个字段）

 1 package com.zsm.kfkdemo;
 2 
 3 import java.text.MessageFormat;
 4 import java.util.HashMap;
 5 import java.util.List;
 6 import java.util.Map;
 7 import java.util.Properties;
 8 
 9 import com.zsm.kfkdemo.ConfigureAPI.KafkaProperties;
10 
11 import kafka.consumer.Consumer;
12 import kafka.consumer.ConsumerConfig;
13 import kafka.consumer.ConsumerIterator;
14 import kafka.consumer.KafkaStream;
15 import kafka.javaapi.consumer.ConsumerConnector;
16 import kafka.message.MessageAndMetadata;
17 
18 /**
19  * 同一consumer group的多线程消费可以两种方法实现：
20  * 
21  * 1、实现单线程客户端，启动多个去消费
22  * 
23  * 
24  * 2、在客户端的createMessageStreams里为topic指定大于1的线程数，再启动多个线程处理每个stream
25  * 
26  * 
27  * @author zsm
28  * @date 2016年9月27日 上午10:26:42
29  * @version 1.0
30  * @parameter
31  * @since
32  * @return
33  */
34 public class JConsumer extends Thread {
35 
36     private ConsumerConnector consumer;
37     private String topic;
38     private final int SLEEP = 20;
39 
40     public JConsumer(String topic) {
41         consumer = Consumer.createJavaConsumerConnector(this.consumerConfig());
42         this.topic = topic;
43     }
44 
45     private ConsumerConfig consumerConfig() {
46         Properties props = new Properties();
47         props.put("zookeeper.connect", KafkaProperties.ZK);
48         props.put("group.id", KafkaProperties.GROUP_ID);
49         props.put("auto.commit.enable", "true");// 默认为true，让consumer定期commit offset，zookeeper会将offset持久化，否则只在内存，若故障则再消费时会从最后一次保存的offset开始
50         props.put("auto.commit.interval.ms", KafkaProperties.INTERVAL + "");// 经过INTERVAL时间提交一次offset
51         props.put("auto.offset.reset", "largest");// What to do when there is no initial offset in ZooKeeper or if an offset is out of range
52         props.put("zookeeper.session.timeout.ms", KafkaProperties.TIMEOUT + "");
53         props.put("zookeeper.sync.time.ms", "200");
54         return new ConsumerConfig(props);
55     }
56 
57     @Override
58     public void run() {
59         Map topicCountMap = new HashMap();
60         topicCountMap.put(topic, new Integer(1));// 线程数
61         Map>> streams = consumer.createMessageStreams(topicCountMap);
62         KafkaStream stream = streams.get(topic).get(0);// 若上面设了多个线程去消费，则这里需为每个stream开个线程做如下的处理
63 
64         ConsumerIterator it = stream.iterator();
65         MessageAndMetadata messageAndMetaData = null;
66         while (it.hasNext()) {
67             messageAndMetaData = it.next();
68             System.out.println(MessageFormat.format("Receive->[ message:{0} , key:{1} , partition:{2} , offset:{3} ]",
69                     new String(messageAndMetaData.message()), new String(messageAndMetaData.key()),
70                     messageAndMetaData.partition() + "", messageAndMetaData.offset() + ""));
71             try {
72                 sleep(SLEEP);
73             } catch (Exception ex) {
74                 ex.printStackTrace();
75             }
76         }
77     }
78 
79     public static void main(String[] args) {
80         JConsumer con = new JConsumer(KafkaProperties.TOPIC);
81         con.start();
82     }
83 }

与Kafka相关的Maven依赖：

 1         
 2             org.apache.kafka
 3             kafka_2.9.2
 4             0.8.1.1
 5             
 6                 
 7                     com.sun.jmx
 8                     jmxri
 9                 
10                 
11                     com.sun.jdmk
12                     jmxtools
13                 
14                 
15                     javax.jms
16                     jms
17                 
18             
19

3 MirrorMaker

Kafka自身提供的MirrorMaker工具用于把一个集群的数据同步到另一集群，其原理就是对源集群消费、对目标集群生产。

运行时需要指定源集群的Zookeeper地址（pull模式）或目标集群的Broker列表（push模式）。

3.1 使用

运行 ./kafka-run-class.sh kafka.tools.MirrorMaker --help 查看使用说明，如下：

 1 Option                                  Description                            
 2 ------                                  -----------                            
 3 --blacklist        Blacklist of topics to mirror.         
 4 --consumer.config          Consumer config to consume from a      
 5                                           source cluster. You may specify      
 6                                           multiple of these.                   
 7 --help                                  Print this message.                    
 8 --num.producers                               1)                                   
10 --num.streams                                 (default: 1)                         
12 --producer.config          Embedded producer config.              
13 --queue.size             between the consumer and producer    
15                                           (default: 10000)                     
16 --whitelist        Whitelist of topics to mirror.

3.2 启动

./bin/kafka-run-class.sh kafka.tools.MirrorMaker --consumer.config  zsmSourceClusterConsumer.config  --num.streams 2 --producer.config zsmTargetClusterProducer.config --whitelist="ds*"
    --consumer.config所指定的文件里至少需要有zookeeper.connect、group.id两字段
    --producer.config至少需要有metadata.broker.list字段，指定目标集群的brooker列表
    --whitelist指定要同步的topic

可以用2.3.1所说的查看消费进度来查看对原集群的同步状况（即消费状况）。

4 Kafka监控工具（KafkaOffsetMonitor）

可以借助KafkaOffsetMonitor来图形化展示Kafka的broker节点、topic、consumer及offset等信息。

以KafkaOffsetMonitor-assembly-0.2.0.jar为例，下载后执行：

#!/bin/bash
java -Xms512M -Xmx512M -Xss1024K -XX:PermSize=256m -XX:MaxPermSize=512m -cp KafkaOffsetMonitor-assembly-0.2.0.jar \
     com.quantifind.kafka.offsetapp.OffsetGetterWeb \
     --zk  192.168.5.131:2181,192.168.6.132:2181,192.168.6.133:2181 \
     --port 8087 \
     --refresh 10.seconds \
     --retain 1.days 1>./zsm-logs/stdout.log 2>./zsm-logs/stderr.log &

其中，zk按照host1:port1,host2:port2…的格式去写即可，port为开启web界面的端口号，refresh为刷新时间，retain为数据保留时间（单位seconds, minutes, hours, days）

5 Kafka集群管理工具（Kafka Manager）

kafka-manager是yahoo开源出来的项目，属于商业级别的工具用Scala编写。

这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀，或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。同时，这个管理工具也是一个非常好的可以快速浏览这个集群的工具。

此工具以集群的方式运行，需要Zookeeper。

参考资料：http://hengyunabc.github.io/kafka-manager-install/

5.1 安装

需要从Github下载源码并安装sbt工具编译生成安装包，生成的时间很长且不知为何一直出错，所以这里用网友已编译好的包（备份链接）。

包为kafka-manager-1.0-SNAPSHOT.zip

>解压：

unzip kafka-manager-1.0-SNAPSHOT.zip

>配置conf/application.conf里的kafka-manager.zkhosts：

kafka-manager.zkhosts="192.168.6.131:2181,192.168.6.132:2181,192.168.6.133:2181"

>启动：

./bin/kafka-manager -Dconfig.file=conf/application.conf （启动后在Zookeeper根目录下可发现增加了kafka-manager目录）

默认是9000端口，要使用其他端口可以在命令行指定http.port，此外kafka-manager.zkhosts也可以在命令行指定，如：

./bin/kafka-manager -Dhttp.port=9001 -Dkafka-manager.zkhosts="192.168.6.131:2181,192.168.6.132:2181,192.168.6.133:2181"

5.2 使用

访问web页面，在Cluster->Add Cluster，输入要监控的Kafka集群的Zookeeper即可。

6 进阶

在当前的kafka版本实现中，对于zookeeper的所有操作都是由kafka controller来完成的（serially的方式）
offset管理：kafka会记录offset到zk中。但是，zk client api对zk的频繁写入是一个低效的操作。0.8.2 kafka引入了native offset storage，将offset管理从zk移出，并且可以做到水平扩展。其原理就是利用了kafka的compacted topic，offset以consumer group,topic与partion的组合作为key直接提交到compacted topic中。同时Kafka又在内存中维护了三元组来维护最新的offset信息，consumer来取最新offset信息时直接从内存拿即可。当然，kafka允许你快速checkpoint最新的offset信息到磁盘上。
如何确定分区数：分区数的确定与硬件、软件、负载情况等都有关，要视具体情况而定，不过依然可以遵循一定的步骤来尝试确定分区数：创建一个只有1个分区的topic，然后测试这个topic的producer吞吐量和consumer吞吐量。假设它们的值分别是Tp和Tc，单位是MB/s。然后假设总的目标吞吐量是Tt，那么分区数 = Tt / max(Tp, Tc)

引用：https://www.cnblogs.com/z-sm/p/5691760.html

转载于:https://www.cnblogs.com/chenghaohao/p/8059819.html

你可能感兴趣的:(大数据,运维,java)

Docker的原理：如何理解容器技术的力量思维导图-java架构用心去追梦大数据 java storm
要理解Docker的原理以及容器技术的力量，可以通过一个思维导图来帮助整理和展示信息。以下是一个基于文本的思维导图结构，用于说明Docker和容器技术的关键概念，特别关注于Java架构师可能会感兴趣的部分：Docker与容器技术│├───基本概念│├───容器(Container)││└───是一个轻量级、可移植、自包含的软件包│├───镜像(Image)││└───包含应用程序及其所有依赖项的只
Java 驱动大数据流处理：Storm 与 Flink 入门（大数据）用心去追梦大数据 java storm
Java是一种广泛使用的编程语言，特别适用于企业级应用开发。随着数据量的不断增长，处理大数据流成为了现代软件开发中的一个重要领域。ApacheStorm和ApacheFlink是两个用于处理大规模数据流的开源框架，它们都支持用Java编写的应用程序。下面将简要介绍这两个框架，并提供一些入门指导。ApacheStormApacheStorm是一个免费、开源的分布式实时计算系统。Storm让用户能够轻
实现音乐播放器实现:前端HTML，CSS，JavaScript综合大项目（java实战）用心去追梦前端 html css
创建一个音乐播放器项目，使用HTML、CSS和JavaScript作为前端技术栈，并结合Java后端（如果需要），可以是一个很好的实战项目。这个项目不仅能够帮助你掌握前端开发技能，还能让你了解如何与后端交互来获取数据。下面是实现这样一个音乐播放器项目的步骤指南，包括了从规划到部署的各个方面。1.项目规划规划功能基本功能播放/暂停按钮。音量控制。进度条。歌曲列表显示。高级功能随机播放。列表循环。搜索
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
二分查找（Java版）爱学Java Java数据结构与算法 java 算法
二分查找算法Java版算法介绍算法复杂度算法思想算法注意事项算法基础版改进版平衡版最左侧查找最右侧查找总结二分查找算法介绍算法复杂度时间复杂度：O(logn)空间复杂度：O(1)算法思想二分查找（BinarySearch）是一种高效的搜索算法，适用于在有序数组或序列中查找目标元素的位置。其核心思想是利用数组的有序性，将查找范围逐步缩小至目标值所在的子范围。1，确定查找范围：在有序数组中，设定两个指
什么是ShardingSphere的关联表？ java1234_小锋 java ShardingSphere
大家好，我是锋哥。今天分享关于【什么是ShardingSphere的关联表？】面试题。希望对大家有帮助；什么是ShardingSphere的关联表？1000道互联网大厂Java工程师精选面试题-Java资源分享网在ShardingSphere中，关联表（也叫做跨库跨表查询）是指多个表之间通过关联查询而涉及到的表。当你在进行数据库分片时，可能会遇到多个表需要通过外键、联合查询等方式进行连接的情况。S
MySQL有哪些高可用方案? java1234_小锋 mysql mysql 数据库
大家好，我是锋哥。今天分享关于【RMySQL有哪些高可用方案?】面试题。希望对大家有帮助；MySQL有哪些高可用方案?1000道互联网大厂Java工程师精选面试题-Java资源分享网MySQL的高可用方案可以帮助确保数据库在发生故障时仍能持续提供服务，避免单点故障带来的影响。以下是一些常见的MySQL高可用方案：1.主从复制（Master-SlaveReplication）概述：主从复制是最常见的
RocketMQ如何保证消息顺序？ java1234_小锋 java rocketmq
大家好，我是锋哥。今天分享关于【RocketMQ如何保证消息顺序？】面试题。希望对大家有帮助；RocketMQ如何保证消息顺序？1000道互联网大厂Java工程师精选面试题-Java资源分享网RocketMQ是阿里巴巴开源的一款分布式消息队列，它能够保证消息的顺序性。为了保证消息顺序，RocketMQ采用了特定的机制和设计。具体来说，RocketMQ主要通过以下几个方式来确保消息的顺序：1.消息的
盘点原生JavaScript中直接触发事件的方式 javascript
JavaScript提供了多种方式来直接触发事件，无论是在用户交互、程序逻辑处理或是数据更新时。本文将全面探讨原生JavaScript中各种事件触发方式，并通过深入的技术案例分析，帮助开发者掌握这些方法在实际开发中的应用。使用dispatchEvent原生JavaScript中触发事件的核心方法是dispatchEvent。这个方法允许开发者为任何DOM元素触发几乎任何类型的事件，包括但不限于点击
大数据组件之Azkaban简介努力的小星星大数据 linux 运维数据结构
一、Azkaban介绍1.1背景一个完整的大数据分析系统，必然由很多任务单元(如数据收集、数据清洗、数据存储、数据分析等)组成，所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题：如何定时调度某个任务？如何在某个任务执行完成后再去执行另一个任务？如何在任务失败时候发出预警？......面对这些问题，工作流调度系统应运而生。Azkaban就是其中之一。1.2功能Azk
分析-MQ消息队列中间件-在IM即时通讯系统的用途酱油瓶啤酒杯中间件分布式队列 kafka
MQ消息队列在IM即时通讯的用途1）用户聊天消息的离线存储环节：因为IM消息的发送属于高吞吐场景，直接操作DB可能会让DB崩溃，所有离线消息在落地入库前，可以先扔到MQ消息队列中，再由单独部署的消费者来有节奏地存储到DB中；２)用户的行为数据收集环节：因为用户的聊天消息和指令等，可以用于大数据分析，而且基于国家监管要求也是必须要存储一段时间的，所以此类数据的收集同样可以用于MQ消息队列，再由单独部
Android Rxjava3 使用场景 2401_89760309 android
Observable>>hotKey=ApiManager.getInstance().getApiService().getHotKey();Observable.just(articleList).subscribeOn(Schedulers.io()).observeOn(AndroidSchedulers.mainThread()).map(newFunction,Observable>>
ITIL运维管理体系是什么？怎样选择合适的方案？运维
ITIL是一组综合的最佳实践，用于帮助企业向客户交付IT服务。ITIL使企业组织能够根据业务需求调整IT资源，从而使客户价值最大化。它通过衡量、监控、优化IT服务与服务提供商的表现来降低成本，并向企业展示如何轻松地实现标准化服务管理。虽然每个企业组织在IT基础设施和治理方面都不相同，但ITIL的指导方针足够灵活，可以帮助任何企业组织实现其服务管理目标。高效的IT运维管理对于企业的稳定运行至关重要。
2024年最全（一）大数据---Hadoop整体介绍（架构层）----（组件，并发知识体系大全 2401_84586689 程序员大数据 hadoop 架构
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Hadoop方案一、大数据介绍============
RocketMQ的集群架构是怎样的? java1234_小锋 java java-rocketmq rocketmq 架构
大家好，我是锋哥。今天分享关于【RocketMQ的集群架构是怎样的?】面试题。希望对大家有帮助；RocketMQ的集群架构是怎样的?1000道互联网大厂Java工程师精选面试题-Java资源分享网RocketMQ是阿里巴巴开源的分布式消息中间件，广泛用于处理高吞吐量、高可用的消息队列服务。它的集群架构设计非常注重高可用性、可扩展性和高效性。以下是RocketMQ的集群架构主要组件和工作原理：1.集
2025毕设springboot MVC框架下的精品课程管理平台论文+源码 zhihao501 课程设计 spring boot mvc
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景在教育信息化的大背景下，精品课程管理平台的构建成为提升教学质量和效率的重要手段。当前，许多高校和教育机构仍然采用传统的课程管理方式，不仅效率低下，还难以满足学生日益增长的个性化学习需求。SpringBootMVC框架作为一种轻量级、高效的JavaWeb开发框架，以其简洁的设计理
高性能队列Disruptor的初体验程序员
深入理解Disruptor1.概述Disruptor是一个高性能、低延迟的无锁队列替代方案，最初由LMAX公司开发，专为处理高吞吐量和低延迟的消息传递系统而设计。它利用环形缓冲区（RingBuffer）和无锁的生产者-消费者模型，大幅提升并发性能。相比传统的基于java.util.concurrent的队列（如ArrayBlockingQueue、LinkedBlockingQueue），Disr
数据分析基础定义阿金要当大魔王~~ 数据分析数据分析数据挖掘
一、大数据的定义数据分析是基于商业等目的，有目的的进行收集、整理、加工和分析数据，提炼有价值信息的过程。大数据分析即针对海量的、多样化的数据集合的分析大数据分析是一种利用大规模数据集进行分析和挖掘知识的方法。随着互联网、社交媒体、移动设备等产生庞大的数据，大数据分析成为了当今世界各行业的重要技术。这篇文章将从数据收集、存储、处理、分析、可视化、应用等方面进行全面讲解，以帮助读者更好地理解大数据分析
大数据学习(36)- Hive和YARN viperrrrrrr 大数据学习 hive
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦当客户端提交SQL作业到HiveServer2时，HiveServer2会根据用户提交的SQL作业及数据库中现有的元数据信息生成一份可供计算引擎执行的计划。每个执行计划对应若干MapReduce作业，Hive会将所有的MapReduce作业都提交到YARN中。Y
java面向对象的面试题_java 面向对象面试题 weixin_39743414 java面向对象的面试题
2.java是如何做到跨平台的？源程序(java)--字节码(二进制class)--类装载器(加载)—字节码检验器—解释器(不同版本，跨平台根本原因)---操作系统平台(编译加解释语言)编译：产生一个新文件。解释：没有新文件产生。3.java程序员的执行过程是怎样的？先由程序员书写java源文件，再由javac(编译)命令操作源文件将其编写为class文件，在通过java(运行)命令进入类加载器，
从键盘输入一个大写字母，要求改用小写字母输出。 day day-up 蓝桥杯真题 java 算法
从键盘输入一个大写字母，要求改用小写字母输出。输入A输出aimportjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerin=newScanner(System.in);charc=in.next().charAt(0);System.out.println(c+32);//97System.ou
Java——面向对象的编程学习农夫三犭 Java学习笔记 java 后端
Java面向对象学习的三条主线1.Java类及类的成员：2.面向对象的三大特征：3.其他关键字：1.Java类及类的成员：主要包括：属性、方法、构造器、代码块和内部类2.面向对象的三大特征：封装性、继承性、多态性3.其他关键字：this、super、static、final、abstract、interface、package、import等本专栏将会按照上述三条主线详细介绍Java面向对象的编程
Java SE高频面试题 _fengling java面试题 java
JavaSE面试题编程题：写一个Singleton(单例模式)示例要点几种常见的形式如下代码的运行结果运行步骤小结类初始化和实例初始化等1.类初始化过程2.实例初始化过程3.方法的重写此代码的执行结果方法的参数传递机制考点图解结果递归与迭代成员变量和局部变量考点局部变量与成员变量的区别当局部变量与xx变量重名时，如何区分结果编程题：写一个Singleton(单例模式)示例Singleton：在Ja
kafka学习笔记2 —— 筑梦之路筑梦之路 Java技术 linux系统运维 kafka 学习笔记
KRaft模式Kafka的KRaft模式是一种新的元数据管理方式，旨在去除对ZooKeeper的依赖，使Kafka成为一个完全自包含的系统。在Kafka的传统模式下，元数据管理依赖于ZooKeeper，这增加了部署和运维的复杂性。为了解决这个问题，Kafka社区引入了KRaft模式。在KRaft模式下，所有的元数据，包括主题、分区信息、副本位置等，都被存储在Kafka集群内部的特殊日志中。这个日志
Node.js超详细教程！刘大本尊前端技术 node.js
0.基础概念Node.js是一个基于ChromeV8引擎的JavaScript运行环境，使用了一个事件驱动、非阻塞式I/O模型，让JavaScript运行在服务端的开发平台。官方地址：https://nodejs.org/en中文地址：https://nodejs.org/zh-cn代码初体验：console.log("helloNodeJS")//1.进入到对应js文件的目录下//2.执行nod
大数据分析专业毕业设计最新最全选题精华汇总--持续更新中⑤ 源码空间站11 python django 大数据分析数据可视化 hadoop hive 大数据分析毕设
目录前言开题指导建议更多精选选题选题帮助最后前言大家好,这里是源码空间站学长大数据分析专业毕业设计毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据分析专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!以下是学长精心整理的一些选题:21.基于Hadoop和Spa
java经典面试题及答案：集合心有猛虎嗷嗷叫 java 面试题集合 java
1、常用的集合有哪些？集合框架分为两类：Map和Collection，实现类分别有1）Map：HashMap、TreeMap、HashTable和ConcurrentHashMap2）Collection：List接口实现类有ArrayList和LinkedList；Set实现类有TreeSet和HashSet2、HashMap和HashTable的区别？1）HashMap是线程不安全的，Hash
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$