卖女孩的小火柴Jaffe

Kafka（数据缓存监控）

文章目录

一、Kafka的简介

1.定义
2.特点及应用
3.消息队列

3.1 传统消息队列
3.2 点对点模式
3.3 发布/订阅模式

4.核心概念

4.1 Broker
4.2 Topic
4.3 Partition
4.4 Offset
4.5 持久化
4.6 副本机制
4.7 Producer
4.8 Consumer
4.9 Consumer Group

5.Kafka基础架构
2.安装

2.1环境的配置
2.2 配置
2.3启动和停止

二、Kafka常用操作

1.主题操作
2.生产数据
3.消费数据

三、生产者

1.副本相关概念
2.如何判断副本属于OSR
3.生产者如何保证消息的安全性
4.副本数据同步策略
5.分布式系统对消费数据语义的支持
6.故障处理细节

四、消费者

1.消费方式
2.独立消费者
3.消费者的分区

3.1 range(默认)
3.2 round_rabin(轮询分区)

五、kafka高效的原因

1.顺序写磁盘
2.磁盘页缓存技术
3.零拷贝技术

六、JavaAPI

1.引入依赖
2.Producer API

2.1简单的生产者
2.2 带回调的异步发送
2.3 同步发送

3.自定义分区器
4.自定义拦截器
5.Consumer API

5.1 自动提交的consumer
5.2 手动提交offset
5.3 手动提交的问题
5.4 独立消费者

七、KafkaSink

1.介绍
2.案例

一、Kafka的简介

1.定义

Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域

在流式计算中，Kafka一般用来缓存数据，Spark通过消费Kafka的数据进行计算

Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。

2.特点及应用

作为一个数据流式传输平台，kafka有以下特点：

类似于消息队列和商业的消息系统，kafka提供对流式数据的发布和订阅
kafka提供一种持久的容错的方式存储流式数据
kafka拥有良好的性能，可以及时地处理流式数据
Kafka作为一个集群运行在一个或多个可跨多个数据中心的服务器上
Kafka集群将数据按照类别记录存储，这种类别在kafka中称为主题
每条记录由一个键，一个值和一个时间戳组成

主要应用于：

需要在多个应用和系统间提供高可靠的实时数据通道
一些需要实时传输数据及及时计算的应用

3.消息队列

3.1 传统消息队列

3.2 点对点模式

（一对一，消费者主动拉取数据，消息收到后消息清除）

消息生产者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费消息。
消息被消费以后，queue中不再有存储，所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费

3.3 发布/订阅模式

（一对多，消费者消费数据之后不会清除消息）

消息生产者（发布）将消息发布到topic中，同时有多个消息消费者（订阅）消费该消息。和点对点方式不同，发布到topic的消息会被所有订阅者消费

4.核心概念

4.1 Broker

一台kafka服务器就是一个broker。一个集群由多个broker组成

4.2 Topic

Topic 就是数据主题，只是逻辑上的分类，实际上数据在存储时必须存储在某个主题的分区下

Topic可以类比为数据库中的库

4.3 Partition

分区是数据真正的物理上数据存储的路径！分区在磁盘上就是一个目录！目录名由主题名-分区名组成！

消费者在消费主题中的数据时，一个分区只能被同一个组中的一个消费者线程所消费！

分区可以类比为数据库中的表

4.4 Offset

每一个消费者端，会唯一保存的元数据是offset（偏移量）,即消费在log中的位置

4.5 持久化

Kafka 集群保留所有发布的记录—无论他们是否已被消费—并通过一个可配置的参数（server.properties–>log.retention.hours）——保留期限来控制。举个例子，如果保留策略设置为2天，一条记录发布后两天内，可以随时被消费，两天过后这条记录会被清除并释放磁盘空间。
Kafka的性能和数据大小无关，所以长时间存储数据没有什么问题

4.6 副本机制

容错性：每个服务器在处理数据和请求时，共享分区。每一个分区都会在已配置的服务器上进行备份，确保容错性。
高可用：每个分区都有一台 server 作为 “leader”，零台或者多台server作为 follwers 。leader 处理一切对 partition （分区）的读写请求，而follwers 只需被动的同步leader上的数据。当leader宕机了，followers 中的一台服务器会自动成为新的 leader。通过这种机制，既可以保证数据有多个副本，也实现了一个高可用的机制！
基于安全考虑，每个分区的Leader和follower一般会错落在不同的broker

4.7 Producer

消息生产者，就是向kafka broker发消息的客户端。生产者负责将记录分配到topic的指定 partition（分区）中

4.8 Consumer

消息消费者，向kafka broker取消息的客户端。每个消费者都要维护自己读取数据的offset。低版本0.9之前将offset保存在Zookeeper中，0.9及之后保存在Kafka的“__consumer_offsets”主题中。

4.9 Consumer Group

消费者组！多个消费者可以分配到同一个组中！同一个组的不同消费者，在消费指定的主题时，可以合理分配分区，达到负载均衡，提升消费的速度！

单播：如果所有的消费者实例在同一消费组中，消息记录会负载平衡到每一个消费者实例。即每个消费者可以同时读取一个topic的不同分区
广播：如果所有的消费者实例在不同的消费组中，每条消息记录会广播到所有的消费者进程
一个topic可以有多个consumer group。topic的消息会复制（不是真的复制，是概念上的）到所有的consumer group，但每个partion只会把消息发给该consumer group中的一个consumer

5.Kafka基础架构

2.安装

2.1环境的配置

kafka使用scala语言编写，scala也需要运行在JVM上！要求必须有JAVA_HOME！

2.2 配置

编辑 config/server.properties

#21行，每台cluster中的broker都需要有唯一的id号，必须为整数
broker.id=103
#24行，打开注释,此行代表允许手动删除kafka中的主题
delete.topic.enable=true
#63行，配置kafka存储的数据文件的存放目录
log.dirs=/opt/module/kafka/datas
#126行，配置连接的zk集群的地址
zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181

分发整个kafka到集群：xsync kafka/

修改其他机器broker的broker.id，不得重复

2.3启动和停止

①启动zk集群

执行zkServer.sh start来启动服务端，jps查看进程
执行zkCli.sh来启动客户端

②启动broker

/opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/server.properties

③停止集群

/opt/module/kafka/bin/kafka-server-stop.sh

二、Kafka常用操作

1.主题操作

①查看集群中的所有主题：

bin/kafka-topics.sh --zookeeper hadoop103:2181 --list

②创建主题：

bin/kafka-topics.sh --zookeeper hadoop103:2181 --create --topic hello --partitions 3 --replication-factor 2

topic 定义topic名
replication-factor 定义副本数
partitions 定义分区数

创建主题是必须指定分区个数和副本数！

以上方式新建的主题是采用赋值均衡算法，将主题的多个分区均衡地分配到多个broker!

replication-factor不能超过当前集群可用的broker的数量！

在新建主题时，明确地告诉kafka，我的每个分区要分配到哪个机器：

bin/kafka-topics.sh --zookeeper hadoop103:2181 --create --topic hello1  --replica-assignment 102:103,102:104

③查看主题的描述信息：

bin/kafka-topics.sh --zookeeper hadoop103:2181 --describe --topic hello

④扩展主题的分区：

bin/kafka-topics.sh --zookeeper hadoop103:2181 --alter --topic hello --partitions6

⑤删除topic

bin/kafka-topics.sh --zookeeper hadoop103:2181 --delete --topic hello

2.生产数据

生产消息，需要有生产者，生产者需要自己写程序！kafka提供基于测试的生产者！

bin/kafka-console-producer.sh --broker-list hadoop103:9092 --topic  hello

生产数据时，如果一个主题有多个分区！在生产时，只指定主题不指定分区！消息会轮询地分配到不同的分区！

在同一个分区中，消费者在消费数据时，分区内部有序，但是不代表数据整体有序！

希望数据整体有序，只能是一个主题只有一个分区！

3.消费数据

可以启动基于控制台的消费者，用于测试！

bin/kafka-console-consumer.sh --bootstrap-server hadoop104:9092 --topic hello

默认消费者启动后，只会从分区的最后的位置开始消费！

如果是一个新的消费者组，添加–from beginning可以从分区的最新位置消费：

bin/kafka-console-consumer.sh --bootstrap-server hadoop104:9092 --topic hello --from-beginning

可以让多个消费者线程分配到一个组中，同一个组中的消费者线程，会共同消费同一个主题！

bin/kafka-console-consumer.sh --bootstrap-server hadoop104:9092 --topic hello --consumer-property group.id=jaffe --consumer-property client.id=test1

三、生产者

1.副本相关概念

R：replicas（副本）
AR：avaliable replicas（可用副本）
ISR：insync replicas （同步副本）
OSR：out of sync replicas （不同步的副本）

若一个分区有多个副本，那么会从多个副本中选取一个作为leader，其余为follow

Follower只负责从Leader同步数据！如果Follower可以及时地从leader机器同步数据，这台follower就可以进入ISR！否则，属于OSR！

ISR和OSR都由leader进行维护！用户可以设置一个replica.lag.time.max.ms=10(默认)，符合这个标准的副本，加入ISR，不符合，就加入OSR！

replica.lag.time.max.ms代表每个副本向leader发送同步数据请求的延迟时间的最大值！

2.如何判断副本属于OSR

在以下情况副本属于OSR：

①当副本(broker)和zookeeper的上一次的通信时间距离现在已经过了zookeeper.connection.timeout.ms=6000，此时集群会判断当前节点已经下线，下线的副本一定属于OSR

②如果副本没有下线，假设副本和leader距离上次发送fetch请求已经超过了replica.lag.time.max.ms，那么当前副本也会认为属于OSR

③如果副本没有下线，假设副本和leader距离上次发送fetch请求没有超过replica.lag.time.max.ms，但是无法同步最新的数据，此时副本也会认为属于OSR

follower和consumer向leader发送的拉取数据的请求都是同一种！follower每次消费的offset也由Leader维护！

如果副本可以及时同步数据，那么也可用从OSR变为ISR！

OSR+ISR=AR<=R

在leader故障时，集群总是从ISR列表中，选举一个称为新的Leader！

3.生产者如何保证消息的安全性

producer在发送数据时，可以设置acks参数，确保消息在何种情况下收到brokder的ack确认！

0：生成者无需等待brokder的ack，效率最快，丢数据的风险最大！
1: leader写完后，就返回ack确认消息，如果leader写完后，在返回ack确认消息之前挂掉，此时，由于follower尚未及时同步，因此选举的新的leader是不具有此条消息，那么可能造成丢数据！
-1(all): leader及ISR中所有follower全部写完后，返回确认消息！不会丢数据，但是有可能造成数据的重复！

当Leader挂掉后，ISR中没用可用的副本！但是OSR中有可用的副本，此时是否会选举OSR中的副本作为Leader?

OSR是否可以选举为Leader，取决于unclean.leader.election.enable参数的设置！

clean-elector: 只会从ISR中选

unclean-elector: 也会从OSR中选

如果ISR中只有一个副本可选，即使acks=-1，也可能会丢失数据！如何避免？

可以设置min.insync.replicas=2,代表当ISR中的副本数满足此条件时，生产者才会向broker发送数据，否则会报错： NoEnoughReplicasExecption!

4.副本数据同步策略

方案	优点	缺点
半数以上完成同步，就发送ack	延迟低	选举新的leader时，容忍n台节点的故障，需要2n+1个副本
全部完成同步，才发送ack	选举新的leader时，容忍n台节点的故障，需要n+1个副本	延迟高

Kafka选择了第二种方案，原因如下：

同样为了容忍n台节点的故障，第一种方案需要2n+1个副本，而第二种方案只需要n+1个副本，而Kafka的每个分区都有大量的数据，第一种方案会造成大量数据的冗余。
虽然第二种方案的网络延迟会比较高，但网络延迟对Kafka的影响较小。
ISR
采用第二种方案之后，设想以下情景：leader收到数据，所有follower都开始同步数据，但有一个follower，因为某种故障，迟迟不能与leader进行同步，那leader就要一直等下去，直到它完成同步，才能发送ack。这个问题怎么解决呢？
Leader维护了一个动态的in-sync replica set (ISR)，意为和leader保持同步的follower集合。当ISR中的follower完成数据的同步之后，leader就会给follower发送ack。如果follower长时间未向leader同步数据，则该follower将被踢出ISR，该时间阈值由replica.lag.time.max.ms参数设定。Leader发生故障之后，就会从ISR中选举新的leader。

5.分布式系统对消费数据语义的支持

at most once: 每条消息最多存一次！ acks=0,1

at least once:每条消息最少存一次！ acks=-1

exactly once:每条消息精准一次！enable.idempotence=true

如果要满足exactly once，通常要求系统需要在设计时，提供幂等性功能！

幂等性：一个数字在执行任意次运算后的结果都是一样的！称为这个数字具有幂等性的特征！

1 的 N次方都是1，1具有幂等性！

kafka在0.11之前，无法满足exactly once！在0.11之后，提供了幂等性的设置，通过幂等性的设置，可以满足exactly once！

enable.idempotence=true，kafka首先会让producer自动将 acks=-1，再将producer端的retry次数设置为Long.MaxValue,再在集群上对每条消息进行标记去重！

去重：在cluster端，对每个生产者线程生成的每条数据，都会添加以下的标识符： (producerid,partition,SequenceId),通过标识符对数据进行去重！

6.故障处理细节

LEO：log end offset。指每个分区副本 log文件最后的offset的值！当前副本分区的最后一条记录的offset!

HW：high watermark。 ISR中LEO最小的值！

HW可以保证consumer在消费时，只有HW之前的数据可以消费的！保证leader故障时，不会由于leader的更换造成消费数据的不一致！

HW还可以在leader发送选举时，使ISR中所有的follower都参照HW，将之后多余的数据截掉，保持和leader的数据同步！

follower故障
follower发生故障后会被临时踢出ISR，待该follower恢复后，follower会读取本地磁盘记录的上次的HW，并将log文件高于HW的部分截取掉，从HW开始向leader进行同步。等该follower的LEO大于等于该Partition的HW，即follower追上leader之后，就可以重新加入ISR了。
leader故障
leader发生故障之后，会从ISR中选出一个新的leader，之后，为保证多个副本之间的数据一致性，其余的follower会先将各自的log文件高于HW的部分截掉，然后从新的leader同步数据。
注意：这只能保证副本之间的数据一致性，并不能保证数据不丢失或者不重复

四、消费者

1.消费方式

consumer采用pull（拉）模式和push（推）模式从broker中读取数据。

push（推）模式不足之处：
很难适应消费速率不同的消费者，因为消息发送速率是由broker决定的。
它的目标是尽可能以最快速度传递消息，但是这样很容易造成consumer来不及处理消息，典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息。
pull（拉）模式不足之处：
如果kafka没有数据，消费者可能会陷入循环中，一直返回空数据。针对这一点，Kafka的消费者在消费数据时会传入一个时长参数timeout，如果当前没有数据可供消费，consumer会等待一段时间之后再返回，这段时长即为timeout

2.独立消费者

在启动消费者时，如果明确指定了要消费的主题、分区，以及消费的位置！此时启动的消费者，称为独立消费者！

在启动消费者时，只指定了消费的主题，没有指定要消费哪个分区！此时这个消费者称为非独立消费者！

区别：独立消费者在消费数据时，kafka集群不会帮消费者维护消费的Offset！

3.消费者的分区

再平衡(rebalance): 一个非独立消费者组中如果新加入了消费者或有消费者挂掉，此时都会由系统自动再进行主题分区的分配，这个过程称为再平衡！

当创建的是非独立消费者，此时会由kafka集群自动帮消费者组中的每个消费者分配要消费的分区！

自动分配时，有两种分配的策略：round_rabin(轮询分区) 和 range（范围分区）

3.1 range(默认)

如何分配：首先会统计一个消费者，一共订阅了哪些主题！以主题为单位，根据主题的分区数 / 当前主题订阅的消费者个数，根据结果，进行范围的分配

举例：

有jaffe消费者组，组内有3个消费者[a,b,c]
a 订阅了 hello(0,1,2)
b 订阅了 hello(0,1,2)

c 订阅了 hello1(0,1,2)

此时分配的结果如下：

a 消费了 hello(0,1)
b 消费了 hello(2)
c 消费了 hello1(0,1,2)

问题：①如果一个消费者订阅的主题越多，分配得到的分区越多！

②如果出现同一个主题被多个消费者订阅，那么排名后靠前的消费者容易出现负载不均衡(多分配分区)

极端情况：

a 订阅了 hello(0,1,2)，hello1(0,1,2)，hello2(0,1,2)，hello3(0,1,2)
b 订阅了 hello(0,1,2)，hello1(0,1,2)，hello2(0,1,2)，hello3(0,1,2)

a比b多分配4个分区！

3.2 round_rabin(轮询分区)

如何分配：首先会统计一个消费者组，一共订阅了哪些主题！
以主题为单位，将主题的分区进行排序，排序后采取轮询的策略，将主题轮流分配到订阅这个主题的消费者上！如果出现组内有消费者没有订阅这个主题，默认轮空(跳过)，继续轮询！

举例：

有jaffe消费者组，组内有3个消费者[a,b,c]
a 订阅了 hello(0,1,2)
b 订阅了 hello(0,1,2)

c 订阅了 hello1(0,1,2)

此时分配的结果如下：

a 消费了 hello(0,2)
b 消费了 hello(1)
c 消费了 hello1(0,1,2)

五、kafka高效的原因

1.顺序写磁盘

Kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到600M/s，而随机写只有100K/s。这与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。

2.磁盘页缓存技术

在现代操作系统中，可以把磁盘的一片区域当作临时的缓存使用！

3.零拷贝技术

六、JavaAPI

1.引入依赖

<dependencies>
        <dependency>
            <groupId>org.apache.kafkagroupId>
            <artifactId>kafka-clientsartifactId>
            <version>0.11.0.0version>
        dependency>
        <dependency>
            <groupId>org.apache.kafkagroupId>
            <artifactId>kafka_2.11artifactId>
            <version>0.11.0.0version>
        dependency>
    dependencies>

2.Producer API

2.1简单的生产者

package com.jaffe.kafka.custom;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;

public class MyProducer {

    public static void main(String[] args) {

        //producer的配置信息
        Properties props = new Properties();
        // 服务器的地址和端口
        props.put("bootstrap.servers", "hadoop102:9092,hadoop103:9092,hadoop104:9092");
        // 接受服务端ack确认消息的参数，0,-1,1
        props.put("acks", "all");
        // 如果接受ack超时，重试的次数
        props.put("retries", 3);
        // sender一次从缓冲区中拿一批的数据量
        props.put("batch.size", 16384);
        // 如果缓冲区中的数据不满足batch.size，只要和上次发送间隔了linger.ms也会执行一次发送
        props.put("linger.ms", 1);
        // 缓存区的大小
        props.put("buffer.memory", 33554432);
        //配置生产者使用的key-value的序列化器
        props.put("key.serializer", "org.apache.kafka.common.serialization.IntegerSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        // ，泛型，必须要和序列化器所匹配
        Producer<Integer, String> producer = new KafkaProducer<>(props);

        for (int i = 0; i < 10; i++){
            
            producer.send(new ProducerRecord<Integer, String>("test1", i, "jaffe"+i));
        }
        producer.close();
    }
}

2.2 带回调的异步发送

package com.jaffe.kafka.custom;
import org.apache.kafka.clients.producer.*;
import java.util.Properties;

public class MyProducer {

    public static void main(String[] args) {

        //producer的配置信息
        Properties props = new Properties();
        // 服务器的地址和端口
        props.put("bootstrap.servers", "hadoop102:9092,hadoop103:9092,hadoop104:9092");
        // 接受服务端ack确认消息的参数，0,-1,1
        props.put("acks", "all");
        // 如果接受ack超时，重试的次数
        props.put("retries", 3);
        // sender一次从缓冲区中拿一批的数据量
        props.put("batch.size", 16384);
        // 如果缓冲区中的数据不满足batch.size，只要和上次发送间隔了linger.ms也会执行一次发送
        props.put("linger.ms", 1);
        // 缓存区的大小
        props.put("buffer.memory", 33554432);
        //配置生产者使用的key-value的序列化器
        props.put("key.serializer", "org.apache.kafka.common.serialization.IntegerSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        // ，泛型，必须要和序列化器所匹配
        Producer<Integer, String> producer = new KafkaProducer<>(props);

        for (int i = 0; i < 10; i++){

            //异步发送
            // producer.send(new ProducerRecord("test1", i, "jaffe"+i));

            //异步带回调的发送
            producer.send(new ProducerRecord<Integer, String>("test2", i, "jaffe" + i), new Callback() {
                //  一旦发送的消息被server通知了ack，此时会执行onCompletion()
                // RecordMetadata: 当前record生产到broker上对应的元数据信息
                // Exception： 如果发送失败，会将异常封装到exception返回 
                @Override
                public void onCompletion(RecordMetadata metadata, Exception exception) {

                    //没有异常
                    if (exception==null){
                        //查看数据的元数据信息
                        System.out.println("partition:"+metadata.topic()+"-"+metadata.partition()+",offset:"+
                                metadata.offset());
                    }

                }
            });
        }
        producer.close();
    }
}

2.3 同步发送

RecordMetadata result=producer.send(new ProducerRecord()).get()

3.自定义分区器

①编写分区器

public class MyPartitioner implements Partitioner {

    //为每个ProduceRecord计算分区号
    // 根据key的hashCode() % 分区数
    @Override
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        //获取主题的分区数
        List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);

        int numPartitions = partitions.size();

        return (key.hashCode() & Integer.MAX_VALUE) % numPartitions;
    }

    // Producer执行close()方法时调用
    @Override
    public void close() {

    }

    // 从Producer的配置文件中读取参数,在partition之前调用
    @Override
    public void configure(Map<String, ?> configs) {

        System.out.println(configs.get("welcomeinfo"));

    }
}

②在producer中设置

props.put(ProducerConfig.PARTITIONER_CLASS_CONFIG,"com.jaffe.kafka.custom.MyPartitioner");

4.自定义拦截器

①自定义拦截器

public class TimeStampInterceptor implements ProducerInterceptor<Integer,String> {

    //拦截数据
    @Override
    public ProducerRecord<Integer, String> onSend(ProducerRecord<Integer, String> record) {

        String newValue=System.currentTimeMillis()+"|"+record.value();

        return new ProducerRecord<Integer, String>(record.topic(),record.key(),newValue);
    }

    //当拦截器收到此条消息的ack时，会自动调用onAcknowledgement()
    @Override
    public void onAcknowledgement(RecordMetadata metadata, Exception exception) {

    }

    // Producer关闭时，调用拦截器的close()
    @Override
    public void close() {

    }

    //读取Producer中的配置
    @Override
    public void configure(Map<String, ?> configs) {

    }
}

②设置

		//拦截器链
        ArrayList<String> interCeptors = new ArrayList<>();

        // 添加的是全类名，注意顺序，先添加的会先执行
        interCeptors.add("com.jaffe.kafka.custom.TimeStampInterceptor");
        interCeptors.add("com.jaffe.kafka.custom.CounterInterceptor");
         //设置拦截器
        props.put(ProducerConfig.INTERCEPTOR_CLASSES_CONFIG,interCeptors);

5.Consumer API

5.1 自动提交的consumer

public static void main(String[] args) {

        // consumer的配置
        Properties props = new Properties();
        // 连接的集群地址
        props.put("bootstrap.servers", "hadoop102:9092,hadoop103:9092,hadoop104:9092");
        // 消费者组id
        props.put("group.id", "test");
        // 消费者id
        props.put("client.id", "test01");
        // 允许在消费完数据后，自动提交offset
        props.put("enable.auto.commit", "true");
        // 每次自动提交offset的间隔时间
        props.put("auto.commit.interval.ms", "1000");
        // key-value的反序列化器，必须根据分区存储的数据类型，选择合适的反序列化器
        props.put("key.deserializer", "org.apache.kafka.common.serialization.IntegerDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        //基于配置创建消费者对象
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        //订阅主题
        consumer.subscribe(Arrays.asList("test1"));
        //消费数据，采取poll的方式主动去集群拉取数据
        while (true) {
            //每次poll，拉取一批数据，如果当前没有可用的数据，就休息timeout单位时间
            ConsumerRecords<String, String> records = consumer.poll(100);
            //遍历数据，执行真正的消费逻辑
            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
            }
        }

    }

5.2 手动提交offset

自动提交Offset存在一定的风险！如果从kafka，pull到数据后，在真正执行消费处理逻辑之前，已经提交了offset!但是如果在执行消费逻辑时，程序出现异常！

期望下次重启程序，可以继续消费异常的数据！但是由于之前已经提交了offset，此部分数据我们是无法再消费到了，因此这就是消费端丢数据！

解决：采取手动提交offset!在消费的逻辑真正运算结束后，手动提交！

关闭自动提交：

 props.put("enable.auto.commit", "false");

5.3 手动提交的问题

手动提交和核心是在执行真正的消费逻辑后，再提交offset!这种情况可能会造成数据的重复消费！

如果pull了一批数据，只有部分数据执行了消费逻辑，此时程序发生异常，将不会运行提交offset!

之后程序重启，会从之前提交的offset继续消费，已经消费成功的部分数据，就存在重复消费的情况！

如何避免重复消费：将消费逻辑和提交Offset放入一个事务中！同时在出现异常时，回滚事务！

//全局变量
 int offset=当前处理的记录的offset
while (true) {
    
    try{
        	//开启事务
        	xxxxx
            //每次poll，拉取一批数据，如果当前没有可用的数据，就休息timeout单位时间
            ConsumerRecords<String, String> records = consumer.poll(100);
            //遍历数据，执行真正的消费逻辑
            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
                //记录当前处理的位置
                offset=record.offset();
            }

            //手动同步提交  等offset提交完成后，再继续运行代码
            //consumer.commitSync();
            //手动异步提交
            consumer.commitAsync();
        	
        // 提交事务
        
       }catch(Exception e){
//回滚事务
//在catch中，提交之前已经处理的offset,自己维护提交的offset，例如将Offset存储到mysql中！将offset存储，提交到mysql中
    }
    }
}

5.4 独立消费者

独立消费者需要自己维护offset

public static void main(String[] args) {

        // consumer的配置
        Properties props = new Properties();
        // 连接的集群地址
        props.put("bootstrap.servers", "hadoop102:9092,hadoop103:9092,hadoop104:9092");
        // 消费者组id
        props.put(ConsumerConfig.GROUP_ID_CONFIG, "test2");

        // 消费者id
        props.put("client.id", "test01");
        // 允许在消费完数据后，自动提交offset,独立消费者的offset不由kafka维护
        props.put("enable.auto.commit", "true");
        // 每次自动提交offset的间隔时间
        props.put("auto.commit.interval.ms", "1000");
        // key-value的反序列化器，必须根据分区存储的数据类型，选择合适的反序列化器
        props.put("key.deserializer", "org.apache.kafka.common.serialization.IntegerDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        //基于配置创建消费者对象
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);

        //要订阅的分区
        List<TopicPartition> partitions=new ArrayList<>();

        TopicPartition tp1 = new TopicPartition("test1", 0);
        TopicPartition tp2 = new TopicPartition("test1", 1);

        partitions.add(tp1);
        partitions.add(tp2);

        //分配主题和分区
        consumer.assign(partitions);

        //指定offset
        consumer.seek(tp1,20);
        consumer.seek(tp2,30);

        //消费数据，采取poll的方式主动去集群拉取数据
        while (true) {
            //每次poll，拉取一批数据，如果当前没有可用的数据，就休息timeout单位时间
            ConsumerRecords<String, String> records = consumer.poll(100);
            //遍历数据，执行真正的消费逻辑
            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
            }

        }

    }

七、KafkaSink

1.介绍

kafkasink本质就是一个生产者，负责将flume channel中的数据，生产到kafka集群的topic中！

必须属性：

type	–	`org.apache.flume.sink.kafka.KafkaSink`
kafka.bootstrap.servers	–	集群地址
kafka.topic	default-flume-topic	向哪个主题生成
flumeBatchSize	100	一批数据量
kafka.producer.acks	1	acks
useFlumeEventFormat	false	By default events are put as bytes onto the Kafka topic directly from the event body. Set to true to store events as the Flume Avro binary format. Used in conjunction with the same property on the KafkaSource or with the parseAsFlumeEvent property on the Kafka Channel this will preserve any Flume headers for the producing side.

useFlumeEventFormat=false时，将flume 每个event中的body的内容直接写到kafka!

useFlumeEventFormat=true,此时存储的event就默认为flume的avro格式！在生成时，会将flume的event的header内容也存入kafka!

何时用true？
需要和KafkaSource 及 Kafka Channel的 parseAsFlumeEvent一起使用！配套为true或者false!

2.案例

netcatsource–memerychannel–kafkasink

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 配置source
a1.sources.r1.type = netcat
a1.sources.r1.bind = hadoop103
a1.sources.r1.port = 44444
a1.sources.r1.interceptors = i1 i2
a1.sources.r1.interceptors.i1.type = static
a1.sources.r1.interceptors.i1.key = topic
a1.sources.r1.interceptors.i1.value = hello
a1.sources.r1.interceptors.i2.type = static
a1.sources.r1.interceptors.i2.key = key
a1.sources.r1.interceptors.i2.value = 1

# 配置sink
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092,hadoop104:9092
a1.sinks.k1.kafka.topic=test3
a1.sinks.k1.useFlumeEventFormat=false

# 配置channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000

# 绑定和连接组件
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

你可能感兴趣的:(bigdata)

Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
echarts象形渐变柱状图星星跌入梦境* echarts angular.js 前端
一、效果图如下：二、代码如下（1）父组件importitemfrom'../bigdata/components/item.vue'exportdefault{components:{item}}.page-con{width:100%;height:100%;.main-con{width:35%;height:33%;}}（2）子组件importechartsfrom"echarts";exp
大数据（Big Data）：探索信息时代的海量数据世界 hong161688 大数据
大数据（BigData）：探索信息时代的海量数据世界一、大数据的定义与特点大数据（BigData），或称巨量资料，是指那些在传统数据处理应用软件无法有效捕捉、管理和处理的数据集合。这些数据集通常具有海量、高增长率和多样化的特点，需要新的处理模式才能赋予其更强的决策力、洞察发现力和流程优化能力。大数据的“大”不仅体现在数据量的规模上，更在于其处理难度和复杂性，以及对信息提取和价值挖掘的需求。大数据的
Ingest Pipeline & Painless Script 折纸虚桐 ES学习笔记 elasticsearch
DELETEtech_blogs#Blog数据，包含3个字段，tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"hadoop,elasticsearch,spark","content":"Youknow,forbigdata"}#测试splittagsPOST_ingest/pipeline/_sim
HIVE 数据模型 HFDYCYY 大数据
体系结构：元数据/HQL的执行安装：嵌入/远程/本地管理：CLI/web界面/远程服务数据类型：基本/复杂/时间数据模型：数据存储/内部表/分区表/外部表/桶表/视图WEB管理工具：http://tdxy-bigdata-04:8889/notebook/editor?type=hive集群状态管理：http://tdxy-bigdata-03:7180/cmf/home基于HDFS没有专门的数据
山东大学大数据管理与分析知识点总结 weixin_51565263 云计算大数据 mapreduce 数据仓库
大数据概述大数据(bigdata)，或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理大数据四个本质特征大量化（volume），快速化（velocity），多样化（variety），价值化（value）；四个VVolume—数量大：数据每两年就增长一倍（大数据摩尔
大数据-Big Data Dingdangr big data
大数据（BigData）是指规模庞大、多样化、高速度的数据集合。与传统数据相比，大数据具有一些显著的特点，并广泛应用于各个领域。以下是对大数据的详细解释：一、大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。二、大数据的主要特点数据量巨大（Volume）：大数据最
BigData学习日记 wsuan
做一个简单的开篇说明从今天开始，每天定时更新当天所学知识，进行知识总结的同时进行一下日子的计算，也算为自己加油。
pyflink1.18.0 报错 TypeError: cannot pickle ‘_thread.lock‘ object Thomas2143 总结 pyflink
完整报错Traceback(mostrecentcalllast):File"/Users//1.py",line851,inds1=my_datastream.key_by(lambdax:x[0]).process(MyProcessFunction())#返回元组即:f0f1f2三列File"/Users/thomas990p/bigdataSoft/minicondaarm/minicon
扩展学习|大数据，新的认识论和范式转变封印师请假去地球钓鱼计算机辅助信息分析主题扩展阅读大数据科研范式转变
文献来源：[1]KitchinR.BigData,NewEpistemologiesandParadigmShift[J].BigData&Society,2014,1(1):1-12.DOI:10.1177/2053951714528481.下载链接：https://pan.baidu.com/s/1RdnIo5VeL-CERk2sxyILiQ提取码：0ih2一、科学研究的范式转变正如库恩(19
阿里云计算平台大数据基础工程技术团队直聘！！！大数据
大数据基础工程技术团队，隶属于阿里云智能集团计算平台事业部，是一支负责阿里集团、公共云和混合云场景计算平台大数据&AI产品的稳定性建设、架构&成本优化、运维产品ABM（ApsaraBigdataManager）研发和售后技术专家支持的团队。通过软件工程，数据智能化的方法论，围绕数据系统化建设运维智能工具链，打造飞天大数据&AI运维管控平台ABM，解决超大规模分布式集群运维管理问题，提升产品的稳定性
单细胞注释刘综一
单细胞-注释-2022-01-17多个样本单细胞分析流程-(jianshu.com)一、人工注释人工注释需要借助文献检索marker或者结合常用的注释数据库，例如两个常用的数据库：CellMarker（http://bio-bigdata.hrbmu.edu.cn/CellMarker/）；panglaoDB（ASingleCellSequencingResourceForGeneExpressi
[bigdata-050] 规则引擎和专家系统pyke+pyclipse+drools 未济2019
反欺诈最有效的方式，是搜索所有的欺诈事件，然后将欺诈行为和防范措施进行规则化，表达成产生式规则，再由规则引擎驱动进行反欺诈业务实战。产生式规则，就是AI领域早期的专家系统。规则引擎如下：1.clipsehttp://clipsrules.sourceforge.net/http://clipsrules.sourceforge.net/FAQ.html这个是nasa在1985年开发的，ansic，
【Fellow 云集 | 经管主题/EI会议 | 快见刊】第三届大数据、区块链与经济管理国际学术会议 (ICBBEM 2024)，早投稿、早送审、早录用！艾思科蓝 AiScholar 学术会议大数据区块链信任链人工智能软件工程线性回归算法
第三届大数据、区块链与经济管理国际学术会议(ICBBEM2024)The3rdInternationalConferenceonBigdataBlockchainandEconomyManagement大会网站：https://ais.cn/u/YFbQru（更多会议详情）大会时间：2024年3月29-31号大会地点：中国-武汉截稿时间：以官网信息为准提交检索：EICompendex，Scopus
python+大数据学习打卡day1 岁月不静好456 big data 学习
【大数据从0-1打卡-day1】1、简单了解一些关于大数据的概念数据：数据就是对客观事件进行记录并可以鉴别的符号。他不仅仅是指数字，还可以是有一定意义的字母、文字、符号、语音、文字、图画、视频或者这些元素的结合等。企业数据分析方向：现状分析：离线分析原因分析：实时分析预测分析：机器学习数据分析基本流程：采集、处理、分析、应用大数据：大数据(bigdata)，指的是所涉及的资料量规模巨大到无法透过主
因果推断推荐系统工具箱 - CFF（二） processor4d
文章名称【CIKM-2021】【BeijingKeyLaboratoryofBigDataManagementandAnalysisMethods-AntGroup】CounterfactualReview-basedRecommendation核心要点文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题，提出在feature-aware的推荐场景下，利用反事实样本提升模型性能。作者通
requests实验临风. 爬虫爬虫网络爬虫 python
文章目录实验目的：实验内容：1.使用百度搜索引擎查询给定的一个关键词（例如：bigdata），将搜索得到的网页存储起来。2.给定使用baidu搜索引擎的关键词列表，将搜索得到的网页分别存储起来。2.1代码展示2.2效果展示2.3注意事项3.在人邮教育官网上搜索“爬虫”的图书信息，结果保存起来。3.1代码展示3.2效果展示4.给定关键词列表（例如：【大数据、java、python】），在人邮教育官网
python数据可视化库_python和r中用于数据可视化的前9个库 weixin_26738983 可视化 python 数据可视化数据分析人工智能
python数据可视化库Intherapidlygrowingworldoftoday,whentechnologyisexpandingataratelikeneverbefore,bigdataisswiftlywalkingintopeople’slives.Thoughpeoplemayhavewaystoobtaindata,whenitcomestodrawinginsightsorc
spark好的文章链接 Trank-Lw spark 大数据分布式
https://blog.51cto.com/u_16099325/6763760`javaspark官方文档sparkjavaapi手册http://www.17bigdata.com/book/spark/BianChengZhiNan/SPARKGongXiangBianLiang.htmlJavaSparkML实现的文本分类https://blog.csdn.net/coderma/art
使用Python和OpenCV检测图像中的物体并将物体裁剪下来要去坐飞船图像处理
转载哦~https://blog.csdn.net/binbigdata/article/details/80029681介绍硕士阶段的毕设是关于昆虫图像分类的，代码写到一半，上周五导师又给我新的昆虫图片数据集了，新图片中很多图片很大，但是图片中的昆虫却很小，所以我就想着先处理一下图片，把图片中的昆虫裁剪下来，这样除去大部分无关背景，应该可以提高识别率。原图片举例（将红色矩形框部分裁剪出来））：s
Hadoop2.7配置不会吐丝的蜘蛛侠。 Hadoop hadoop 大数据 hdfs
core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72:2181-->hadoop.tmp.dir/export/data/hadoop/tmpfs.trash.interval1440io.file.buffer.size13107
Hadoop搭建（完全分布式）莫噶搭建分布式 hadoop 大数据
节点分布：bigdata-masterbigdata-slave1bigdata-salve2NameNodeNodeManagerNodeManagerSecondaryNameNodeDataNodeDataNodeResourceManagerNodeManagerDataNode目录一、jdk安装：二、hadoop安装一、jdk安装：jdk-8u212链接：https://pan.baid
因果推断推荐系统工具箱 - CFF（一） processor4d
文章名称【CIKM-2021】【BeijingKeyLaboratoryofBigDataManagementandAnalysisMethods-AntGroup】CounterfactualReview-basedRecommendation核心要点文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题，提出在feature-aware的推荐场景下，利用反事实样本提升模型性能。作者通
RDD 依赖关系 zmx_messi 大数据 spark
RDD血缘关系RDD不会保存数据的，RDD为了提供容错性，需要将RDD间的关系保存下来，一旦出现错误，可以根据血缘关采将数据源重新读取进行计算。packagecom.atguigu.bigdata.spark.core.rdd.depimportorg.apache.spark.{SparkConf,SparkContext}objectSpark01_RDD_Dep{defmain(args:A
转换算子小案例 zmx_messi spark 大数据
1)数据准备agent.log：时间戳，省份，城市，用户，广告，中间字段使用空格分隔。2)需求描述统计出每一个省份每个广告被点击数量排行的Top33)需求分析4)功能实现整体思路代码实现packagecom.atguigu.bigdata.spark.core.rdd.operator.transformimportorg.apache.spark.{SparkConf,SparkContext}
【征稿已开启】第五大数据、人工智能与软件工程国际研讨会（ICBASE 2024）艾思科蓝-何老师【H8053】大数据人工智能软件工程
第五大数据、人工智能与软件工程国际研讨会（ICBASE2024）20245thInternationalConferenceonBigData&ArtificialIntelligence&SoftwareEngineering2024年09月20-22日|中国温州第五届大数据、人工智能与软件工程国际研讨会（ICBASE2024）将于2024年09月20-22日在中国温州隆重举行。会议主要围绕大数
2024初始Spring（并使用idea创建springweb项目）菜鸟小木 spring java 后端
前言spring呢，以前一直是简单的了解，并没有利用空闲时间去进行对应的深入的学习，今天呢原本是打算好好学的，然后后来呢感觉还是太早了接触，打算把前面知识在过一编之后再开始Spring介绍Spring|Home大家想要访问的话，可以去官网下面具体查看对应的文档Fromconfigurationtosecurity,webappstobigdata—whatevertheinfrastructure
spark学习4：spark安装 hzp666 spark spark 大数据
1.下载spark安装包2.配置环境1.cd/bigdata/spark-3.0.1-bin-hadoop3.2/conf/2.4.添加动态库在hadoop-3.2.2/bin目录下添加hadoop.dll和winutils.exe文件，可以从https://github.com/cdarlint/winutils和https://github.com/steveloughran/winutils
商业智能（BI）数据分析、挖掘概念 kalvin_y_liu 数据科学数据分析数据挖掘
商业智能（BI）数据分析挖掘概念一、商业智能（BI）数据分析挖掘概念数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结。1.分析型客户关系管理（AnalyticalCRM/aCRM用于支持决策，改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识，和如何与顾客有效接触的知识，进行收集、分析、应用。2.大数据（BigData）大数据既是一个被滥用的流行语，也是一个当今社
Fink CDC数据同步（二）MySQL数据同步苡~ mysql 数据库 flink
1开启binlog日志2数据准备usebigdata;droptableifexistsuser;CREATETABLE`user`(`id`INTEGERNOTNULLAUTO_INCREMENT,`name`VARCHAR(20)NOTNULLDEFAULT'',`birth`VARCHAR(20)NOTNULLDEFAULT'',`gender`VARCHAR(10)NOTNULLDEFAU
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc