CoderBoom

kafka入门

kafka入门学习笔记

1、目标

1、掌握kafka相关概念
2、掌握搭建一个kafka集群
3、掌握kafka生产者和消费者代码开发
4、掌握kafka的分区策略
5、掌握kafka整合flume
6、掌握kafka如何保证消息不丢失

2、kafka概述

2.1 kafka是什么

kafka是由linkedin开源，捐献apache基金会，它是一个实时的分布式消息队列。
它提供了一个对于实时处理下高可靠，高性能，高吞吐量、低延迟的平台

Kafka是一个分布式消息队列：生产者、消费者的功能。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。

2.2 消息队列的作用

核心作用 : 解耦、异步、并行

2.3 kafka与activeMQ区别

activeMQ:它是一个严格的JMS（java message）框架实现，后期需要有严格的事务去控制

kafka：它并不是一个严格的JMS(java message)框架实现，它是类似于JMS框架 , 它会主动把数据从kafka集群中拉取过来，它追求的高吞吐量。

2.3.1、在架构模型方面
RabbitMQ遵循AMQP协议，RabbitMQ的broker由Exchange,Binding,queue组成，其中exchange和binding组成了消息的路由键；客户端Producer通过连接channel和server进行通信，Consumer从queue获取消息进行消费（长连接，queue有消息会推送到consumer端，consumer循环从输入流读取数据）。rabbitMQ以broker为中心；有消息的确认机制。
kafka遵从一般的MQ结构，producer，broker，consumer，以consumer为中心，消息的消费信息保存的客户端consumer上，consumer根据消费的点，从broker上批量pull数据；无消息确认机制。

2.3.2、在吞吐量
kafka具有高的吞吐量，内部采用消息的批量处理，zero-copy机制，数据的存储和获取是本地磁盘顺序批量操作，具有O(1)的复杂度，消息处理的效率很高。
rabbitMQ在吞吐量方面稍逊于kafka，他们的出发点不一样，rabbitMQ支持对消息的可靠的传递，支持事务，不支持批量的操作；基于存储的可靠性的要求存储可以采用内存或者硬盘。

2.3.3、在可用性方面
rabbitMQ支持miror的queue，主queue失效，miror queue接管。kafka的broker支持主备模式。

2.3.4、在集群负载均衡方面
kafka采用zookeeper对集群中的broker、consumer进行管理，可以注册topic到zookeeper上；通过zookeeper的协调机制，producer保存对应topic的broker信息，可以随机或者轮询发送到broker上；并且producer可以基于语义指定分片，消息发送到broker的某分片上。

3、kafka集群架构

1、Producer
- 生产者
  - 数据通过生产者写入到kafka集群中
2、broker
- kafka集群中每一个节点就是一个broker，后期kafka的数据就存放在每一个broker
3、topic
- 消息的主题，它是一类消息的聚集 , 每个topic将被分成多个partition(区)，在集群的配置文件中配置。
4、partition
- 分区概念
  - 一个topic中有很多个分区，每一个分区就存在一部分数据。
  - 每个partition由多个segment组成
  - 任何发布到此partition的消息都会被直接追加到log文件的尾部
  - 每个partition在内存中对应一个index列表，记录每个segment中的第一条消息偏移。这样查找消息的时候，先在index列表中定位消息位置，再读取文件，速度快
  - 发布者发到某个topic的消息会被均匀的分布到多个part上，broker收到发布消息往对应part的最后一个segment上添加该消息。
5、replication
- 副本
  - 一个topic中有很多个分区，每一个分区构建多个副本，保证数据的安全可靠性
6、segment
- 它就是用来存储每一个分区中的数据，它里面包括了2类文件
  - 一个是log文件，它用于存在该分区的数据
  - 一个是index文件，它用于存在数据的索引信息数据
    - 就是为log文件中的数据构建索引
      - 方便后期能够快速定位到我们需要的数据在整个log文件的哪一块
  - 每个segment中存储多条消息，消息id由其逻辑位置决定，即从消息id可直接定位到消息的存储位置，避免id到位置的额外映射
  - 当某个segment上的消息条数达到配置值或消息发布时间超过阈值时，segment上的消息会被flush到磁盘，只有flush到磁盘上的消息订阅者才能订阅到
  - segment达到一定的大小（可以通过配置文件设定,默认1G）后将不会再往该segment写数据，broker会创建新的segment
7、zookeeper
- 主要是使用zk帮我们管理kafka集群的元数据信息
  - kafka每一个broker地址
  - 所有topic的信息
  - 消费者的信息
8、consumer
- 消费者
  - 消费者后期去消费kafka集群中topic的数据
    - 条件
      - 1、kafka集群地址
      - 2、需要消费的topic名称
      - 3、消费的topic的偏移量（记录了消费的位置，从哪一块开始消费）
9、offset
- 偏移量
  - 它就是记录下每一个消费者消费的位置在哪里
- 有2中保存方式
  - 第一种
    - 可以通过kafka集群自己去保存，这个时候由它自身有一个内置的topic去存储偏移量
    - __consumer_offsets
      - 它默认有50个分区，这些分区就存在了消费者消费数据的偏移量
  - 第二种
    - 可以通过zk去保存
- 作用
```
它是记录了每一个消费者消费topic每一个分区的位置，好处：方便于后期消费者程序挂掉了，然后正常启动，启动之后，它会读取上一次消费的记录，继续向后面消费。
```

4、kafka集群安装部署

1、下载对应的安装包
- 访问kafka官网：kafka.apache.org
- https://archive.apache.org/dist/kafka/1.0.0/kafka_2.11-1.0.0.tgz
- kafka_2.11-1.0.0.tgz
2、规划安装目录
- /export/servers
3、上传安装包到服务器中
4、解压安装包到指定的安装目录
- tar -zxvf kafka_2.11-1.0.0.tgz -C /export/servers
5、重命名解压目录
- mv kafka_2.11-1.0.0 kafka

6、修改配置文件

在node1上进去到kafka安装目录下有一个config文件夹

vim server.properties , 修改和添加如下配置即可

#指定broker的id，它是唯一标识，不能够重复
broker.id=0

#指定当前broker的服务地址
host.name=node-1

#kafka集群数据存放的目录
log.dirs=/export/servers/kafka/kafka-logs

#指定依赖zk的地址
zookeeper.connect=node-1:2181,node-2:2181,node-3:2181

#指定kafka中的topic是否可以删除，默认是false，表示不可以删除，改为true，可以删除
delete.topic.enable=true

7、配置kafka环境变量

vim /etc/profile

export KAFKA_HOME=/export/servers/kafka
export PATH=$PATH:$KAFKA_HOME/bin

8、分发kafka安装目录和环境变量

scp -r kafka node-2:/export/servers
scp -r kafka node-3:/export/servers
scp /etc/profile node-2:/etc
scp /etc/profile node-3:/etc

9、修改node-2和node-3配置文件信息

node-2

vim server.properties

#指定broker的id，它是唯一标识，不能够重复
broker.id=1

#指定当前broker的服务地址
host.name=node-2

#kafka集群数据存放的目录
log.dirs=/export/servers/kafka/kafka-logs

#指定依赖zk的地址
zookeeper.connect=node-1:2181,node-2:2181,node-3:2181

#指定kafka中的topic是否可以删除，默认是false，表示不可以删除，改为true，可以删除
delete.topic.enable=true

node-3

vim server.properties

#指定broker的id，它是唯一标识，不能够重复
broker.id=2

#指定当前broker的服务地址
host.name=node-3

#kafka集群数据存放的目录
log.dirs=/export/servers/kafka/kafka-logs

#指定依赖zk的地址
zookeeper.connect=node-1:2181,node-2:2181,node-3:2181

#指定kafka中的topic是否可以删除，默认是false，表示不可以删除，改为true，可以删除
delete.topic.enable=true

10、让所有kafka节点环境变量生效
- 在所有kafka节点执行
  - source /etc/profile

5、kafka集群启动和停止

1、启动

1、先启动zk集群

2、然后再启动kafka集群

需要再每一个kafka节点执行

nohup kafka-server-start.sh /export/servers/kafka/config/server.properties > /dev/null 2>&1 &

一键启动脚本

vim start-kafka.sh

#!/bin/sh
for host in node-1 node-2 node-3
do
   ssh $host "source /etc/profile;nohup kafka-server-start.sh /export/servers/kafka/config/server.properties > /dev/null 2>&1 &"
   echo "$host kafka is running"
done

sh start-kafka.sh

2、停止

1、需要再每一个台kafka节点执行

kafka-server-stop.sh

这个脚本由于不同的linux版本，有一定问题（centos 6.x）

ps ax | grep -i 'kafka\.Kafka' | grep java | grep -v grep | awk '{print $1}'
改为
ps ax | grep -i 'kafka' | grep java | grep -v grep | awk '{print $1}'

一键关闭脚本

#!/bin/sh
for host in node-1 node-2 node-3
do
   ssh $host "source /etc/profile;kafka-server-stop.sh"
   echo "$host kafka is stop"
done

6、kafka管理命令的使用

1、创建topic

kafka-topics.sh

kafka-topics.sh --create --topic test --partitions 3 --replication-factor 2 --zookeeper node-1:2181,node-2:2181,node-3:2181

--create ：表示要创建
--topic：指定要创建的topic名称
--partitions：指定要创建的topic有几个分区
--replication-factor：指定副本数
--zookeeper：指定zk地址

2、查看kafka集群有哪些topic

kafka-topics.sh

kafka-topics.sh --list --zookeeper node-1:2181,node-2:2181,node-3:2181
--list:查看kafka集群有哪些topic

3、模拟一个生产者向topic发送数据

kafka-console-producer.sh

kafka-console-producer.sh --topic test --broker-list node-1:9092,node-2:9092,node-3:9092

--topic:指定向哪一个topic生产数据
--broker-list ：指定kafka集群地址

4、模拟一个消费者去消费topic的数据

kafka-console-consumer.sh

kafka-console-consumer.sh --bootstrap-server node-1:9092,node-2:9092,node-3:9092 --from-beginning  --topic test

--bootstrap-server：指定kafka集群地址
--from-beginning：指定从第一条数据开始消费
--topic:指定消费哪一个topic数据
 
kafka-console-consumer.sh --zookeeper node-1:2181,node-2:2181,node-3:2181 --from-beginning  --topic test

5、删除topic

kafka-topics.sh

kafka-topics.sh --delete --topic test --zookeeper node1:2181,node2:2181,node3:2181 
--delete：表示要删除操作
--topic:指定要删除的topic名称
--zookeeper ：指定zk服务地址

7、kafka生产者和消费者java代码开发

引入依赖

<dependencies>
    <dependency>
        <groupId>org.apache.kafkagroupId>
        <artifactId>kafka-clientsartifactId>
        <version>1.0.0version>
    dependency>
dependencies>

7.1 生产者代码开发

package cn.itcast.kafka;

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.Properties;

//todo:开发一个kafka的生产者代码
public class KafkaProducerStudy {
  public static void main(String[] args) {
      Properties props = new Properties();
      //kafka集群地址
      props.put("bootstrap.servers", "node-1:9092,node-2:9092,node-3:9092");
      //kafka的acks消息确认机制
      //acks一共有4个选项
      //-1和all：表示生产者发送数据给topic，需要所有该topic分区副本把数据保存正常
      //1: 表示生产者发送数据给topic，只需要分区的主副本已经把数据保存正常
      //0:生产者只管发数据，不需要确认，丢失数据可能性最高
      props.put("acks", "all");
      //重试次数
      props.put("retries", 0);
      //每个批次写入数据的大小
      props.put("batch.size", 16384);
      //延迟多久进行写入
      props.put("linger.ms", 1);
      //缓冲区的内存大小
      props.put("buffer.memory", 33554432);
      props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
      props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

       //设置自己的分区函数
      props.put("partitioner.class","cn.itcast.kafka.MyPartitioner");

      Producer<String, String> producer = new KafkaProducer<String, String>(props);
      for (int i = 0; i < 100; i++)
          //ProducerRecord 有2个泛型 第一个String表示消息的key类型，在这里表示消息的标识，第二个String表示消息内容本身
           //构建ProducerRecord对象需要3个参数：第一个是topic名称，第二个就是消息的key，第三个消息内容本身
         // producer.send(new ProducerRecord("test", Integer.toString(i), "hadoop spark"));
         //kafka分区策略：4种分区策略
            //1、指定具体的分区号，数据就按照指定的分区号，流入到对应分区中
          //producer.send(new ProducerRecord("test", 0,Integer.toString(i), "hadoop spark"));

           //2、不指定具体的分区号，指定消息的key(不断变化) 按照key.hashcode%分区数=分区号，hashPartitioner
          //producer.send(new ProducerRecord("test", Integer.toString(i), "hadoop spark"));

          //3、不指定具体的分区号，也不指定消息的key,它是采用轮训（随机）的方式写入到不同分区中。
          //producer.send(new ProducerRecord("test","hadoop spark"));

          //4、自定义分区函数
         producer.send(new ProducerRecord<String, String>("test", Integer.toString(i), "hadoop spark"));


      producer.close();
  }
}

7.2 消费者代码开发

1、自动提交偏移量

package cn.itcast.kafka;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.util.Arrays;
import java.util.Properties;

//todo:开发kafka的消费者代码-----自动提交偏移量
public class KafkaConsumerStudy {
    public static void main(String[] args) {
        Properties props = new Properties();
        //kafka集群地址
        props.put("bootstrap.servers", "node-1:9092,node-2:9092,node-3:9092");
        //消费者组id
        props.put("group.id", "test");
        //自动提交消费的偏移量
        props.put("enable.auto.commit", "true");
        //每隔多久提交一次偏移量
        props.put("auto.commit.interval.ms", "1000");
        //key反序列化类
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        //value 反序列化类
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);
        //指定消费的topic名称，可以有多个
        consumer.subscribe(Arrays.asList("test"));
        while (true) {
              //指定数据拉取的时间间隔
            ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records)
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
        }
    }
}

2、手动提交偏移量

package cn.itcast.kafka;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Properties;

//todo:开发一个kafka消费者程序-------自己提交偏移量
public class KafkaConsumerManualOffset {
    public static void main(String[] args) {
        Properties props = new Properties();
        //指定kafka集群地址
        props.put("bootstrap.servers", "node1:9092,node2:9092,node3:9092");
        //消费者组id
        props.put("group.id", "test");
        // 手动提交偏移量
        props.put("enable.auto.commit", "false");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);
        consumer.subscribe(Arrays.asList("test"));
        final int minBatchSize = 200;
        List<ConsumerRecord<String, String>> buffer = new ArrayList<ConsumerRecord<String, String>>();
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {
                buffer.add(record);
            }
            //判断下数据有没有超过200条数据
            if (buffer.size() >= minBatchSize) {
              //  insertIntoDb(buffer);   //具体的处理逻辑
                System.out.println("当前总条数据："+buffer.size());

                //手动提交偏移量
                consumer.commitSync();
                buffer.clear();
            }
        }
    }
}

8、kafka的分区策略

当前生产者产生的数据到底会流入到topic的哪一个分区中去？这里就涉及到kafka的分区策略

kafka分区策略：4种分区策略

1、指定具体的分区号，数据就按照指定的分区号，流入到对应分区中

producer.send(new ProducerRecord<String, String>("test", 0,Integer.toString(i), "hadoop spark"));

2、不指定具体的分区号，指定消息的key(不断变化) 按照key.hashcode%分区数=分区号
```
producer.send(new ProducerRecord<String, String>("test", Integer.toString(i), "hadoop spark"));
```
3、不指定具体的分区号，也不指定消息的key,它是采用轮训（随机）的方式写入到不同分区中
```
producer.send(new ProducerRecord<String, String>("test","hadoop spark"));
```

4、自定义分区函数

   //设置自己的分区函数
props.put("partitioner.class","cn.itcast.kafka.MyPartitioner");

producer.send(new ProducerRecord<String, String>("test", Integer.toString(i), "hadoop spark"));

package cn.itcast.kafka;

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.Properties;

//todo:开发一个kafka的生产者代码
public class KafkaProducerStudy {
    public static void main(String[] args) {
        Properties props = new Properties();
        //kafka集群地址
        props.put("bootstrap.servers", "node1:9092,node2:9092,node3:9092");
        //kafka的acks消息确认机制
        props.put("acks", "all");
        //重试次数
        props.put("retries", 0);
        //每个批次写入数据的大小
        props.put("batch.size", 16384);
        //延迟多久进行写入
        props.put("linger.ms", 1);
        //缓冲区的内存大小
        props.put("buffer.memory", 33554432);
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

         //设置自己的分区函数
        props.put("partitioner.class","cn.itcast.kafka.MyPartitioner");

        Producer<String, String> producer = new KafkaProducer<String, String>(props);
        for (int i = 0; i < 100; i++)
            //ProducerRecord 有2个泛型 第一个String表示消息的key类型，在这里表示消息的标识，第二个String表示消息内容本身
             //构建ProducerRecord对象需要3个参数：第一个是topic名称，第二个就是消息的key，第三个消息内容本身
           // producer.send(new ProducerRecord("test", Integer.toString(i), "hadoop spark"));
           //kafka分区策略：4种分区策略
              //1、指定具体的分区号，数据就按照指定的分区号，流入到对应分区中
            //producer.send(new ProducerRecord("test", 0,Integer.toString(i), "hadoop spark"));

             //2、不指定具体的分区号，指定消息的key(不断变化) 按照key.hashcode%分区数=分区号，hashPartitioner
            //producer.send(new ProducerRecord("test", Integer.toString(i), "hadoop spark"));

            //3、不指定具体的分区号，也不指定消息的key,它是采用轮训（随机）的方式写入到不同分区中。
            //producer.send(new ProducerRecord("test","hadoop spark"));

            //4、自定义分区函数
           producer.send(new ProducerRecord<String, String>("test", Integer.toString(i), "hadoop spark"));


        producer.close();
    }
}

自定义分区函数

package cn.itcast.kafka;

import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;

import java.util.Map;

//自定义分区函数
public class MyPartitioner implements Partitioner{
    /**
     * 该方法会返回一个分区号
     * @param topic  topic的名称
     * @param key     消息的key
     * @param keyBytes  消息的key字节数组
     * @param value    消息的内容
     * @param valueBytes  消息的内容字节数组
     * @param cluster    kafka集群对象
     * @return
     */
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        //自己去实现hashPartitioner       key.hashcode%分区数=分区号
        int numPartions = cluster.partitionsForTopic("test").size();
        //test有3个分区，对应的分区号就分别为：0 1 2
             // -2 -1 0 1 2

        return  Math.abs(key.hashCode()%numPartions);
    }

    public void close() {

    }

    public void configure(Map<String, ?> configs) {

    }
}

9、kafka文件存储机制

可以见参考资源《kafka的文件存储机制.md》

note:

一个topic中的分区数据只能够被同一个消费者组的一个线程取消费

不同消费者组的线程可以同时消费一个topic中的同一个分区数据

生产者在生产数据的时候 , 是有一定的顺序 , 这些数据按照不同的分区规则写入到不同的分区中 . 这个时候 , 消费者在消费数据的时候 , 它是以分区为单位进行消费 , 只有一个消费者的时候 , 先消费哪一个分区 , 然后再消费其他分区 , 这个时候就无法保证消费的顺序 .

如果想要保证生产的数据的顺序和消费数据的顺序一致 , 在这里只能够设置当前topic的分区数就是一个 , 对于kafka框架来说 , 它是一个分布式消息队列 , 这种设置与它的分布式的理念是有违背的.

为什么kafka可以快速的定义那一条数据在哪?

通过log文件命令规则使用二分查询 , 快速定义要找的数据在哪个文件中

然后在通过对应的index文件 , 为数据构建了稀疏索引 , 并不是为每一条数据构建索引 , 这是为了避免空间浪费 , 后期通过索引文件快速定义要找的数据在整个log文件的哪一行

具体原因参考《kafka为什么那么快.md》

10、kafka整合flume

1、安装flume和kafka

2、修改flume配置

vim flume-kafka.conf

#为我们的source channel  sink起名
a1.sources = r1
a1.channels = c1
a1.sinks = k1
#指定我们的source收集到的数据发送到哪个管道
a1.sources.r1.channels = c1
#指定我们的source数据收集策略
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /export/servers/flumedata
a1.sources.r1.deletePolicy = never
a1.sources.r1.fileSuffix = .COMPLETED
a1.sources.r1.ignorePattern = ^(.)*\\.tmp$
a1.sources.r1.inputCharset = utf-8
#指定我们的channel为memory,即表示所有的数据都装进memory当中
a1.channels.c1.type = memory
#指定我们的sink为kafka sink，并指定我们的sink从哪个channel当中读取数据
a1.sinks.k1.channel = c1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.topic = test
a1.sinks.k1.kafka.bootstrap.servers = node-1:9092,node-2:9092,node-3:9092
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1

3、启动flume(需要在flume文件目录下)

bin/flume-ng agent -n a1 -c conf  -f conf/flume-kafka.conf -Dflume.root.logger=info,console

11、kafka如何保证数据不丢失

1、生产者保证数据不丢失

就是利用kafka的ack机制

同步模式

//指定为同步模式
producer.type=sync 
//ack确认机制等于1，只需要主副本确认数据保存成功就可以了，后期从副本自己去同步数据
request.required.acks=1

异步模式

//指定为异步模式
producer.type=async 
//ack确认机制等于1，只需要主副本确认数据保存成功就可以了，后期从副本自己去同步数据
request.required.acks=1 
//指定数据缓存到什么时候发送出去
queue.buffering.max.ms=5000 
//指定数据缓存到多少条之后发送出去
queue.buffering.max.messages=10000 
//数据达到了发送的阈值，后期由于一些原因导致数据并没有发送出去，这个时候对于缓存的数据是否保留，-1保留未成功发送的数据， 0就是不保留，直接舍弃掉。
queue.enqueue.timeout.ms = -1 
//每次发送的数据量条数
batch.num.messages=200

2、broker—kafka集群自己本身
- kafka中有很多个topic，每一个topic有很多个分区，每一个分区有多个副本。通过多副本机制保证数据的安全性
3、消费者保证数据不丢失
- 每一个消费者在消费数据的时候，都把当前消费的位置记录下来，后续消费者程序挂掉了，然后正常重启，读取上一次消费的偏移量offset，接着上一次继续消费。

12、kafkaManager监控工具的安装与使用

可以参考资料《kafka_manager监控工具的安装与使用.md》文档

你可能感兴趣的:(大数据,yarn,spark,kafka)

Vue3 tailwindcss
1、安装tailwindcsspnpmi-Dtailwindcsspostcssautoprefixer#yarnadd-Dtailwindcsspostcssautoprefixer#npmi-Dtailwindcsspostcssautoprefixer2、创建TailwindCSS配置文件npxtailwindcssinit-ptailwind.config.js/**@type{impor
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群快乐骑行^_^ 大数据 Kafka系列安全认证 kafka-2.8.2 分布式集群
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群一、下载Zookeeper3.7.1和Kafka2.8.2二、解压Zookeeper3.7.1和Kafka2.8.2三、安装Zookeeper3.7.1详细步骤1.修改zookeeper配置文件2.创建zookeeper数据目录3.zookeeper创建myid4.设置zookeeper访问kafka认证5.拷贝zookeeper
rdkafka线程过多_我是如何处理大并发量订单处理的 KafKa部署总结 weixin_39574928 rdkafka线程过多
今天要介绍的是消息中间件KafKa，应该说是一个很牛的中间件吧，背靠Apache与很多有名的中间件搭配起来用效果更好哦，为什么不用RabbitMQ，因为公司需要它。网上已经有很多怎么用和用到哪的内容，但结果很多人都倒在了入门第一步环境都搭不起来，可谓是从了解到放弃，所以在此特记录如何在linux环境搭建，windows中配置一样，只是启动运行bat文件。想要用它就先必须了解它能做什么及能做到什么程
【Kafka】Failed to send data to Kafka: Expiring 30 record(s) for xxx 732453 ms has passed since last 九师兄 kafka big data zookeeper
文章目录1.美图2.背景2.尝试方案13.尝试解决24.场景再现25.场景46.场景57.场景78.场景8M.拓展本文为博主九师兄（QQ:541711153欢迎来探讨技术）原创文章，未经允许博主不允许转载。1.美图问题与【Flink】Flink写入kafka报错FailedtosenddatatoKafka:Expiring4record(s)for20001mshaspassed重复了。2.背景
【Flink】flink Kafka报错 : Failed to send data to Kafka: This server is not the leader for that topic-pa 九师兄 flink kafka 大数据
1.背景出现这个问题的背景请参考：【Kafka】FailedtosenddatatoKafka:Expiring30record(s)forxxx732453mshaspassedsincelast[2020-09-0513:16:09
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
C/C++ 使用librdkafka库实现的生产者
InstallingprebuiltpackagesOnMacOSX：brewinstalllibrdkafkaOnDebianandUbuntu：aptinstalllibrdkafka-devOnRedHat,CentOS,Fedora：yuminstalllibrdkafka-develInstallinglibrdkafkausingvcpkg：#Installvcpkgifnotalre
使用 Docker 搭建 Python（Flask/CUDA AI）开发环境——AI教你学Docker
使用Docker搭建Python（Flask/CUDAAI）开发环境及常用中间件配置详解本指南适用于用Docker快速搭建Python（FlaskWeb应用或包含CUDA的AI开发环境）开发环境，并集成常用中间件服务如MySQL、Redis、Kafka。适合个人开发、本地测试和小团队协作。一、项目目录结构建议project-root/├──app/#Python应用源码目录│├──Dockerfi
Kafka如何做到消息不丢失野老杂谈全网最全IT公司面试宝典 kafka 分布式
一、三种消息传递语义（MessageDeliverySemantics）：核心是“消息被消费处理的次数”Kafka的三种传递语义本质上描述的是“一条消息从生产到最终被消费者处理完成，可能出现的次数”，这由生产者的消息写入可靠性和消费者的offset提交策略共同决定。1.Atmostonce（最多一次）定义：消息可能丢失，但绝不会被重复处理。触发场景：消费者先提交offset，再处理消息。流程：消费
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
各种消息队列经典问题解决方案——消息丢失、顺序消费、消息积压、重复消费 EyeDropLyq rabbitmq rocketmq kafka
写在开头：对于消息队列这种中间件来说，只要进入消息队列就会有几个绕不开的问题，比如：消息丢失、顺序消费、消息积压、重复消费，下面就来讲解一下市面上比较常见的各个不同的消息队列产品针对这四个问题的解决方案。1、Kafka消息丢失解决方案对于Kafka这个消息队列来说，消息丢失的环节有下面的几个地方：1、消息生产者发送消息给Broker的时候数据丢失2、Broker异常导致Broker中的数据丢失3、
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =