战斧

Kafka的重要组件，谈谈流处理引擎Kafka Stream

系列文章目录

上手第一关，手把手教你安装kafka与可视化工具kafka-eagle
Kafka是什么，以及如何使用SpringBoot对接Kafka
架构必备能力——kafka的选型对比及应用场景
Kafka存取原理与实现分析，打破面试难关
防止消息丢失与消息重复——Kafka可靠性分析及优化实践

Kafka的重要组件，谈谈流处理引擎Kafka Stream

系列文章目录
一、Kafka Stream是什么
- 1. 简介
- 2. 特点
二、流程与核心类
- 1. KStream 和 KTable 概念
- 2. 常用逻辑与转换
三、使用场景与Demo
- 1. 实时数据分析
- 2. 实时预测
四、总结

我们前面介绍了很多kafka本身的特性与设计，也说了不少原理性的内容，本次我们稍微放松一下，来介绍一下 Kafka的一个重要组件—— Kafka Stream

作者简介：战斧，从事金融IT行业，有着多年一线开发、架构经验；爱好广泛，乐于分享，致力于创作更多高质量内容
本文收录于 kafka 专栏，有需要者，可直接订阅专栏实时获取更新
高质量专栏云原生、RabbitMQ、Spring全家桶等仍在更新，欢迎指导
Zookeeper Redis dubbo docker netty等诸多框架，以及架构与分布式专题即将上线，敬请期待

一、Kafka Stream是什么

1. 简介

Kafka Stream是 Apache Kafka 的一个子项目，它提供了一种简单而快速的方法来对数据流进行处理，是一种无状态的流处理引擎，可以消费Kafka中的数据并将其转换为输出流。Kafka Stream不像其他流处理工具，它是一个Java库，能够快速构建、部署和管理数据流处理任务。

我们在前面的文章中《Kafka是什么，以及如何使用SpringBoot对接Kafka》初步接触了kafka的客户端kafka client,当时如果有眼尖的同学应该也注意到了，在使用Spring Initializr创建项目时，就看见了Kafka Stream的身影

那么Kafka Stream 与我们当时接触的 Kafka client 有什么联系吗？其实它们的共同点在于他们都是与Kafka集成的API，从逻辑层次来说，Kafka Stream 是建立在 Kafka client 上的，我们在引用 Kafka Stream 时，其会自带着 Kafka client 的包，如下：

那它们的作用到底哪不一样呢？具体来说，它们的不同之处可从这几个方面看：

功能不同
Kafka Stream是用于流处理任务的API，它提供了一种简单而快速的方法来对数据流进行处理。相反，Kafka Client主要用于生产和消费Kafka消息。
处理方式不同
Kafka Client主要依赖于订阅和轮询来消费Kafka消息。而Kafka Stream依赖于数据流的处理，它会自动将Kafka消息转化为数据流，并实时处理这些数据。
API调用方式不同
在Kafka Stream中，您需要定义一个拓扑结构，描述如何将输入流转换成输出流，并执行转换。而在Kafka Client中，您需要调用API来发送和接收Kafka消息。
应用场景不同
Kafka Stream适用于实时数据分析、实时预测等需要流处理的场景。而Kafka Client更适用于异步数据传输的场景，例如日志收集、事件处理等。

2. 特点

我们前面说过，流处理引擎做的人也是很多的，常见的比如说Apache Flink、Apache Spark Streaming、Apache Storm 以及阿里参考 Apache Storm 开发的Jstorm。既然有如此多的可选项，为什么还有Kafka Stream这个东西呢？其实说来也简单，就是应用简单+功能丰富

总计来说，其具备以下特点：

无需额外征用集群资源
在传统的流处理中，需要单独的集群进行数据处理，这就意味着需要额外的开销。而Kafka Stream是直接在Kafka集群上执行的，不会征用额外的资源。
易于使用
Kafka Stream提供了简单易用的API，使得开发人员可以快速地进行流处理任务的开发。它还支持Java 8中的Lambda表达式，使得代码更加简洁。
支持丰富的转换操作
Kafka Stream支持丰富的转换操作，包括过滤、映射、聚合等。这些操作可以被组合使用，以满足不同的处理需求。

二、流程与核心类

1. KStream 和 KTable 概念

我们上面简要介绍了下Kafka Stream的特点。但是，要想明白其流程并正确使用，我们还需要讲两个核心概念，也就是KStream 和 KTable

KStream
KStream是一个持续不断的流数据记录，每个记录都是一个key-value对，可以被读取、写入和转换。通常，KStream用于处理实时数据流，我们可以直接从kafka集群中指定主题来获取源源不断的数据
KTable
KTable顾名思义，可以看作是一张持久化的、可查询的、支持状态更新的表格。它通常是利用KStream的数据经过一系列转换和聚合操作生成的，KTable可以被读取和更新，但不能被删除。

KStream和KTable是互补的。KStream可以转换成KTable，也可以从KTable中获取值；KTable也可以转换成KStream，我们可以使用下图，看一下是如何针对数据流中，出现的单词进行计数并”落表“的：

当然，我们还有必要提及一下GlobalKTable，它是一种特殊的KTable，GlobalKTable通常用于处理比较静态的全局数据，例如维护一个全局的用户信息表，而且只在应用程序启动时从Kafka主题中加载所有数据，这意味着需要消耗较大的内存空间。

2. 常用逻辑与转换

我们上面说了KStream 和 KTable ，在代码里其实也对应了两个类，那这两个类都有些什么方法呢？最重要的，我们想知道，它们是如何互相转换的。

其实关于 KStream ，可能有些同学会想到JDK 里的 Stream ，因为确实很多方法是一致的，所以不用慌张。我们先来介绍下 KStream 的常用方法：

filter：过滤数据流中不符合条件的记录。
map：将每个记录转换为一个新的记录，可以改变记录的key和value。
flatMap：与map类似，可以将一个记录转换为多个新的记录。
mapValues：与map类似，但记录的键保留不变，只改变值
groupByKey：将记录按key进行分组，生成一个KGroupedStream对象，可以用于聚合操作。
reduce：对KGroupedStream对象进行聚合操作。
join：将两个KStream对象进行join操作，生成一个新的KStream对象。
windowed：对KStream对象进行窗口操作，可以使用时间窗口或大小窗口。
aggregate：将当前流中的记录聚合，并生成一个新的KTable。与reduce方法不同，aggregate方法不仅考虑当前记录，还考虑之前记录的聚合结果
to：将结果输出到输出主题中

我们举一个小代码段来看下这些方法的使用

KStream<String, String> input = ...;
// 使用filter方法过滤出包含"important"的值
KStream<String, String> filtered = input
    .filter((key, value) -> value.contains("important"))
// 使用mapValues方法将每个值的长度作为新值。
KStream<String, Integer> mapped = filtered
    .mapValues(value -> value.length());
// 使用groupBy方法将键值对按键分组，并使用count方法计算每个键出现的次数，将结果存储在KTable中
KTable<String, Integer> counted = mapped
    .groupBy((key, value) -> key)
    .count(Materialized.as("counts"));
// 使用selectKey方法选取值中"-"前的部分作为新键
KStream<String, String> rekeyed = input
    .selectKey((key, value) -> value.split("-")[0]);
// 使用leftJoin方法将两个KStream进行左连接，即mapped流和rekeyed流进行连接，
// 连接的条件是两个流中的键相等。连接函数的定义是将两个整型值相加，并将结果作为连接后的流的值
KStream<String, Integer> joined = mapped
    .leftJoin(rekeyed, (value1, value2) -> value1 + value2);
// 使用groupByKey方法对键值对按键分组，并使用windowedBy方法将窗口大小设置为5分钟，
// 然后使用count方法计算每个键在此时间窗口中出现的次数，最后使用toStream方法将结果
// 转换为KStream类型并将时间窗口的起止时间设置为键，值设置为次数
KStream<String, Long> windowed = input 
    .groupByKey()
    .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
    .count()
    .toStream()
    .map((key, value) -> new KeyValue<>(key.key(), value));
// 将结果输出到输出主题中
windowed.to("output-topic");

而关于KTable，也有一些常用方法，如下：

filter：根据指定的谓词过滤记录，并返回一个新的KTable。谓词是一个接受key和value作为参数的函数，如果返回true，则保留该记录，否则过滤掉。
mapValues：对KTable中的每个value执行指定的转换函数，并返回一个新的KTable。
groupBy：根据指定的key进行分组，并返回一个KGroupedTable对象，该对象用于执行各种聚合操作。
join：将当前KTable与另一个KTable或KStream进行连接，并返回一个新的KTable。
toStream：将KTable转换为KStream，并返回一个新的KStream对象。

我们也写一小段代码用于演示：

// 从输入流中建立一个KTable
StreamsBuilder builder = new StreamsBuilder();
KTable<String, String> myKTable = builder.table("input-topic", Materialized.as("ktable-store"));

// 1. 执行一些过滤操作，保留包含特定前缀的键
KTable<String, String> filteredKTable = myKTable.filter((key, value) -> key.startsWith("prefix"));

// 2. 执行mapValues操作，将每个键值对中的value进行大写转换
KTable<String, String> uppercasedKTable = myKTable.mapValues(e -> e.toUpperCase());

// 3. 执行groupBy操作，将键值对按照key的前缀分组
KTable<String, String> groupedKTable = myKTable.groupBy((key, value) -> KeyValue.pair(key.split("_")[0], value))
        .reduce((aggValue, newValue) -> aggValue + "_" + newValue);

// 4. 执行leftJoin操作，将两个KTable进行连接，如果某一个KTable中没有该key，则用null进行填充
KTable<String, String> leftJoinedKTable = myKTable.leftJoin(filteredKTable,
        (value1, value2) -> value1 + "-" + value2);

// 5. 执行toStream操作，将KTable转换为KStream类型
myKTable.toStream().map((key, value) -> KeyValue.pair(key, value.toUpperCase()));

当然，关于上述哪些方法，我们也可以用一张图来概括它们之间的转换关系，如下图，其中的 KGroupedStream 和 KGroupedTable 其实就是KStream 和 KTable 进行聚合操作后的产物

三、使用场景与Demo

1. 实时数据分析

Kafka Stream可以将实时到达的数据进行处理，以便进行实时数据分析。在这种情况下，Kafka Stream通常会将数据转换为一些有用的信息，以便于更好的理解数据，我们可以举一个简单的示例demo

假设我们有一个数据流，其中包含电影评分信息和电影相关信息。我们的任务是计算出每个电影的平均评分。

首先，我们需要定义输入数据流所需的数据结构。假设我们的数据结构如下：

@Data
public class MovieRating {
    private String movieId;
    private float rating;
}

@Data
public class Movie {
    private String movieId;
    private String title;
}

接下来，我们需要编写Kafka流应用程序。我们可以将其分为三个步骤：

1.从Kafka主题读取电影评分和电影相关信息。
2.以电影ID为键，将电影评分聚合到一个窗口中，并计算平均值。
3.将结果写入新的Kafka主题。

public static void main(String[] args) throws Exception {
    Properties props = new Properties();
    props.put(StreamsConfig.APPLICATION_ID_CONFIG, "movie-ratings-app");
    props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
    props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
    props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, SpecificAvroSerde.class);

    final StreamsBuilder builder = new StreamsBuilder();

    // 步骤1：从kafka主题中读取电影信息及评分
    // 我们假设主题包含Avro编码的数据
    KStream<String, MovieRating> ratings = builder.stream("movie-ratings");
    KStream<String, Movie> movies = builder.stream("movies");

    // 步骤2: 按电影ID聚合评分并计算平均评分.
    KTable<Windowed<String>, Double> averageRatings = ratings
        .groupBy((key, value) -> value.getMovieId())
        .windowedBy(TimeWindows.of(Duration.ofMinutes(10)))
        .aggregate(
            () -> new RatingAggregate(0.0, 0L),
            (key, value, aggregate) -> new RatingAggregate(aggregate.getSum() + value.getRating(), aggregate.getCount() + 1),
            Materialized.with(Serdes.String(), new RatingAggregateSerde())
        )
        .mapValues((aggregate) -> aggregate.getSum() / aggregate.getCount())
        .toStream()
        .groupByKey()
        .windowedBy(TimeWindows.of(Duration.ofMinutes(10)))
        .reduce(
            (value1, value2) -> Math.max(value1, value2),
            Materialized.with(Serdes.String(), Serdes.Double())
        )
        .toStream()
        .map((key, value) -> new KeyValue<>(key.key(), value));

    // 步骤3: 将结果写入一个新的kafka主题.
    averageRatings.to("average-ratings");

    final KafkaStreams streams = new KafkaStreams(builder.build(), props);
    streams.start();
}

// 用于聚合评分的辅助类
public static class RatingAggregate {
    private double sum;
    private long count;

    public RatingAggregate(double sum, long count) {
        this.sum = sum;
        this.count = count;
    }

    public double getSum() {
        return sum;
    }

    public long getCount() {
        return count;
    }
}

// 序列化与反序列化.
public static class RatingAggregateSerde extends Serdes.WrapperSerde<RatingAggregate> {
    public RatingAggregateSerde() {
        super(new JsonSerializer<>(), new JsonDeserializer<>(RatingAggregate.class));
    }
}

在上面的代码中，我们使用Serdes.String()和SpecificAvroSerde来序列化和反序列化字符串和Avro-encoded对象。我们使用TimeWindows.of(Duration.ofMinutes(10))定义大小为10分钟的窗口。我们使用RatingAggregate类来辅助计算每个电影的平均评分，RatingAggregateSerde类来序列化和反序列化RatingAggregate对象

2. 实时预测

Kafka Stream可以用于实时预测任务，例如在一些应用中，需要根据实时到达的数据来进行预测。Kafka Stream可以使用已有的模型，对实时数据进行预测，从而实现实时的推荐或预测等功能。

还是拿电影举例，我们经常可以看到电影票房的预测，我们可以以此写一个Demo

public class MovieProcessor {

    private static final String INPUT_TOPIC = "box-office-input";
    private static final String OUTPUT_TOPIC = "box-office-output";

    public static void main(String[] args) {

        // 创建 Kafka Streams 配置
        Properties props = new Properties();
        props.put(StreamsConfig.APPLICATION_ID_CONFIG, "box-office-predictor");
        props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass().getName());
        props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass().getName());

        // 创建 Kafka Streams
        StreamsBuilder builder = new StreamsBuilder();
        KStream<String, String> inputStream = builder.stream(INPUT_TOPIC);

        // 将上映日期转换为毫秒数，并计算出预测票房
        KTable<Long, Double> boxOfficePrediction = inputStream
                .mapValues(new ValueMapper<String, Double>() {
                    @Override
                    public Double apply(String value) {
                        String[] fields = value.split(",");
                        long releaseDateMillis = LocalDate.parse(fields[1]).toEpochDay() * 24 * 60 * 60 * 1000;
                        int runtime = Integer.parseInt(fields[2]);
                        double boxOffice = Double.parseDouble(fields[3]);
                        double prediction = boxOffice / (runtime * 60 * 1000.0) * (releaseDateMillis - System.currentTimeMillis());
                        return prediction > 0 ? prediction : 0;
                    }
                })
                .groupBy(new KeyValueMapper<String, Double, Long>() {
                    @Override
                    public Long apply(String key, Double value) {
                        return 1L;
                    }
                })
                .reduce(new Reducer<Double>() {
                    @Override
                    public Double apply(Double value1, Double value2) {
                        return value1 + value2;
                    }
                })
                .mapValues(new ValueMapper<Double, Double>() {
                    @Override
                    public Double apply(Double value) {
                        return value / (24 * 60 * 60 * 1000.0);
                    }
                });

        // 将预测结果发送到 Kafka Topic 中
		boxOfficePrediction.toStream().to("prediction");

        // 启动 Kafka Streams
        KafkaStreams streams = new KafkaStreams(builder.build(), props);
        streams.start();
    }
}

四、总结

今天我们学了一些关于Kafka Stream的内容太，知道了它是一种流处理引擎，可以消费Kafka中的数据，进行处理后，还能其转换为输出流。它特点在于不需要额外征用集群资源、易于使用、支持丰富的转换操作。使用场景包括实时数据分析、实时预测等。但其实Kafka Stream的内容还是很多的，我们将在后面的学习中继续讲解

c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
metaRTC5.0 API编程指南(一) metaRTC metaRTC c++c语言 webrtc
概述metaRTC5.0版本API进行了重构，本篇文章将介绍webrtc传输调用流程和例子。metaRTC5.0版本提供了C++和纯C两种接口。纯C接口YangPeerConnection头文件:include/yangrtc/YangPeerConnection.htypedefstruct{void*conn;YangAVInfo*avinfo;YangStreamConfigstreamco
Shell脚本中sed使用 jcrhl321 linux
目录一、sed编辑器1、sed概述2、sed的工作流程3、sed命令的常见格式4、sed命令常用操作二、sed常用命令使用1、sed打印2、sed删除3、sed替换4、sed插入与增加4、sed剪切粘贴与复制粘贴一、sed编辑器sed（StreamEDitor）是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑（删除、替换、添加、移动等），最后输出所有行或者仅输出
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
【Python基础】Python迭代器与生成器（两种强大工具）姑苏老陈 Python编程入门 python 开发语言 python迭代器与生成器
本文收录于《Python编程入门》专栏，从零基础开始，分享一些Python编程基础知识，欢迎关注，谢谢！文章目录一、前言二、迭代器2.1创建迭代器2.2自定义迭代器2.3处理大型文件三、生成器四、生成器表达式五、实际应用案例5.1数据库查询5.2网络数据流处理六、总结一、前言在Python中，迭代器与生成器是两种非常强大的工具，它们可以帮助我们有效地处理大量数据，特别是在需要逐个访问元素的情况下。
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
Linux使用mjpg-streamer进行图像传输 —你的鼬先生 Linux驱动 linux 树莓派图像传输
图像传输是一项在Linux操作系统中比较常见的一个操作，在视频图传时，一般是采用MJPG-streamer来进行图像传输，本文就以树莓派为例子，来示范一个图像传输。1.树莓派的摄像头激活首先更新树莓派sudoapt-getupdatesudoapt-getupgrade随后打开树莓派的配置界面，选择InterfaceOptionsudoraspi-config在InterfaceOption选择C
MySQL日志沉着冷静2024 MySQL mysql 数据库
MySQL日志文章目录MySQL日志MySQL三大日志binlog的三种格式redolog和binlog的区别和应用场景为什么崩溃恢复不用binlog而用redolog？redolog如何实现持久化redolog还能做什么？redolog的三种刷盘策略两阶段提交什么是？为什么？两阶段提交过程MySQL三大日志1.undologundolog是InnoDB存储引擎层的日志，实现了事务的原子性，主要用
MySQL锁沉着冷静2024 MySQL mysql 数据库
MySQL锁文章目录MySQL锁MySQL中锁的分类创建索引时会锁表吗线上修改表结构会加什么锁Innodb存储引擎的行级锁有哪些Update语句中，不带where条件，加什么锁？MySQL实现乐观锁MySQL死锁MySQL死锁是怎么发生的？检查死锁如何避免死锁MySQL中锁的分类全局锁：主要用于全库逻辑备份表级锁：表锁、元数据锁、意向锁表锁：通过locktables语句对表进行加锁，它不仅限制其他
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

Kafka的重要组件，谈谈流处理引擎Kafka Stream

系列文章目录

Kafka的重要组件，谈谈流处理引擎Kafka Stream

一、Kafka Stream是什么

1. 简介

2. 特点

二、流程与核心类

1. KStream 和 KTable 概念

2. 常用逻辑与转换

三、使用场景与Demo

1. 实时数据分析

2. 实时预测

四、总结

你可能感兴趣的:(kafka,kafka,分布式,kafka,stream,kstream,ktable,流处理引擎)