煉心_

Kafka Streams实战-KTable API

本文会介绍：

流和表的关系
数据更新和KTable的配置
聚合、窗口和流表连接
全局KTable

1. 流和表的关系

1.1 数据更新流

假设我们有一个股票价格的数据流，每个数据包含股票的ID，timestamp和股价，要把这些数据写入到关系型数据库的表格里，如果使用股票的ID作为主键，那么具有相同ID的数据会被更新，我们可以把这种用于更新数据的流视为更新流。如下图所示：

这类似于changelog，具有相同key的数据只会保留最新的数据。而要保留每个key的最新数据，可以使用之前介绍过的compaction功能，旧的key/value会被删除，如下图所示：

对于changelog或更新流，我们会使用一个被称为KTable的抽象概念。

1.2 数据流和更新流的比较

我们会使用KStream和KTable来比较数据流和更新流。我们会通过运行一个简单的股票行情应用程序来说明，该应用程序会为三个虚构的公司生成三次股票报价，总共九条数据。KStream和KTable将读取这些数据并通过print()方法把它们输出打印到控制台。下图是打印的结果，KStream打印了所有九条数据，这是我们希望看到的结果，因为KStream视每一个数据都是独立的。而KTable只打印了三条数据，因为KTable视每一个数据都是对以前的更新。

注意：使用KTable时，数据必须要有key值，没有key是无法更新数据的。

从KTable的角度来看，它没有接收到9条单独的数据，它接收到的是三条原始数据和两轮的更新，它只打印最后一轮的更新。KTable的数据与KStream最后三条的数据是一样的，在后续部分会讲述KTable是如何仅仅输出更新数据的机制。

下面是上述应用程序的示例代码：

StreamsBuilder builder = new StreamsBuilder();
// 创建KTable实例
KTable stockTickerTable = builder.table("stock-ticker-table");
// 创建KStream实例
KStream stockTickerStream = builder.stream("stock-ticker-stream");
// 打印结果到控制台
stockTickerTable.toStream().print(Printed.toSysOut().withLabel("Stocks-KTable"));
stockTickerStream.print(Printed.toSysOut().withLabel("Stocks-KStream"));

注意：在创建KTable和KStream实例时没有指定任何serdes，之所以可以不指定是因为我们可以在配置里面先注册默认的serdes，例如：

props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG,
        Serdes.String().getClass().getName());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG,
        StreamsSerdes.StockTickerSerde().getClass().getName());

如果要使用不同类型则需要通过Consumed提供使用的serdes。

这里要说的是，在数据流中具有相同key的数据是更新。更新流是KTable背后的主要概念。

2. 数据更新和KTable的配置

要弄清楚KTable的功能，我们应该知道：

数据是存储在哪里？
KTable是如何确定输出数据？

当调用StreamsBuilder.table(final String topic)创建KTable实例的同时，内部会创建一个StateStore来跟踪流的状态，但它不可用于交互式查询。StreamsBuilder.table有个重载的方法，第二个参数是Materialized的实例，允许自定义存储的类型并提供查询，在后续部分会讲述交互式查询。因此，KTable是使用与Kafka Streams集成的本地状态存储数据的。

要回答第二个问题，我们需要考虑以下几个因素：

应用程序的数据量，数据速率越快会增加输出更新数据的速度
数据中有多少个不同的key，越多数量的不同key会导致向下游发送更多更新数据
配置参数cache.max.bytes.buffering和commit.interval.ms的设置

从上述因素里面，我们只能控制配置参数的设置，所以本文只会介绍cache.max.bytes.buffering和commit.interval.ms。

2.1 设置缓存缓冲大小

KTable缓存用于对具有相同key的数据进行重复数据删除。此重复数据删除允许子节点仅接收最新更新而不是所有更新，从而减少处理的数据量。此外，只有最新的更新才会保存在状态存储中，这在使用持久状态存储时可以显著地提高性能。

下图是缓存操作的说明，当启用缓存后，并非所有数据更新都会发送到下游，缓存仅保存任何key的最新数据。

较大的缓存可以减少输出更新的次数，此外，缓存减少了持久存储（RocksDB）写入磁盘的数据量和（如果启用了日志）发送到changelog topic的数据量。缓存大小是由cache.max.bytes.buffering（默认是10485760=10MB）配置设置，它指定用于所有线程缓存的最大内存字节数，该内存量是平均分配给所有的流线程。流线程的数量是通过StreamsConfig.NUM_STREAM_THREADS_CONFIG配置指定，默认是1。

要关闭缓存，可以把cache.max.bytes.buffering设置为0，但会导致每个KTable的更新都会发送到下游，意味着更新流会变为事件流。此外，没有缓存会增加I/O消耗，因为持久存储会把每个更新写入磁盘而不是仅写入最新更新。

2.2 设置提交间隔时间

提交间隔时间配置commit.interval.ms指定保存处理器状态的频率。当处理器的状态被保存（提交）时，它会强制执行缓存刷新，向下游发送最新更新的去重数据。在下面完整的缓存工作流程图中，提交或缓存到达最大设定值都会向下游发送数据。

因此，我们需要权衡提交间隔时间和缓存大小的配置。较短的提交间隔时间和大的缓存仍然会导致频繁的更新，较长的提交间隔时间可以导致更少的更新（取决于缓存大小设置）。这里没有硬性规则，只有反复测试才能确定哪种配置是最适合的，最好从默认值（commit.interval.ms=30000）30秒和10MB开始。

3. 聚合和窗口操作

3.1 统计股票交易量

在处理流数据时，聚合和分组是必不可少的工具。在本例中，我们将统计股票的交易量。要进行此统计，从较高的层面来说，需要以下几个步骤：

从一个发布原始股票交易信息的topic创建数据源。
需要把股票对象映射为股票交易量对象，因为我们只需要统计交易中涉及的股票交易量。
按股票代码分组，一旦分组后，就可以计算出一个滚动更新的股票交易总量。

下图是对应的处理拓扑：

上述的StockTransaction是股票对象，包含有关交易的元数据，ShareVolume是股票交易量对象，包含股票交易量。通过MapValues处理器把StockTransaction映射为ShareVolume，然后通过Group-by处理器按股票代码分组，最后通过Reducing处理器计算出一个滚动更新的股票交易总量，输出KTable实例。

下面是对应的示例代码：

StreamsBuilder builder = new StreamsBuilder();
Serde stringSerde = Serdes.String();
// 通过StreamsSerdes创建序列化类
Serde stockTransactionSerde = StreamsSerdes.StockTransactionSerde();
Serde shareVolumeSerde = StreamsSerdes.ShareVolumeSerde();

KTable shareVolume = builder
        .stream("stock-transactions",
            Consumed.with(stringSerde, stockTransactionSerde)
                // 指定offset重置策略
                .withOffsetResetPolicy(AutoOffsetReset.EARLIEST))
        .mapValues(stockTransaction -> ShareVolume.newBuilder(stockTransaction).build())
        // 按股票代码分组
        .groupBy((k, v) -> v.getSymbol(), Serialized.with(stringSerde, shareVolumeSerde))
        // 计算滚动更新的股票交易总量
        .reduce(ShareVolume::sum);

调用KStream.groupBy方法会返回一个KGroupedStream实例，它是按keys分组之后数据流的中间表示，但永远不能直接使用，而是需要先执行聚合操作，例如reduce，返回KTable实例才能使用。因为聚合操作返回KTable并使用了状态存储，所以并非所有更新都会向下游发送数据。另外，KTable.groupBy方法返回类似的KGroupedTable，它是按key重新分组后更新流的中间表示。

GroupByKey和GroupBy的区别

KStream有两个分组的方法：GroupByKey和GroupBy，两者都是返回KGroupedTable。

GroupByKey方法适用于KStream已经有非空的keys，更重要的是，它不会设置重新分区的flag。
GroupBy方法假定你已经修改了keys，因此重新分区的flag会设为true。在调用GroupBy、joins、聚合等方法时会导致自动重新分区。
一般来说，应该尽可能优先选择GroupByKey而不是GroupBy。

3.2 窗口操作

在Kafka Streams中，有以下三种窗口类型：

Session windows（会话窗口）
Tumbling windows（翻滚窗口）
Sliding/hopping windows（滑动/跳动窗口）

选择哪种类型取决于业务需求，翻滚和滑动窗口是有时间限制的，而会话窗口更多地是关于用户活动的，其长度仅取决于用户的活跃程度。需要注意的是，它们都是基于数据的timestamps而不是时钟时间。接下来，我们会使用每种窗口类型来举例说明：

3.2.1 会话窗口

会话窗口与其它窗口非常不同，它不是严格地受时间限制，而是与用户活动有关。下图显示了如何查看会话窗口，较小的会话将与左边的会话合并。但右边的会话将会是一个新的会话，因为它在一个大的非活动间隔后面。会话窗口是基于用户活动，但它们使用数据的timestamps来决定数据属于哪个会话。

下面是使用会话窗口统计股票交易的示例代码：

Serde stringSerde = Serdes.String();
// 通过StreamsSerdes创建序列化类
Serde transactionSerde = StreamsSerdes.StockTransactionSerde();
Serde transactionKeySerde = StreamsSerdes.TransactionSummarySerde();

StreamsBuilder builder = new StreamsBuilder();
// 20秒
long twentySeconds = 1000 * 20;
// 15分钟
long fifteenMinutes = 1000 * 60 * 15;
KTable, Long> customerTransactionCounts = builder
        .stream("stock-transactions",
                Consumed.with(stringSerde, transactionSerde)
                    // 指定offset重置策略
                    .withOffsetResetPolicy(AutoOffsetReset.LATEST))
        .groupBy((noKey, transaction) -> TransactionSummary.from(transaction),
                Serialized.with(transactionKeySerde, transactionSerde))
        .windowedBy(SessionWindows.with(twentySeconds).until(fifteenMinutes)).count();
            
customerTransactionCounts.toStream().print(
        Printed.,
        Long>toSysOut().withLabel("Customer Transactions Counts"));

调用KGroupedStream.windowedBy方法会返回一个窗口化流，以便执行某种窗口化聚合。根据提供的窗口类型，可以获得TimeWindowedKStream或SessionWindowedKStream。调用windowedBy(SessionWindows.with(twentySeconds).until(fifteenMinutes))方法会创建一个会话窗口，其非活动间隔为20秒，保留时间为15分钟。非活动间隔为20秒表示应用程序包含在当前会话结束或开始时间20秒内到达的任何数据。然后，在会话窗口中指定聚合操作（这里是计数）。如果数据在非活动间隔外，应用程序会创建一个新的会话。此外，当会话被合并时，新创建的会话分别使用最早的和最晚的timestamp来表示新会话的开始和结束。如下表所示：

当数据到达时会查找具有相同key、结束时间要小于（当前timestamp - 非活动间隔）并且开始时间要大于（当前timestamp + 非活动间隔）的会话。根据这个规则，下面是上表的四个数据最终被合并到二个会话中的方式：

数据1是第一个，所以开始和结束时间都是00:00:00。
数据2到达时，查找最早结束时间为23:59:55且最晚开始时间为00:00:35的会话。会找到数据1，因此合并会话1和2。保留会话1的开始时间（最早）和会话2的结束时间（最晚），因此得到一个新的会话从00:00:00开始到00:00:15结束。
数据3到达时，查找00:00:30和00:01:10之间的会话，但找不到。因此为key 123-345-654添加第二个会话，开始和结束时间都是00:00:50。
数据4到达时，查找23:59:45和00:00:25之间的会话。会找到会话1和2，因此合并它们，得到一个开始时间为00:00:00，结束时间为00:00:15的会话。

3.2.2 翻滚窗口

固定或翻滚窗口用于统计给定时间内的事件，例如，每20秒统计一家公司的所有股票交易。在20秒的时间结束后，窗口将“翻滚”到一个新的20秒窗口，如下图所示：

事件是没有重叠的，第一个事件窗口包含[100,200,500,400]，第二个事件窗口包含[350,600,50,2500]。

下面是使用翻滚窗口统计每20秒股票交易的代码：

// 翻滚窗口使用TimeWindows
.windowedBy(TimeWindows.of(twentySeconds)).count();

没有调用until方法默认的保留时间是24小时。

3.2.3 滑动/跳动窗口

滑动/跳动窗户和翻滚窗户只有很小的差别，前者在启动另一个窗口来处理最新事件之前，是不会等待整个窗口的持续时间，而是会在等待小于整个窗口的持续时间间隔之后执行一个新的计算。为了说明滑动窗口和翻滚窗口的区别，让我们重新设计统计股票交易的例子。现在仍然希望计算交易次数，但不希望在更新计数之前等待整个持续时间，而是希望每5秒更新一次，如下图所示：

这次是有三个结果窗口，左侧的框是第一个20秒的窗口，然后“滑动”，每5秒后更新形成新的窗口，这时事件是有重叠的。窗口1包含[100,200,500,400]，窗口2包含[500,400,350,600]，窗口3包含[350,600,50,2500]。

下面是使用滑动窗口统计股票交易的代码：

.windowedBy(TimeWindows.of(twentySeconds)
    .advanceBy(fiveSeconds).until(fifteenMinutes)).count();

通过调用advanceBy方法，可以将翻滚窗口转换为跳动窗口，此例是每5秒滑动一次，指定保留时间为15分钟。

3.3 流表连接

有时候我们需要连接数据流KStream和更新流KTable，那么要用到流表连接，例如关联股票交易数量和相关行业的财经新闻。下面是使用现有代码实现此目的的步骤：

将股票交易计数的KTable转换为KStream
创建一个从财经新闻topic读取的KTable，它将按行业分类
按行业连接股票交易数量和财经新闻

3.3.1 把KTable转换为KStream

要执行KTable-to-KStream转换，可以采用以下步骤：

调用KTable.toStream()方法
调用KStream.map方法把key更改为行业名称，并从Windowed实例中获取TransactionSummary对象

下面是对应的示例代码：

KStream countStream = customerTransactionCounts.toStream().map((window, count) -> {
    // 从Windowed实例中获取TransactionSummary对象
    TransactionSummary transactionSummary = window.key();
    // 使用行业名称作为新的key
    String newKey = transactionSummary.getIndustry();
    // 更新交易量
    transactionSummary.setSummaryCount(count);
    // 返回新的KeyValue
    return KeyValue.pair(newKey, transactionSummary);
});

因为调用了KStream.map操作，所以返回的KStream实例在使用连接时会自动重新分区。

3.3.2 创建财经新闻的KTable

KTable financialNews = builder
    .table("financial-news", Consumed.with(AutoOffsetReset.EARLIEST));

3.3.3 连接股票交易量和财经新闻

在之前的流和状态一文里已经介绍过，连接两个流需要先创建连接器，实现其接口方法apply。连接流和表也一样，下面是示例代码：

// 使用Lambda表达式创建连接器
ValueJoiner valueJoiner = (txnct, news) -> String.format(
    "%d shares purchased %s related news [%s]", txnct.getSummaryCount(), txnct.getStockTicker(), news);
// 左连接
KStream joined = countStream.leftJoin(financialNews, valueJoiner,
    Joined.with(stringSerde, transactionKeySerde, stringSerde));
joined.print(Printed.toSysOut().withLabel("Transactions and News"));

这里不需要使用JoinWindow，因为在KTable中每个key只对应一条数据，连接和时间是没有关系的，KTable中要么有数据，要么没有。这里的关键点是，使用KTables可以提供不常更新的数据来丰富KStream的数据。

3.4 GlobalKTable

在之前介绍过的例子里面，当把key映射为新类型或值时，数据流需要被重新分区。有时是你明确地进行重新分区，有时是Kafka Streams自动进行。

3.4.1 重新分区是有代价的

重新分区是有代价的，此过程还有额外的开销：创建中间的topics，把重复的数据保存在另外一个topic，以及由于写入和读取其它topic而导致的延时增加。此外，如果需要连接多个方面或维度，则需要链式连接(chain joins)，使用新keys映射数据，并重复重新分区的过程。

3.4.2 连接小的数据集

在某些情况下，你想连接的数据是相对较小的，整个查询数据的副本可以保存在每个节点的本地存储。对于这种情况，Kafka Streams提供了GlobalKTable。它是唯一的，因为应用程序会把所有数据都复制到每个节点，所以数据流不需要通过查找数据的key进行分区。GlobalKTables还允许你进行non-key连接，以下让我们重新回顾之前的其中一个例子来说明这个功能。

3.4.3 使用GlobalKTable连接KStream

如果为每个客户执行一个窗口化的股票交易统计，输出的结果会类似如下：

{customerId='074-09-3705', stockTicker='GUTM'}, 17
{customerId='037-34-5184', stockTicker='CORK'}, 16

这样的输出虽然实现了需求，但如果可以显示客户名和公司名会更直观。你可以执行常规的连接来添加客户名和公司名，但需要执行两个key的映射和重新分区。使用GlobalKTable，可以避免这些麻烦。下面是实现的步骤：

先定义会话窗口统计股票交易的流程：

// 使用Lambda表达式创建映射
KeyValueMapper, Long, KeyValue> transactionMapper = (
        window, count) -> {
    TransactionSummary transactionSummary = window.key();
    String newKey = transactionSummary.getIndustry();
    transactionSummary.setSummaryCount(count);
    return KeyValue.pair(newKey, transactionSummary);
};

// 使用会话窗口计算股票交易量，然后转换为KeyValue
KStream countStream = builder
    .stream("stock-transactions",
        Consumed.with(stringSerde, transactionSerde)
            .withOffsetResetPolicy(AutoOffsetReset.LATEST))
    .groupBy((noKey, transaction) -> TransactionSummary.from(transaction),
        Serialized.with(transactionSummarySerde, transactionSerde))
    .windowedBy(SessionWindows.with(twentySeconds))
    .count()
    .toStream()
    .map(transactionMapper);

然后创建GlobalKTable：

// 从companies的topic创建股票代码/公司名的GlobalKTable
GlobalKTable companies = builder.globalTable("companies");
// 从clients的topic创建客户ID/客户名的GlobalKTable
GlobalKTable clients = builder.globalTable("clients");

上述代码会从指定的topic读取数据，创建GlobalKTable实例，默认使用配置中的key和value反序列化器，key为null的数据会被丢弃，返回的GlobalKTable将会使用本地的KeyValueStore保存数据。我们先要把股票代码/公司名和客户ID/客户名的数据分别写入companies和clients的topic。

最后使用两个GlobalKTable连接KStream：

countStream
    // 连接KStream和companies的GlobalKTable，连接key是股票代码
    // 输出的TransactionSummary会添加公司名
    .leftJoin(companies, (key, txn) -> txn.getStockTicker(),
        (txn, companyName) -> txn.withCompanyName(companyName))
    // 连接KStream和clients的GlobalKTable，连接key是客户ID
    // 输出的TransactionSummary会添加客户名
    .leftJoin(clients, (key, txn) -> txn.getCustomerId(),
        (txn, customerName) -> txn.withCustomerName(customerName))
    .print(Printed.toSysOut()
        .withLabel("Resolved Transaction Summaries"));

上面链式调用了leftJoin方法，输出的结果会类似如下，更加直观地显示了客户名和公司名：

{customer='Barney, Smith' company="Exxon", transactions= 17}

总之，需要记住的是你可以使用本地状态来连接数据流KStream和更新流KTable。此外，当数据集较小时，可以使用GlobalKTables把所有数据都复制到每个节点，不需要通过查找数据的key进行分区。

END O(∩_∩)O

你可能感兴趣的:(Kafka)

Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Docker安装Kafka和Kafka-Manager 阿靖哦
本文介绍如何通过Docker安装kafka与kafka界面管理界面一、拉取zookeeper由于kafka需要依赖于zookeeper，因此这里先运行zookeeper1、拉取镜像dockerpullwurstmeister/zookeeper2、启动dockerrun-d--namezookeeper-p2181:2181-eTZ="Asia/Shanghai"--restartalwayswu
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
分布式消息队列Kafka 叶域大数据分布式 kafka scala spark
分布式消息队列Kafka简介：Kafka是一个分布式消息队列系统，用于处理实时数据流。消息按照主题（Topic）进行分类存储，发送消息的实体称为Producer，接收消息的实体称为Consumer。Kafka集群由多个Kafka实例（Server）组成，每个实例称为Broker。主要用途：广泛应用于构建实时数据管道和流应用程序，适用于需要高吞吐量和低延迟的数据处理场景依赖：Kafka集群和消费者依
K8S学习之PV&&PVC david161
部署mysql之前我们需要先了解一个概念有状态服务。这是一种特殊的服务，简单的归纳下就是会产生需要持久化的数据，并且有很强的I/O需求，且重启需要依赖上次存储到磁盘的数据。如典型的mysql，kafka，zookeeper等等。在我们有比较优秀的商业存储的前提下，非常推荐使用有状态服务进行部署，计算和存储分离那是相当的爽的。在实际生产中如果没有这种存储，localPV也是不错的选择，当然local
Kafka系列之：kafka命令详细总结快乐骑行^_^ 日常分享专栏 Kafka Kafka系列 kafka命令详细总结
Kafka系列之：kafka命令详细总结一、添加和删除topic二、修改topic三、平衡领导者四、检查消费者位置五、管理消费者群体一、添加和删除topicbin/kafka-topics.sh--bootstrap-serverbroker_host:port--create--topicmy_topic_name\--partitions20--replication-factor3--con
搭建Kafka+zookeeper集群调度 krb___ kafka 分布式
前言硬件环境172.18.0.5kafkazk1Kafka+zookeeperKafkaBroker集群172.18.0.6kafkazk2Kafka+zookeeperKafkaBroker集群172.18.0.7kafkazk3Kafka+zookeeperKafkaBroker集群软件环境zookeeper3.5.9资源调度、写作Kafka2.8.0消息通信中间件安装JDK1.8安装搭建zo
Kafka和Pulsar深入解析 jasen91 大数据开发 kafka 分布式
Kafka多租户：单租户系统数据迁移：依赖MirrorMaker，需要额外维护。市场上也有ConfluentReplicator等供应商工具。分层存储：由供应商提供商业使用。组件依赖：KafkaRaft（KRaft）从Kafka2.8开始处于早期访问模式，允许Kafka在没有ZooKeeper的情况下工作。这对Kafka来说是一个显著的优势，因为它简化了Kafka的体系结构并降低了学习成本。云原生
Linux系统部署Kafka教学情书学长 linux 学习笔记 kafka
第一步：Zookeeper安装（准备工作）1、解压安装将安装包上传到/opt/software目录下，解压并修改名称tar-zxvfapache-zookeeper-3.5.7-bin.tar.gz-C/opt/module/mvapache-zookeeper-3.5.7-bin/zookeeper2、配置服务器编号1)在/opt/module/zookeeper-3.5.7/这个目录下创建zk
数仓开发之DWD层完整使用 (第五章) 小坏讲微服务数据仓库 hadoop scala kafka
数仓开发之DWD层完整使用一、流量域未精加工的事务事实表1、主要任务1）数据清洗（ETL）2）新老访客状态标记修复3）分流2、思路1）数据清洗（ETL）2）新老访客状态标记修复（1）前端埋点新老访客状态标记设置规则（2）新老访客状态标记修复思路3）利用侧输出流实现数据拆分（1）埋点日志结构分析（2）分流日志分类（3）分流思路3、图解4、代码1）在KafkaUtil工具类中补充getKafkaPro
Kafka 应用场景 zinuxer kafka 分布式
数据流处理：Kafka支持实时数据流处理，能够在数据流动时进行处理和分析，确保应用程序与最新信息保持同步！日志聚合：可以将来自不同来源的日志集中和聚合，简化应用程序的调试和监控！消息队列：Kafka充当高性能的消息队列，确保不同系统组件之间可靠且可扩展的通信！网络活动追踪：Kafka可以追踪网络活动，改进用户体验和推动业务增长！数据复制：Kafka允许在多个集群之间实现无缝数据复制，确保高可用性和
Kafka的ack机制香山上的麻雀
ack=0/1/-1的不同情况：0：producer不等待broker的ack，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；-1：producer等待broker的ack，partition的
Kafka 实战 - Kafka分区和副本机制理解用心去追梦 kafka 分布式
ApacheKafka的分区（Partition）和副本（Replica）机制是其核心架构和可靠性保证的关键组成部分。以下是对其理解的详细解释：分区（Partition）分区概念：在Kafka中，每个主题（Topic）可以被划分为多个分区。分区是一个有序的、不可变的消息序列。这意味着消息在分区中按生成顺序存储，每个消息都有一个唯一的偏移量（Offset）。目的：分区的主要目的是为了水平扩展和并行处
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
zookeeper+kafka消息队列部署 TBF610218 zookeeper kafka 分布式
消息队列的概念什么是消息队列消息是指在应用间传送的数据消息队列是一种应用间的通信方式解决方法，确保消息的可靠传递专门为消息做缓存的消息队列的特征存储将消息存储在某个类型的缓冲区中，指导目标进读取这些消息或者将其从消息队列中显示移除为止异步消息队列通过缓冲消息可以在应用程序当中公开一定程度的异步性，允许源进程发送消息并在队列当中累积消息，而且目标进程可以挑选消息并进行处理为什么需要消息队列解耦冗余扩
分布式中间件-几个常用的消息中间件问道飞鱼分布式技术分布式中间件
文章目录常见消息中间件1.RabbitMQ2.ApacheKafka3.RedisPub/Sub4.ActiveMQ5.AmazonSimpleNotificationService(SNS)和SimpleQueueService(SQS)6.RocketMQ差异总结消息协议1.AMQP(AdvancedMessageQueuingProtocol)2.STOMP(SimpleTextOrient
kafka php 教程,php 使用kafka weixin_39713841 kafka php 教程
准备工作gitclonehttps://github.com/edenhill/librdkafka.git./configuremakesudomakeinstall$gitclonehttps://github.com/arnaud-lb/php-rdkafka.git#生成configure文件$/Users/shiyibo/LNMP/php/bin/phpize#编译安装$./config
Kafka快速入门 G丶AEOM 速成学习区 kafka linq 分布式
讲一下什么是Kafka首先引入这样一个场景：A服务可以发送200qps（QueriesPerSecond，是指每秒查询率），而B服务可以处理100qps。很显然，B服务很可能会被A服务压垮掉。怎么为了保证B不被压垮的同时还能处理A消息，没有什么是不能通过一层中间件解决的，如果有，那就再加一层。开始很容易想到，可以在B服务中增加一个队列，其实就是个链表，B服务根据自己的消费能力，消费链表中的消息。每
【Python系列】异步任务的终止 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
老版本kafka查询topic消费情况(python查询) 代码是谁 kafka python 分布式
由于老版本的kafka缺少shell，导致无法通过命令直接进行查询，所以通过python代码，实现消费情况查询安装必须的包#pyhon2.5pipinstallkafka-python==1.4.7python脚本#!/usr/bin/envpythonimportsysfromkafkaimportKafkaConsumer,TopicPartitioniflen(sys.argv)!=2:pr
【Python系列】使用切片移动元素位置 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
字节架构师：来说说 Kafka 的消费者客户端详解，你都搞懂了吗？ 2401_84049200 程序员 kafka linq 分布式
点对点模式基于队列，类似于同一个消费者组中的数据，由生产者发送数据到分区，然后消费者拉取分区的消息进行消费，此时消息只能被同一个消费者组的消费者消费一次。发布订阅模式模式就是kafka中的分区消息可以被不同消费者组的消费者消费。这就是一对多的广播模式应用。当然，消费者组是一个逻辑的概念，通过客户端参数group.id来配置，默认值为空字符串。而消费者并不是逻辑的概念，它是真正消费数据的实体，可以是
Java Kafka生产者实现 stormsha Java web java kafka linq
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~专栏导航Python系列:Python面试题合集，剑指大厂Git系列:Git操作技巧GO系列:记录博主学习GO语言的笔记，该笔记专栏
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement