大大蚊子

Debezium发布历史103

原文地址： https://debezium.io/blog/2021/03/18/understanding-non-key-joins-with-quarkus-extension-for-kafka-streams/

欢迎关注留言，我是收集整理小能手，工具翻译，仅供参考，笔芯笔芯.

了解 Kafka Streams 的 Quarkus 扩展的非键连接
三月 18, 2021 作者： Anisha Mohanty
kafka 流 quarkus 示例
Kafka Streams是一个用于开发基于 Apache Kafka 的流处理应用程序的库。引用其文档，“Kafka Streams 应用程序通过拓扑实时处理记录流，以逐条记录的方式连续、并发地处理数据”。Kafka Streams DSL 提供一系列流处理操作，例如映射、过滤器、连接和聚合。

Kafka 流中的非键连接
Debezium 的 CDC 源连接器可以轻松捕获数据库中的数据更改，并将其近乎实时地推送到 Elasticsearch 等接收器系统。默认情况下，这会导致源数据库中的表、相应的 Kafka 主题以及接收器端的数据表示（例如 Elasticsearch 中的搜索索引）之间形成 1:1 关系。

在 1:n 关系的情况下，例如客户表和地址表之间，消费者通常对单个嵌套数据结构的数据视图感兴趣，例如代表客户及其所有信息的单个 Elasticsearch 文档。地址。

这就是KIP-213 （“Kafka 改进提案”）及其外键连接功能的用武之地：它是在Apache Kafka 2.4中引入的，“以缩小流中 KTable 的语义与关系数据库中表之间的差距”。在 KIP-213 之前，为了连接来自两个 Debezium 更改事件主题的消息，您通常必须手动重新设置至少一个主题的密钥，以确保连接两侧使用相同的密钥。

感谢 KIP-213，这不再需要，因为它允许在从 Kafka 消息值提取的字段上加入两个 Kafka 主题，以完全透明的方式自动处理所需的重新键入。与以前的方法相比，这大大减少了从 Debezium 的 CDC 事件创建聚合事件的工作量。

非键连接或更确切地说外键连接类似于 SQL 中的连接，如下所示：

SELECT * FROM CUSTOMER JOIN ADDRESS ON CUSTOMER.ID = ADDRESS.CUSTOMER_ID
在 Kafka Streams 术语中，此类连接的输出是KTable包含连接结果的新输出。

数据库概述
继续使用我们之前的客户和地址示例，让我们考虑具有以下数据模型的应用程序：
图片来自于原文

数据库概述
客户和地址这两个实体共享从地址到客户的外键关系，即一个客户可以有多个地址。如上所述，默认情况下 Debezium 将为每个表发出不同主题的事件。使用 Kafka Streams，两个表的更改事件主题将被加载到两个KTables 中，并在客户 id 上连接。Kafka Streams 应用程序将处理来自两个 Kafka 主题的数据。每当任一主题出现新的 CDC 事件（由记录的插入、更新或删除触发）时，都会重新执行联接。

作为 Kafka Streams 应用程序的运行时，我们将使用Quarkus，这是一个用于构建云原生微服务的堆栈，它（以及其他许多服务）还为 Kafka Streams 提供了扩展。虽然通常可以通过简单的main()方法运行 Kafka Streams 拓扑，但使用 Quarkus 和此扩展作为基础具有许多优点：

拓扑管理（例如等待创建所有输入主题）

通过环境变量、系统属性等进行配置。

暴露健康检查

公开指标

开发模式，一种在代码更改后自动热代码替换的流拓扑工作方式

支持通过GraalVM将 Kafka Streams 管道作为本机二进制文件执行，从而显着减少内存消耗和启动时间
图片来自于原文

变更事件概述
此图显示了我们解决方案的概述。

使用 Quarkus Kafka Streams 扩展创建应用程序
要使用 Kafka Streams 扩展创建新的 Quarkus 项目，请运行以下命令：

mvn io.quarkus:quarkus-maven-plugin:1.12.2.Final:创建
-DprojectGroupId=org.acme
-DprojectArtifactId=客户地址聚合器
-Dextensions =“卡夫卡流”
cd 客户地址聚合器
了解流处理拓扑
我们有一个聚合器应用程序，它将读取两个 Kafka 主题并在流式管道中处理它们：

这两个主题通过客户 ID 连接起来

每个客户都拥有丰富的地址

该聚合数据被写入第三个主题，customersWithAddressesTopic

当使用 Kafka Streams 的 Quarkus 扩展时，我们所需要做的就是声明一个CDI 生产者方法，该方法返回流处理应用程序的拓扑。该方法必须用注释@Produces，并且它必须返回一个Topology实例。Quarkus 扩展负责配置、启动和停止 Kafka Streams 引擎。现在让我们看一下实际的流查询实现本身。

@ApplicationScoped
public class TopologyProducer {

@ConfigProperty(name = "customers.topic") 
String customersTopic;

@ConfigProperty(name = "addresses.topic")
String addressesTopic;

@ConfigProperty(name = "customers.with.addresses.topic")
String customersWithAddressesTopic;

@Produces
public Topology buildTopology() {
    StreamsBuilder builder = new StreamsBuilder(); 

    Serde adressKeySerde = DebeziumSerdes.payloadJson(Long.class);
    adressKeySerde.configure(Collections.emptyMap(), true);
    Serde addressSerde = DebeziumSerdes.payloadJson(Address.class);
    addressSerde.configure(Collections.singletonMap("from.field", "after"), false);

    Serde customersKeySerde = DebeziumSerdes.payloadJson(Integer.class);
    customersKeySerde.configure(Collections.emptyMap(), true);
    Serde customersSerde = DebeziumSerdes.payloadJson(Customer.class);
    customersSerde.configure(Collections.singletonMap("from.field", "after"), false);

    JsonbSerde addressAndCustomerSerde =
            new JsonbSerde<>(AddressAndCustomer.class); 
    JsonbSerde customerWithAddressesSerde =
            new JsonbSerde<>(CustomerWithAddresses.class);

    KTable addresses = builder.table( 
            addressesTopic,
            Consumed.with(adressKeySerde, addressSerde)
    );

    KTable customers = builder.table(
            customersTopic,
            Consumed.with(customersKeySerde, customersSerde)
    );

    KTable customersWithAddresses = addresses.join( 
            customers,
            address -> address.customer_id,
            AddressAndCustomer::new,
            Materialized.with(Serdes.Long(), addressAndCustomerSerde)
        )
        .groupBy( 
            (addressId, addressAndCustomer) -> KeyValue.pair(
                    addressAndCustomer.customer.id, addressAndCustomer),
            Grouped.with(Serdes.Integer(), addressAndCustomerSerde)
        )
        .aggregate( 
            CustomerWithAddresses::new,
            (customerId, addressAndCustomer, aggregate) -> aggregate.addAddress(
                    addressAndCustomer),
            (customerId, addressAndCustomer, aggregate) -> aggregate.removeAddress(
                    addressAndCustomer),
            Materialized.with(Serdes.Integer(), customerWithAddressesSerde)
        );

    customersWithAddresses.toStream() 
    .to(
            customersWithAddressesTopic,
            Produced.with(Serdes.Integer(), customerWithAddressesSerde)
    );

    return builder.build();
}

}
主题名称使用MicroProfile Config API注入，值在 Quarkus 配置文件中提供application.properties（例如，可以使用环境变量覆盖它们）
创建的实例StreamsBuilder，这有助于我们构建拓扑
为了将流管道中使用的 Java 类型序列化为 JSON 或从 JSON 序列化和反序列化，Quarkus 提供了class io.quarkus.kafka.client.serialization.JsonbSerde; Serde实现基于JSON-B
KTable-外键连接功能KTable用于提取customer#id并执行连接；StreamsBuilder#table()用于将两个Kafka主题分别读入KTableaddresses和中customers
来自主题的消息addresses与相应的主题连接customers；连接结果包含客户的数据及其地址之一
groupBy()操作将对记录进行分组customer#id
为了生成一个客户及其所有地址的嵌套结构，该aggregate()操作应用于每组记录（客户地址元组），更新每个CustomerWithAddresses客户的
管道的结果写出到customersWithAddressesTopic主题
当事件在流管道中处理时，该类CustomerWithAddresses会跟踪聚合值。

public class CustomerWithAddresses {

public Customer customer;
public List addresses = new ArrayList<>();

public CustomerWithAddresses addAddress(AddressAndCustomer addressAndCustomer) {

    customer = addressAndCustomer.customer;
    addresses.add(addressAndCustomer.address);

    return this;
}

public CustomerWithAddresses removeAddress(AddressAndCustomer addressAndCustomer) {

    Iterator it = addresses.iterator();
    while (it.hasNext()) {
        Address a = it.next();
        if (a.id == addressAndCustomer.address.id) {
            it.remove();
            break;
        }
    }

    return this;
}

}
Kafka Streams 扩展是通过 Quarkus 配置文件配置的application.properties。除了主题名称之外，此文件还包含有关 Kafka 引导服务器和多个流选项的信息：

customers.topic=dbserver1.inventory.customers
addresses.topic=dbserver1.inventory.addresses
customers.with.addresses.topic=customers-with-addresses

quarkus.kafka-streams.bootstrap-servers=localhost:9092
quarkus.kafka-streams.application-id=kstreams-fkjoin-aggregator
quarkus.kafka-streams.application-server= ${hostname}:8080 quarkus.kafka-streams.topics=$ {customers.topic},${addresses.topic}

streams options

kafka-streams.cache.max.bytes.buffering=10240
kafka-streams.commit.interval.ms=1000
kafka-streams.metadata.max.age.ms=500
kafka-streams.auto.offset.reset=earliest
kafka-streams.metrics.recording.level=DEBUG
kafka-streams.consumer.session.timeout.ms=150
kafka-streams.consumer.heartbeat.interval.ms=100
构建并运行应用程序
您现在可以像这样构建应用程序：

mvn清理包
为了运行应用程序和所有相关组件（Kafka、Kafka Connect 与 Debezium、Postgres 数据库），我们创建了一个Docker Compose 文件，您可以在debezium-examples存储库中找到该文件。要启动所有容器，同时构建聚合器容器映像，请运行以下命令：

导出 DEBEZIUM_VERSION=1.4

docker-compose up --build
要将 Debezium 连接器注册到 Kafka Connect，您需要指定配置属性，例如连接器名称、数据库主机名、用户、密码、端口、数据库名称等。创建包含以下内容的文件 register - postgres.json :

{
“connector.class”: “io.debezium.connector.postgresql.PostgresConnector”,
“tasks.max”: “1”,
“database.hostname”: “postgres”,
“database.port”: “5432”,
“database.user”: “postgres”,
“database.password”: “postgres”,
“database.dbname” : “postgres”,
“database.server.name”: “dbserver1”,
“schema.include”: “inventory”,
“decimal.handling.mode” : “string”,
“key.converter”: “org.apache.kafka.connect.json.JsonConverter”,
“key.converter.schemas.enable”: “false”,
“value.converter”: “org.apache.kafka.connect.json.JsonConverter”,
“value.converter.schemas.enable”: “false”
}
配置 Debezium 连接器：

http PUT http://localhost:8083/connectors/inventory-connector/config < register-postgres.json
现在运行容器镜像的实例debezium/tooling：

docker run --tty --rm
–network kstreams-fk-join-network
Debezium/工具：1.1
该镜像提供了几个有用的工具，例如kafkacat。在工具容器中，运行 kafkacat 以检查流管道的结果：

kafkacat -b kafka:9092 -C -o 开头 -q
-t 具有地址的客户 | jq .
您应该看到如下所示的记录，每条记录都包含一位客户的所有数据及其所有地址：

{
“addresses”: [
{
“city”: “Hamburg”,
“country”: “Canada”,
“customer_id”: 1001,
“id”: 100001,
“street”: “42 Main Street”,
“zipcode”: “90210”
},
{
“city”: “Berlin”,
“country”: “Canada”,
“customer_id”: 1001,
“id”: 100002,
“street”: “11 Post Dr.”,
“zipcode”: “90211”
}
],
“customer”: {
“email”: “[email protected]”,
“first_name”: “Sally”,
“id”: 1001,
“last_name”: “Thomas”
}
}
获取数据库的 shell，插入、更新或删除一些记录，连接将自动重新处理：

$ docker run --tty --rm -i
–network kstreams-fk-join-network
debezium/tooling:1.1
bash -c ‘pgcli postgresql://postgres:postgres@postgres:5432/postgres’

in pgcli, e.g. to update a customer record:

update inventory.customers set first_name = ‘Sarah’ where id = 1001;
本地运行
Kafka Streams 应用程序可以轻松横向扩展，即负载将在应用程序的多个实例之间共享，每个实例处理输入主题分区的子集。当 Quarkus 应用程序通过 GraalVM 编译为本机代码时，它占用的内存要少得多，并且启动时间非常快。无需担心内存管理，您可以并行启动 Kafka Streams 管道的多个实例。

如果您想在native模式下运行此应用程序，请设置QUARKUS_MODE为native并运行以下命令（确保安装了所需的 GraalVM 工具）：

mvn clean 包-Pnative
要了解有关将 Kafka Streams 应用程序作为本机二进制文件运行的更多信息，请参阅参考指南。

关于 Kafka Streams 扩展的更多见解
Quarkus 扩展还可以帮助您解决构建流处理微服务时的一些常见要求。例如，为了在生产中运行 Kafka Streams 应用程序，您可以轻松地为数据管道添加运行状况检查和指标。

Micrometer Metrics提供了有关 Quarkus 应用程序的丰富指标，即通过监视应用程序内部发生的情况及其性能特征。Quarkus 允许您使用 JSON 格式或 OpenMetrics 格式通过 HTTP 公开这些指标。从那里，它们可以被Prometheus等工具抓取并存储以进行分析和可视化。

应用程序启动后，指标将在下公开q/metrics，默认返回 OpenMetrics 格式的数据：

HELP kafka_producer_node_request_total The total number of requests sent

TYPE kafka_producer_node_request_total counter

kafka_producer_node_request_total{client_id=“kstreams-fkjoin-aggregator-b4ac1384-0e0a-4f19-8d52-8cc1ee4c6dfe-StreamThread-1-producer”,kafka_version=“2.5.0”,node_id=“node–1”,status=“up”,} 83.0

HELP kafka_producer_record_send_rate The average number of records sent per second.

TYPE kafka_producer_record_send_rate gauge

kafka_producer_record_send_rate{client_id=“kstreams-fkjoin-aggregator-b4ac1384-0e0a-4f19-8d52-8cc1ee4c6dfe-StreamThread-1-producer”,kafka_version=“2.5.0”,status=“up”,} 0.0

HELP jvm_gc_memory_allocated_bytes_total Incremented for an increase in the size of the (young) heap memory pool after one GC to before the next

TYPE jvm_gc_memory_allocated_bytes_total counter

jvm_gc_memory_allocated_bytes_total 1.1534336E8

…

HELP http_requests_total

TYPE http_requests_total counter

http_requests_total{status=“up”,uri="/api/customers",} 0.0

…

如果您不使用 Prometheus，您还有一些选择，例如 Datadog、Stackdriver 等。有关详细指南，请查看Quarkiverse Extensions。

另一方面，我们有MicroProfile Health规范，它提供有关应用程序活跃度的信息，即表明您的应用程序是否正在运行以及您的应用程序是否能够处理请求。要监控现有 Quarkus 应用程序的运行状况，您可以添加扩展smallrye-health：

mvn quarkus:add-extension -Dextensions=“smallrye-health”
Quarkus 将通过 HTTP 公开所有健康检查q/health，在我们的例子中显示管道的状态和任何缺失的主题：

{
“status”: “DOWN”,
“checks”: [
{
“name”: “Kafka Streams topics health check”,
“status”: “DOWN”,
“data”: {
“missing_topics”: “dbserver1.inventory.customers,dbserver1.inventory.addresses”
}
}
]
}
概括
Kafka Streams 的 Quarkus 扩展提供了在 JVM 上以及本机模式下运行流处理管道所需的一切，以及执行运行状况检查、指标等的额外好处。例如，您可以使用 Quarkus REST 支持轻松公开用于交互式查询的 REST API，并可能使用 MicroProfile REST 客户端 API从横向扩展的 Kafka Streams 应用程序的其他实例中检索数据。

在本文中，我们讨论了 Kafka Streams 中外键联接的流处理拓扑，以及如何使用 Quarkus Kafka Streams 扩展在 JVM 模式下运行和构建应用程序。您可以在 Debezium 示例存储库中找到实现的完整源代码。如果您有任何问题或反馈，请在下面的评论中告诉我们。我们期待您的建议！

参考
使用 Quarkus 构建 Kafka Streams 应用程序

使用 Debezium 和 Kafka Streams 更改数据捕获管道

千分尺应用监视器

用自然语言与mysql数据库对话几种方案的思考闲云野鹤_SG 数据库 mysql AI text2sql 自然语言本地部署大模型
如何用自然语言与mysql数据库对话,而不是用sql语句去查询数据库?处于安全考虑,可训练一个本地大语言模型来完成此项任务,mysql服务器中的数据大约有两万多条记录,服务器的作用主要是记录设备的出库和回库的流水账(即以时间为序的记录),但有一些sql查询比较复杂,必须根据特定的sql语句查询,否则很难得到准确稳定的答案,调试和训练大模型的方法有多种方式,比如lora训练模型,提示词方式,rag方
Async协程保姆级教学 Louis yeap python 大数据 python 开发语言协程 async
目录编辑前言二、Async协程使用步骤1.导入标准库2.协程三、协程的应用场景1.网络IO2.数据库IO3.文件IO4.异步任务调度5.Web服务6.设备和串口IO7.队列和管道总结前言介绍：Python协程的概念源于生成器（Generator）。但它通过asyncio和事件循环，进一步扩展了生成器的功能，从而支持异步非阻塞操作。允许程序在执行过程中暂停（挂起），然后在需要时恢复运行。与传统的线程
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
使用ScriptRunner对象做sql文件导入时遇到的问题 DamonREN 数据处理数据库同步 Mysql 开发遇到的问题 ScriptRunner
业务场景:服务端是挂在公网上用来提供数据同步功能,考虑到有可能客户端由于某种情况是不允许连接外网的,所以服务端提供一个接口用来下载全量sql脚本(当然这些数据是某官网公布出来的数据,不考虑数据安全问题),然后客户端通过拷贝或内网传输在客户端进行手动上传,客户端代码进行执行sql脚本,将全量数据同步到客户端对应的数据库以完成数据同步。问题复现:ScriptRunner对象是org.apache.ib
Django SimpleUI运维管理系统搭建教程 ivwdcwso 开发运维 sqlite 数据库 Django SimpleUI Django python 开发
DjangoSimpleUI运维管理系统搭建教程本教程将详细介绍如何从零搭建一个基于DjangoSimpleUI的运维管理系统。一、环境准备1.安装Python和相关依赖#安装Python3.8+sudoaptinstallpython3.8python3.8-dev#安装虚拟环境pip3installvirtualenv#创建并激活虚拟环境virtualenvvenvsourcevenv/bin
WAS 日志分析（websphere application server) Change is good websphere application server 服务器 jvm deployment
关键字:websphere日志WebSphereApplicationServer是一个基于Java的Web应用程序服务器，它构建在开放标准的基础之上，能帮助您部署与管理从简单的Web站点到强大的电子商务解决方案的诸多应用程序。它遵循J2EE并为Java组件、XML和Web服务提供了一个可移植的Web部署平台，这个平台能够与数据库交互并提供动态Web内容。随着WebSphereApplicatio
python 连接数据库之jaydebeapi SmartManWind
让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw密码：3etc2、pipinstallJayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码importjaydebeapiurl='jdbc:ora
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
mysql var目录很快_删除/var/lib/mysql目录的解决办法逆铭 mysql var目录很快
在学习阶段偶尔会删除/var/lib/mysql/*目录来达到清除数据库管理员账户和密码的目的。but，对于新手来说经常会不小心删除/var/lib/mysql目录，导致重启mysql时找不到/var/lib/mysql。解决方法如下：mkdir/var/lib/mysqchownmysql:mysql/var/lib/mysqlsystemctlstartmysql此时如果还是失败，并产生如下提
【Sql Server】随机查询一条表记录，并重重温回顾下存储过程的封装和使用 web13688565871 面试学习路线阿里巴巴数据库 oracle
大家好，我是，欢迎来到《小5讲堂》。这是《SqlServer》系列文章，每篇文章将以博主理解的角度展开讲解。温馨提示：博主能力有限，理解水平有限，若有不对之处望指正！目录前言随机查询语句存储过程基本概念基本结构基础例子存储过程封装文章推荐前言温故而知新，最近在写sql查询语句，需求是随机查询表的其中一条记录。基于这个查询，顺便把数据库自定义函数、存储过程这个两个知识点重温固定下。因此，本篇文章将在
【日常运维】mongoDB学习-入门介绍-其强大之处以及用武之地向往风的男子运维日常 DBA mongodb
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
MongoDB常见的运维工具总结介绍 yuanpan mongodb 运维数据库
MongoDB提供了一些强大的运维工具，帮助管理员进行数据库监控、备份、恢复、性能优化等操作。以下是一些常见的MongoDB运维工具及其功能介绍：1.MongoDBAtlas功能：MongoDBAtlas是MongoDB官方的云托管数据库服务，它提供了全托管的MongoDB实例和自动化运维功能，包括自动备份、自动扩展、高可用性、监控和安全性等。它使得运维团队可以专注于应用开发，而无需担心数据库的管
kettle常用的数据库连接示例星月情缘02 ETL技术 kettle sql连接
kettle是一款强大的数据抽取转换工具，在数据仓库，ETL任务处理中使用的非常频繁的开源工具。它也支持众多的数据库连接类型。下面是支持的数据库连接对比图。请参考学习。就介绍这么多。
数仓ETL测试星月情缘02 etl 数据仓库
提取，转换和加载有助于组织使数据在不同的数据系统中可访问，有意义且可用。ETL工具是用于提取，转换和加载数据的软件。在当今数据驱动的世界中，无论大小如何，都会从各种组织，机器和小工具中生成大量数据。在传统的编程方式中，ETL都提取并进行一些转换操作，然后将转换后的数据加载到目标数据库文件等。为此，需要用任何编程语言编写代码，如Java，C#，C++等。为了避免更多编码和使用库，将通过拖放组件来减少
ER图（Entity Relationship Diagram，实体关系图）太阳 oracle 数据库
以下是一些常见的绘制ER图的工具，涵盖了在线工具和桌面软件，你可以根据自身需求进行选择：在线工具boardmix功能特点：拥有大量包括ER图模板在内的模板库，能加速ER图的创建；支持多人在线协作，多名用户可同时编辑和查看ER图；用户可在图上添加评论、标签和批注，方便交流协商；ER图可轻松导出为图片或PDF文件，便于分享。适用场景：适合数据库设计团队协作创建和修改ER图；项目管理中，项目团队可用来了
01_什么是Redis？袁庭新 Redis 7企业级开发实战教程 redis 数据库缓存
1.什么是NoSQL？1.1NoSQL介绍NoSQL，全称为NotOnlySQL（不仅仅是SQL），指的是非关系型的数据库。它最早出现于1998年，由CarloStrozzi提出，旨在找到存储和检索数据的新高效途径，而不是在所有情况下都依赖关系型数据库。2009年，NoSQL的概念在亚特兰大举行的"no:sql(east)"讨论会上得到了进一步推广和发展，这次讨论会标志着NoSQL数据库发展史上的
数仓的数据加工过程-ETL 星月情缘02 ETL技术 etl
ETL代表ExtractTransform和Load。ETL将所有三个数据库功能组合到一个工具中，以从一个数据库获取数据并将其放入另一个数据库。提取：提取是从数据库中提取(读取)信息的过程。在此阶段，从多个或不同类型的来源收集数据。转换：转换是将提取的数据从之前的形式转换为所需形式的过程。数据可以放入另一个数据库。可以通过使用规则或查找表或将数据与其他数据组合来进行转换。加载：加载是将数据写入目标
基于Spark的实时计算服务的流程架构小小搬运工40 spark 大数据
基于Spark的实时计算服务的流程架构通常涉及多个组件和步骤，从数据采集到数据处理，再到结果输出和监控。以下是一个典型的基于Spark的实时计算服务的流程架构：1.数据源数据源是实时计算服务的起点，常见的数据源包括：消息队列：如Kafka、RabbitMQ、AmazonKinesis等。日志系统：如Flume、Logstash等。传感器数据：物联网设备产生的数据流。数据库变更数据捕获（CDC）：如
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
机器学习建模流程 day02 扫把星133 机器学习人工智能 python
机器学习建模流程通常可以分为以下几个主要步骤：问题定义与数据收集：确定问题的类型（分类、回归、聚类等可见上篇所讲内容）和目标。收集相关数据，可以是从数据库、API、文件或其他来源获取。注释：数据库是计算机里面的存储的数据的，当然可以对数据进行一些操作增删改查，通常用于存储大量结构化数据，并提供高效的数据操作和查询功能。API（ApplicationProgrammingInterface，应用程序
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
SQLServer中DBCC INPUTBUFFER显示从客户端发送到 SQL Server 实例的最后一个语句 zxrhhm sqlserver 数据库
SQLServer中DBCCINPUTBUFFER显示从客户端发送到SQLServer实例的最后一个语句1、本文内容语法参数结果集权限示例适用于：SQLServerAzureSQL数据库AzureSQL托管实例显示从客户端发送到SQLServer实例的最后一个语句。2、语法DBCCINPUTBUFFER(session_id[,request_id])[WITHNO_INFOMSGS]3、参数se
技术文档规划布局：构建系统性与连贯性的架构 m0_74136676 软件工程
在技术文档的创作历程中，规划布局堪称构建稳固大厦的蓝图设计环节。合理确定文档的整体架构，包括精心设计章节设置与巧妙安排逻辑顺序，是确保信息呈现系统性与连贯性的关键所在，直接关系到文档的质量与可用性。一、明确核心主题与目标受众在着手规划文档架构之前，必须对文档的核心主题有透彻的理解。无论是关于一款软件的使用指南、一项技术的研发手册还是某个系统的运维说明，明确主题边界与重点内容是基础。同时，精准定位目
golang请求云数据库ClickHouse数据库报错:err code: 202, message: Too many simultaneous queries. Maximum: 100 zhoupenghui168 golang #golang基础数据库 golang 开发语言后端 sync
1.场景描述开发环境:语言:golang1.22数据库引擎:GORM数据库:ClickHouse场景:当使用sync.WaitGroup并发执行多个gorm相关的goroutine时,报错:errcode:202,message:Toomanysimultaneousqueries.Maximum:1002.错误原因从上面错误中可以看出:(1).这是因为当前正在进行的查询或插入操作超过了设置的最大
golang通过AutoMigrate方法自动创建table详解 zhoupenghui168 golang #golang基础数据库数据库 GORM AUTOMigrate
一.AutoMigrate介绍1.介绍在Go语言中，GORM支持Migration特性，支持根据GoStruct结构自动生成对应的表结构,使用GORMORM库的AutoMigrate方法可以自动创建数据库表，确保数据库结构与定义的模型结构一致。AutoMigrate方法非常方便，特别适合在开发阶段进行快速迭代注意：AutoMigrate会创建表、缺失的外键、约束、列和索引出于保护数据的目的，它不会
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
JAVA开源免费项目基于Vue和SpringBoot的医院后台管理系统（附源码）胡晗靓 java vue.js spring boot 开源前端开发语言
本文项目编号T170，文末自助获取源码\color{red}{T170，文末自助获取源码}T170，文末自助获取源码目录一、系统介绍二、数据库设计三、配套教程3.1启动教程3.2讲解视频3.3二次开发教程四、功能截图五、文案资料5.1选题背景5.2国内外研究现状六、核心代码6.1查询数据6.2新增数据6.3删除数据一、系统介绍在管理员功能模块确定下来的基础上，对管理员各个功能进行设计，确定管理员功
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
MYSQL学习笔记(六)：聚合函数、sql语句执行原理简要分析羊小猪~~ MYSQL mysql sql 数据库考研后端 c++java
前言：学习和使用数据库可以说是程序员必须具备能力，这里将更新关于MYSQL的使用讲解，大概应该会更新30篇+，涵盖入门、进阶、高级(一些原理分析);这一篇是内容较少，主要讲解：聚合函数和简要介绍sql语句执行过程；虽然MYSQL命令很多，但是自己去多敲一点，到后面忘记了，查一下就可以回忆起来使用了；这一系列也是本人学习MYSQL做的笔记，也是为了方便后面忘记查询；参考资料：尚硅谷、黑马、csdn和
scrapy六 SSSCAESAR
目录设置代理ip设置随机的请求头(u-a)scrapy集成seleniumRedisNoSQL和SQL数据库的比较Redis特性设置代理ip代理的作用：突破自身的IP访问限制隐藏自身真实的ip如何获取ip：付费代理代理ip的匿名度：透明服务器知道这次使用了代理也知道真实的ip匿名服务器知道使用了代理不知道真实的ip高匿不知道使用了代理也不知道真实的ipclassIPProxyDownloaderM
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &