最笨的羊羊

Debezium日常分享系列之：使用数据库中的数据流进行在线机器学习

一、背景介绍
二、数据集准备
三、使用 Apache Flink 进行分类
四、使用 Debezium 和 Kafka 作为源数据流
五、构建 Flink 流 k-means
六、评估模型
七、使用 Apache Spark 进行分类
八、定义数据流
九、定义和评估模型
十、结论

一、背景介绍

使用 Debezium 从数据库创建多个数据流，并使用其中一个流进行持续学习并改进我们的模型，使用第二个流对数据进行预测。
当模型不断改进或调整以适应最新的数据样本时，这种方法称为在线机器学习。在线学习仅适合某些用例，实现给定算法的在线变体可能具有挑战性，甚至是不可能的。然而，在可以进行在线学习的情况下，它成为一种非常强大的工具，因为它允许人们实时对数据的变化做出反应，并避免重新训练和重新部署新模型的需要，从而节省了时间。
硬件和运营成本。随着数据流变得越来越普遍，例如随着物联网的出现，可以预期在线学习将变得越来越流行。它通常非常适合在可能的用例中分析流数据。
目标不是为给定的用例构建最佳的模型，而是研究如何构建一个完整的管道，从将数据插入数据库到将数据传递到模型并将其用于模型训练和预测。为了简单起见，将使用机器学习教程中经常使用的另一个众所周知的数据样本。将探索如何使用 k 均值聚类算法的在线变体对各种鸢尾花进行分类。使用 Apache Flink 和 Apache Spark 来处理数据流。这两个框架都是非常流行的数据处理框架，并且包含一个机器学习库，除其他外，它还实现在线 k-means 算法。因此，我们可以专注于构建一个完整的管道，将数据从数据库传递到给定的模型中，实时处理它，而不必处理算法的实现细节。

二、数据集准备

将使用鸢尾花数据集，目标是根据鸢尾花的几个测量值来确定鸢尾花的种类：萼片长度、萼片宽度、花瓣长度和花瓣宽度。

该数据集可以从各种来源下载。可以利用这样一个事实：它已经在例如中进行了预处理。 scikit-learn 工具包并从那里使用它。每个样本行包含一个数据点（萼片长度、萼片宽度、花瓣长度和花瓣宽度）和标签。标签为数字 0、1 或 2，其中 0 代表 Iris setosa，1 代表 Iris versicolor，2 代表 Iris virginica。数据集很小 - 仅包含 150 个数据点。
将数据加载到数据库中时，将首先准备 SQL 文件，稍后将其传递到数据库。需要将原始数据样本分为三个子样本——两个用于训练，一个用于测试。初始训练将使用第一个训练数据样本。这个数据样本故意很小，以免在第一次测试模型时产生良好的预测，这样就可以看到当向模型提供更多数据时，模型的预测将如何实时增加。
可以使用随附演示存储库中的以下 Python 脚本来生成所有三个 SQL 文件。

$ ./iris2sql.py

train1.sql 在启动时会自动加载到 Postgres 数据库中。 test.sql 和 train2.sql 稍后将手动加载到数据库中。

三、使用 Apache Flink 进行分类

首先，我们看一下如何在 Apache Flink 中进行在线鸢尾花分类和学习。下图描述了整个管道的高级架构。

我们将使用 Postgres 作为我们的源数据库。 Debezium 部署为 Kafka Connect 源连接器，跟踪数据库中的更改并创建从新插入的数据发送到 Kafka 的数据流。 Kafka 将这些流发送到 Apache Flink，后者采用流式 k-means 算法进行模型拟合和数据分类。测试数据流模型的预测作为另一个流生成并发送回 Kafka。

我们的数据库包含两个表。第一个存储我们的训练数据，第二个存储测试数据。因此，有两个数据流，每个数据流对应一张表——一个用于学习的数据流，一个需要分类的数据点。在实际应用中，可以仅使用一张表，或者相反，可以使用更多表。甚至可以部署更多 Debezium 连接器，从而合并来自多个数据库的数据。

四、使用 Debezium 和 Kafka 作为源数据流

Apache Flink 与 Kafka 具有出色的集成。可以传递 Debezium 记录，例如JSON 记录。对于创建 Flink 表，它甚至支持 Debezium 的记录格式，但对于流，需要提取部分 Debezium 消息，其中包含表中新存储的行。然而，这非常容易，因为 Debezium 提供了 SMT，提取新的记录状态 SMT，正是这样做的。完整的 Debezium 配置如下所示：

{
    "name": "iris-connector-flink",
    "config": {
        "connector.class": "io.debezium.connector.postgresql.PostgresConnector",
        "tasks.max": "1",
        "database.hostname": "postgres",
        "database.port": "5432",
        "database.user": "postgres",
        "database.password": "postgres",
        "database.dbname" : "postgres",
        "topic.prefix": "flink",
        "table.include.list": "public.iris_.*",
        "key.converter": "org.apache.kafka.connect.json.JsonConverter",
        "value.converter": "org.apache.kafka.connect.json.JsonConverter",
        "transforms": "unwrap",
        "transforms.unwrap.type": "io.debezium.transforms.ExtractNewRecordState"
    }
}

该配置捕获公共架构中包含以 iris_ 前缀开头的表的所有表。由于将训练和测试数据存储在两个表中，因此分别创建了两个名为 flink.public.iris_train 和 flink.public.iris_test 的 Kafka 主题。 Flink 的 DataStreamSource 代表传入的数据流。当将记录编码为 JSON 时，它将是 JSON ObjectNode 对象的流。构建源流非常简单：

KafkaSource<ObjectNode> train = KafkaSource.<ObjectNode>builder()
    .setBootstrapServers("kafka:9092")
    .setTopics("flink.public.iris_train")
    .setClientIdPrefix("train")
    .setGroupId("dbz")
    .setStartingOffsets(OffsetsInitializer.earliest())
    .setDeserializer(KafkaRecordDeserializationSchema.of(new JSONKeyValueDeserializationSchema(false)))
    .build();
DataStreamSource<ObjectNode> trainStream = env.fromSource(train, WatermarkStrategy.noWatermarks(), "Debezium train");

Flink 主要运行在 Table 抽象对象上。此外，机器学习模型仅接受表格作为输入，并且预测也以表格形式生成。因此，必须首先将输入流转换为 Table 对象。首先将输入数据流转换为表行流。需要定义一个映射函数，该函数将返回一个 Row 对象，其中包含一个数据点的向量。由于k-means算法属于无监督学习算法，即模型不需要数据点对应的“正确答案”，因此可以从向量中跳过标签字段：

private static class RecordMapper implements MapFunction<ObjectNode, Row> {
    @Override
    public Row map(ObjectNode node) {
        JsonNode payload = node.get("value").get("payload");
        StringBuffer sb = new StringBuffer();
        return Row.of(Vectors.dense(
                        payload.get("sepal_length").asDouble(),
                        payload.get("sepal_width").asDouble(),
                        payload.get("petal_length").asDouble(),
                        payload.get("petal_width").asDouble()));
    }
}

Flink内部管道的各个部分可以在不同的工作节点上运行，因此，还需要提供有关表的类型信息。这样就可以创建表对象了：

StreamTableEnvironment tEnv = StreamTableEnvironment.create(env);
TypeInformation<?>[] types = {DenseVectorTypeInfo.INSTANCE};
String names[] = {"features"};
RowTypeInfo typeInfo = new RowTypeInfo(types, names);

DataStream<Row> inputStream = trainStream.map(new RecordMapper()).returns(typeInfo);
Table trainTable = tEnv.fromDataStream(inputStream).as("features");

五、构建 Flink 流 k-means

一旦有了一个 Table 对象，就可以将它传递给模型。因此，创建一个并向其传递一个训练流以进行连续模型训练：

OnlineKMeans onlineKMeans = new OnlineKMeans()
    .setFeaturesCol("features")
    .setPredictionCol("prediction")
    .setInitialModelData(tEnv.fromDataStream(env.fromElements(1).map(new IrisInitCentroids())))
    .setK(3);
OnlineKMeansModel model = onlineKMeans.fit(trainTable);

为了让事情变得更简单，直接将所需簇的数量设置为 3，而不是通过挖掘数据（例如使用肘法）来找到最佳簇数。还为集群的中心设置了一些初始值，而不是使用随机数（Flink 提供了一个方便的方法 - KMeansModelData.generateRandomModelData() 如果你想尝试使用随机中心）。

为了获得测试数据的预测，再次需要将测试流转换为表。该模型将包含测试数据的表转换为包含预测的表。最后，将预测转换为流并保存，例如在Kafka主题中：

DataStream<Row> testInputStream = testStream.map(new RecordMapper()).returns(typeInfo);
Table testTable = tEnv.fromDataStream(testInputStream).as("features");
Table outputTable = model.transform(testTable)[0];

DataStream<Row> resultStream = tEnv.toChangelogStream(outputTable);
resultStream.map(new ResultMapper()).sinkTo(kafkaSink);

现在，已经准备好构建应用程序，并且几乎准备好将其提交给 Flink 执行。在此之前，需要先创建所需的 Kafka 主题。虽然主题可以为空，但 Flink 要求它们至少存在。由于在数据库启动时在 Postgres 训练表中包含了一小部分数据，因此 Debezium 在 Kafka Connect 中注册 Debezium Postgres 连接器时会创建相应的主题。由于测试数据表还不存在，需要在Kafka中手动创建主题：

$ docker compose -f docker-compose-flink.yaml exec kafka /kafka/bin/kafka-topics.sh --create --bootstrap-server kafka:9092 --replication-factor 1 --partitions 1  --topic flink.public.iris_test

现在，准备向 Flink提交应用程序。

如果您不使用本演示源代码中提供的 Docker compose，请将 Flink ML 库包含在 Flink lib 文件夹中，因为 ML 库不是默认 Flink 发行版的一部分。

Flink 提供了友好的 UI，可以在 http://localhost:8081/ 上找到。在那里，除其他事项外，还可以检查您的工作状态，例如：作业执行计划以出色的图形表示形式：

六、评估模型

从用户的角度来看，与模型的所有交互都是通过将新记录插入数据库或读取带有预测的 Kafka 主题来发生的。由于在数据库启动时已经创建了一个非常小的初始训练数据样本，因此可以通过将测试数据样本插入数据库来直接检查模型预测：

$ psql -h localhost -U postgres -f postgres/iris_test.sql

插入会在 Kafka 中生成测试数据的即时数据流，将其传递到模型中并将预测发送回 iris_predictions Kafka 主题。在只有两个集群的非常小的数据集上训练模型时，预测不准确。下图显示了我们的初步预测：

[5.4, 3.7, 1.5, 0.2] is classified as 0
[4.8, 3.4, 1.6, 0.2] is classified as 0
[7.6, 3.0, 6.6, 2.1] is classified as 2
[6.4, 2.8, 5.6, 2.2] is classified as 2
[6.0, 2.7, 5.1, 1.6] is classified as 2
[5.4, 3.0, 4.5, 1.5] is classified as 2
[6.7, 3.1, 4.7, 1.5] is classified as 2
[5.5, 2.4, 3.8, 1.1] is classified as 2
[6.1, 2.8, 4.7, 1.2] is classified as 2
[4.3, 3.0, 1.1, 0.1] is classified as 0
[5.8, 2.7, 3.9, 1.2] is classified as 2

在我们的例子中，正确的答案应该是：

[5.4, 3.7, 1.5, 0.2] is 0
[4.8, 3.4, 1.6, 0.2] is 0
[7.6, 3.0, 6.6, 2.1] is 2
[6.4, 2.8, 5.6, 2.2] is 2
[6.0, 2.7, 5.1, 1.6] is 1
[5.4, 3.0, 4.5, 1.5] is 1
[6.7, 3.1, 4.7, 1.5] is 1
[5.5, 2.4, 3.8, 1.1] is 1
[6.1, 2.8, 4.7, 1.2] is 1
[4.3, 3.0, 1.1, 0.1] is 0
[5.8, 2.7, 3.9, 1.2] is 1

在比较结果时，由于初始样本训练数据的大小，只有 11 个数据点中的 5 个被正确分类。另一方面，由于并不是从完全随机的集群开始，所以预测也不是完全错误的。

当向模型提供更多训练数据时情况会发生什么变化：

$ psql -h localhost -U postgres -f postgres/iris_train2.sql

为了查看更新后的预测，再次将相同的测试数据样本插入数据库：

 psql -h localhost -U postgres -f postgres/iris_test.sql

由于已经提供了所有三个类别，因此以下预测要好得多。还正确分类了 11 个数据点中的 7 个。

[5.4, 3.7, 1.5, 0.2] is classified as 0
[4.8, 3.4, 1.6, 0.2] is classified as 0
[7.6, 3.0, 6.6, 2.1] is classified as 2
[6.4, 2.8, 5.6, 2.2] is classified as 2
[6.0, 2.7, 5.1, 1.6] is classified as 2
[5.4, 3.0, 4.5, 1.5] is classified as 2
[6.7, 3.1, 4.7, 1.5] is classified as 2
[5.5, 2.4, 3.8, 1.1] is classified as 1
[6.1, 2.8, 4.7, 1.2] is classified as 2
[4.3, 3.0, 1.1, 0.1] is classified as 0
[5.8, 2.7, 3.9, 1.2] is classified as 1

由于整个数据样本非常小，为了进一步的模型训练，可以重复使用第二个训练数据样本：

$ psql -h localhost -U postgres -f postgres/iris_train2.sql
$ psql -h localhost -U postgres -f postgres/iris_test.sql

这导致以下预测。

[5.4, 3.7, 1.5, 0.2] is classified as 0
[4.8, 3.4, 1.6, 0.2] is classified as 0
[7.6, 3.0, 6.6, 2.1] is classified as 2
[6.4, 2.8, 5.6, 2.2] is classified as 2
[6.0, 2.7, 5.1, 1.6] is classified as 2
[5.4, 3.0, 4.5, 1.5] is classified as 1
[6.7, 3.1, 4.7, 1.5] is classified as 2
[5.5, 2.4, 3.8, 1.1] is classified as 1
[6.1, 2.8, 4.7, 1.2] is classified as 1
[4.3, 3.0, 1.1, 0.1] is classified as 0
[5.8, 2.7, 3.9, 1.2] is classified as 1

现在发现 11 个数据点中有 9 个被正确分类。虽然这仍然不是一个出色的结果，但预计结果只能部分准确，因为这只是一个预测。这里的主要动机是展示整个流程并证明该模型可以在添加新数据时改进预测，而无需重新训练和重新部署模型。

七、使用 Apache Spark 进行分类

从用户的角度来看，Apache Spark 与 Flink 非常相似，实现也非常相似。

Spark 有两种流模型：较旧的 DStreams（现在处于遗留状态）和较新且推荐的结构化流模型。但是，由于 Spark ML 库中包含的流式 k-means 算法仅适用于 DStream，因此为简单起见，本示例中使用了 DStream。更好的方法是使用结构化流并自己实现流 k-means。

Spark 支持使用 DStreams 从 Kafka 进行流式传输。然而，不支持将 DStream 写回 Kafka，尽管这是可能的，但并不简单。

同样，为了简单起见，跳过最后部分，仅将预测写入控制台，而不是将其写回 Kafka。管道的总体情况如下所示：

八、定义数据流

与 Flink 类似，从 Kafka 流创建 Spark 流非常简单，并且大多数参数都是不言自明的：

Set<String> trainTopic = new HashSet<>(Arrays.asList("spark.public.iris_train"));
Set<String> testTopic = new HashSet<>(Arrays.asList("spark.public.iris_test"));
Map<String, Object> kafkaParams = new HashMap<>();
kafkaParams.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "kafka:9092");
kafkaParams.put(ConsumerConfig.GROUP_ID_CONFIG, "dbz");
kafkaParams.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");
kafkaParams.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
kafkaParams.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);

JavaInputDStream<ConsumerRecord<String, String>> trainStream = KafkaUtils.createDirectStream(
        jssc,
        LocationStrategies.PreferConsistent(),
        ConsumerStrategies.Subscribe(trainTopic, kafkaParams));
JavaDStream<LabeledPoint> train = trainStream.map(ConsumerRecord::value)
        .map(SparkKafkaStreamingKmeans::toLabeledPointString)
        .map(LabeledPoint::parse);

在最后一行，将 Kafka 流转换为标记点流，Spark ML 库使用它来处理其 ML 模型。标记点应为格式化为数据点标签的字符串，数据点标签与空格分隔的数据点值之间用逗号分隔。所以地图函数看起来像这样：

private static String toLabeledPointString(String json) throws ParseException {
    JSONParser jsonParser = new JSONParser();
    JSONObject o = (JSONObject)jsonParser.parse(json);
    return String.format("%s, %s %s %s %s",
            o.get("iris_class"),
            o.get("sepal_length"),
            o.get("sepal_width"),
            o.get("petal_length"),
            o.get("petal_width"));
}

k 均值是一种无监督算法并且不使用数据点标签，这一点仍然适用。但是，将它们传递给 LabeledPoint 类很方便，稍后我们可以将它们与模型预测一起显示。

我们再链接一个映射函数来解析字符串并从中创建一个标记数据点。在本例中，它是 Spark LabeledPoint 的内置函数。

与Flink相反，Spark不需要Kafka主题预先存在，因此在部署模型时，不必创建主题。一旦创建了包含测试数据的表并填充了数据，就可以让 Debezium 创建它们。

九、定义和评估模型

定义流式 k-means 模型与 Flink 非常相似：

StreamingKMeans model = new StreamingKMeans()
        .setK(3)
        .setInitialCenters(initCenters, weights);
model.trainOn(train.map(lp -> lp.getFeatures()));

另外，在这种情况下，直接将簇数设置为3，并为簇提供相同的初始中心点。也只传递数据点进行训练，而不传递标签。

如上所述，我们可以使用标签将它们与预测一起显示：

JavaPairDStream<Double, Vector> predict = test.mapToPair(lp -> new Tuple2<>(lp.label(), lp.features()));
model.predictOnValues(predict).print(11);

将 11 个流元素打印到带有预测的结果流上的控制台，因为这是测试样本的大小。与 Flink 一样，在非常小的数据样本上进行初始训练后的结果可能会更好。元组中的第一个数字是数据点标签，而第二个数字是模型所做的相应预测：

spark_1      | (0.0,0)
spark_1      | (0.0,0)
spark_1      | (2.0,2)
spark_1      | (2.0,2)
spark_1      | (1.0,0)
spark_1      | (1.0,0)
spark_1      | (1.0,2)
spark_1      | (1.0,0)
spark_1      | (1.0,0)
spark_1      | (0.0,0)
spark_1      | (1.0,0)

然而，当提供更多的训练数据时，预测会更好：

spark_1      | (0.0,0)
spark_1      | (0.0,0)
spark_1      | (2.0,2)
spark_1      | (2.0,2)
spark_1      | (1.0,1)
spark_1      | (1.0,1)
spark_1      | (1.0,2)
spark_1      | (1.0,0)
spark_1      | (1.0,1)
spark_1      | (0.0,0)
spark_1      | (1.0,0)

如果再次传递第二个训练数据样本进行训练，模型会对整个测试样本做出正确的预测：

---
spark_1      | (0.0,0)
spark_1      | (0.0,0)
spark_1      | (2.0,2)
spark_1      | (2.0,2)
spark_1      | (1.0,1)
spark_1      | (1.0,1)
spark_1      | (1.0,1)
spark_1      | (1.0,1)
spark_1      | (1.0,1)
spark_1      | (0.0,0)
spark_1      | (1.0,1)
----

预测是 k-means 算法创建的簇的编号，与数据样本中的标签无关。这意味着例如(0.0,1) 不一定是错误的预测。标签为 0 的数据点可能会被分配到正确的簇，但是 Spark 在内部将其标记为簇号 1。在评估模型时需要牢记这一点。

因此，与 Flink 类似，当传递更多训练数据时，会得到更好的结果，而无需重新训练和重新部署模型。在这种情况下，得到了比 Flink 模型更好的结果。

十、结论

展示了如何将数据库中的数据作为数据流实时传递到 Apache Flink 和 Apache Spark。在这两种情况下，集成都很容易设置并且运行良好。
示例中进行了演示，该示例允许我们使用在线学习算法，即在线 k-means 算法，来突出数据流的强大功能。在线机器学习使我们能够对数据流进行实时预测，并在新的训练数据到达时立即改进或调整模型。模型调整不需要在单独的计算集群上重新训练任何模型并重新部署新模型，从而使 ML-ops 更加简单且更具成本效益。

Java后端数据库迁移策略：Flyway与Liquibase 梧桐醴泉铭 java 数据库开发语言
Java后端数据库迁移策略：Flyway与Liquibase大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！数据库迁移的重要性在软件开发过程中，数据库的版本控制和迁移是必不可少的。随着应用的发展，数据库结构需要不断更新以适应新的业务需求。数据库迁移工具可以帮助开发者自动化这一过程，减少人为错误。Flyway数据库迁移工具Flyway是一个开源的数据库迁移工具，它使
动态SQL在梧桐数据库的使用介绍好好学习_ah 数据库 sql
一、前言动态SQL是根据不同的条件生成不同的SQL语句，通过使用参数化查询或在应用程序代码中构建SQL字符串实现，对于处理不确定的查询条件或构建复杂的查询非常有用。因为日常开发中经常使用，故在梧桐数据库中测试验证，分享该语法的使用经验。二、动态SQL的构建及使用以下通过简单的例子介绍如何使用动态SQL：CREATEorREPLACEFUNCTIONpublic.p_dw_trend_sql_t
postgresql 查看数据库,表,索引,表空间以及大小神域梦醒
客户要求用pgsql，所在服务器装了一下pgsql，我出了一个pgsql的分类，看这篇文章前，把这个分类下的文章都可以看一下，这是我熟悉pgsql的一套流程。以前搞过一次pgsql，很早了。1,查看数据库查看复制打印?playboy=>\l//\加上字母l,相当于mysql的，mysql>showdatabases;ListofdatabasesName|Owner|Encoding-------
flyway和liquibase的使用样例 weixin_30251829 数据库 java git
在代码上我们有svn和git等诸多的版本控制方法。但是在数据库上却没有相应的工具。一度导致多环境见的数据库同步难以维持。flyway和liquibase都是常见的数据库版本控制工具。flyway社区版的功能相对完全免费的liquibase来说简直毫无可比性。因此免费用户的话强烈liquibase。样例代码已上传至Github：https://github.com/hackyoMa/changedb
VSCode数据库插件 svygh123 vscode vscode 数据库 ide
VisualStudioCode(VSCode)是一个非常流行的源代码编辑器，它通过丰富的插件生态系统提供了大量的功能扩展。对于数据库操作，VSCode提供了几种插件，其中“DatabaseClient”系列插件是比较受欢迎的选择之一，它包括了对多种数据库的支持，例如PostgreSQL,MySQL,SQLite,MSSQL,Oracle等。DatabaseClientJDBC插件“Databas
GBASE日期计算 shirsl 算法数据库
在进行数据迁移的过程中（DB2–>GBASE）涉及到日期计算函数的改写：原式子如下：SELECTTIMESTAMP('1900-01-01')+INT(LEFT(MAX(DB_TIMESTAMP),3))YEAR+INT(SUBSTR(MAX(DB_TIMESTAMP),4,3))-1)DAY+INT(SUBSTR(MAX(DB_TIMESTAMP),7,2)))HOUR+INT(SUBSTR(M
Doris通过ODBC连接MYSQL Leo⁵ Doris mysql 数据库
1.概述ODBCExternalTableOfDoris提供了Doris通过数据库访问的标准接口(ODBC)来访问外部表，外部表省去了繁琐的数据导入工作，让Doris可以具有了访问各式数据库的能力，并借助Doris本身的OLAP的能力来解决外部表的数据分析问题：支持各种数据源接入Doris支持Doris与各种数据源中的表联合查询，进行更加复杂的分析操作通过insertinto将Doris执行的查询
共模干扰详情 _Csharp 网络通信 c#服务器
共模干扰‌共模干扰（Common-modeinterference）是指干扰电压在信号线及其回线（一般称为信号地线）上的幅度相同，以附近任何一个物体（如大地、金属机箱、参考地线板等）为参考电位，干扰电流回路在导线与参考物体构成的回路中流动‌。‌共模干扰的产生原因共模干扰的主要原因包括：‌电路中较高的du/dt对寄生电容进行充放电‌，导致信号线和地线之间的电压差。‌辐射干扰‌，如雷电、设备电弧、附近
【Go】Golang连接数据库使用HTTP协议音乐学家方大刚 Go Clickhouse golang 数据库 http
离开你是傻是对是错是看破是软弱这结果是爱是恨或者是什么如果是种解脱怎么会还有眷恋在我心窝那么爱你为什么黄品源/莫文蔚《那么爱你为什么》packagemainimport("context""fmt""log""time""github.com/ClickHouse/clickhouse-go/v2")funcmain(){//确保使用HTTP协议和8123端口conn,err:=clickhous
Golang-切片与数组的关系及性能 Jeson-Sun golang 开发语言后端
1.切片的本质在go语言当中，切片（slice）是使用最为频繁的数据结构之一，其原因在于它在处理同类型数据序列有着方便且高效的特点，所以今天我就来和大家聊聊我对切片的理解！1.1数组首先，谈到切片，肯定是不能避开数组的，因为切片是在数组之上的抽象数据类型。数组由长度和类型两部分组成，如[3]int类型表示由3个int整型组成的数组。数组以索引方式进行访问，例如表达式s[n]访问数组的第n个元素。数
postgres数据库使用一条一句删除重复的数据表杨青松 postgres 数据库 sql语句数据库 sql postgresql
在数据表有主键的情况下，请注意，这条查询假设了你的表中有一个唯一的id列，用于区分表中的每一行。如果你的表中没有这样的列，你可能需要创建一个。另外，'column1'和'column2'应该替换为你用于定义重复行的列名。在数据没有主键的情况下，你需要确定哪些列的组合定义了一个"重复"的行。例如，在一个人员信息表中，可能名字和生日的组合就可以按需确定一个行是否重复。确定的基础上，你可以使用带有窗口函
postgres数据库sql语句吭哧瘪肚的万能工 sql 数据库 postgres
对表操作创建表CREATETABLEtest(idintNOTNULL,namevarchar(10),PRIMARYKEY(id));增加字段ALTERtabletestADDid1bigintNOTNULL,ADDNAME1VARCHAR(20)；删除字段ALTERtabletestdropid,dropNAME修改字段名ALTERtabletestrenameNAME1toName修改字段类
Sybase数据库数据导入导出命令杨青松 sybase sql 数据库 database
--导入命令LoadTableBase_Inspection--表名([time],TableName,CityID,CityName,DataCount,CellDataCount,InspectionTime'\x0d\x0a')--字段名--'\x0d\x0a'windows下换行符USINGCLIENTFILE'H:\\outfile\\0602\\MR_Sc2Nc_CellSum_Day
Unity多人游戏基础知识总结前网易架构师-高司机 unity 游戏游戏服务器架构客户端开发经验
作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。（谢谢你的关注）开发多人游戏涉及很多网络概念。以下是开发前必须了解的一些关键概念：游戏服务器开发专栏
打造高质量Python代码：使用Black、Ruff和Mypy进行格式化与Lint llzwxh888 python 数据库服务器
#打造高质量Python代码：使用Black、Ruff和Mypy进行格式化与Lint在软件开发过程中，确保代码的风格、可读性和正确性是每位开发者面临的重要任务。借助于现代工具，我们可以自动化许多重复性的检查任务，从而提高代码质量和开发效率。在这篇文章中，我们将探讨如何使用Black、Ruff和Mypy为Python代码进行格式化和Lint。##引言面对不断增长的代码库，维护代码风格和质量可以变得非
什么是多源异构数据？如何处理多源异构数据？ isNotNullX 大数据多源异构数据数据库数据处理数据集成数据融合
目录一、多源异构数据的定义二、多源异构数据的种类三、多源异构数据的处理方案1.数据接入2.数据转换3.数据输出4.数据同步四、结语随着数字化转型的深入，企业和社会产生了前所未有的海量数据。这些数据不仅量大，而且来源多样，结构各异，形成了所谓的“多源异构数据”。多源指的是数据来自不同源头，如传感器、社交媒体、数据库、文档等；异构则指数据格式和类型不一致，包括结构化、半结构化和非结构化的数据。本文旨在
PostgreSQL查看表的大小 m0_74824552 postgresql 数据库
PostgreSQL查看表的大小在PostgreSQL中，可以使用一系列函数和系统视图来查看表的大小。这些工具可以帮助您获取表的基本存储大小、包括索引和TOAST的总大小等信息。下列方法演示了如何获取这些信息。使用函数查看表的大小pg_relation_size()：返回表的基础存储大小（不包括索引和TOAST数据）。white=#SELECTpg_relation_size(‘yewu1.t1’
Sql文件导入数据库-保姆级教程 m0_67402125 面试学习路线阿里巴巴 android 前端后端
目录一：准备工作—.sql文件二：在编辑工具中打开创建的sql文件—存放指令并保存三：右键点击运行SQL文件打开.sql文件点击开始，加载完成后点击关闭再点击表----刷新一下-----即可看到所有需要的表都已经被创建好了四：在数据库中导出SQL脚本文件全部记录?选择SQL脚本文件?自己勾选，点击下一步?下一步?下一步?点击开始?加载完成后点击保存?
LlamaIndex架构设计：大模型长期记忆模块竟暗藏图数据库玄机威哥说编程数据库 llama
随着人工智能技术的不断发展，大型语言模型（LLM）已经在自然语言处理、文本生成、对话系统等领域取得了显著的进展。然而，尽管这些模型在理解和生成语言方面表现出色，它们却面临着一个重要问题——长期记忆的缺失。传统的语言模型通常只依赖于当前输入的信息，并且无法记住过去的上下文或从历史中积累的知识。这使得它们在需要长期记忆或复杂知识推理的任务中表现不佳。为了解决这一问题，越来越多的研究开始探索如何为大模型
PostgreSQL INSERT INTO 语句的深入解析 lly202406 开发语言
PostgreSQLINSERTINTO语句的深入解析PostgreSQL是一个功能强大的开源对象关系数据库系统，它使用和扩展了SQL语言。INSERTINTO是SQL语言中的一个关键命令，用于向PostgreSQL数据库表中插入新行。本文将详细介绍INSERTINTO语句的使用方法、语法、示例以及一些高级特性。INSERTINTO基础语法基本的INSERTINTO语句语法如下：INSERTINT
Liquibase和Flyway hhejunn java 数据库
Liquibase和Flyway-数据库迁移工具介绍和比较一、为什么需要数据库迁移管理比如第一个版本的产品只包含了最基本的功能，而第二版本就需要增加评论功能，这就涉及到数据结构的修改（包括创建新表，修改旧表的列，增加已有表的列等等）。直接进入产品数据库修改数据库并不适合快速的开发节奏，不仅仅不安全，更多的情况下数据库可能并不对外或者并不适合对外直接暴露连接，比如PAAS平台的数据库以服务的形式直接
Redis GUI：一款现代化的Redis数据库图形界面管理工具丁凡红
RedisGUI：一款现代化的Redis数据库图形界面管理工具redis-guiModerngraphicaluserinterfacetopeekintoredisdatabase项目地址:https://gitcode.com/gh_mirrors/re/redis-guiRedisGUI是一个开源项目，它提供了一个现代化的图形用户界面来管理和查看Redis数据库。该项目主要使用Vue.js和
探索数据库管理新纪元：Visual Studio Code Database Client gitblog_00881
探索数据库管理新纪元：VisualStudioCodeDatabaseClientvscode-database-clientDatabaseClientForVisualStudioCode项目地址:https://gitcode.com/gh_mirrors/vs/vscode-database-client在今天的数字化时代，数据库管理和优化是每个开发者和系统管理员不可或缺的技能。现在，借助
数据字典是什么 Code.exe 数据库
理论阐述数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述，其目的是对数据流图中的各个元素作出详细的说明。数据字典是描述数据的信息集合，是对系统中使用的所有数据元素的定义的集合。数据字典（Datadictionary）是一种用户可以访问的记录数据库和应用程序元数据的目录。数据字典的内容非常丰富，包括数据库中所有模式对象的信息，如视图、簇、及索引等；还涉及空间分配和当前
mongodb/mysql 查看数据占用磁盘空间大小 IT_狂奔者 #MongoDB MySQL mysql mongodb
一、mongodb1、查看整个数据库登录进入数据库Bertram:PRIMARY>useBertramBertram:PRIMARY>db.stats();{"db":"Bertram",//当前数据库名<
如何将.sql文件导入数据库 chengliang666 MySQL 工具方法数据库 sql mysql 导入sql
1.进入本地数据库打开命令提示符行输入以下命令进入本地数据库mysql-uroot-p2.创建数据库新建一个新数据库用来导入.sql数据CREATEDATABASE数据库名;//创建数据库showdatabases;//显示目前有的数据库3.导入.sql文件在导入.sql文件之前，设置一下编码模式，防止出现中文乱码的情况（第一次导入就出现了中文乱码，所以中添加一步防止出现乱码情况）。use数据库名
Flyway与Liquibase对比九天星辰 flyway Flyway Liquibase
SpringBoot为两款流行的数据库迁移库提供了自动配置支持。Flyway（http://flywaydb.org）Liquibase（http://www.liquibase.org）1.用Flyway定义数据库迁移过程1）原理：Flyway是一个非常简单的开源数据库迁移库，使用SQL来定义迁移脚本。它的理念是，每个脚本都有一个版本号，Flyway会顺序执行这些脚本，让数据库达到期望的状态。它
转： C#操作SQL Server数据库 chaojifeifeima
C#操作SQLServer数据库2008-07-1811:17:18分类：在c#程序开发中经常需要和SQLServer数据库打交道，下面我们就了解一下c#操作SQLServer数据库的方法：1.概述首先是为我们的程序添加必要的引用以及一些数据成员。因为我们的程序涉及到数据库的访问操作，所以必须要运用到数据提供者（DataProvider）的对象。在.Net框架下，我们主要运用的数据提供者分为两类，
SpringBoot数据库管理 - 用flyway对数据库管理和迁移 JavaMonsterr 计算机程序员 Java java spring boot
知识准备需要了解Flyway和要解决的问题，以及一些基础概念，比如变迁(migrations)，常用命令(commands)等。什么是Flyway?要解决什么问题？Flyway是一款数据库迁移（migration）工具。简单点说，就是在你部署应用的时候，帮你执行数据库脚本的工具。Flyway支持SQL和Java两种类型的脚本，你可以将脚本打包到应用程序中，在应用程序启动时，由Flyway来管理这些
梧桐数据库与GBase日期函数比较好好学习_ah 数据库大数据
一、前言在日常开发中，我们经常会使用到日期函数，对日期或时间戳进行计算，以下简单介绍梧桐数据库与Gbase数据库日期函数的使用。二、日期加减1、GBase数据库selectcast('2024-10-30'asdate)±interval'1'day;--日期加减一天selectcast('2024-10-30'asdate)±interval'1'year;--日期加减一年selectcas
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

Debezium日常分享系列之：使用数据库中的数据流进行在线机器学习

Debezium日常分享系列之：使用数据库中的数据流进行在线机器学习

一、背景介绍

二、数据集准备

三、使用 Apache Flink 进行分类

四、使用 Debezium 和 Kafka 作为源数据流

五、构建 Flink 流 k-means

六、评估模型

七、使用 Apache Spark 进行分类

八、定义数据流

九、定义和评估模型

十、结论

你可能感兴趣的:(日常分享专栏,Debezium日常分享系列,数据库,数据流进行在线机器学习)