yule.yang

在ClickHouse数据库中启用预测功能

在这篇博文中，我们将介绍如何将机器学习支持的预测功能与 ClickHouse 数据库集成。ClickHouse 是一个快速、开源、面向列的 SQL 数据库，对于数据分析和实时分析非常有用。该项目由 ClickHouse， Inc. 维护和支持。我们将探索它在需要数据准备以支持机器学习的任务中的功能。

预测功能是通过 MindsDB 提供的，MindsDB 是一个平台，只需使用简单的 SQL 命令即可直接在数据库中自动运行机器学习模型。MindsDB 使机器学习民主化，使任何人都可以在数据所在的位置执行基于机器学习的复杂预测。

我们将围绕大型多变量时间序列的预测，介绍传统机器学习的一个具有挑战性的用例的整个流程，以及 ClickHouse 和 MindsDB 的结合如何使您能够以非常简单和有效的方式实现这一目标。

优化机器学习生命周期

机器学习生命周期是一个仍在完善的主题，但构成此流程的主要阶段是准备、建模和部署。

这三个主要阶段中的每一个都分解为更明确定义的步骤。例如，数据准备步骤通常分为数据采集、数据清理和标记以及特征工程。

数据库中已有的数据对 ML 友好

根据《福布斯》的一项调查，数据准备约占数据科学家工作的 80%，同时，其中 57% 的人认为数据清理是他们工作中最不愉快的部分。

如果您的公司已经经历了获取数据、将其加载到数据库中的障碍，那么它很可能已经采用干净和结构化的格式，采用预定义的架构。

SQL 作为特征工程工具

此外，对于任何机器学习问题，数据采集和数据清理只是第一步。大多数情况下，初始数据集不足以从模型中产生令人满意的结果。这就是数据科学家和机器学习工程师需要介入并通过应用不同的特征工程技术来丰富数据集的地方。

SQL 是一个非常强大的数据转换工具，数据集的特征实际上是数据库表中的列。

然后选择并转换这些特征以创建新特征，这些特征将用于机器学习模型的训练。使用上述数据模型，我们可以生成一些描述我们销售的额外特征。例如，我们可以创建包含产品已包含的订单数以及该产品价格占总订单价格的百分比的新功能。

SELECT
      Product.pk_idProduct
      , Product.description
      , TBL_store.storeName
      , count(Orders.pk_idOrder) as number_of_orders
      , avg(Product.price / Orders.pricing) as product_percentage_of_order
FROM Product
      INNER JOIN OrderProduct
            on Product.pk_idProduct = OrderProduct.product
      INNER JOIN Orders
            on Orders.pk_idOrder = OrderProduct.order
      INNER JOIN TBL_store
            on TBL_store.PK_id_store = Product.seller
GROUP BY Product.pk_idProduct
      , Product.description
      , TBL_store.storeName

因为SQL是一个如此强大的工具，我们应该利用它，直接从数据库中生成可能的转换。

ClickHouse提供了在非常大的数据集上进行许多转换的功能。与为数据集创建新特征、提取数据。与通过 Python 操作数据的一般方法相反，在 ClickHouse 中创建新特征要快得多。

作为 AI 表的机器学习模型

在数据准备之后，我们到达了 MindsDB 介入的地步，并提供了一个简化机器学习模型建模和部署的结构。

这种结构称为 AI 表，是 MindsDB 的一项特定功能，允许您像对待普通表一样对待机器学习模型。您可以在 MindsDB 中创建此 AI 表，就像在常规数据库中创建表一样，然后可以通过外部表功能将此表暴露给 ClickHouse。

创建自己的 AI 表非常容易，下面是用于在数据集之上创建它的语法。

CREATE PREDICTOR 
  TRAIN FROM { () | . |  }
  [ TEST FROM { () | . |  } ]
[ ORDER BY  [{ASC|DESC}] ]
[ GROUP BY  [, , ...] ]
[ WINDOW  ]
PREDICT 

[ MODEL = {auto |  | } ]

这使我们能够考虑与创建表的方式没有什么不同的机器学习部署。因此，一旦在数据库中将模型创建为表，它就已经部署好了。您唯一需要注意的是，如果表架构发生更改，则会发生什么情况，即需要创建新模型或重新训练模型。

总之，所有的部署和建模都被抽象到这个非常简单的结构中，我们称之为“AI 表”，它使您能够在其他数据库（如 ClickHouse）中公开此表。

在ClickHouse中构建数据集

尽管与分析数据库市场上的其他类似工具相比，ClickHouse是一个相当年轻的产品，但与更知名的工具相比，ClickHouse具有许多优势，甚至是使其在性能方面超越其他工具的新功能。

单个可移植的 C++ 二进制文件 – 可实现非常快速的 60 秒安装
在任何地方运行 – 它可以在任何基于 Linux 的环境中运行，例如云虚拟机、容器，甚至是裸机服务器或笔记本电脑
高级 SQL 功能 – 它有一些额外的扩展建立在常规 SQL 语法之上，赋予它一些额外的功能
列存储 – 在性能方面为您提供优势，在非常高的数据压缩率方面为您提供优势
分布式查询 – 由于查询分布在节点和 CPU 内核之间，因此需要毫秒级响应时间
分片和复制 – 支持从笔记本电脑大小扩展到数百个节点
Apache 2.0 许可 – 使 ClickHouse 能够用于任何商业目的

ClickHouse 在全球拥有数千个安装，被众多大公司使用，如 Bloomberg、Uber、Walmart、eBay、Yandex 等。

数据探索

如前几节所述，任何机器学习管道中最耗时的部分是数据准备。它需要有关数据的知识，这就是为什么我们总是从数据探索开始。

在这一步，我们需要了解我们拥有哪些信息以及哪些功能可用于评估数据质量，以便使用它训练模型或对数据集进行一些改进。下面我们可以看到 ClickHouse 中的行程数据数据集示例，其中查询了 1 亿行关于纽约出租车的数据，以分析数据的质量

SELECT
  count() AS rides,
  avg(fare_amount) AS avg,
  min(fare_amount) AS min,
  max(fare_amount) AS max
FROM default.tripdata

正如你在这里看到的，我们有一些异常值会对机器学习模型产生负面影响，所以让我们用ClickHouse工具更深入地研究它。

让我们编写一个查询来更深入地研究这些分布，以便更好地理解数据。通过此查询，您可以在几秒钟内为这个大型数据集创建直方图视图，并查看异常值的分布。

SELECT h_bin.1 AS lo, h_bin.2 AS hi, h_bin.3 AS count FROM
(
  SELECT histogram(5)(fare_amount) h
  FROM default.tripdata WHERE fare_amount < 0
) ARRAY JOIN h AS h_bin

我们可以看到，我们的直方图查询的分布也包含一个计数列。此列中的某些结果是小数，不一定表示行计数。实际上，根据文档，此列实际上包含直方图中条柱的高度。

因为我们试图将整个数据集拟合到一个具有 5 个条柱的直方图中，该直方图是通过 histogram(5)(fare_amount) 函数调用指定的，并且数据集中的项目数量不是正态分布的，所以我们的条柱高度不一定相等。因此，我们的一些高度将有一个数字，该数字将按比例表示该特定条柱中的值数，相对于数据集中的值总数。

如果这仍然有点令人困惑，我们可以尝试使用 ClickHouse 中的 bar() 可视化来生成数据集分布的更直观的结果。

我们可以看到，条形列包含数据集分布的可视化表示，分为 5 个条柱。由于前两个条柱都只包含 1 个值，因此条形图显示太小而无法显示，但是，当我们开始有更多值时，条形图也会显示出来。

此外，我们可以看到大量我们不希望包含在模型训练数据集中的小负票价值。如果我们反转数据集的过滤，只看正 fare_amount 值，我们可以看到“干净”数据点的数量要高得多。因为我们有这么大的值，所以我们要将条形函数的最小值设置为 10000000，以便分布更清晰可见。

数据清洗和聚合

现在我们已经确定我们的数据集包含异常值，我们需要删除它们以获得一个干净的数据集。我们将过滤掉所有负数，只考虑低于 500 美元的票价金额。由于我们需要预测每个出租车供应商的数据，因此我们将按 vendor_id 聚合数据集。

SELECT
    toStartOfHour(pickup_datetime) AS pickup_hour,
    vendor_id,
    sum(fare_amount) AS fares
FROM default.tripdata
WHERE total_amount >= 0 AND total_amount <= 500
GROUP BY pickup_hour, vendor_id 
ORDER BY pickup_hour, vendor_id

我们可以通过将时间戳数据下采样到小时间隔并聚合一小时间隔内的所有数据来进一步减小数据集的大小。

使用ClickHouse处理非常大的数据集

就所使用的资源和生成数据所需的时间而言，在海量数据集上运行任何查询通常都非常昂贵。当我们必须多次运行查询、使用复杂的转换生成新功能或源数据老化并且我们需要更新版本时，这可能会令人头疼。但是，ClickHouse对此有一个解决方案，即物化视图。

常规 SQL 视图相反，在常规 SQL 视图中，视图只是封装 SQL 查询并在每次执行时重新运行它，具体化视图仅运行一次，并将数据馈送到具体化视图表中。然后，我们可以查询这个新表，每次将数据添加到原始源表时，这个视图表也会更新。

正如你在上面看到的，我们总是可以查询具体化的视图，并确定我们总是根据我们的原始数据获得最新的数据集。然后，我们可以在这个物化视图中使用数据集并训练我们的机器学习模型，而不必担心过时的数据。

与通用视图相比，物化视图在性能方面也有很多好处，在 ClickHouse 中，在超过 20 亿行的数据集上，它们有时甚至快 1 倍。

您还可以利用ClickHouse集群，将数据扩展到多个分片，以从数据仓库中提取最佳性能。您可以在这些数据子集上创建具体化视图，然后将它们统一到分布式表构造下，该构造就像是每个节点的数据上的保护伞。

每当需要查询此数据时，只需查询一个分布式表，该表会自动处理从整个群集中的多个节点检索数据。

这是一种非常强大的技术，可以让您查询数万亿行数据，聚合它们，并以有用的方式转换它们。从现在开始，我们可以继续进行机器学习部分，甚至可以对数据集进行更深入的分析。

根据复杂的多变量时间序列数据构建预测

现在，让我们根据我们刚刚介绍的纽约市出租车“行程数据”数据集来预测出租车需求。我们将仅关注由vendor_id、上车时间和出租车费用列组成的子集。

更好地了解我们的数据

我们可以更深入地研究ClickHouse生成的数据子集，并绘制收入流，按小时分配。左下角的绿线图显示了 CMT 公司的每小时票价。

但是，我们也可以看到，不仅单个出租车供应商在一天中的票价分布存在差异，而且出租车供应商本身之间的票价分布也存在差异，如下图所示。随着时间的推移，每家公司都有不同的动态，这使得这个问题变得更加困难，因为我们现在没有单一的数据系列，而是多个数据。

多变量时间序列预测的挑战

了解我们的数据集包含多个系列的数据是构建数据预测管道时需要注意的重要信息。如果数据科学家或机器学习工程师团队需要预测任何对你获取见解很重要的时间序列，他们需要意识到这样一个事实，即根据分组数据的外观，他们可能会查看数百或数千个序列。

训练此类机器学习模型可能非常耗时且耗费大量资源，并且根据要提取的见解类型和使用的模型类型，将其扩展到数千个预测其自身时间序列的模型将很难扩展。

在MindsDB，我们处理这个问题已经有一段时间了，我们已经能够使用来自任何数据库（如ClickHouse）的任何类型的数据来自动化这个过程。

MindsDB 如何自动构建 ML 模型

我们的方法围绕着应用灵活的理念，使我们能够解决任何类型的机器学习问题，而不一定只是时间序列问题。这是通过应用我们的编码器-混音器理念来实现的。

MindsDB 预测引擎 – 技术细节

根据每列的数据类型，我们实例化该列的编码器。它的任务是根据该列中的数据开发信息编码。

例如，如果我们有一列包含简单的数字，不需要训练即可解决时间序列问题，那么编码器可以只是一组不需要训练的简单规则。但是，如果列包含自由文本，则编码器将实例化一个 Transformer 神经网络，该神经网络将学习生成该文本的摘要。

下一步是实例化 Mixer，这是一个机器学习模型，其任务是根据 Encoder 的结果进行最终预测。这种类型的哲学提供了一种非常灵活的方法来预测数值数据、分类数据、文本回归和时间序列数据。

MindsDB 中的自动和动态数据规范化

在开始使用数据训练此模型之前，我们可能需要进行一些特定的数据清理，例如进行动态归一化。这意味着对每个数据系列进行归一化，以便我们的 Mixer 模型学习得更快、更好。

MindsDB 捕获数据集的统计数据并规范化每个序列，而 Mixer 模型学习使用这些规范化值预测未来值。
时间信息也通过将时间戳分解为正弦分量来编码。

这样可以进行任意日期处理，并便于处理不均匀采样的序列。当时间序列数据间距不均匀且测量值不规则时，此方法非常有用。

简而言之，对于时间序列问题，机器学习管道的工作方式如下图所示。左上角的输入数据包含非时态信息，这些信息被输入编码器，然后传递到混音器中。

但是，对于时间信息，时间戳和一系列数据本身（在本例中，每个公司每小时收到的票价总数）都会自动归一化，并通过循环编码器（RNN 编码器）传递。RNN 在描述符中注入了更强的时间性概念。

所有这些编码功能都传递给 Mixer，它可以是以下两种类型之一：

神经网络 Mixer 由两个内部流组成，其中一个使用自回归过程进行基本预测并给出大致值，另一个使用辅助流对每个序列进行微调此预测
使用 LightGBM 的梯度增压混合器，其顶部是 Optuna 库，可实现非常彻底的逐步超参数搜索

这确保了我们从数十个机器学习模型中确定了最佳的预测模型。

如何在ClickHouse数据库中创建和使用预测性AI表

对于没有机器学习背景的人来说，上述关于技术方法、规范化、编码混合器方法的信息可能听起来很复杂，但实际上，您不需要知道所有这些细节即可在数据库中进行预测。

使用单个 SQL 查询训练多变量时间序列预测变量

MindsDB 使用 AI Tables 方法所做的是使任何只了解 SQL 的人都能自动构建预测模型并查询它们。这就像运行单个 SQL 命令一样简单。

例如，此查询将从多变量时间序列数据训练单个模型，以根据上述数据集预测出租车费用：

CREATE PREDICTOR fares_forecaster_demo FROM Clickhouse (
     SELECT VENDOR_ID, PICKUP_DATETIME, FARE_AMOUNT
     FROM DEFAULT.TRIPDATA
     WHERE DATE > '2010-01-01'
) PREDICT FARE_AMOUNT
ORDER BY DATE
GROUP BY VENDOR_ID
WINDOW 10
HORIZON 7;

让我们讨论上面的陈述。我们使用 CREATE PREDICTOR 语句创建一个预测性 AI 表，并指定训练数据来自的数据库。黄色代码选择筛选后的训练数据。之后，我们使用 PREDICT 关键字来指定要预测其数据的列，在本例中为票价数量。

接下来，有一些标准的 SQL 子句，例如 ORDER BY、GROUP BY、WINDOW 和 HORIZON。通过使用带有 DATE 列作为参数的 ORDER BY 子句，我们强调我们处理的是时间序列问题，并且我们希望按日期对行进行排序。GROUP BY 子句将数据划分为多个分区。在这里，每个分区都与特定的出租车公司（vendor_id）相关。对于每个给定的预测，我们只考虑最后 10 行。因此，我们使用 WINDOW 10。为了准备出租车费用的预测，我们定义了 HORIZON 7，这意味着我们要提前 7 小时进行预测。

获取预测

我们准备进入最后一步，即使用预测模型来获取未来的数据。一种方法是直接查询fares_forecaster_demo预测模型。您只需创建一个 Select 语句，在 Where 子句中传递预测的条件。

但是我们考虑一个时间序列问题。因此，建议我们将预测模型与历史数据联接到表中。

SELECT tb.VENDOR_ID, tb.FARE_AMOUNT as PREDICTED_FARES
FROM Clickhouse.DEFAULT.TRIPDATA as ta
JOIN mindsdb.fares_forecaster_demo as tb 
WHERE ta.VENDOR_ID = "CMT" AND ta.DATE > LATEST
LIMIT 7;

我们来分析一下。我们将存储历史数据的表（即 Clickhouse.DEFAULT.TRIPDATA）连接到我们的预测模型表（即 mindsdb.fares_forecaster_demo）。查询的信息是出租车供应商和每个供应商的预测票价数量。通过指定 MindsDB 提供的条件 ta.date > latest，我们确保获得每条路线的未来乘车次数。

可视化预测

我们可以将 BI 工具连接到 MindsDB 预测性 AI 表，以很好的方式可视化预测。您可以在 Looker 中查看如何为先前训练的预测变量执行此操作。我们连接了我们加入的表，我们可以看到历史数据以及 MindsDB 对同一日期和时间所做的预测。在这种情况下，绿线代表实际数据，蓝线代表预测。

您可以看到，对于前 10 个预测，预测并不准确，这是因为预测器刚刚开始从历史数据中学习（请记住，我们在训练它时指出了 10 个预测的窗口），但在那之后，预测变得非常准确。

自动检测异常

使用这种预测理念，MindsDB 还可以检测和标记其预测中的异常。下面我们展示了另一个数据集的图，该数据集是印度庞迪州的功耗数据集。

这是 t+1 的时间序列预测，这意味着模型正在查看时间片中所有先前的功耗值，并尝试预测下一步，在本例中，它试图预测第二天的功耗。图中的绿线表示实际功耗值，紫色线表示 MindsDB 预测，使用截至该时间步长的所有值来训练机器学习模型。

默认情况下，MindsDB 有一个置信度阈值估计值，由预测趋势周围的灰色区域表示。每当实际值超过此置信区间的边界时，都可以将其自动标记为异常行为，并且监视此系统的人员可以更深入地查看并查看是否正在发生某些事情。

与这个单序列模型的训练类似，MindsDB可以自动学习和预测多组数据。您可以使用整个数据集针对此问题进行训练，并获得印度所有州的预测。这非常方便，因为它抽象了大部分数据管道处理。

自带 ML 块

MindsDB 使您能够自定义处理管道的各个部分，但除此之外，您还可以自带模块。例如，如果您是机器学习工程师，我们使您能够引入自己的数据准备模块，即您自己的机器学习模型，以更好地满足您的需求。

例如，如果您更喜欢用经典的 ARIMA 模型替换 RNN 模型进行时间序列预测，我们希望为您提供这种可能性。或者，在分析模块中，如果要对预测结果运行自定义数据分析。

AI Tables 即将推出的新 ML 功能：

预测流中的数据

MindsDB现在正在做的主要任务之一是尝试从数据流中预测数据，而不仅仅是从数据库中预测数据。目标是创建一个预测器，该预测器读取来自 Redis 和 Kafka 等工具的流数据，并创建对将要发生的事情的预测。

改善长期预测

我们正在开发的下一个功能是改进对长期范围的预测，其中包括分类数据和时间数据。这是一项具有挑战性的任务，因为我们需要在多个不同的列中归因我们认为将要发生的事情，但我们相信我们可以改进这一点。

检测渐进式异常

当前的异常检测算法可以很好地处理数据中的突然异常，但需要改进以检测发生在数据序列本身之外的元素的异常。这是我们一直在努力改进的地方。

结论

在本文中，我们将指导你完成机器学习工作流。您了解了如何使用 ClickHouse 的强大工具（如物化视图）来更好、更有效地处理数据清理和准备，尤其是对于具有数十亿行的大型数据集。

然后，我们深入研究了 MindsDB 的 AI 表的概念，以及如何在 ClickHouse 中使用它们来自动构建预测模型并使用简单的 SQL 语句进行预测。

我们使用了一个多变量时间序列问题的示例来说明MindsDB如何能够自动执行非常复杂的机器学习任务，并展示了通过将AI表连接到BI工具来检测异常和可视化预测是多么简单，所有这些都是通过SQL完成的。

你可能感兴趣的:(AI,数据库,clickhouse,机器学习,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen