scl、

AI实践与学习1_Milvus向量数据库实践与原理分析

前言

随着NLP预训练模型（大模型）以及多模态研究领域的发展，向量数据库被使用的越来越多。

在XOP亿级题库业务背景下，对于试题召回搜索单单靠着ES集群已经出现性能瓶颈，因此需要预研其他技术方案提高试题搜索召回率。

现一个方案就是使用Bert等模型提取试题题干特征，然后存储到向量数据库，检索试题先走向量数据库，拿到具体的试题ID等信息在走ES进行相似题召回，从而提高搜索的性能。需要考虑的就是特征提取的效率，Milvus的性能（比较吃服务器资源），然后进行评估。

本篇博客主要对Bert等模型以及主流的Milvus进行实践以及一些相关知识学习。

一、概述

https://milvus.io/
Milvus创建于2019年，其唯一目标是：存储、索引和管理由深度神经网络和其他机器学习（ML）模型生成的大量嵌入向量。
作为一个专门设计用于处理输入向量查询的数据库，它能够索引万亿级的向量。与现有的关系数据库主要处理遵循预定义模式的结构化数据不同，Milvus是自底向上设计的，用于处理从非结构化数据转换而来的嵌入向量Embedding Vector。

基础概念

标量：无向量，只有数值大小没有方向
向量：区别于具体的单维度数值标量，可以认为是一条线，有多个数值表示。嵌入向量Embedding Vector是非结构化数据的特征抽象，例如电子邮件、物联网传感器数据、Instagram照片、蛋白质结构等等。从数学上讲，嵌入向量是一个浮点数数组或二进制数组。
向量范数：向量范数是指向量的大小或长度，计算向量范式可以用来衡量向量的大小、相似度等。计算方式分为
- L1：曼哈顿范数，将向量元素绝对值相加之和
- L2：欧几里得范数，将向量元素的平房和开更号
向量归一化：对向量进行归一化操作，以确保不同维度上的特征权重相等，避免某些维度对结果产生较大影响。可以采用L1、L2归一化，一种常用的归一化方法是使用 L2 范数进行单位化处理，即将向量除以其 L2 范数得到单位向量。
向量内积：点积、数量积，两个向量的点积就是吧对应位置元素点积之和，对于某个位置元素的点积a · b = ｜a｜·｜b｜·cos v。其中｜｜表示向量范数。点乘的几何意义是可以用来表征或计算两个向量之间的夹角，以及在b向量在a向量方向上的投影。
向量外积：外积（英语：Outer product），在线性代数中一般指两个向量的张量积，其结果为一矩阵；与外积相对，向量的外积是矩阵的克罗内克积的特殊情况。
余弦相似度：向量之间的夹角的余弦值，范围为[-1,1]，越接近1表示两个向量越来约相似。

https://oi-wiki.org/math/linear-algebra/product/

数据模型相关概念

Bitset：位图集合
Channel：有两个不同的Channel在Milvus。它们是PChannel和VChannel。
- 每个PChannel对应一个日志存储主题。PChannel是物理Channel。每个PChannel对应一个日志存储主题。当Milvus集群启动时，默认情况下将分配一组256个PChannels来存储记录数据插入、删除和更新的日志。
- 每个VChannel对应于集合中的一个分片。VChannel代表逻辑信道。每个VChannel代表集合中的一个分片。每个集合将被分配一组VChannels，用于记录数据插入、删除和更新。VChannel在逻辑上是分离的，但在物理上共享资源。
Collection：数据实体集合，类比表
Schema：集合模式，模式是定义数据类型和数据属性的Meta信息。每个集合都有自己的集合模式，该模式定义集合的所有字段、自动ID（主键）分配启用和集合描述。集合架构中还包括定义字段的名称、数据类型和其他属性的字段架构。
Entity：数据实体，每个实体会有一个主键。
Field：数据字段，类型可以是数字、字符串、向量等结构化数据。
Normalization：归一化，归一化是指转换嵌入（向量）以使其范数等于1的过程。如果使用内积（IP）来计算嵌入相似度，则所有嵌入都必须归一化。归一化后，内积等于余弦相似度。
Vector index：向量索引是从原始数据中派生出来的重组数据结构，可以大大加速向量相似性搜索的过程。Milvus支持多种向量索引类型。
Vector similarity search：向量相似性搜索是将向量与数据库进行比较以找到与目标搜索向量最相似的向量的过程。近似最近邻（ANN）搜索算法用于计算向量之间的相似性。

系统设计概念，作为云原生矢量数据库，Milvus通过设计将存储和计算分离。为了增强弹性和灵活性，Milvus中的所有组件都是无状态的。

接入层：提供访问的API
协调服务：大脑，将任务分配给工作节点
工作节点：四肢，执行大脑下发的DML命令
存储服务：骨骼，负责数据持久化。它包括Meta存储、日志代理和对象存储。

二、实践

2.1、安装Milvus服务

因为是云原生的设计架构，安装可以使用k8s、docker compose安装：https://milvus.io/docs/prerequisite-helm.md，内存至少8g，配置挂在目录以及端口：https://milvus.io/docs/configure-docker.md

也可以使用普通安装方式

# Install Milvus
sudo yum https://github.com/milvus-io/milvus/releases/download/v2.0.0-pre-ga/milvus-2.0.0-preGA.1.el7.x86_64.rpm

# Check Milvus status
sudo systemctl status milvus
sudo systemctl status milvus-etcd
sudo systemctl status milvus-minio

或者直接使用Python安装轻量级的Milvus Lite，Milvus Lite是Milvus的轻量级版本，可与Google Colab和Google Notebook无缝协作。https://milvus.io/docs/milvus_lite.md

// 安装docker以及docker-compose插件

// 下载yml
wget https://github.com/milvus-io/milvus/releases/download/v2.3.3/milvus-standalone-docker-compose.yml -O docker-compose.yml

// 启动
docker-compose up -d

// 查看启动状态
docker compose ps

// 关闭
docker compose down

2.2、安装可视化界面

https://github.com/zilliztech/attu，可以下载桌面版 or docker or k8s

2.3、使用Milvus

SDK支持Python、Java、Go、Nodejs，Python的SDK相对功能完善，其他语言的还在活跃的开发中，https://milvus.io/docs/install-pymilvus.md

1、使用Python SDK

// 安装依赖
python -m pip install pymilvus==2.3.3

2、使用Java SDK
https://github.com/milvus-io/milvus-sdk-java
https://milvus.io/api-reference/java/v2.3.x/About.md


    io.milvus</groupId>
    milvus-sdk-java</artifactId>
    2.3.3</version>
</dependency>

使用流程

创建数据库：与传统的数据库引擎类似，您也可以在Milvus中创建数据库，并将权限分配给某些用户来管理它们。然后，这些用户有权管理数据库中的集合。Milvus集群最多支持64个数据库。默认存在数据库default。
创建集合：集合由一个或多个分区组成。在创建新集合时，如果不指定分区数，Milvus会创建一个默认的partition分区_default。创建集合之前需要指定元数据，支持为标量设置默认值。创建集合可以指定分片数量，相比分区，分区通过指定分区名称来减少读取负载，而分片在多个服务器之间分散写入负载。
创建索引：需要指定为某向量字段、普通标量创建索引的类型（标量默认索引类型为字典树），额外参数传入聚类参数nlist。比如IVF_FLAT索引将向量数据划分为nlist聚类单元，然后比较目标输入向量与每个聚类中心之间的距离。根据系统设置为查询的聚类数（nprobe），仅基于目标输入和最相似聚类中的向量之间的比较返回相似性搜索结果-大大减少查询时间。
加载集合：将集合、集合分区加载进内存，Milvus2.1允许用户将集合按照分区加载为多个副本，以利用额外查询节点的CPU和内存资源。此功能可提高整体QPS和吞吐量，无需额外硬件。
插入数据：可以指定partition_name将数据插入指定分区，可以将文件中的实体数据插入集合，支持manualCompaction手动压缩数据
搜索数据：根据创建的向量索引以及指定的相似度度量参数（IP、L2等）来进行相似性索引、标量搜素。

数据字段类型

Type	Description
None	For internal usage.
Bool	Boolean.
Int8	Integer number stored with 8 bit.
Int16	Integer number stored with 16 bit.
Int32	Integer number stored with 32 bit.
Int64	Integer number stored with 64 bit.
Float	Floating-point numbers.
Double	64-bit IEEE 754 floating point numbers.
String	Reserved. Do not use this.
VarChar	Variable-length string with a limit on the maximum length.
BinaryVector	Binary vector. Each dimension is represented by 1 bit.
FloatVector	Float vector. Each dimension is represented by 1 float (4 bits) value.

动态数据类型

为了使Milvus插入数据更加灵活，对于之前创建的集合可以指定动态元数据模式。
动态模式使用户能够将具有新字段的实体插入到Milvus集合中，而无需修改现有模式。这意味着用户可以在不知道集合的完整架构的情况下插入数据，并且可以包括尚未定义的字段。

索引类型

ANN紧邻搜索的索引实现的几种方式

Tree-based index
Graph-based index
Hash-based index
Quantization-based index

在Milvus中根据数据类型将向量索引种类分为

内存索引
- 浮点嵌入索引
- 二进制嵌入索引
- 标量前缀索引
磁盘索引：默认启用DiskANN，可选择关闭。

https://milvus.io/api-reference/java/v2.3.x/Misc/IndexType.md

INVALID	For internal usage.
FLAT	Only for FloatVector type field.
IVF_FLAT	Only for FloatVector type field.
IVF_SQ8	Only for FloatVector type field.
IVF_PQ	Only for FloatVector type field.
HNSW	Only for FloatVector type field.
ANNOY	Only for FloatVector type field.
DISKANN	Only for FloatVector type field.
BIN_FLAT	Only for BinaryVector type field.
BIN_IVF_FLAT	Only for BinaryVector type field.
TRIE	Only for VARCHAR type field.

聚类近似搜索

其中IVF_FLAT、IVF_SQ8、IVF_PQ、BIN_FLAT等索引创建的时候支持 nlist，查询时候支持nporbe参数，将向量数据划分为nlist聚类单元，然后比较目标输入向量与每个聚类中心之间的距离。根据系统设置为查询的聚类数（nprobe），仅基于目标输入和最相似聚类中的向量之间的比较返回相似性搜索结果-大大减少查询时间。

聚类单元是指进行聚类分析时，将数据点划分为不同的簇或群组的基本单位。每个聚类单元代表一个特定的数据集合，其内部的数据点在某种程度上相似。聚类算法通过计算各个数据点之间的距离或相似性来确定如何将它们分配到不同的聚类单元中。

聚类单元可以用于对数据进行分类、识别隐藏的模式和结构，并产生有关数据集的洞察力。利用聚类单元可以将复杂的数据集简化为更易理解和解释的形式，同时可作为进一步分析、预测和决策制定的基础。

相似度量规则

Type	Description
INVALID	For internal usage.
L2	Euclidean distance. Only for float vectors.
IP	Inner product. Only for normalized float vectors.
COSINE	Cosine Similarity. Only for normalized float vectors.
HAMMING	Only for binary vectors.
JACCARD	Only for binary vectors.
TANIMOTO	Only for binary vectors.

代码demo

具体的API参考官网文档下面举例向量+标量的混合搜索demo

milvusClient.loadCollection(
  LoadCollectionParam.newBuilder()
    .withCollectionName("book")
    .build()
);

final Integer SEARCH_K = 2;
final String SEARCH_PARAM = "{\"nprobe\":10, \”offset\”:5}";
List search_output_fields = Arrays.asList("book_id");
List> search_vectors = Arrays.asList(Arrays.asList(0.1f, 0.2f));

SearchParam searchParam = SearchParam.newBuilder()
  .withCollectionName("book")
  .withMetricType(MetricType.L2)
  .withOutFields(search_output_fields)
  .withTopK(SEARCH_K)
  .withVectors(search_vectors)
  .withVectorFieldName("book_intro")
  .withExpr("word_count <= 11000")
  .withParams(SEARCH_PARAM)
  .build();
R respSearch = milvusClient.search(searchParam);

Python SDK demo

// 执行demo代码
# hello_milvus.py demonstrates the basic operations of PyMilvus, a Python SDK of Milvus.
# 1. connect to Milvus
# 2. create collection
# 3. insert data
# 4. create index
# 5. search, query, and hybrid search on entities
# 6. delete entities by PK
# 7. drop collection
import time

import numpy as np
from pymilvus import (
    connections,
    utility,
    FieldSchema, CollectionSchema, DataType,
    Collection,
)

fmt = "\n=== {:30} ===\n"
search_latency_fmt = "search latency = {:.4f}s"
num_entities, dim = 3000, 8

#################################################################################
# 1. connect to Milvus
# Add a new connection alias `default` for Milvus server in `localhost:19530`
# Actually the "default" alias is a buildin in PyMilvus.
# If the address of Milvus is the same as `localhost:19530`, you can omit all
# parameters and call the method as: `connections.connect()`.
#
# Note: the `using` parameter of the following methods is default to "default".
print(fmt.format("start connecting to Milvus"))
connections.connect("default", host="localhost", port="19530")

has = utility.has_collection("hello_milvus")
print(f"Does collection hello_milvus exist in Milvus: {has}")

#################################################################################
# 2. create collection
# We're going to create a collection with 3 fields.
# +-+------------+------------+------------------+------------------------------+
# | | field name | field type | other attributes |       field description      |
# +-+------------+------------+------------------+------------------------------+
# |1|    "pk"    |   VarChar  |  is_primary=True |      "primary field"         |
# | |            |            |   auto_id=False  |                              |
# +-+------------+------------+------------------+------------------------------+
# |2|  "random"  |    Double  |                  |      "a double field"        |
# +-+------------+------------+------------------+------------------------------+
# |3|"embeddings"| FloatVector|     dim=8        |  "float vector with dim 8"   |
# +-+------------+------------+------------------+------------------------------+
fields = [
    FieldSchema(name="pk", dtype=DataType.VARCHAR, is_primary=True, auto_id=False, max_length=100),
    FieldSchema(name="random", dtype=DataType.DOUBLE),
    FieldSchema(name="embeddings", dtype=DataType.FLOAT_VECTOR, dim=dim)
]

schema = CollectionSchema(fields, "hello_milvus is the simplest demo to introduce the APIs")

print(fmt.format("Create collection `hello_milvus`"))
hello_milvus = Collection("hello_milvus", schema, consistency_level="Strong")

################################################################################
# 3. insert data
# We are going to insert 3000 rows of data into `hello_milvus`
# Data to be inserted must be organized in fields.
#
# The insert() method returns:
# - either automatically generated primary keys by Milvus if auto_id=True in the schema;
# - or the existing primary key field from the entities if auto_id=False in the schema.

print(fmt.format("Start inserting entities"))
rng = np.random.default_rng(seed=19530)
entities = [
    # provide the pk field because `auto_id` is set to False
    [str(i) for i in range(num_entities)],
    rng.random(num_entities).tolist(),  # field random, only supports list
    rng.random((num_entities, dim)),    # field embeddings, supports numpy.ndarray and list
]

insert_result = hello_milvus.insert(entities)

# 测试打印
for x in range(3):
    print(entities[x])

hello_milvus.flush()
print(f"Number of entities in Milvus: {hello_milvus.num_entities}")  # check the num_entities

################################################################################
# 4. create index
# We are going to create an IVF_FLAT index for hello_milvus collection.
# create_index() can only be applied to `FloatVector` and `BinaryVector` fields.
print(fmt.format("Start Creating index IVF_FLAT"))
index = {
    "index_type": "IVF_FLAT",
    "metric_type": "L2",
    "params": {"nlist": 128},
}

hello_milvus.create_index("embeddings", index)

################################################################################
# 5. search, query, and hybrid search
# After data were inserted into Milvus and indexed, you can perform:
# - search based on vector similarity
# - query based on scalar filtering(boolean, int, etc.)
# - hybrid search based on vector similarity and scalar filtering.
#

# Before conducting a search or a query, you need to load the data in `hello_milvus` into memory.
print(fmt.format("Start loading"))
hello_milvus.load()

# -----------------------------------------------------------------------------
# search based on vector similarity
print(fmt.format("Start searching based on vector similarity"))
vectors_to_search = entities[-1][-2:]
search_params = {
    "metric_type": "L2",
    "params": {"nprobe": 10},
}

start_time = time.time()
result = hello_milvus.search(vectors_to_search, "embeddings", search_params, limit=3, output_fields=["random"])
end_time = time.time()

for hits in result:
    for hit in hits:
        print(f"hit: {hit}, random field: {hit.entity.get('random')}")
print(search_latency_fmt.format(end_time - start_time))

# -----------------------------------------------------------------------------
# query based on scalar filtering(boolean, int, etc.)
print(fmt.format("Start querying with `random > 0.5`"))

start_time = time.time()
result = hello_milvus.query(expr="random > 0.5", output_fields=["random", "embeddings"])
end_time = time.time()

print(f"query result:\n-{result[0]}")
print(search_latency_fmt.format(end_time - start_time))

# -----------------------------------------------------------------------------
# pagination
r1 = hello_milvus.query(expr="random > 0.5", limit=4, output_fields=["random"])
r2 = hello_milvus.query(expr="random > 0.5", offset=1, limit=3, output_fields=["random"])
print(f"query pagination(limit=4):\n\t{r1}")
print(f"query pagination(offset=1, limit=3):\n\t{r2}")


# -----------------------------------------------------------------------------
# hybrid search
print(fmt.format("Start hybrid searching with `random > 0.5`"))

start_time = time.time()
result = hello_milvus.search(vectors_to_search, "embeddings", search_params, limit=3, expr="random > 0.5", output_fields=["random"])
end_time = time.time()

for hits in result:
    for hit in hits:
        print(f"hit: {hit}, random field: {hit.entity.get('random')}")
print(search_latency_fmt.format(end_time - start_time))

###############################################################################
# 6. delete entities by PK
# You can delete entities by their PK values using boolean expressions.
ids = insert_result.primary_keys

expr = f'pk in ["{ids[0]}" , "{ids[1]}"]'
print(fmt.format(f"Start deleting with expr `{expr}`"))

result = hello_milvus.query(expr=expr, output_fields=["random", "embeddings"])
print(f"query before delete by expr=`{expr}` -> result: \n-{result[0]}\n-{result[1]}\n")

hello_milvus.delete(expr)

result = hello_milvus.query(expr=expr, output_fields=["random", "embeddings"])
print(f"query after delete by expr=`{expr}` -> result: {result}\n")


###############################################################################
# 7. drop collection
# Finally, drop the hello_milvus collection
# print(fmt.format("Drop collection `hello_milvus`"))
# utility.drop_collection("hello_milvus")

3、Bert实践

使用NLP模型对文本进行特征提，将特征向量存储到Milvus数据库，然后进行相似搜索。

参考：

https://www.cnblogs.com/henx/p/13802855.html
https://zhuanlan.zhihu.com/p/567922534

// TODO

【C/C++】进阶学习七灵微基本理论嵌入式 c语言 java 前端
长期更新C语言：编译型语言，高级代码->编译（工具有gcc或cmake）->机器语言（可执行程序）->运行高级语言->汇编语言->机器语言gcchello.c#生成a.out可执行程序./a.out#运行这个程序gcchello.c-ohello#生成hello.out可执行程序./hello#不加后缀扩展名也能执行gcchello.c-std=c99#标准不一样c11gcc-Shello.c#生
[BUUCTF][极客大挑战 2019]PHP 朋克归零膏 CTF php linux firefox
备份根据提示应该就是网站备份文件能被爆破出来随手写了个爆破脚本,基于御剑字典,只供学习使用importrandomimportrequestsimporttimefrommultiprocessingimportPooldefmultiScan(target,file_name,pool_num,delay):local_pool=Pool(pool_num)dirs=get_path_dict(
网络包处理库Scapy: 计算checksum，csum mzhan017 网络网络 checksum scapy
文章目录总结输入输出总结这个tool，可以帮助计算checksum。因为要构造IPheader，所以如果想手动组装IP/UDP，有些费劲。不如直接使用这个工具。scapy的总结：https://mzhan017.blog.csdn.net/article/details/109647809输入fromscapy.allimportIPv6,UDPpkt=IPv6(src="2003:db8:a0b
Kubernetes主要网络概念汇总（Summary of Main Networking Concepts in Kubernetes） Linux运维老纪天涯海角 k8s伴你同行 kubernetes 网络容器云计算运维开发运维服务器
Kubernetes主要网络概念汇总1.Kubernetes网络架构Kubernetes网络设计有一个独特的地方：每个Pod有独立的IP地址，各个Pod可以直接互相访问，无需通过NAT。这种设计大大简化了网络层次，使得在集群内部各组件之间的连接更加自然。下面是K8S整个架构图，可以看到整体的关联关系和网络走向1.1核心设计原则PodIP独立性：在Kubernetes中，每个Pod都有一个独立的IP
用Python写一个ai agent采集，分析，预测工厂生产计划朗韶智光 python 人工智能
为了实现一个AI代理，我们需要使用Python的一些库，如pandas，numpy和scikit-learn。以下是一个简化的工厂生产计划采集、分析和预测的示例。首先，我们需要安装所需的库：```bashpipinstallpandasnumpyscikit-learn```然后，我们可以编写一个简单的AI代理，如下所示：```pythonimportpandasaspdimportnumpyas
K8S集群的高可用性（HA）架构如何设计 IT-民工21110 kubernetes 架构容器运维 linux
Kubernetes(K8S)高可用性（HighAvailability,HA）集群架构设计的目标是确保集群在发生组件或节点故障时，仍能提供持续的服务。以下是HA架构的设计要点和实现方式：1.高可用控制平面(ControlPlane)控制平面由kube-apiserver、etcd、kube-scheduler、kube-controller-manager等组件组成。要实现控制平面的高可用：1.
PHP代码审计学习02 玄客) 学习
目录代码审计一般思路Beescms代码审计（upload）Finecms基于前台MVC任意文件上传挖掘思路CLTPHP基于thinkphp5框架的文件上传挖掘思路今天来看PHP有框架MVC类，文件上传，断点调试挖掘。同样还是有关键字搜索和功能点抓包两种方法来找到文件和代码段，最后进行分析。经过这两天的代码审计学习，有了一些认识，那就是渗透测试相当于是黑盒测试，而代码审计相当于是白盒测试，代码审计会
C++学习中的编译器报错望尘莫及是你 c++学习开发语言
1.for(inti=0;iconclusion){conclusion=calculate;}calculate=0;if(nums[index]!=1&&indexconclusion){conclusion=calculate;}calculate=0;if(index
马尔科夫链（Markov Chain）没有发射概率 B 苏西月概率论
1.马尔科夫链的定义马尔科夫链是一种序列模型，其中状态是完全可见的，没有“隐藏”部分。它的转移是根据当前状态决定的，只关心当前状态转移到下一个状态的概率。其核心是状态转移概率矩阵AAA。核心特点：只关注状态之间的转移，不涉及观察值（观测值）的生成。数学定义：如果在时间ttt的状态为XtX_tXt，那么XtX_tXt的分布只取决于Xt−1X_{t-1}Xt−1，即满足马尔科夫性：P(Xt∣Xt−1,
马尔科夫链与隐马尔可夫模型的区别苏西月机器学习人工智能
1.马尔科夫链的状态转移概率计算对于马尔科夫链，状态是完全可见的，所以我们可以直接计算转移概率aija_{ij}aij（从状态iii转移到状态jjj的概率）。公式aij=C(i→j)∑q∈QC(i→q)a_{ij}=\frac{C(i\toj)}{\sum_{q\inQ}C(i\toq)}aij=∑q∈QC(i→q)C(i→j)的含义：C(i→j)C(i\toj)C(i→j)：表示从状态iii转移
简述Apache Airflow：分布式工作流调度与管理利器心上之秋 apache 分布式
目录什么是ApacheAirflow?核心概念与架构DAGOperatorsTasksExecutorsAirflow的安装与配置环境要求安装步骤Airflow示例项目简单任务调度使用PythonOperator实现数据处理任务集成外部工具：MySQL和S3Airflow的高级功能自定义Operators使用Sensors实现动态依赖分布式调度Airflow的优缺点总结什么是ApacheAirfl
使用支持向量机和朴素贝叶斯对文本分类 SSeaflower 支持向量机分类算法机器学习 python
一、支持向量机文本分类1.1支持向量机分类器(SVC)支持向量机分类器（SupportVectorClassifier），缩写为SVC。SVC是sklearn.svm模块的一部分，提供了对支持向量机（SVM）算法的实现。SVM是一种监督学习模型，用于分类和回归任务。SVC是SVM用于分类的实现。1.2SVC的用法及参数通过以下方式创建SVC对象并进行训练：fromsklearn.svmimport
Airflow：选择合适执行器扩展任务执行梦想画家数据分析工程 #Airflow 数据集成数据工程 airflow
ApacheAirflow是面向开发人员使用的，以编程方式编写、调度和监控的数据流程平台。可伸缩性是其关键特性之一，Airflow支持使用不同的执行器来执行任务。在本文中，我们将深入探讨如何利用这些执行器在Airflow中有效地扩展任务执行。理解Airflow中的执行者执行器是运行任务的机制。Airflow带有几个执行器，每个执行器都有自己的长处和理想的用例。核心执行者有：SequentialEx
使用支持向量机（SVM）进行股票市场预测 m0_57781768 支持向量机算法机器学习
使用支持向量机（SVM）进行股票市场预测引言股票市场预测是金融领域的一个热门话题，也是一个充满挑战的研究领域。通过准确的市场预测，投资者可以做出更明智的决策，从而获得更高的回报。支持向量机（SVM）作为一种强大的机器学习算法，已被广泛应用于各种分类和回归问题。本文将详细介绍如何使用C++和支持向量机进行股票市场预测，并提供完整的代码示例。支持向量机简介支持向量机（SVM）是一种监督学习算法，最初用
DeepSeek：开启智能搜索与AI发展的新纪元 gs80140 AI 人工智能
在人工智能领域，DeepSeek正以其卓越的技术创新和强大的性能表现，成为全球瞩目的焦点。作为一款基于深度学习技术的智能搜索引擎和AI模型，DeepSeek不仅在技术上取得了重大突破，还在多个应用场景中展现了巨大的应用潜力，为用户带来了前所未有的智能体验。一、DeepSeek简介DeepSeek由杭州深度求索人工智能基础技术研究有限公司推出，是一款集自然语言处理（NLP）、计算机视觉（CV）、强化
BUUCTF：[ISITDTU 2019]EasyPHP --- rce 超级异或，，，吐了，，，字符之间异或，成型的异或payload！！！ Zero_Adam BUUCTF刷题记录 RCE python
目录:一、自己做：二、学的的三、学习WP1.这里先来个不限制字符个数的关于这个%ff以及异或的事情，咱们好好唠唠1.生成异或中间值的python脚本2.看有字符限制的时候，：参考：末初一、自己做：0xd)die('youaresoclose,omg');eval($_);?>过滤了，不少，我一般碰到rce的题，就看自己的笔记，然后把payload一股脑的网上怼，，，二、学的的正则看不明白的时候，可
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
MoonBit 编译器（留档学习） skywalk8163 编程语言 linux 服务器运维
MoonBit编译器MoonBit是一个用户友好，构建快，产出质量高的编程语言。MoonBit|Documentation|Tour|CoreThisisthesourcecoderepositoryforMoonBit,aprogramminglanguagethatisuser-friendly,buildsfast,andproduceshighqualityoutput.安装先安装依赖：s
【Python】一文教你快速遍历文件夹下所有文件鸽芷咕 python 开发语言
鸽芷咕：个人主页个人专栏:《C++干货基地》《粉丝福利》⛺️生活的理想，就是为了理想的生活!博主简介博主致力于嵌入式、Python、人工智能、C/C++领域和各种前沿技术的优质博客分享，用最优质的内容带来最舒适的阅读体验！在博客领域获得C/C++领域优质、CSDN年度征文第一、掘金2023年人气作者、华为云享专家、支付宝开放社区优质博主等头衔。个人社区&个人社群加入点击即可介绍加入链接个人社群社群
我在京东工作已经来到第8个年头，从2016年的实习生到如今负责部门整体架构，这段职业旅程中充满了感悟。简单回顾我的个人成长里程碑：2017年正式加入京东后，从一名新人开始，逐步了解公司的业务、文化，毕设专业企业源码站2 架构
我在京东工作已经来到第8个年头，从2016年的实习生到如今负责部门整体架构，这段职业旅程中充满了感悟。简单回顾我的个人成长里程碑：2017年正式加入京东后，从一名新人开始，逐步了解公司的业务、文化，以及学习如何成为一名合格的职场人；19-21年，我开始负责一块完整的业务，并逐渐成长为小组负责人；2022年开始负责整个部门的架构，并且开始参与一些公司核心项目的设计与落地。这一路走来经历的挫折与收获也
Megatron：深度学习中的高性能模型架构 gs80140 基础知识科谱 AI 机器学习人工智能
Megatron：深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架，主要针对大规模Transformer架构模型的高效训练与推理。Megatron大多用于GPT（生成式预训练模型）、BERT等Transformer模型的预训练，擅长在大规模数据集和高性能计算资源上进行训练。Megatron的主要特点1.超大模型的高效训练模型并行（ModelParalle
常见问题This application failed to start because not Qt platform plugin could be initialized. 季截 qt qt 开发语言
ThisapplicationfailedtostartbecausenotQtplatformplugincouldbeinitialized.Reinstallingtheapplicationmayfixthisproblem.从qt安装目录将依赖dll和plugins下的文件夹放在可执行程序目录下
对领域驱动设计(DDD)的学习成果 huaishu 架构
领域驱动设计之领域模型2004年EricEvans发表Domain-DrivenDesign–TacklingComplexityintheHeartofSoftware（领域驱动设计），简称EvansDDD。领域驱动设计分为两个阶段：以一种领域专家、设计人员、开发人员都能理解的“通用语言”作为相互交流的工具，在不断交流的过程中不断发现一些主要的领域概念，然后将这些概念设计成一个领域模型；由领域模
30秒知识快学插件指南瞿旺晟
30秒知识快学插件指南30_seconds_of_knowledgeGoogleChromeExtensionthatletsyougainnewdeveloperskills,everytimeyouopenaNewTab.项目地址:https://gitcode.com/gh_mirrors/30/30_seconds_of_knowledge项目介绍30秒知识快学是一款专为开发者设计的Goo
python 用matplotlib作图，报错not Qt platform plugin could be initialized aLagrange python bug
重装Pycharm后，用matplotlib画图ThisapplicationfailedtostartbecausenotQtplatformplugincouldbeinitialized.##标题背景：重新安装pycharm后使用matplotlib画图弹出错误窗口全程又没有调用过Pyside2或pyqt5.新建了一个Project,导入matplolib，运行一个最简单的程序importm
996引擎 -地图-动态创建副本地图笑虾 996引擎 996引擎
996引擎-地图-动态创建副本地图添加测试NPC效果参考资料添加测试NPCNPC面板--NPC入口函数functionmain(player)--获取玩家的用户名localUSERNAME=getconst(player,"$USERNAME"
Python 框架之 Anaconda 下 Django 环境的快速搭建与验证的相关说明仙魁XAN python python anaconda django
Python框架之Anaconda下Django环境的快速搭建与验证的相关说明目录Python框架之Anaconda下Django环境的快速搭建与验证的相关说明一、简单介绍二、实现原理三、环境四、涉及命令五、搭建具体步骤1、打开AnacondaNavigator2、Create构建一个环境，选择自己需要的python版本即可3、AnacondaPrompt打开命令行操作4、condainfo--e
while循环 Along丶WG #Java 基础 java
介绍语法：循环变量初始化；while(循环条件){循环体；循环变量迭代;}while也有四要素，只是四要素的位置和for不一样。代码演示publicstaticvoidmain(String[]args){//输出10次Hello,World!inti=1;//循环变量初始化while(i=40&&k<=endNum2){if(k%2==0){System.out.println(k);}k++;
do..while 循环 Along丶WG #Java 基础 java
介绍语法：循环变量初始化;do{循环体(语句);循环变量迭代;}while(循环条件);说明：dowhile也有循环四要素,只是位置不一样先执行，再判断，也就是说，一定会至少执行一次最后有一个分号;代码演示publicstaticvoidmain(String[]args){//输出10次Hello,World!inti=1;//循环变量初始化do{System.out.println("Hell
MySQL基础学习总结（二）_select round(3 字节全栈_kYu mysql 学习数据库
|abc ||abc ||abc ||abc ||abc ||abc ||abc ||abc ||abc ||abc |+---------+selectabcfromemp;ERROR1054(42S22):Unknowncolumn'abc'in'fieldlist'这样肯定报错，因为会把abc当做一个字段的名字，去emp表中找abc字段去了。**结论：select后面可以
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方