汀、人工智能

应对数据爆炸时代，揭秘向量数据库如何成为AI开发者的新宠，各数据库差异对比

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实战掌握技能，助力用户更好利用 CSDN 平台，自主完成项目设计升级，提升自身的硬实力。

专栏订阅：项目大全提升自身的硬实力
[专栏详细介绍：项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）

应对数据爆炸时代，揭秘向量数据库如何成为AI开发者的新宠，各数据库差异对比

随着大模型的爆火，向量数据库也越发成为开发者关注的焦点。为了方便大家更好地了解向量数据库，我们特地推出了《Hello, VectorDB》系列，本文将从宏观角度、向量数据库与其他算法库的区别、技术难点及如何选择向量数据库等方面，带大家认识真正的向量数据库。

在正式开始前，先来了解一个背景：非结构化数据呈爆炸式增长，而我们可以通过机器学习模型，将非结构化数据转化为 embedding 向量，随后处理分析这些数据。在此过程中，向量数据库应运而生。向量数据库是一种为了高效存储和索引 AI 模型产生的向量嵌入（embedding）数据而专门设计的数据库。

1.宏观解读向量数据库

如今，强大的机器学习模型配合 Milvus 等向量数据库的模式已经为电子商务、推荐系统、语义检索、计算机安全、制药等领域和应用场景带来变革。而对于用户而言，除了足够多的应用场景，向量数据库还需要具备更多重要的特性，包括：

可灵活扩展、支持调参：当向量数据库中存储的非结构化数据量增长至数亿或数十亿时，支持跨节点水平扩展这一特性显得至关重要。因为，没有人愿意通过每 3 个月在服务器中手动插入一次 RAM 内存条这种方法来实现扩展。此外，由于数据插入速率、查询速度和基础硬件条件会根据应用场景而有所变化，所以向量数据库还需要支持灵活调参。
多租户、数据隔离：为每一个新用户的数据创建一个全新向量数据库，显然不合常理。因此向量数据库需要支持多租户。同时，通过支持数据隔离，只有 collection 所有者允许共享数据时，collection 数据才对其他用户可见。否则，在向量数据库中对任何一个 collection 进行数据插入、删除、查询等操作时，其他用户均不可见。
完整的 API：如果没有完整的 API 和 SDK，基本算不上是真正的数据库。Milvus 向量数据库就提供了 Python、Node、Go 和 Java 等语言的 SDK，方便用户轻松连接和管理 Milvus 向量数据库。
**直观的用户界面或管理控制台：**直观的用户界面可以大大降低学习成本。用户可以通过界面来体验向量数据库发布的新功能和工具。

1.1 向量数据库与 ANN 算法库的区别

我们经常听到一个这样的错误观念——向量数据库只是在 ANN（approximate nearest neighbor，近似最近邻）算法上封装了一层。但这种说法大错特错。

向量数据库可以处理大规模数据，而 ANN 算法库只能处理小型的数据集

从本质上来看，以 Milvus 为代表的向量数据库是一套完整的非结构化数据解决方案，具备诸多功能——云原生、多租户、可扩展性等。但诸如 FAISS 等都是轻量级 ANN 算法库，这些算法库的主要用于构建向量索引（一种数据结构），从而加速多维向量的最近邻检索。这些算法库可以轻松应对小型数据集。但是，随着数据集和用户数量不断增长，这些算法库无法处理大规模数据。

Milvus 架构图

向量数据库是一套完整的解决方案，而 ANN 算法库只是其中一部分

以 Milvus 为代表的向量数据库与 ANN 算法库另一大不同之处在于：Milvus 是一套完整的服务，而算法库是需要被集成到应用中去的。因此，从某种意义上而言，算法库是向量数据库的组件之一。这有点类似于 Elasticsearch 是一套基于 Apache Lucene 的搜索引擎解决方案。

为了具体说明这种区别，我们来举一个例子。

在 Milvus 向量数据库中插入非结构化数据只需要三行代码即可。

from pymilvus import Collection
collection = Collection('book')
mr = collection.insert(data)

但对于 FAISS 或 ScaNN 这样的算法库，没有这样可以简单插入数据的方法。即使自己通过代码实现插入数据，ANN 算法库仍然缺乏可扩展性和多租户等特性。

算法库距离生产可用的产品，差了一个向量数据库的距离

对于一个想要将向量检索功能集成进生产环境的用户，即使完成了算法库集成的开发，想要让其生产可用，更需要让其能够被运维：

动态的可扩展性，在系统的压力较大时能做到扩容，提供多个可读副本
高可用性，在发生异常时能够继续提供降级服务
正确的快速恢复，在发生异常状态后能够快速恢复到正常的状态，并且保证数据的一致性和完整性
多租户，足够的权限控制
对于系统状态可监控，能够让运维团队乃至开发者快速发现系统异常并且处理，等等

而这些功能，是算法库本身并不具备的，往往需要成熟的数据库产品 / 服务来提供。

1.2 向量数据库与传统数据库向量检索插件的区别**

越来越多的传统关系型数据库和检索系统（如 Clickhouse、Elasticsearch 等）开始提供内置的向量检索插件。

例如，Elasticsearch 8.0 支持通过 Restful API 来插入向量和开展 ANN 检索。但是，向量检索插件的问题显而易见——无法提供 embedding 向量管理和检索的全栈方法。这些插件仅可在现有的架构基础上用作优化方案，使用场景十分有限。在传统数据库基础上开发非结构化数据应用就如同在汽油车中安装锂电池和电动机一样不合常理。向量检索插件不支持灵活调参，也不提供易用的 API 或 SDK。但这两点是向量数据库的基本特性。

为了展示向量数据库与向量检索插件的区别，文本将以 Elasticsearch ANN 搜索引擎为例，其他向量检索插件运行方式类似，因此不进一步展开。

Elasticsearch 的 dense_vector 字段支持向量数据类型，且可以通过 knnsearch endpoint 进行向量查询。

PUT index
{"mappings": {"properties": {"image-vector": {"type": "dense_vector","dims": 128,"index": true,"similarity": "l2_norm"}}}}

PUT index/_doc
{"image-vector": [0.12, 1.34, ...]}

GET index/_knn_search
{"knn": {"field": "image-vector","query_vector": [-0.5, 9.4, ...],"k": 10,"num_candidates": 100}}

Elasticsearch 的 ANN 插件仅支持 HNSW 一种索引和 L2（欧式距离）一种距离计算方法。但下面，让我们来使用向量数据库 Milvus（以 pymilvus 为例）。

>>> field1 = FieldSchema(name='id', dtype=DataType.INT64, description='int64', is_primary=True)
>>> field2 = FieldSchema(name='embedding', dtype=DataType.FLOAT_VECTOR, description='embedding', dim=128, is_primary=False)
>>> schema = CollectionSchema(fields=[field1, field2], description='hello world collection')
>>> collection = Collection(name='my_collection', data=None, schema=schema)
>>> index_params = {
        'index_type': 'IVF_FLAT',
        'params': {'nlist': 1024},
        "metric_type": 'L2'}
>>> collection.create_index('embedding', index_params)

>>> search_param = {
        'data': vector,
        'anns_field': 'embedding',
        'param': {'metric_type': 'L2', 'params': {'nprobe': 16}},
        'limit': 10,
        'expr': 'id_field > 0'
    }
>>> results = collection.search(**search_param)

虽然 Elasticsearch 和 Milvus 都支持创建索引、插入 embedding 向量、执行 ANN 向量检索，但从以上示例中可以明显看出，Milvus 具备更直观的向量检索 API（可更好服务用户），支持更多样的向量索引类型和距离计算公式（方便用户灵活调参）。Milvus 还计划在未来支持更多的索引类型，并允许用户通过类似 SQL 语句进行查询，从而进一步提升向量数据库的可用性。

简而言之，诸如 Milvus 的向量数据库比向量检索插件更好用。因为 Milvus 是从零开始构建的向量数据库，相较而言，具备更丰富的功能和更适合非结构化数据的系统架构。

1.3 向量数据库的优势

向量数据库的主要应用领域为相似性检索、机器学习、人工智能等。与传统数据库比较，向量数据库具备以下几点优势：

高维向量检索：向量数据库可以高效进行高维向量相似性检索，非常适用于机器学习和人工智能应用中，如：图片识别、自然语言处理、推荐系统等。
灵活性：向量数据库可以处理多样的向量数据类型，包括稀疏向量和稠密向量。此外，向量数据库还可以处理其他的数据类型，包括：数字、文本、二进制数据（Binary）。
性能：相较于传统数据，使用向量数据库进行相似性检索更高效。
支持选择不同索引结构：向量数据库支持用户根据不同的应用场景和数据类型构建不同的索引结构。

总结一下，向量数据库在相似性检索和机器学习场景中具有显著优势，能够快速、高效检索和召回高维向量数据。

1.4 选择向量数据库时需要考量的点

性能
如上述，查询性能（查询的响应时间，系统的吞吐能力）是在选型向量数据库时的一个重要参考点，市面上现有的向量数据库的 Benchmark 有：
- ANN-Benchmark 是一种用于评估各种向量数据库和近似最近邻（ANN）算法性能的工具
- VectorDBBench 是一款开源的对于各种主流向量数据库和云服务的性能对比工具，提供了 QPS / 成本 / 响应延时等多个维度的比较，提供了方便的 Web UI
- LeaderBoard TL;DR VectorDBBench 的 “太长不看” 版本
成本

由于 AIGC 浪潮的火热，大量新的开发者涌入这个领域，因此在选择向量数据库产品时，成本也是用户具体做出决策的重要指标。在产品初期，数据体量不大的情况下，能够用最少的成本达到应用需求的响应时间和系统吞吐，是开发者最希望达到的目标。

功能和易用性

除了性能之外，一款流行的数据库必然也提供了生产可用的产品特性，如：

高可用，快速恢复
成熟的指标监测体系及告警系统
定期备份及恢复

并且相较于算法库，能够对于用户屏蔽许多底层细节：

根据存储 / 性能考量，自动选择向量索引类型
根据需要的召回率（Recall）动态决定搜索参数

这些往往是用户在性能之外，选择向量数据库时考量的点。

2.向量检索实战&向量数据库如何选择

2.1 快速入门向量检索

2.1.1 Python-NumPy实现

向量数据库具有快速计算向量相似度的优势，能在 N 个向量中找出与目标向量在高维空间中最相似的前 K 个向量。然而，这种能力并非仅有向量数据库所具备。例如，我们可以通过使用 Python 的 NumPy 库，用不到 20 行代码就能实现最近邻算法。

以下是一个简单的例子：

import numpy as np

#Function to calculate euclidean distance
def euclidean_distance(a, b):
    return np.linalg.norm(a - b)

#Function to perform knn
def knn(data, target, k):
    #Calculate distances between target and all points in the data
    distances = [euclidean_distance(d, target) for d in data]
    
    #Combine distances with data indices
    distances = np.array(list(zip(distances, np.arange(len(data)))))

    #Sort by distance
    sorted_distances = distances[distances[:, 0].argsort()]

    #Get the top k closest indices
    closest_k_indices = sorted_distances[:k, 1].astype(int)

    #Return the top k closest vectors
    return data[closest_k_indices]

我们可以试着生成 100 个 2 维向量，然后找出与向量 [0.5,0.5] 最近的邻居。

代码如下：

#Define some 2D vectors
data = np.random.rand(100, 2)

#Define a target vector
target = np.array([0.5, 0.5])

#Define k
k = 3

#Perform knn
closest_vectors = knn(data, target, k)

#Print the result
print("The closest vectors are:")
print(closest_vectors)

这种方法具有很大的灵活性，且实现起来成本低。如果你符合以下情况，我会推荐你使用 NumPy 或其他机器学习库进行向量搜索：

快速进行原型验证。
没有数据持久化的需求。
数据量小于一百万，且没有标量过滤的需求。
对查询性能要求不高。

2.1.2 FAISS 的向量检索

相对地，如果你需要快速构建原型系统并对性能有一定要求，FAISS 可能是一个好选择。FAISS 是 Meta 开源的一个库，用于高效相似性搜索和密集向量聚类。它能处理任意大小的向量集合，甚至是无法全部装入内存的集合。FAISS 还包含了用于评估和参数调优的工具。FAISS 是用 C++ 编写的，但提供了完整的 Python/NumPy 接口。

以下是一个基于 FAISS 的向量检索代码：

import numpy as np
import faiss

#Generate some example data
dimension = 64                            # dimension of the vector space
database_size = 10000                     # size of the database
query_size = 100                          # number of queries to perform
np.random.seed(123)                       # make the random numbers predictable

#Generating vectors to index in the database (db_vectors)
db_vectors = np.random.random((database_size, dimension)).astype('float32')

#Generating vectors for query (query_vectors)
query_vectors = np.random.random((query_size, dimension)).astype('float32')

#Building the index
index = faiss.IndexFlatL2(dimension)  # using the L2 distance metric
print(index.is_trained)              # should return True

#Adding vectors to the index
index.add(db_vectors)
print(index.ntotal)                  # should return database_size (10000)

#Perform a search
k = 4                                # we want to see 4 nearest neighbors
distances, indices = index.search(query_vectors, k)

#Print the results
print("Indices of nearest neighbors: \n", indices)
print("\nL2 distances to the nearest neighbors: \n", distances)

看起来足够简单，性能似乎也足够快，也能够应付小规模的生产场景。当然，还可以通过量化、降维、使用 GPU 等方案进一步提升查询性能。

然而，**尽管向量搜索库如 Faiss 提供了强大和高效的向量搜索功能，但在实际生产环境中，它们存在一些限制。**例如，Faiss 并没有提供处理数据的实时增删、缺乏多语言的支持，无法提供远程调用、不支持标量过滤、也不提供数据的持久化，可扩展性和容灾等问题的解决方案。

2.1.3 向量数据库之间的对比

正是因为这些原因，向量数据库应运而生，为我们提供了一种更完整、更适合实际应用场景的解决方案。向量数据库战场目前主要分为四个类别：

**基于 PG、Clickhouse 等进行魔改或者插件化实现的向量数据库。**这类解决方案以现有的关系数据库或列存数据库作为基础，通过修改或插件扩展的方式添加向量搜索功能，PG Vector 是这类解决方案的代表产品。
**基于传统倒排搜索添加稠密向量索引支持的向量数据库。**这类解决方案以倒排索引搜索引擎作为基础，通过扩展索引机制以支持向量搜索，ElasticSearch 是这类解决方案的代表产品。
**基于向量检索库实现的轻量级向量数据库。**这类解决方案以向量搜索库（如 Faiss）为核心，围绕其构建数据库功能。这些产品通常具有较小的体积和较高的运行效率，Chroma 是这类解决方案的代表产品。
**基于原生向量设计的分布式向量云原生数据数据库。**这类解决方案从零开始设计和实现向量数据库，整个系统从底层到顶层都针对向量搜索进行了优化，通常提供了更完整和高级的功能，包括分布式计算、容灾备份、数据持久化等，Zilliz Cloud/Milvus 是这类解决方案的代表产品。

不过，“Not All Vector Database are born equal”（并非所有向量数据库都生来平等）。在各类向量数据库中，每种解决方案都有其独特的优点和限制，并且它们各自适合于不同的应用场景。

在所有的向量数据库方案中，我个人对基于 PG、Clickhouse 等进行魔改或者插件化实现的向量数据库（如 PG Vector）以及基于原生向量设计的分布式向量云原生数据数据库（例如 Zilliz Cloud/Milvus）这两种截然不同的解决方案特别看好。

接下来我们需要从用户场景需求，向量数据库的发展历史，向量检索的特殊性等多个角度来综合分析原因。

2.2 专用向量数据库的价值

**向量数据库最早诞生于 2019 年，由 Zilliz 公司推出并开源了全球首款向量数据库 Milvus。**在那个时期，向量数据库的功能相对比较简单，主要是基于向量检索库 Faiss 的基础上，封装了远程过程调用（RPC）接口，并支持了基于 Write-Ahead Logging（WAL）的持久化能力。

**相比于传统的向量检索方法，Milvus 1.0 的最大意义在于解耦了业务逻辑、模型和数据存储这三者之间的紧密关联。**这意味着应用开发者不再需要关注底层基础设施的维护工作，这些工作包括但不限于集群的部署、数据的持久化和数据的迁移等。因此，Milvus 1.0 为许多用户提供了从传统烟囱式的人工智能开发模式向大模型时代（在这个时代，开发者常常使用如下的开发模式：大语言模型（LLM）+ 编排工具 + 向量数据库）的过渡。

传统的向量检索应用场景包括了推荐系统、以图搜图、问答机器人、内容风控，面向的主要是具备较强 AI 能力和运维能力的企业级用户，用户关注的主要是查询能力、性能、大数据量下的可扩展性以及可运维性、可观测性、安全性等企业级能力。

**随着大模型技术的蓬勃发展，向量数据库开始进入 2.0 时代，更多的个人开发者涌入赛道，对向量数据库的关注也逐渐迁移到开发效率、部署简单以及面向大模型加强场景的功能需求。**也正是这波狂热的浪潮下诞生了诸如 Chroma 这样的套壳向量数据库，其跟存储引擎相关的代码不过寥寥十个文件。

不止 Chroma，DataStax、Redislab 等传统数据库厂商也纷纷加入战局。正如上文中提到的，基于 numpy 或者 Faiss 可以五分钟快速实现一个 “向量数据库”。然而，向量数据库绝不仅仅是用来进行简单的向量检索，要想真正提升开发者的开发效率和使用成本，需要系统开发者深入理解硬件、存储、数据库、AI、高性能计算、分布式系统、编译原理、云原生等方方面面，以确保其稳定性、性能和易用性。

构建向量数据库就像搭积木一样，需要分模块、分层次

数据持久化和低成本存储

**作为一个数据库，数据不丢是最低的底线。**许多单机和轻量级的向量数据库并没有关注数据的可靠性，Milvus 基于对象存储和消息队列的存储方案既通过存储计算分离提升了系统的弹性和扩展性，又保证了系统的可持久化性。更为重要的是，大多数 ANN 索引都是纯内存加载的，需要消耗大量内存才能执行检索。Milvus 是全球第一款支持磁盘索引的向量数据库，相比磁盘索引可以提供 10 倍以上的存储性价比。

高性能查询

**查询性能是选择 ANN 而非 KNN 暴力搜索的核心需求。**经过测试，市面上大量传统数据库向量检索插件其查询性能只有 Milvus 十分之一，且由于没有对索引进行分片，索引构造的时间和效率会随着数据量的增长大幅下降，因此只能适用于千万级数据量且不存在频繁增删的场景。

作为一个计算密集型应用，向量数据库的重要关注点在于充分压榨 CPU 算力，甚至利用异构算力实现加速。根据我们的内部测试结果，GPU 向量索引可以实现在千万数据集下万级别的 QPS，单机性能高于传统 CPU 索引一个数量级。向量数据库既是一个数据库，也是一个高性能计算系统，开发者需要拥有很强的 Hardware sympathy，这也是我认为我们需要 Purpose built 向量数据库的重要原因。

数据分布

**传统数据库的分库分表分片往往基于主键或者分区键。**对于传统数据库而言这种设置非常合理，原因是用户查询时往往给出确切的查询条件并路由到对应的分片。对于向量数据库而言，查询往往是找到全局与目标向量相似的向量，此时查询往往需要像 MPP 数据库一样在所有分区执行，算力需求随着数据量增长而增加。

向量原生数据库将向量作为一等公民，可以根据向量数据分布设置合理的分区策略，并充分利用数据分布信息设置查询策略来提升查询性能和查询精度。

易于使用

关于究竟什么是易用，不同的用户应该有自己的定义。向量数据库市场上，基于 GRPC 实现的多语言客户端，原生 Restful 接口和 SQL 接口都不乏拥簇。

见证了过去 10 年 NoSQL 到 NewSQL 的发展历程，我更愿意相信 SQL 这种表达能力更加丰富的查询语句才是最终的解决方案。除了基本的标量过滤，我们已经见到了用户对于聚合函数（Count，Groupby），函数和 Pagination 等传统数据库能力的需求。这也是我更看好基于 PG、Clickhouse 等进行魔改或者插件化实现的向量数据库的实现路径的一个原因。在对向量检索性能扩展性要求不高的场景下，这种实现方式的功能覆盖面更广，且与传统用户的使用心智更为接近。

与此同时，向量数据库的功能和数据模型必须贴近用户的应用场景。对于 AIGC 用户来讲，动态 Schema、多向量打分、标量向量混合打分、基于距离的范围查询这些查询能力都非常贴近业务场景，而这些场景并非简单的基于开源向量检索库就可以快速实现。

稳定可用

**向量数据库是典型的 Big Data Serving 系统。**一方面，向量数据库的写入来源于上游的推理系统，存在非常明显的离线和批量特性。另一方面，向量数据库很多应用场景面向在线查询，有严格的查询时延限制和高吞吐要求。在向量数据库的使用场景中，很多用户都要求单机故障能在分钟级恢复，同时也有越来越多的关键场景提出了主备容灾甚至跨机房容灾的需求。基于向量数据库的使用场景，传统基于 Raft/Paxos 的复制策略存在着资源浪费严重，数据预先分片困难等问题。Milvus 基于分布式存储和消息队列实现数据的可用性，基于 K8s 实现无状态故障恢复的无疑更省资源，故障恢复时间也更短。

**向量数据库的稳定性另一个重要挑战是资源管理。**传统数据库更加关注磁盘、网络等 IO 资源的调度管理，而向量数据库的核心瓶颈是计算和内存。Milvus 社区也有大量关于内存的管理和算力的调度的 PR，这些能力很难短期之内通过改造传统数据库或者在 Chroma 这种轻量级向量数据库中实现。

可运维可观测

想要成为一个企业级数据库，Milvus 不仅仅是提供软件，打包发布这么简单。Milvus 支持多种部署模式，例如 K8s Operator 和 Helm chart、docker compose、pip install 等，并提供了基于 grafana、prometheus 和 Loki 的监控报警体系。Zilliz 还开源了向量数据库可视化管理组件 Attu 以及向量数据库可视化工具 Feder，大大降低了向量数据库的管理难度，提升了向量检索的可解释程度。

**得益于 Milvus 2.0 的分布式云原生架构，Milvus 也是业内首款支持多租户隔离、RBAC、Quota 限流、滚动升级的向量数据库。**由于向量数据库计算、内存密集型的特性，传统数据库的隔离和限流能力很难在不做改造的情况下直接发挥作用。

智能化

Milvus 是一个 DB4AI 的系统，同时也是做了大量 AI4DB 的尝试。向量数据库与传统数据库的最大区别来源于对数据的返回准确度要求不同。传统数据库要求百分之百正确的返回结果，而向量数据库的 ANN 计算天生就属于近似匹配。通过 AI 改造向量数据库系统，其空间远远大于传统数据库进行调优或辅助问题排查。

基于 Milvus 打造的全托管企业级向量检索服务 Zilliz Cloud 创造性地提出了 AutoIndex，通过模型预测 recall 设置对应的查询参数，在大数据量下可以在 recall 几乎无损的情况实现 2-3 倍的性能优化。不仅如此，量化技术，降维，ranking 等传统 AI 领域的技术也被广泛应用于向量数据库中，传统数据库开发者明显缺乏对这些技术的理解。

参考文档

尽管构建向量数据库的是一件复杂的工作，使用向量数据库却是一件如使用 numpy、Faiss 般简单的工作，即使对 AI 并不了解的同学也可以在十分钟内基于 Milvus 快速实现向量检索。想要体验高性能，强扩展性的向量检索服务，仅仅需要三步：

1）请先参考 Milvus 部署文档 https://milvus.io/docs/install_standalone-docker.md 部署 Milvus 服务。

2）参考 Hello Milvus 文档 https://milvus.io/docs/example_code.md，50 行代码即可实现向量检索功能。

3）查看 Towhee 的范例文档 https://github.com/towhee-io/examples/，了解向量数据库的应用场景，包括图片检索、知识增强、图文问答、视频去重等应用场景。

更多优质内容请关注公号：汀丶人工智能；会提供一些相关的资源和优质文章，免费获取阅读。

你可能感兴趣的:(Milvus,人工智能,milvus,语义搜索,自然语言处理,向量数据库,ANN算法,FAISS)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
容易满足的小孩洒在心头的阳光
去年买的榨汁机没有用几次就坏了，前些时间答应娃儿给他买个，天天没事就问我，啥时候买，还自己淘宝上比较，加入购物车，这不前几天赶紧给他买了，省的每天叨叨在我耳边念叨着。今天终于到货了，因为他一直想和喝芒果汁，顺便买了芒果在家，放学回来兴奋的，赶紧要榨芒果汁，还特意搜索一下芒果汁的做法，我说他要是学习能有吃这般如此认真，我也就没有那么操心了。今晚喝到了芒果汁，他很开心，是阿，孩子就是这么容易满足，得到
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo