亚马逊云开发者

使用 PostgreSQL pgvector 和 Amazon SageMaker 构建 AI 驱动的搜索应用

各行各业的组织正在寻求利用生成式人工智能（Generative AI）和大型语言模型（LLM）的巨大潜力，显著改进用户体验的新方法。

在时尚行业，生成式人工智能完全改变了创作过程。人工智能算法分析用户喜好和数据，生成独具特色的服装图案和设计，将个性化和成本效益提升到全新的高度。

在线流媒体平台也得益于人工智能的强大功能，特别是视频相似性搜索和推荐方面。人工智能算法可分析用户行为，推荐与用户兴趣高度相似的视频，从而增强整体观看体验。此外，对于人工智能提供技术支持的图像和视频托管服务，它们可提供图像重复数据删除、图像相似性搜索，以及文本到图像相似性搜索，从而全面改进搜索功能。

人工智能在其他领域也发挥重要作用，例如化学信息学和生物信息学行业。人工智能利用分子相似性搜索和 DNA 序列分类相似性搜索，在药物发现和研究领域发挥重要作用。无论识别潜在备选药物或分析 DNA 序列，大众普遍认为人工智能是一种极具价值的工具。

在本博客中，我们将为您讲解如何集成 Amazon SageMaker 和 Amazon Relational Database Service (Amazon RDS) for PostgreSQL 的 pgvector插件，创建产品目录相似性搜索解决方案，从而生成相似的解决方案。

pgvector 是一款 PostgreSQL 的开源插件。该插件可存储和搜索机器学习生成的embedding数据。pgvector 具有不同功能，支持用户识别精确和近似的邻域数据。该插件旨在与其他 PostgreSQL 功能无缝协作，其中包含创建索引和执行查询。甚至，也可使用 pgvector，存储 Amazon Bedrock（部分预览）机器学习训练输出的embedding数据。

无论您所处零售、游戏、流媒体服务或生命科学等行业，本博客在使用人工智能和 PostgreSQL 插件pgvector 实施相似性搜索等其他操作方面，提供了非常独到的见解。现在就开始吧！

Vector Embeddings 概览

Embedding 是指，将文本、图像、视频或音频等对象转换为数字表征的过程；在此过程中，高维向量空间会保留这些数字表征。该技术的实现主要得益于机器学习（ML）算法；这些算法可读懂数据含义及上下文（语义关系），学习数据的复杂关系和模式（句法关系）。对于生成的向量表征，其应用范围多种多样，例如信息检索、图像分类、自然语言处理等。

由于 Vector Embeddings 以易于计算和可扩展的方式方便捕捉对象间的语义含义和相似性，因此它们越来越受欢迎。下图直观显示了Word Embeddings的外观。

图 1：Word Embeddings：对于语义相似的词，它们在向量空间中密切相关。

在生成 Embeddings 后，应用程序或研究人员可在向量空间内执行相似性搜索。采用 Embedding 的相似性搜索对各行各业应用有益，其中包含电子商务、推荐系统和欺诈检测。例如，系统可识别产品或交易之间的数学相似性，便于创建相关产品推荐，或确定潜在的欺诈活动。

在本博客中，我们采用适用于 Amazon RDS for PostgreSQL 的开源 pgvector 插件。该插件便于存储向量数据，也可查询向量的最近邻域数据。利用为在线零售店生成的实验室方案，演示此功能。使用 SageMaker 为产品目录生成Embedding，采用 pgvector 插件将其存储到 RDS for PostgreSQL，并利用 Embedding 之间的相似性为产品目录提供向量相似性搜索功能。

使用 pgvector 实现Embedding向量的

高效相似度搜索

PostgreSQL 使用 pgvector 插件，对 Vector Embeddings 执行高效的相似性搜索，并为企业提供快速成熟的解决方案。

要为产品目录生成 Vector Embeddings，使用 Amazon SageMaker 或 Amazon Bedrock（部分预览）等机器学习服务。SageMaker 支持轻松训练和部署机器学习模型，其中包含为文本数据生成 Vector Embeddings 的模型。

在本博客中，我们使用预先训练的模型 Hugging Face Inference Deep Learning Container (DLC) 和 Amazon SageMaker Python SDK，创建实时推理端点；该端点运行 all-MiniLM-L6-v2 语句转换器模型，生成文档 Embedding。使用 pgvector 插件，将 Vector Embeddings 存储到 RDS for PostgreSQL 数据库。然后，使用 pgvector 的相似性搜索功能，在产品目录中查找与客户搜索查询意图最匹配的项目。

pgvector 的索引功能将进一步增强搜索优化。您可为向量数据编制索引，从而加速搜索过程，并在确定任何指定向量的最近邻域方面，最大限度地缩短所需的时间。我们会测试如何集成 pgvector 插件与 PostgreSQL，从而为 Vector Embeddings 的相似性搜索提供简化高效的解决方案。

我们来了解 pgvector 的工作方式。首先，创建并连接到 RDS for PostgreSQL 数据库，并安装插件。在安装成功后，请在数据库中启动存储 Vector Embeddings，并按需搜索。

CREATE EXTENSION vector;

左滑查看更多

pgvector 插件扩展引入了名为 vector 的数据类型。您会发现，安装 vector 数据类型需要使用下列 SQL 语句：

SELECT typname FROM pg_type WHERE typname = 'vector';

左滑查看更多

输出应如下所示：

typname --------- vector (1 row)

左滑查看更多

使用 sentence-transformers/all-MiniLM-L6-v2 模型（链接：

sentence-transformers/all-MiniLM-L6-v2

），生成 Vector Embeddings。该 Vector Embeddings 将语句和段落映射到 384 维密集向量空间，便于我们在解决方案中将其应用于向量大小。

我们回顾了使用 pgvector 的示例。使用下列代码，创建用于存储 3 维向量的测试表，插入一些示例数据，使用欧氏距离（Euclidean Distance，也称 L2 距离）执行查询，并删除测试表：

CREATE TABLE test_embeddings(product_id bigint, embeddings vector(3) ); INSERT INTO test_embeddings VALUES (1, '[1, 2, 3]'), (2, '[2, 3, 4]'), (3, '[7, 6, 8]'), (4, '[8, 6, 9]'); SELECT product_id, embeddings, embeddings <-> '[3,1,2]' AS distance FROM test_embeddings ORDER BY embeddings <-> '[3,1,2]'; DROP TABLE test_embeddings;

左滑查看更多

SELECT 语句应返回以下输出：

product_id | embeddings |    distance 
------------+------------+------------------- 
1 | [1,2,3]   | 2.449489742783178 
2 | [2,3,4]   |          3 
3 | [7,6,8]   | 8.774964387392123 
4 | [8,6,9]   |   9.9498743710662 
(4 rows)

左滑查看更多

有关其他详细信息，请参阅 GitHub 仓库（https://github.com/pgvector/pgvector）。

演示：

使用相似性搜索，

增强在线零售店中执行产品目录搜索

鉴于已了解如何使用 pgvector 生成向量相似性搜索，我们现在学习如何使用 pgvector 为在线零售店的产品目录生成搜索解决方案。我们将生成搜索系统；该系统支持客户输入项目描述，查找相似项目返回给客户。

以下部分介绍了执行产品相似性搜索的分步演示。在 SageMaker 实例中，使用 Hugging Face 预训练的模型，为产品描述生成 Vector Embeddings。使用 Amazon RDS for PostgreSQL 进行存储，并利用 pgvector 插件对 Vector Embeddings 执行相似性搜索。

工作流步骤如下所示：

在 SageMaker notebook实例中，用户与 Jupyter notebook进行交互。SageMaker notebook实例是机器学习计算实例，并运行 Jupyter notebook应用程序。SageMaker 管理创建实例和相关资源。
最初，对于每个使用德语开源的项目描述，使用 Amazon Translate 将其翻译为英语。
要为项目描述生成Embedding，请将预先训练的 Hugging Face sentence transformer model 部署到 SageMaker，以便开展实时推理。
使用 SageMaker 实时推理，为产品目录描述生成Embedding。
使用 RDS for PostgreSQL，存储原始文本（产品描述）和文本Embedding。
使用 SageMaker 实时推理，对查询文本进行Embedding编码。
借助 RDS for PostgreSQL，使用pgvector 执行相似性搜索。

将 Amazon SageMaker Studio notebook 用作集成开发环境（IDE），开发解决方案。下图讲解了解决方案的体系结构。

先决条件

参加本演示，您应先创建亚马逊云科技账户，并拥有相应的 Amazon Identity and Access Management (IAM) 权限，才可以启动预制的 Amazon CloudFormation 模板。

部署解决方案

使用 CloudFormation 堆栈，部署此解决方案。堆栈会创建所有必要的资源，其中包含以下内容：

网络组件，例如 VPC 和子网资源。
SageMaker notebook实例（在 Jupyter notebook中运行 Python 代码）。
与notebook实例关联的 IAM 角色。
RDS for PostgreSQL 实例（存储和查询 Vector Embeddings）。

要开始使用，请完成下列步骤：

使用 IAM 用户名和密码，登录亚马逊云科技管理控制台。
选择“启动堆栈”，并使用新选项卡打开： Launch Stack
在“创建堆栈”页面中，选中复选框，确认创建 IAM 资源。
选择“创建堆栈”。
请等待堆栈创建完成。在“事件”选项卡中，检查堆栈创建过程中的各种事件。在堆栈创建完成时，将显示 CREATE_COMPLETE 状态。
在“输出”选项卡中，选择 NotebookInstanceURL 。这个链接将在 SageMaker notebook 实例中打开 Jupyter notebook；可使用该 notebook，完成解决方案的剩余部分。
打开 notebook rdspg-vector.ipynb ，并按顺序在所有单元中运行代码，一次一个。

在以下部分中，我们将测试 Jupyter notebook中几个重要单元的部分代码，便于演示解决方案。

数据引入

使用 Zalando research FEIDEGGER 数据，其中包含 8,732 张高分辨率的时尚图像和 5 个德语文本注释，每个注释由不同的用户生成。使用 Amazon Translate，将每件连衣裙描述从德语翻译为英语。代码如下所示：

import urllib.request import os import json import boto3 filename = 'metadata.json' def download_metadata(url): if not os.path.exists(filename): urllib.request.urlretrieve(url, filename) def translate_txt(data): results = {} results['url'] = data['url'] results['descriptions'] = [] results['split'] = data['split'] translate = boto3.client(service_name='translate', use_ssl=True) for j in data['descriptions']: result = translate.translate_text(Text=str(j), SourceLanguageCode="de", TargetLanguageCode="en") results['descriptions'].append(result['TranslatedText']) return results download_metadata('https://raw.githubusercontent.com/zalandoresearch/feidegger/master/data/FEIDEGGER_release_1.2.json') with open(filename) as json_file: data = json.load(json_file) # we are using realtime traslation which will take around ~30 min. workers = 1 * cpu_count() chunksize = 32 #Translate product descriptions in German to English results = process_map(translate_txt, data, max_workers=workers, chunksize=chunksize)

左滑查看更多

SageMaker 模型托管

在本部分中，将预先训练的 all-MiniLM-L6-v2 Hugging Face sentence transformer model 托管到 SageMaker，并为产品目录生成 384 维 Vector Embeddings。

步骤如下所示：

1. 运行下列代码：

from sagemaker.huggingface.model 
import HuggingFaceModel # Hub Model configuration.  hub = { 'HF_MODEL_ID': 'sentence-transformers/all-MiniLM-L6-v2', 'HF_TASK': 'feature-extraction' } # Deploy Hugging Face Model predictor = HuggingFaceModel( env=hub, # configuration for loading model from Hub role=role, # iam role with permissions to create an Endpoint transformers_version='4.26', pytorch_version='1.13', py_version='py39', ).deploy( initial_instance_count=1, instance_type="ml.m5.xlarge", endpoint_name="rdspg-vector", )

左滑查看更多

2. 测试 SageMaker 实时推理端点，并生成 Embedding：

def cls_pooling(model_output): # first element of model_output contains all token embeddings return [sublist[0] for sublist in model_output][0] data = { "inputs": ' '.join(results[0].get('descriptions')) } res = cls_pooling( predictor.predict(data=data) ) print(len(res))

左滑查看更多

结果将显示指定输入文本的 384 维 Vector Embeddings。

3. 使用 SageMaker 请求推理，从而为产品目录描述生成 Vector Embeddings（384 维）：

def generate_embeddings(data): r = {} r['url'] = data['url'] r['descriptions'] = data['descriptions'] r['split'] = data['split'] inp = {'inputs' : ' '.join( data['descriptions'] ) } vector = cls_pooling( predictor.predict(inp) ) r['descriptions_embeddings'] = vector return r workers = 1 * cpu_count() chunksize = 32 # generate embeddings data = process_map(generate_embeddings, results, max_workers=workers, chunksize=chunksize)

左滑查看更多

4. 连接到 RDS for PostgreSQL，创建包含向量数据类型的产品表，并摄入数据。然后，为相似性搜索创建对应的索引，便于查找 L2 距离最近的邻域向量数据：

import psycopg2 from pgvector.psycopg2 import register_vector 
import boto3 import json client = boto3.client('secretsmanager') response = 
client.get_secret_value( SecretId='rdspg-vector-secret' ) 
database_secrets = json.loads(response['SecretString']) dbhost = 
database_secrets['host'] dbport = database_secrets['port'] dbuser = 
database_secrets['username'] dbpass = 
database_secrets['password'] dbconn = 
psycopg2.connect(host=dbhost, user=dbuser, password=dbpass, port=dbport, connect_timeout=10) 
dbconn.set_session(autocommit=True) 
cur = dbconn.cursor() 
cur.execute("CREATE EXTENSION IF NOT EXISTS vector;") 
register_vector(dbconn) 
cur.execute("DROP TABLE IF EXISTS products;") 
cur.execute("""CREATE TABLE IF NOT EXISTS products( id bigserial primary key, description text, url text, split int, descriptions_embeddings vector(384) );""") for x in data: 
cur.execute("""INSERT INTO products (description, url, split, descriptions_embeddings) VALUES (%s, %s, %s, %s);""", (' '.join(x.get('descriptions', [])), x.get('url'), x.get('split'), x.get('descriptions_embeddings') )) 
cur.execute("""CREATE INDEX ON products USING ivfflat (descriptions_embeddings vector_l2_ops) WITH (lists = 100);""") 
cur.execute("VACUUM ANALYZE products;") 
cur.close() dbconn.close()

左滑查看更多

5. 运行查询，使用 pgvector，从而对 RDS for PostgreSQL 中的产品表执行相似性搜索：

import numpy as np from skimage 
import io 
import matplotlib.pyplot as plt 
import requests data = {"inputs": "red sleeveless summer wear"} res1 = cls_pooling(predictor.predict(data=data)) 
client = boto3.client('secretsmanager') 
response = 
client.get_secret_value( SecretId='rdspg-vector-secret' ) 
database_secrets = json.loads(response['SecretString']) dbhost = 
database_secrets['host'] dbport = database_secrets['port'] dbuser = 
database_secrets['username'] dbpass = database_secrets['password'] dbconn = 
psycopg2.connect(host=dbhost, user=dbuser, password=dbpass, port=dbport, connect_timeout=10) 
dbconn.set_session(autocommit=True) cur = dbconn.cursor() cur.execute("""SELECT id, url, description, descriptions_embeddings FROM products ORDER BY descriptions_embeddings <-> %s limit 2;""", (np.array(res1),)) r = 
cur.fetchall() urls = [] plt.rcParams["figure.figsize"] = [7.50, 3.50] plt.rcParams["figure.autolayout"] = True for x in r: url = x[1].split('?')[0] urldata = requests.get(url).content print("Product Item Id: " + str(x[0])) a = 
io.imread(url) plt.imshow(a) plt.axis('off') plt.show() cur.close() dbconn.close()

左滑查看更多

以上代码应返回与以下示例相似的输出：

现在，客户在线零售应用程序中输入“red sleeveless summer dress”等搜索查询时，向量相似性搜索功能将为客户返回匹配度最接近的结果。

清理

在 Jupyter notebook 窗口中，运行下列代码，删除模型和端点：

predictor.delete_model() predictor.delete_endpoint()

左滑查看更多

然后，删除 CloudFormation 模板，清理其余资源。

结论

对于优化产品目录的相似性搜索体验的场景，通过SageMaker生成的Embeddings数据，将其与 Amazon RDS PostgreSQL 的 pgvector 开源插件集成，可以提供功能强大的高效解决方案。企业使用机器学习模型和 Vector Embeddings，提高相似性搜索、个性化推荐和欺诈检测的准确性和速率，最终也将显著提高用户满意度，并提供更具个性化的体验。

使用 pgvector 既可为查询大型数据集赋予可扩展性，也可集成 PostgreSQL 的现有功能。无论浏览内容宽泛的电子商务产品目录或提供高度相关的内容推荐，集成 SageMaker 与 pgvector 将为组织提供必要的工具，便于该组织在多变的和数据驱动的业务领域中独占鳌头。

借助 PostgreSQL 的可扩展性，在工作负载不断增加的情况下，开发人员可生成新的向量数据类型和索引机制。随着人工智能和机器学习的不断创新，我们可使用 PostgreSQL，构建以人工智能/机器学习模型为核心的应用程序。

有关本博客所用代码示例的更多信息，请参阅 GitHub 仓库（https://github.com/aws-samples/rds-postgresql-pgvector）。

本篇作者

克里希纳·萨拉布

在亚马逊云科技担任高级数据库专家解决方案架构师。日常工作是与 Amazon RDS 团队协作，共同专注于开源数据库引擎 Amazon RDS for PostgreSQL 和 Amazon Aurora PostgreSQL。在管理金融行业的商业和开源数据库解决方案方面，他本人拥有 20 多年丰富的经验，十分喜欢与客户合作，帮助他们在亚马逊云科技中设计、部署并优化关系数据库工作负载。

听说，点完下面4个按钮

就不会碰到bug了！

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
3.增删改查--连接查询问女何所忆
关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
Redis:缓存击穿我的程序快快跑啊缓存 redis java
缓存击穿(热点key)：部分key(被高并发访问且缓存重建业务复杂的)失效,无数请求会直接到数据库，造成巨大压力1.互斥锁：可以保证强一致性线程一：未命中之后，获取互斥锁，再查询数据库重建缓存，写入缓存，释放锁线程二：查询未命中，未获得锁(已由线程一获得)，等待一会，缓存命中互斥锁实现方式：redis中setnxkeyvalue:改变对应key的value,仅当value不存在时执行，以此来实现互
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

使用 PostgreSQL pgvector 和 Amazon SageMaker 构建 AI 驱动的搜索应用

你可能感兴趣的:(postgresql,人工智能,数据库)