OpenPie｜拓数派

基于云原生向量数据库 PieCloudVector 的 RAG 实践

近年来，人工智能生成内容（AIGC）已然成为最热门的话题之一。工业界出现了各种内容生成工具，能够跨多种模态产生多样化的内容。这些主流的模型能够取得卓越表现，归功于创新的算法、模型规模的大幅扩展，以及海量的高质量数据集。然而 AIGC 依然面临一系列挑战，检索增强生成（RAG）技术作为 LLM 的一项重要补充被提出。本文将结合实例演示，和大家一起探索基于 PieCloudVector 的 RAG 实践。

AIGC 强调内容是通过先进的生成模型，而非人类或基于规则的方法来产生的。近年来，AIGC 技术飞速发展，序列到序列的任务，已经从依赖长短期记忆网络（LSTM）转变为采用基于 Transformer 的模型，而图像生成任务，也从生成对抗网络（GANs）转向了潜在扩散模型（LDMs）。

基础模型的架构，最初由数百万参数构成，现在已经扩展到数十亿甚至数万亿参数。这些进步得益于丰富且高质量的数据集，它们为模型参数的全面优化提供了充足的训练样本。

信息检索是计算机科学中的另一个核心应用，它与内容生成不同，其目标是在海量资源中定位相关的现有对象。目前，高效的信息检索系统能够处理达到数十亿数量级的文档集合，检索技术也被应用于多种不同的模态。

尽管 AIGC 取得了巨大进步，但仍面临一些挑战，如保持知识更新、整合长尾知识以及防止私人训练数据泄露等。为了应对这些挑战，检索增强生成（RAG）的概念被提出。RAG 通过其灵活的数据存储库，可以作为非参数记忆，容易修改，能够广泛地整合长尾知识，并且能够安全地编码敏感数据。此外，RAG 还能够降低生成成本，比如减小大型生成模型的规模，支持长文本的生成，并简化某些生成步骤。

1 什么是 RAG？

检索增强生成（RAG）技术是对大型语言模型（LLM）的一项重要补充，它允许 LLM 在生成响应之前，访问超出其训练数据范围的特定领域或组织内部的权威知识库，优化 LLM 的输出，这一过程无需对模型进行重新训练，从而提供了一种成本效益高且灵活的方式来提升 LLM 的性能。通过这种方式，可以将通用的大型语言模型“定制化”，使其更好地适应特定的业务需求和用例场景。

在没有 RAG 的情况下，用户输入会直接传递给 LLM，模型将基于其训练数据或已知信息生成输出。而 RAG 的引入，为这一过程增加了一个关键的信息检索组件，当接收到用户输入时，RAG 首先利用信息检索组件，根据输入内容提取相关信息，这些信息随后作为上下文信息，与用户查询一起提供给 LLM。

LLM 结合提供的上下文信息和其训练数据，共同作用于输出的生成过程。这种结合了检索和生成的方法，不仅提高了输出的相关性和准确性，还增强了模型对特定领域知识的利用。也就是说，相比于模型重新训练和微调，RAG 会展现出以下显著优势：

成本效益： 与传统的模型重新训练相比，RAG 提供了一种更为经济高效的方式来引入新数据。它避免了高昂的硬件成本和计算资源消耗，使得生成式人工智能技术更加普及和易于获取。
实时更新： RAG 能够实现 LLM 与社交媒体、新闻网站等实时数据源的连接，确保模型能够基于最新信息为用户提供推理结果。这种能力显著提升了模型输出内容的时效性和相关性。
增强可信度： 通过 RAG，LLM 的输出可以包含对权威数据源的引用，这不仅提高了结果的可信度，也允许用户追溯至原始文档以验证信息。这种透明度有助于增强用户对生成式人工智能的信任。
输入控制： RAG 允许根据任务需求和权限级别，精确控制模型的输入信息。这种灵活性确保了敏感数据的安全性，同时允许模型在保护隐私的前提下，处理不同敏感度的数据。

2 什么是 PieCloudVector？

云原生向量数据库 PieCloudVector 作为拓数派大模型数据计算系统的核心计算引擎之一，是大模型时代分析型数据库的升维之作，专为多模态大模型 AI 应用而生。

PieCloudVector 的技术路线是将业界成熟开源算法实现与自研的基于 postgres 内核的关系型数据库对接起来，拥有完整的 ACID 数据管理能力，支持标量与向量的混合查询。PieCloudVector 支持主流的近似最近邻（ANN）算法和向量编码或压缩算法，支持 SIMD/GPU 加速，并兼容 LangChain 等大模型工具生态。相较于传统数据库，PieCloudVector 实现了向量化存储和计算资源的弹性扩缩，提高了易用性和性能，增强了元数据变更功能，解决了数据一致性问题，并克服了安全性、可靠性和在线性方面的技术难题。

在架构设计方面，PieCloudVector 的每个执行器（Executor）对应一个 PieCloudVector 实例，从而实现向量存储和相似性搜索服务的高性能、可扩展性和可靠性。借助 PieCloudVector，用户不仅可以存储和管理原始数据对应的向量，还可以调用 PieCloudVector 相关工具进行模糊搜索，与全局搜索相比，牺牲了一定的精度来实现毫秒级的搜索，进一步提高了查询效率。

PieCloudVector 架构设计

在 RAG 的应用实践中，PieCloudVector 展示了一种高效的方法来结合用户查询和相关数据，以生成精确且权威的响应。以下是其 RAG 工作流程的详细步骤：

RAG 工作流程

外部数据源的创建： 首先识别并集成了位于 LLM 原始训练数据集之外的新数据，这些被称为外部数据。它们可能来源于 API、数据库或文档存储库，并且可能以多种格式存在，如文件、数据库记录或文本，以及向量形式的嵌入。这些外部数据被存储在 PieCloudVector 中，其中既保留了原始文本，也保存了对应的文本嵌入信息。
用户输入的处理： 对于用户提出的查询（Query），在查询外部数据源之前，对其进行预处理。这可能包括提取用户的查询文本的嵌入表示，以便通过向量相似性搜索在外部数据源中检索相关上下文数据。
执行相关性搜索： 一旦用户输入被转换为嵌入向量，就可以利用这些向量在外部数据源中执行相关性搜索。PieCloudVector 支持多种高效的向量索引技术，如 HNSW、IVFFLAT、IVFQD 等，以加速这一过程。
构建模型输入上下文： 利用从外部数据源检索到的与用户查询相似的数据，构建了模型的输入上下文。例如，可以选择最相似的 top k 条数据的原始文本，以此构建模型的输入上下文。
模型输入： 将用户的原始查询和检索到的相关上下文信息一并作为输入提供给模型。
模型输出： 模型结合用户提供的查询和检索到的上下文信息，生成响应。

接下来，我们通过一个实例，以 PieCloudVector 来存放外部数据，语言模型使用 Llama2，基于 LangChain 实现一个完整的 RAG 工作流程。

3 基于 PieCloudVector 的 RAG 实例演示

3.1 准备外部数据源和模型

本实例所使用的外部数据来源于拓数派官网发布的一系列博客文章，这些数据已被我们整理并构建成一个内部数据集。该数据集中的每一条记录仅包含了一段独立的英文文本，其格式如下所示：

Openpie is dedicated to "Data Computing for New Discoveries" and has successfully completed three rounds of strategic financing....

OpenPie's flagship product, PieCloudDB realizes cutting-edge data warehouse virtualization technology  ....

With continuous innovation of artificial intelligence (AI) technology, we can observe its increasingly widespread applications ...

我们采用 LangChain 提供的 VectorStore 接口对 PieCloudVector 进行了封装，将其封装为 VectorStore 的一个实现类，以便于与 PieCloudVector 进行交互。通过使用 Langchain 的 API，我们对外部数据进行了必要的预处理，包括文本切分和提取 embedding 等步骤。处理后的数据，包括原始文本数据和对应的 embedding 数据，被存储到 PieCloudVector 中。同时，为了提高相似向量检索的效率，我们还创建了 HNSW 索引。以下是实现这一功能的核心代码：

raw_doc_path = "./RAG-data/context-text"
loader = DirectoryLoader(raw_doc_path)
docs = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
doc_splits = text_splitter.split_documents(docs)
model_name = "BAAI/bge-base-en"
encode_kwargs = {'normalize_embeddings': True}  # set True to compute cosine similarity
embedding_function = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs={'device': 'cuda'},
    encode_kwargs=encode_kwargs
)
CONNECTION_STRING = "postgresql+psycopg2://[email protected]:5432/openpie"
vectordb = PieCloudVector.from_documents(
    documents=doc_splits,  # text data that you want to embed and store
    embedding=embedding_function,  # used to convert the documents into embeddings
    connection_string=CONNECTION_STRING,
    collection_name="docs_v1"
)
vectordb.create_hnsw_index(dims=768, index_key="HNSW32", ef_construction=40, ef_search=16)

外部数据被成功写入到 PieCloudVector 后，每条记录都由两个重要字段：embedding 和 document，格式如下所示：

{                                                                                                                   
 "embedding": [-0.0087991655,-0.027009273,0.0033726105,0.018299054,0549,0.045432627,-0.038479857,...],
 "document": "Openpie is dedicated to 'Data Computing for New Discoveries' and ... ",
}

使用 huggingface 的 transformers 库加载 Llama2 模型，并构造任务流水线：

MODEL_NAME = "NousResearch/Llama-2-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(
    MODEL_NAME,
    trust_remote_code=True,
    use_fast=True,
    add_eos_token=True,
)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    use_safetensors=True,
    trust_remote_code=True,
    device_map='auto',
    load_in_8bit=True,
)
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.95,
    repetition_penalty=1.15,
)

llm = HuggingFacePipeline(pipeline=pipe)

3.2 推理过程

LangChain 定义了一个 Retriever 接口，对于给定的用户查询，其封装了检索相似文档的逻辑。推理阶段中，首先将基于 PieCloudVector 实现的 vectordb 实例转换为一个 Retriever 对象。针对每个查询，该 Retriever 会在 PieCloudVector 中进行检索，返回最相似的三条数据。接着，整合大模型，外部数据源构造问答任务链。最后，输入问题执行推理任务。

retriever = vectordb.as_retriever(search_kwargs={"k": 3})
retrieval_qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=True
)

query = "What is PieCloudVector? and any advantages of PieCloudVector?  please describe in short words"
response = retrieval_qa_chain(query)

使用了 RAG 后，对于问题：

“What is PieCloudVector? and any advantages of PieCloudVector? please describe in short words”

模型的输入不仅包含了问题信息，必要的提示，还包含了从外部数据源检索到的问题的上下文信息，具体形式如下所示：

{
"Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know,
 don't try to make up an answer.",
 'PieCloudVector vector database has the capability to perform fast queries on trillion-scale vector databases. 
  It supports single-node multi-threaded index creation, effectively utilizing all available hardware computational resources.
  This results in a five-fold improvement in index creation performance, 
  a six-fold improvement in retrieval performance, and a three-fold improvement in interactive response speed.
  PieCloudVector, in conjunction with Soochow Securities Xiucai GPT, 
  forms the overall RAG architecture. PieCloudVector primarily stores the embedded vector data 
  while also supporting storage of scalar data for applications. Additionally,  ....', 
  'Question: What is PieCloudVector? and any advantages of PieCloudVector?  please describe in short words',
}

3.3 推理结果

使用了 RAG 后，对于问题：

“What is PieCloudVector? and any advantages of PieCloudVector? please describe in short words”

输出如下所示。可见 Llama2 模型根据输入的上下文信息，基本可以输出一个正确结果。

'Helpful Answer:
PieCloudVector is a distributed vector database developed by OpenPie. 
It offers high scalability, low latency, and efficient query processing, 
making it suitable for large-scale vector data analysis tasks such as 
recommendation systems, image recognition, and natural language processing.
Some key features include support for multiple indexing methods (e.g., B+ tree, hash table), 
parallelized query execution, and fault tolerance through replication and redundancy techniques. 
Overall, PieCloudVector can help organizations process massive amounts of 
unstructured data quickly and efficiently, leading to 
improved decision-making and better customer experiences.'

而如果不使用 RAG，直接将问题输入 Llama2，得到的输出如下：

Question: What is PieCloudVector? and any advantages of PieCloudVector?  please describe in short words.
Answer: Comment: @user1095108 I've added a link to the documentation, which should answer your questions.

由于 Llama2 的训练数据中缺少与 PieCloudVector 相关的知识，这一回答是情理之中的，这实际上也反应了 RAG 技术的重要性和强大之处。RAG 通过补充模型训练数据之外的知识，显著提升了模型对特定查询的处理能力和准确性。

PieCloudVector 凭借其卓越的性能和广泛适用性，已成功在各行各业的大模型领域中落地应用，特别是在金融大模型领域展现了显著的优势。未来，拓数派将持续关注市场和技术的发展动态，不断探索和创新，聚焦数据库在多模态大模型系统中更多的应用场景。

参考链接

Retrieval-Augmented Generation for AI-Generated Content: A Survey
Introducing PieCloudVector: A Cloud-Native Vector Computing Engine for Large Language Models
什么是 RAG（检索增强生成）？
Inference code for Llama models
快速开始 LangChain

Java SQLException: 解决“Got error 28 from storage engine”的5个步骤墨瑾轩一起学学Java【一】java adb 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言在使用Java进行数据库操作时，有时会遇到java.sql.SQLException:Goterror28fromstorageengine错误。这个错误通常发生在尝试插入数据到MySQL数据库时，表示存储引擎返回了一个错误码28，这通常意味着磁盘空间不足
数据库必知必会系列：数据库连接池与连接管理 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介随着互联网技术的飞速发展，网站流量呈爆炸性增长。对于后端服务器而言，处理大量请求通常需要依赖于高性能、高并发、海量数据等优秀的服务器硬件资源。这种情况下，如何有效地分配和管理服务器资源显得尤为重要。一个有效的方式就是采用数据库连接池技术。数据库连接池，是一种用于提升数据库访问性能的技术。它主要解决了如下两个方面的问题：由于不同线程或用户对同一个数据库的频繁访问，
Golang基础笔记八之函数后端go函数闭包
本文首发于公众号：Hunter后端原文链接：Golang基础笔记八之函数本篇笔记介绍Golang里函数相关的内容，以下是本篇笔记目录：函数的定义语法函数返回值可变参数函数匿名函数闭包1、函数的定义语法函数的定义格式如下：func函数名(参数列表)(返回值列表){函数体}比如下面是一个两数相加返回其和的函数：funcadd(a,bint)int{ returna+b}调用的话，直接传参调用即可：s
多服务器文件本地上传及读取一朵梨花压海棠go 服务器运维
多服务器文件管理系统的实现方案在没有对象存储服务（OSS）的情况下，本文实现了一个基于多台服务器的文件管理系统。系统通过数据库表维护文件存储位置信息，主要功能包括：文件上传：检查文件大小限制，计算MD5值，按日期目录存储文件文件下载：根据ID获取文件实体，返回文件资源流文件去重：通过MD5校验避免重复存储IP管理：记录文件所在服务器IP，便于跨服务器访问系统使用SpringBoot框架实现，数据库
解决Mybatis-Plus分页插件无效，total返回0的问题
问题描述：分页失效，mapper.selectPage返回记录，total还是0，往上大多数问题都是老版本的解决方式，mybatis-plus3.4.x版本无法解决原因：mybatis-plus3.4.x貌似通过拦截器进行分页的，这里没有启用，主要原因是数据库配置没有引入，以下为代码情况：1：xml依赖情况com.baomidoumybatis-plus-boot-starter3.4.32：增加
Redis为什么是单线程 hqxstudying java redis
Redis被设计为单线程模型，这一决策并非偶然，而是基于其核心场景和技术特性的深度优化结果。以下从多个角度详细解释其原因：一、Redis的核心优势与单线程的契合性Redis作为内存数据库，其核心优势是超高的读写性能（每秒可达数万至数十万操作）。而内存操作本身的速度极快（微秒级），此时性能瓶颈往往不在于CPU，而在于网络I/O和内存访问效率。单线程模型恰好能避免多线程带来的额外开销，从而最大化内存操
变幻莫测：CoreData 中 Transformable 类型面面俱到（八）大熊猫侯佩 Apple开发入门 CoreData Transformable Data SwiftData 类型转换 Codable Swift
概述各位似秃似不秃小码农们都知道，在苹果众多开发平台中CoreData无疑是那个最简洁、拥有“官方认证”且最具兼容性的数据库框架。使用它可以让我们非常方便的搭建出App所需要的持久存储体系。不过，大家是否知道在CoreData中还存在一个Transformable类型，它到底是个啥？应用场景有哪些？在最新的SwiftData中有没有对应物？对于开发者又有哪些“见雀张罗”的撸码陷阱和最佳实践呢？在本
二叉树的深搜（不定期更新。。。。。） Mr_Xuhhh java android 数据结构 c++开发语言
二叉树的深搜验证二叉搜索树给你一个二叉树的根节点root，判断其是否是一个有效的二叉搜索树。有效二叉搜索树定义如下：节点的左子树只包含小于当前节点的数。节点的右子树只包含大于当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。示例1：输入：root=[2,1,3]输出：true示例2：输入：root=[5,1,4,null,null,3,6]输出：false解释：根节点的值是5，但是右子节点的
【离散】画哈斯图--最好理解绝不会出错妮妮学姐抽象代数拓扑学几何学图论
离散数学哈斯图的画法两个步骤：第一步：排点的层数第二步：把有关系的点连接起来看一道题：设A={1,2,3,4,6,8,9}，偏序集S={A,《},其中《为整除关系，请画出S的哈斯图首先把他们的所有的关系列出来（后面的数可以整除前面的数，这两个数就有整除的关系）然后来排点的层数。首先看，所有关系里面不在值域的元素有哪几个：最先找到的是1所以我们把1放到第一层然后我们删掉的所有元素(之后就不考虑那些元
[AI笔记]-Word2Vec面试考点 Micheal超 AI笔记人工智能笔记 word2vec
✅一、基础认知类什么是Word2Vec？它的基本思想是什么？关键词：将词语转换为向量表示；捕捉语义关系；基于上下文预测Word2Vec与One-hot编码的区别？关键词：维度灾难(维度过高，存储空间大)、高稀疏性、语义表达能力(没有距离概念，无法计算相似度)、内积关系Word2Vec的两种模型是什么？它们有何区别？答案：Word2Vec的重要假设：文本中离得越近的词语相似度越高。主要有：CBOW（
【翻译】Part4: Texture samplers.
AtripthroughtheGraphicsPipeline2011,part4|Therygblog欢迎回来。上一部分讲的是顶点着色器，还大致介绍了通用的GPU着色器单元。总的来说，它们只是向量处理器，但它们可以访问一种在其他向量处理架构中不存在的资源：纹理采样器。纹理采样器是GPU流水线不可或缺的一部分，其复杂程度（以及趣味性！）足以单独写一篇文章来介绍，那接下来就开始吧。纹理状态在开始实际
mongodb 基本概念重生之我是一名程序员 mongodb
mongodb基本概念基于mongo:4.4.2databasedatabase数据库tablecollection数据库表/集合rowdocument数据记录行/文档columnfield数据字段/域indexindex索引tablejoins表连接,MongoDB不支持primarykeyprimarykey主键,MongoDB自动将_id字段设置为主键MongoDB数据类型数据类型描述Str
【Django开发】前后端分离django美多商城项目第3篇：用户注册业务实现,用户注册前端逻辑【附代码文档】
教程总体简介：欢迎来到美多商城！项目需求分析1.项目主要页面介绍2.归纳项目主要模块3.知识要点项目架构设计1.项目开发模式2.项目运行机制项目介绍创建工程1.准备项目代码仓库3.创建美多商城工程配置开发环境1.新建配置文件2.指定开发环境配置文件配置Jinja2模板引擎1.安装Jinja2扩展包配置MySQL数据库3.安装PyMySQL扩展包配置Redis数据库1.安装django-redis扩
喜讯！Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖数据库
近日，在2025上海开源创新菁英荟上，ApacheSeaTunnel凭借信创生态适配与智能化技术突破，荣获「优秀开源项目奖」。这个由中国团队孵化的开源项目，已成为全球数据集成领域的标杆。信创生态：支持20+国产数据库的无缝对接SeaTunnel深度适配华为OpenGauss、阿里OceanBase等20+主流国产数据库，支持CDC（变更数据捕获）与高性能加载。在证券行业信创转型中，SeaTunne
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
使用 TCollector 写入 TDengine TDengine （老段） TDengine 生态接入 tdengine 大数据时序数据库运维涛思数据物联网数据库
TCollector是openTSDB的一部分，它用来采集客户端日志发送给数据库。只需要将TCollector的配置修改指向运行taosAdapter的服务器域名（或IP地址）和相应端口即可将TCollector采集的数据存在到TDengine中，可以充分利用TDengine对时序数据的高效存储查询性能和集群处理能力。前置条件要将TCollector数据写入TDengine需要以下几方面的准备工作
FFmpeg中TS与MP4格式的extradata差异详解码流怪侠音视频基础 ffmpeg MP4 TS 音视频 extradata 视频编解码实时音视频
在视频处理中，extradata是存储解码器初始化参数的核心元数据，直接影响视频能否正确解码。本文深入解析TS和MP4格式中extradata的结构差异、存储逻辑及FFmpeg处理方案。一、extradata的核心作用extradata是解码必需的参数集合，包含：H.264：SPS（序列参数集）、PPS（图像参数集）H.265：VPS（视频参数集）、SPS、PPS音频：采样率、声道数等配置其核心功
SQL SELECT INTO语句 Lu鹿夫人 sql 数据库 sqlserver
SQLSELECTINTO语句通过SQL，您可以从一个表复制信息到另一个表。SELECTINTO语句从一个表复制数据，然后把数据插入到另一个新表中。SQLSELECTINTO语句注意：MYSQL数据库不支持SELECT…INTO语句，但支持INSERTINTO…SELECT。可以使用以下语句来拷贝表结构及数据：CREATETABLE新表ASSELECT*FROM旧表SQLSELECTINTO语法1
嵌入模型 vs 大语言模型：语义理解能力的本质区别与应用场景 chenkangck50 AI大模型语言模型人工智能机器学习
嵌入模型vs大语言模型：语义理解能力的本质区别与应用场景（实战视角）一句话总结嵌入模型的“理解”是向量表示和相似性匹配，适合做召回；大语言模型的“理解”是上下文+逻辑+世界知识综合判断，适合做分析与生成。重点是可以结合prompt和本身具有的知识两类模型的本质区别能力项嵌入模型（如BGE、SBERT）大语言模型（如GPT、GLM、DeepSeek）输出形式向量（如768维）自然语言文本（如答案、解
小红书笔记详情API接口概述及JSON数据返回参考 Json_18179014480 API json 大数据数据库大数据 json
前言一、接口概述小红书笔记详情API接口是小红书开放平台提供的一项服务，允许开发者通过编程方式获取小红书上特定笔记的详细信息。该接口的核心功能包括：获取笔记内容：标题、正文、图片、视频等多媒体信息。用户互动数据：点赞数、评论数、收藏数、分享数等。作者信息：作者昵称、头像、粉丝数等。发布信息：发布时间、标签列表等。通过该接口，开发者可以构建内容分析工具、笔记推荐系统、数据爬虫等应用，帮助企业或个人进
SQL SELECT语句的基本用法 Mnioc 学习 SQL
SQLSELECT语句的基本用法表S有三个字段:学生学号Sno，课程号Cno，成绩score。求每个学生的总分。这是一个很简单的问题，这篇博客就是源于这个问题，博主是一个大三即将入坑的菜鸟，进入公司实习的第一天，就被几个SQL查询问题难倒了。通过这篇文章复习一下数据库基本的SELECT语句，仅供参考，如有错误或不当之处还望大神们告知。这里使用的是SQLFiddle，一款在线的SQL语句练习网站链接
Python爬取与可视化-豆瓣电影数据木子空间Pro 项目集锦 #课程设计 python 信息可视化开发语言
引言在数据科学的学习过程中，数据获取与数据可视化是两项重要的技能。本文将展示如何通过Python爬取豆瓣电影Top250的电影数据，并将这些数据存储到数据库中，随后进行数据分析和可视化展示。这个项目涵盖了从数据抓取、存储到数据可视化的整个过程，帮助大家理解数据科学项目的全流程。环境配置与准备工作在开始之前，我们需要确保安装了一些必要的库：urllib：用于发送HTTP请求和获取网页数据Beauti
揭秘影评数据的金矿：基于 Python 的豆瓣电影排行榜热度挖掘与数据智能分析实战程序员威哥 python 开发语言
前言：从数据出发，看见银幕之外的流行密码在内容为王的时代，影视作品既是大众娱乐的主阵地，也是数据分析的重要入口。豆瓣作为中国最具影响力的影视评分平台之一，凝聚了数千万用户对电影、剧集的真实反馈。本文将带你一步步深入，从爬取豆瓣电影排行榜数据出发，结合Python技术栈，构建一个完整的热门电影数据采集+分析+可视化系统。我们不仅要采数据，更要从中挖掘背后的价值：哪些类型影片最受欢迎？评分是否与评论数
【Java实战】高并发场景下账户金额操作的解决方案 .猫的树【Java实战】系列 Java并发编程分布式锁高并发解决方案原子操作数据库事务
文章目录前言：金融系统中的并发危机一、并发问题现场还原1.1问题代码示例1.2并发测试暴露问题1.3问题根源分析二、五大解决方案深度剖析2.1synchronized同步锁2.2ReentrantLock显式锁2.3CAS无锁编程（Atomic原子类）2.4数据库乐观锁2.5分布式锁（Redis实现）三、方案选型指南四、防踩坑指南总结前言：金融系统中的并发危机在支付系统、电商平台等金融场景中，账户
分布式 ID 生成方案对比：Snowflake、UUID、KSUID 该怎么选？田猿笔记知识集合 nodeJs 高级应用分布式 node.js
分布式ID生成方案对比：Snowflake、UUID、KSUID该怎么选？在分布式系统中，如何生成全局唯一ID是一个常见问题。不同的ID生成方案各有优缺点，本文将对比Snowflake、Sonyflake、UUIDv1/v4、XID、KSUID以及自定义ID，并给出Node.js实现示例，帮助你选择最适合的方案。1.为什么需要分布式ID？在单机系统中，可以使用数据库自增ID（如MySQL的AUTO
MySQL数据库核心技术深度解析：SQL语句最佳实践与性能优化指南有趣的灵魂465 mysql
MySQL数据库大师之路：从语法精要到高阶优化全攻略一、开篇：构建系统化的MySQL知识体系在完成《MySQL数据库技术》课程学习后，我通过300+小时的实战演练和源码研究，形成了这套覆盖MySQL5.7/8.0核心技术的知识体系。本文不仅包含标准SQL语法，更将深入InnoDB存储引擎原理、索引实现机制和事务隔离级别的底层实现，帮助开发者跨越从"会写SQL"到"精通数据库"的鸿沟。二、数据库设计
【分布式 ID】生成唯一 ID 的几种方式也无风雨晴工具分布式分布式 ID
文章目录1.什么是唯一ID2.UUID2.1优点2.2缺点3.数据库自增ID3.1优点3.2缺点4.利用redis来实现自增id4.1优点4.2缺点5.雪花算法5.1优点5.2缺点6.数据库号段6.1优点6.2缺点7.小结1.什么是唯一ID分布式ID是指在分布式系统中需要生成的全局唯一的标识符。比如在电商、物流等行业，每笔订单都需要一个唯一的订单ID。通过这个ID，商家可以跟踪订单的状态，包括下单
未来运维，绝绝AI 必备 AI_运维_攻城狮 ai 运维人工智能
在当今数字化时代，运维工作对于企业的稳定运行至关重要。随着科技的不断进步，人工智能（AI）和自动化技术正逐渐改变着运维行业的面貌。本文将分析运维行业的未来发展方向，探讨人工智能在运维中的应用前景、自动化运维的发展趋势，并对未来的运维工作模式和技能需求进行预测和分析，以帮助读者更好地规划自己的职业发展。一、运维行业现状目前，运维工作主要包括服务器管理、网络管理、数据库管理、应用程序监控等方面。运维工
Java分布式任务调度交响乐：用代码指挥千台服务器跳起精准的华尔兹墨夶 Java学习资料1 java 分布式服务器
一、架构设计：分布式任务调度的指挥系统1.1架构图（用文字构建你的想象）[调度中心]→[任务路由]→[执行器集群]↑↓││├─数据库存储─┤││└─监控告警─┘关键组件：调度中心：任务的"总指挥"，负责任务注册、调度、状态监控执行器集群：任务的"舞团"，每个节点都是潜在的表演者任务路由：动态分配任务的"交通调度系统"数据库存储：任务元数据的"记分牌"二、核心技术实现：分布式调度的魔法阵2.1XXL
PgSQL内核特性 | Brin索引 yzs87 搜索引擎数据库
PgSQL内核特性|Brin索引数据库在进行过滤扫描或者join时，如果该表特别大，那么就需要顺序扫描表的所有数据然后进行过滤，或者扫描所有数据进行join条件探测。这对IO的负载影响特别大，当在join时，比如HashJoin的外表，需要对每个数据都进行Hash表探测，进一步影响性能。现有列存比如Infobright、Parquet、hydra等都对存储进行了类似的改进，在每个block中增加了
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

基于云原生向量数据库 PieCloudVector 的 RAG 实践

1 什么是 RAG？

2 什么是 PieCloudVector？

3 基于 PieCloudVector 的 RAG 实例演示

参考链接

你可能感兴趣的:(OpenPie｜拓数派,云原生,向量数据库,PieCloudVector,PieCloudDB,OpenPie)