字节跳动技术团队

打造企业级智能问答系统的秘密：如何使用云数据库 PostgreSQL 版实现向量检索...

本文就如何利用火山引擎云数据库 PostgreSQL 版和大语言模型技术（Large Language Model，简称 LLM），实现企业级智能交互式问答系统进行介绍。通过本文，你将会了解交互式问答系统的原理，学习 PostgreSQL 的向量化存储和检索技术，以及大语言模型交互技术等。

背景

在大数据的浪潮下，众多企业建立了自己的知识库，以便于信息检索和知识查询。然而，随着知识库内容的膨胀，传统的信息检索方式变得低效，经常出现费时费力且结果不尽人意的情况。随着生成式人工智能（AI Generated Content，简称 AIGC）的出现，人们看到了一种更智能的实现方式，通过问答的方式，知识获取的效率、准确性和用户体验在多方面得到提升。

即便如此，对于特定垂直领域的企业，生成式人工智能的局限性也开始显现，例如大模型训练周期长、对某一领域专业知识掌握不足等，这常常会导致 AI“幻觉”问题的出现（即 AI 的“一本正经地胡说八道”）。为了解决这一难题，我们通常会采用以下两种方式：

Fine Tune 方法，“驯服”大语言模型。
- 利用领域知识，对大语言模型进行监督微调（Supervised Fine Tune）和蒸馏（Distillation）。这种方式可塑性强，但需要大量的算力和人才资源，综合成本高。此外，企业还需要持续监控和更新模型，以确保与不断变化的领域知识保持同步。
Prompt Engineering 方法，改变“自己”。
- 该方法基于向量数据库，补充足够的对话上下文和参考资料，完善与大语言模型进行交互的问答问题（Prompt），其本质是将大语言模型的推理归纳能力与向量化信息检索能力相结合，从而快速建立能够理解特定语境和逻辑的问答系统。该方法的实现成本相对较低。

接下来，本文针对 Prompt Engineering 方法，来演示将云数据库 PostgreSQL 版作为向量数据库的使用方法。

核心概念及原理

嵌入向量（Embedding Vectors）

向量 Embedding 是在自然语言处理和机器学习中广泛使用的概念。各种文本、图片或其他信号，均可通过一些算法转换为向量化的 Embedding。在向量空间中，相似的词语或信号距离更近，可以用这种性质来表示词语或信号之间的关系和相似性。例如，通过一定的向量化模型算法，将如下三句话，转换成二维向量（x，y），我们可通过坐标系来画出这些向量的位置，它们在二维坐标中的远近，就显示了其相似性，坐标位置越接近，其内容就越相似。如下图所示：

“今天天气真好，我们出去放风筝吧”
“今天天气真好，我们出去散散步吧”
“这么大的雨，我们还是在家呆着吧”

打造企业级智能问答系统的秘密：如何使用云数据库 PostgreSQL 版实现向量检索..._第1张图片

Prompt Engineering 过程原理

如上所说，使用者需要不断调整输入提示，从而获得相关领域的专业回答。输入模型的相关提示内容越接近问题本身，模型的输出越趋近于专业水平。通俗理解就是，模型能够利用所输入的提示信息，从中抽取出问题的答案，并总结出一份专业水准的回答。整个 Prompt Engineering 工作流程如下图所示：

打造企业级智能问答系统的秘密：如何使用云数据库 PostgreSQL 版实现向量检索..._第2张图片

其大致可以分为两个阶段：向量构建阶段和问答阶段。在向量构建阶段，将企业知识库的所有文档，分割成内容大小适当的片段，然后通过 Embeddings 转换算法，例如 OpenAI 的模型 API（https://platform.openai.com/docs/guides/embeddings/what-are-embeddings），将其转换成 Embeddings 数据，存储于云数据库 PostgreSQL 版向量数据库中，详细流程如下图所示：

打造企业级智能问答系统的秘密：如何使用云数据库 PostgreSQL 版实现向量检索..._第3张图片

在问答阶段，问答系统首先接收用户的提问，并将其转化为 Embedding 数据，然后通过与向量化的问题进行相似性检索，获取最相关的 TOP N 的知识单元。接着，通过 Prompt 模板将问题、最相关的 TOP N 知识单元、历史聊天记录整合成新的问题。大语言模型将理解并优化这个问题，然后返回相关结果。最后，系统将结果返回给提问者。流程如下图所示：

打造企业级智能问答系统的秘密：如何使用云数据库 PostgreSQL 版实现向量检索..._第4张图片

实现过程

接下来将介绍如何利用云数据库 PostgreSQL 版提供的 pg_vector 插件构建用于向量高效存储、检索的向量数据库。

前置条件

已创建 ECS 实例，或者使用本地具备 Linux 环境的主机，作为访问数据库的客户端机器。
请确保您具备 OpenAI Secret API Key，并且您的网络环境可以使用 OpenAI。

训练步骤

本文将以构建企业专属“数据库顾问”问答系统为例，演示整个构建过程。使用的知识库样例为https://www.postgresql.org/docs/15/index.html，脚本获取方式详见文末。

搭建的环境基于 Debian 9.13，以下方案仅供参考，环境不同依赖包安装有所差异。

以下过程包括两个主要脚本文件，构建知识库的 generate-embeddings.ts，问答脚本 queryGPT.py，建议组织项目目录如下所示：

.
├── package.json                              // ts依赖包
├── docs
│   ├── PostgreSQL15.mdx                      // 知识库文档
├── script
│   ├── generate-embeddings.ts                // 构建知识库
│   ├── queryGPT.py                           // 问答脚本

1. 学习阶段

1. 创建 PostgreSQL 实例

登录云数据库 PostgreSQL 版控制台（https://console.volcengine.com/db/rds-pg）创建实例，并创建数据库和账号。关于创建 PostgreSQL 实例、数据库、账号的详细信息，请参见云数据库 PostgreSQL 版快速入门（https://www.volcengine.com/docs/6438/79234）。

2. 创建插件

进入测试数据库，并创建 pg_vector 插件。

create extension if not exists vector;

创建对应的数据库表，其中表 doc_chunks 中的字段 embedding 即为表示知识片段的向量。

-- 记录文档信息
create table docs (
  id bigserial primary key,
  -- 父文档ID
  parent_doc bigint references docs,
  -- 文档路径
  path text not null unique,
  -- 文档校验值
  checksum text
);
-- 记录chunk信息
create table doc_chunks (
  id bigserial primary key,
  doc_id bigint not null references docs on delete cascade, -- 文档ID
  content text, -- chunk内容
  token_count int, -- chunk中的token数量
  embedding vector(1536), -- chunk转化成的embedding向量
  slug text, -- 为标题生成唯一标志
  heading text -- 标题
);

3. 构建向量知识库

在客户端机器上，将知识库文档内容，分割成内容大小适当的片段，通过 OpenAI 的 embedding 转化接口，转化成embedding 向量，并存储到数据库，参考脚本获取方式详见文末。

注意该脚本只能处理 markdown 格式的文件。

安装 pnpm：

curl -fsSL https://get.pnpm.io/install.sh | sh -

安装 nodejs（参考https://github.com/nodesource/distributions）：

sudo apt-get update
sudo apt-get install -y ca-certificates curl gnupg
sudo mkdir -p /etc/apt/keyrings
curl -fsSL https://deb.nodesource.com/gpgkey/nodesource-repo.gpg.key | sudo gpg --dearmor -o /etc/apt/keyrings/nodesource.gpg
NODE_MAJOR=16
echo "deb [signed-by=/etc/apt/keyrings/nodesource.gpg] https://deb.nodesource.com/node_$NODE_MAJOR.x nodistro main" | sudo tee /etc/apt/sources.list.d/nodesource.list
sudo apt-get update
sudo apt-get install nodejs -y

安装 typescript 依赖，配置文件 package.json 获取方式详见文末：

pnpm run setup
pnpm install tsx

修改 generate-embeddings.ts，设置 OpenAI 的 key、PG 的连接串以及 markdown 文档目录：

#这里需要将user、passwd、127.0.0.1、5432 替换为实际数据库用户、密码、数据库地址、端口
const postgresql_url = 'pg://user:[email protected]:5432/database';
const openai_key = '-------------';
const SOURCE_DIR = path.join(__dirname, 'document path');

运行脚本，生成文档 embedding 向量并插入数据库：

pnpm tsx script/generate-embeddings.ts

运行过程：

打造企业级智能问答系统的秘密：如何使用云数据库 PostgreSQL 版实现向量检索..._第5张图片

脚本运行后，我们查看下所构建的知识库。查询 docs 表：

查询 docs_chunk 表，批量导入向量成功：

打造企业级智能问答系统的秘密：如何使用云数据库 PostgreSQL 版实现向量检索..._第6张图片

2. 问答阶段

1. 创建相似度计算函数

为了方便应用使用，使用 PostgreSQL 的自定义函数功能，创建内置于数据库内的函数。应用只需调用 PostgreSQL，该函数便可在应用程序中获取向量匹配结果。示例中使用“内积”来计算向量的相似性。

create or replace function match_chunks(chunck_embedding vector(1536), threshold float, count int, min_length int)
returns table (id bigint, content text, similarity float)
language plpgsql
as $$
begin
  return query
  select
    doc_chunks.id,
    doc_chunks.content,
    (doc_chunks.embedding <#> chunck_embedding) * -1 as similarity
  from doc_chunks

  -- chunk内容大于设定的长度
  where length(doc_chunks.content) >= min_length

  -- The dot product is negative because of a Postgres limitation, so we negate it
  and (doc_chunks.embedding <#> chunck_embedding) * -1 > threshold
  order by doc_chunks.embedding <#> chunck_embedding
  
  limit count;
end;
$$;

2. 提问及回答

以下 Python 程序，可以接收提问者问题，并实现上述 Prompt Engineering 的“问答阶段”的功能，最终将具备“逻辑思考”+“深度领域知识”的解答，发送给提问者。

import os, psycopg2, openai

def query_handler(query = None):
    if query is None or query == "":
        print('请输入有效问题')
        return

    query = query.strip().replace('\n', ' ')
    embedding = None
    try:
        # 使用 GPT 将提问转化为 embedding 向量
        response = openai.Embedding.create(
            engine="text-embedding-ada-002",  # 固定为text-embedding-ada-002
            input=[query],
        )
        embedding = response.data[0].embedding
    except Exception as ex:
        print(ex)
        return

    content = ""
    con = None
    try:
        # 处理 postgres 配置，连接数据库
        # host:127.0.0.1,port:5432,user:test,password:test,database:test
        params = postgresql_url.split(',')
        database, user, password, host, port = "test", "test", "test", "127.0.0.1", "5432"
        for param in params:
            pair = param.split(':')
            if len(pair) != 2:
                print('POSTGRESQL_URL error: ' + postgresql_url)
                return
            k, v = pair[0].strip(), pair[1].strip()
            if k == 'database':
                database = v
            elif k == 'user':
                user = v
            elif k == 'password':
                password = v
            elif k == 'host':
                host = v
            elif k == 'port':
                port = v
        # connect postgres
        con = psycopg2.connect(database=database, user=user, password=password, host=host, port=port)
        cur = con.cursor()
        # 从数据库查询若干条最接近提问的 chunk
        sql = "select match_chunks('[" + ','.join([str(x) for x in embedding]) + "]', 0.78, 5, 50)"
        cur.execute(sql)
        rows = cur.fetchall()
        for row in rows:
            row = row[0][1:-2].split(',')[-2][1:-2].strip()
            content = content + row + "\n---\n"

    except Exception as ex:
        print(ex)
        return

    finally:
        if con is not None:
            con.close()

    try:
        # 组织提问和 chunk 内容，发送给 GPT
        prompt = '''Pretend you are GPT-4 model , Act an database expert.
        I will introduce a database scenario for which you will provide advice and related sql commands.
        Please only provide advice related to this scenario. Based on the specific scenario from the documentation,
        answer the question only using that information. Please note that if there are any updates to the database
        syntax or usage rules, the latest content shall prevail. If you are uncertain or the answer is not explicitly
        written in the documentation, please respond with "I'm sorry, I cannot assist with this.\n\n''' + "Context sections:\n" + \
        content.strip().replace('\n', ' ') + "\n\nQuestion:"""" + query.replace('\n', ' ') + """"\n\nAnswer:"

        print('\n正在处理，请稍后。。。\n')
        response = openai.ChatCompletion.create(
            engine="gpt_openapi",  # 固定为gpt_openapi
            messages=[
                {"role": "user", "content": prompt}
            ],
            model="gpt-35-turbo",
            temperature=0,
        )
        print('回答:')
        print(response['choices'][0]['message']['content'])

    except Exception as ex:
        print(ex)
        return

os.environ['OPENAI_KEY'] = '-----------------------'
os.environ['POSTGRESQL_URL'] = 'host:127.0.0.1,port:5432,user:test,password:test,database:test'
openai_key = os.getenv('OPENAI_KEY')
postgresql_url = os.getenv('POSTGRESQL_URL')
# openai config
openai.api_type = "azure"
openai.api_base = "https://example-endpoint.openai.azure.com"
openai.api_version = "2023-XX"
openai.api_key = openai_key

def main():
    if openai_key is None or postgresql_url is None:
        print('Missing environment variable OPENAI_KEY, POSTGRESQL_URL(host:127.XX.XX.XX,port:5432,user:XX,password:XX,database:XX)')
        return
    print('我是您的PostgreSQL AI助手，请输入您想查询的问题，例如：\n1、如何创建table？\n2、给我解释一下select语句？\n3、如何创建一个存储过程？')
    while True:
        query = input("\n输入您的问题:")
        query_handler(query)
        
if __name__ == "__main__":
    main()

先修改 90、91 行的 OpenAI 的 key 和 PG 的连接串，为实际 key 和连接地址：

os.environ['OPENAI_KEY'] = '-----------------------'
os.environ['POSTGRESQL_URL'] = 'host:127.0.0.1,port:5432,user:test,password:test,database:test'

然后修改 GPT 的参数：

openai.api_type = "azure"
openai.api_base = "https://example-endpoint.openai.azure.com"
openai.api_version = "2023-XX"

其次通过修改机器人自我介绍，以让提问者快速了解问答机器人的专业特长，这里的自我介绍，说明机器人是一个数据库专家的角色。

prompt = '''Pretend you are GPT-4 model , Act an database expert.
        I will introduce a database scenario for which you will provide advice and related sql commands.
        Please only provide advice related to this scenario. Based on the specific scenario from the documentation,
        answer the question only using that information. Please note that if there are any updates to the database
        syntax or usage rules, the latest content shall prevail. If you are uncertain or the answer is not explicitly
        written in the documentation, please respond with "I'm sorry, I cannot assist with this.\n\n''' + "Context sections:\n" + \
        content.strip().replace('\n', ' ') + "\n\nQuestion:"""" + query.replace('\n', ' ') + """"\n\nAnswer:"

最后安装脚本依赖：

pip install psycopg2-binary
pip install openai
pip install 'openai[datalib]'

测试过程：

打造企业级智能问答系统的秘密：如何使用云数据库 PostgreSQL 版实现向量检索..._第7张图片

到此为止，您就获得了一个企业级专属智能问答系统。

方案优势

相较于其他向量数据库，借助火山引擎云数据库 PostgreSQL 版提供的 pg_vector 插件构建的向量数据库具有如下优势：

使用便捷易上手： 无需专业 AI 专家介入，无需构建其他大规模复杂分布式集群，只需要一个数据库实例，便可构建专用向量数据库。使用接口兼容现有 SQL 语法，不需要定制化调度框架、终端。
性价比高： 可使用已有数据库实例，不需要额外购买其他庞大的集群资源。
数据实时更新可用： 向量数据可以在毫秒级实现新增、更新，并且依然具备事务属性，无需担心数据的错乱。
支持高并发，扩展容易： 在向量化场景可支持数千 TPS；在性能出现瓶颈时，可以通过一键扩展只读节点，轻松实现整体吞吐的瞬间提升。
支持向量维度高： pg_vector 还具备支持向量维度高的特点。最多可支持 16000 维向量，能够满足绝大部分向量化存储、使用场景。

关注「字节跳动数据库」公众号回复【脚本】即可获取参考代码。

点击下方阅读原文，了解云数据库PostgreSQL版。

HIBERNATE - 符合Java习惯的关系数据库持久化 popkiler Atleap代码读解 hibernate 数据库 java session class payment
HIBERNATE-符合Java习惯的关系数据库持久化Hibernate2参考文档2.1.1TableofContents前言1.在Tomcat中快速上手1.1.开始Hibernate之旅1.2.第一个可持久化类1.3.映射cat1.4.与猫同乐1.5.结语2.体系结构2.1.总览2.2.持久化对象标识（PersistentObjectIdentity）2.3.JMX集成2.4.JCA支持3.Se
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
2.10 Spring Boot定时任务：@Scheduled与Quartz对比分析 Sendingab spring boot 后端 java
SpringBoot定时任务：@Scheduled与Quartz对比分析一、核心特性对比特性**@Scheduled**Quartz依赖复杂度内置于Spring（零配置）需额外依赖与配置任务持久化不支持（内存存储）支持（数据库持久化）动态任务管理仅静态配置支持运行时增删改查分布式支持需自行实现原生集群支持调度策略固定速率/延迟Cron表达式/日历触发错误处理简单异常捕获完善的重试与错误日志机制性能
【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度深度学习机器大语言模型深度学习入门人工智能语言模型
一传统方法之前的文章已经介绍过向量数据库在RAG（RetrievalAugmentedGenerative）中的应用，本文将会讨论另一个重要的工具-Embedding模型。一般来说，构建生产环境下的RAG系统是直接使用Embedding模型对用户输入的Query进行向量化表示，并且从已经构建好的向量数据库中检索出相关的段落用户大模型生成。但是这种方法很明显会受到Embedding模型性能的影响，比
mysql 数据库部署 IT 古月方源网络安全运维网络数据库
以下是基于CentOS7系统部署MySQL数据库的详细步骤及常见问题解决方案：一、卸载旧版本MySQL/MariaDB停止服务并检查残留systemctlstopmariadb#停止MariaDB服务rpm-qa|grepmariadb#检查MariaDB安装包rpm-e--nodepsmariadb-libs-*#强制卸载MariaDB及其依赖包rm-rf/etc/my.cnf/var/lib/
【护网行动】最新版护网知识总结，零基础入门到精通，收藏这篇就够了网络安全小宇哥 oracle 数据库安全 web安全计算机网络网络安全网络
一、基础知识1.SQL注入：一种攻击手段，通过在数据库查询中注入恶意SQL代码，获取、篡改或删除数据库数据。（1）危害：数据库增删改查、敏感数据窃取、提权/写入shell。（2）类型：按注入点（字符型、数字型、搜索型）、提交方式（get、post、cookie）、执行效果（联合、报错、布尔、时间）分类。（3）注入方式：包括information_schema注入、基于函数报错注入（如updatex
flask实现mvc模式 dev.null Python flask mvc python
Flask默认是一个轻量级框架，并不强制使用MVC模式，但我们可以按照MVC结构来组织代码，使项目更加清晰和可维护。Flask实现MVC模式Flask本身并没有严格的Controller层，但我们可以通过视图函数（ViewFunctions）充当Controller，使其符合MVC模式。目录结构flask_mvc_app/│──app/│├──models.py#Model(数据库模型)│├──v
YashanDB归档管理数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...YashanDB通过开启归档模式来进行redo日志文件自动归档，用以支持生产环境中的数据热备份以及高可用主备部署场景的主备同步。当故障发生时，可以通过历史全量数据数据备份以及归档的redo日志文件重做完成数据库重建。V$DAT
Redis 主从复制机制深度解析与实践指南月落星还在 redis redis 数据库缓存
Redis的主从复制（Replication）是构建高可用、高性能分布式缓存和数据库系统的核心机制。通过主从复制，数据可以从一个主节点（Master）自动同步到多个从节点（Slave），实现读写分离、负载均衡和故障恢复。本文将深入探讨主从复制的原理、配置方法、常见问题及优化策略。一、主从复制的核心概念1.1什么是主从复制？主从复制是一种数据同步机制，允许从节点实时复制主节点的数据。主节点负责处理写
Linux下安装Mysql环境软件分享工作室 Linux linux mysql 运维
1.mysql说明MySQL是一种开源的关系型数据库管理系统，它具有高性能、可靠性和灵活性的特点。MySQL支持多种操作系统，包括Windows、Linux和MacOS等。它是最流行的数据库管理系统之一，被广泛应用于网站开发、数据存储和数据分析等领域。2.mysql优点1.开源免费：MySQL是开源软件，可以免费使用和修改，没有任何使用限制。2.跨平台：MySQL可以在多种操作系统上运行，包括Wi
达梦数据库操作日期 one 大白(●—●) 数据库达梦日期函数操作日期
排班情况获取当月获取上月和下月的数据select*fromuf_zbglbwherefind_in_set('1',zbbm)>0andrqlike'2021-03%'orrqlike'2021-3%'ordatepart(year,rq)=(selectdatepart(YEAR,ADD_MONTHS(DATE'2021-03-16',1)))anddatepart(month,rq)=(sel
高级java每日一道面试题-2025年2月20日-数据库篇-大表如何优化 ? java我跟你拼了 java每日一道面试题数据库 java 大表优化索引分页
如果有遗漏,评论区告诉我进行补充面试官:大表如何优化?我回答:在Java高级面试中讨论大表优化问题时，理解并能详细阐述各种优化策略和技术实现是至关重要的。以下是结合提供的信息进行综合后的详细解析：大表优化的背景当数据库中的单表记录数变得非常庞大时，数据库操作（CRUD）的性能会显著下降，这不仅影响应用的响应速度，还可能导致系统资源耗尽，影响业务的稳定性。因此，对大表进行有效的优化是提升数据库性能的
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
linux 同一机器 mongodb 分片,MongoDB自动分片介绍吴炳忠 linux 同一机器 mongodb 分片
MongoDB自动分片介绍高性能、易扩展一直是MongoDB的立足之本，同时规范的文档和接口更让其深受用户喜爱，这一点从分析DB-Engines的得分结果不难看出——仅仅1年时间，MongoDB就完成了第7名到第五名的提升，得分就从124分上升至214分，上升值是第四名PotgreSQL的两倍，同时当下与PostgreSQL的得分也只相差16分不到。1.片键介绍数据划分(partitioning)
MySQL-关于如何保存“大数据” 赵师的工作日 mysql 大数据数据库
作者：赵师的工作日（赵明中）现役OracleACE、MySQL8.0ocp、TiDBPCTA\PCTP、ElasticsearchCertifiedEngineer微信号：mzzhao23微信公众号：赵师的工作日墨天轮社区：赵师的工作日CSND：赵师的工作日数据库的种类有很多，各类数据库充分发挥各自的优势从而保证业务稳定运行，mysql轻量级、关键数据，redis缓存、快，ES搜索，Mongodb
Apache Doris中都用了哪些开发语言，编译过程中用到了哪些编译器，以及用到了哪些成熟的技术框架 fzip Doris apache 开发语言
ApacheDoris作为一款高性能的实时分析型数据库，其技术栈涉及多语言开发、多种编译器支持以及多个成熟技术框架的集成。以下是综合多个来源的详细分析：一、开发语言Java•应用场景：主要用于开发Frontend（FE），负责元数据管理、查询解析、集群管理等模块。•关键模块：◦FE的元数据持久化通过BDBJE（BerkeleyDBJavaEdition）实现。◦MySQL协议兼容和HTTP服务分别
5、请简述公司的系统服务架构类型（单体架构、分布式架构、微服务架构、分层架构、集群架构、SOA 架构、中台架构）静静在思考面试经验架构分布式微服务
以下是对公司常见的系统服务架构类型的简述及架构图说明：单体架构简述：将所有功能集成在一个项目中，作为一个整体进行开发、部署和运行，所有业务逻辑、数据访问等都在一个进程内。适用于小型项目或业务简单的场景，开发、部署和维护相对简单。架构图用户界面业务逻辑数据访问数据库分布式架构简述：把系统拆分为多个子系统或服务，分布在不同节点上独立运行，通过网络通信协作完成业务功能，可扩展性和可靠性较高，能应对大规模
ClickHouse 作用，优缺点。 mldsh13 clickhouse
ClickHouseClickHouse是一个开源的分布式列式数据库管理系统(DBMS)，专门设计用于实时分析(OLAP)。它最初由俄罗斯的Yandex开发，后来成为了开源项目，被广泛应用于需要高性能数据分析和查询的场景。作用：实时分析：ClickHouse专注于快速查询和分析大量数据，使其特别适用于数据分析、报告和实时仪表板等应用场景。大规模数据处理：能够处理海量数据，支持分布式架构，可以水平扩
MyBatis Plus 在 Java 项目中的高效使用随风九天匠心数据库 java spring java mybatis MyBatis Plus
1.前言1.1MyBatisPlus简介MyBatisPlus是一个MyBatis的增强工具，旨在简化开发人员在数据库操作上的工作量。它提供了丰富的功能，如自动化的CRUD操作、条件构造器、分页查询等，极大地提高了开发效率。1.2为什么选择MyBatisPlus简化代码：自动生成基础的CRUD方法，减少重复代码。提高效率：内置多种插件和工具，提升开发速度。易于维护：代码结构清晰，便于后续维护和扩展
掌握SQL多表连接查询_轻松处理复杂数据关系随风九天匠心数据库 java sql 数据库
1.引言1.1数据库中的多表关系概述在实际应用中，数据库通常由多个表组成，每个表存储不同类型的数据。例如，在一个电子商务系统中，可能会有用户表、订单表、产品表等。这些表之间存在关联关系，通过多表连接查询可以整合这些数据，提供更全面的信息。1.2多表连接查询的重要性多表连接查询是SQL中最常用和重要的操作之一。它允许我们从多个表中提取相关数据，并根据特定条件进行组合。掌握多表连接查询可以帮助我们更高
Apache Doris 实现毫秒级查询响应随风九天匠心数据库服务 java apache Apache Doris
1.引言1.1数据分析的重要性随着大数据时代的到来，企业对实时数据分析的需求日益增长。快速、准确地获取数据洞察成为企业在竞争中脱颖而出的关键。传统的数据库系统在处理大规模数据时往往面临性能瓶颈，难以满足实时分析的需求。例如，一个电商公司需要实时监控销售数据以调整库存和营销策略，而传统的数据库可能需要数分钟甚至数小时才能生成报表，这显然无法满足业务需求。1.2ApacheDoris简介ApacheD
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
基于jsp+servlet+mysql实现增删改查蟹黄味汉堡 mysql servlet jsp
#声明单纯记录学习计算机当中所遇到的问题把解决问题的方法分享给大家希望大佬不要喷我这个小白#链接mysql数据库publicclassBaseDao{publicConnectiongetConnection()throwsClassNotFoundException,SQLException{//url里的demo4为数据库名称Stringurl="jdbc:mysql://localhost:
如何实现集群中的session共享存储？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
集群中Session共享存储的实现在分布式系统或集群环境中，确保用户会话（Session）能够在所有节点之间共享是一个关键问题。为了实现这一点，可以采用多种策略和技术。以下是关于如何在Java架构中实现集群中的Session共享存储的主要方面：1.使用集中式存储服务Memcached：轻量级、高性能的内存缓存系统，适用于存储短期的session数据。Redis：功能更强大的键值存储数据库，不仅支持
python mongo异步操作_让python调用mongo读写速度加速10倍的方法 weixin_39867125 python mongo异步操作
1.把mongo读写封装成api2.在api初始化时保持数据库长链接；并且用线程每2分钟遍历一次所有的表并count一次importsysimporttimeimportpymongoimportjsonimportlogimporttracebackimportthreading//库名test，表名test_tableserver_list=['test-mongos.all.serv:636
oracle date类型如何比较 &loopy& oracle 数据库
在Oracle数据库中，DATE类型用于存储日期和时间信息，精确到秒。当你需要比较两个DATE类型的值时，可以使用标准的SQL比较运算符，如=、和>=。以下是一些示例，说明如何在Oracle中比较DATE类型的值：1.等于(=)检查两个日期是否相等：sql复制代码SELECT*FROMyour_tableWHEREyour_date_column=TO_DATE('2023-10-23','YYY
java 连接oracle 字符集_Java连接Oracle数据库，编码格式转换东京客 java 连接oracle 字符集
学习东西不忘记下笔记：dbhelper类，各种数据库都合适。publicclassDBHelper{//mysql数据库//publicstaticfinalStringurl="jdbc:mysql://127.0.0.1:3306/test";//publicstaticfinalStringname="com.mysql.jdbc.Driver";//publicstaticfinalStr
oracle字符时间比较,Oracle字符和时间比较七娃爸爸 oracle字符时间比较
数据库中的字段2017-07-1113:37:51类型是char或者varchar要进件与'20170625'比较，格式不一致，需要将他转换成：yyyyMMdd字符串1、先to_dateto_date(create_date,'yyyy-mm-dd,hh24:mi:ss')格式一定要与create_date一致2、转字符串to_char(sysdate,'yyyymmdd')例：下面将create
数据库批处理 Java 顶针数据库 oracle
数据库批处理是一种处理数据的方法，通常用于对大量数据进行一次性操作。批处理可以有效地减少数据库操作的次数，提高数据处理的效率。在数据库中，批处理通常通过编写批处理脚本或使用相应的工具来实现。一般情况下，数据库批处理包括以下步骤：数据准备：准备需要处理的大量数据，通常可以通过导入数据、查询数据库等方式获取需要的数据。编写批处理脚本：编写用于处理数据的批处理脚本，通常使用SQL语句或存储过程来实现对数
（9）异步Mongo驱动的性能测试——响应式Spring的道法术器享学IT 【道法术器】响应式Spring 响应式异步 Mongo 性能
本系列其他文章见：《响应式Spring的道法术器》。前情提要：SpringWebFlux快速上手|SpringWebFlux性能测试|SpringWebClient性能测试1.4.4同步与异步数据库驱动的性能对比许多数据库已陆续推出官方的异步驱动，在SpringDataReactive中，已经集成了Mongo、Casandra、Redis、CouchDB的异步驱动。在SpringWebFlux中使
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts