TiDB_PingCAP

黄东旭：“向量数据库”还是“向量搜索插件 + SQL 数据库”？丨我对 2024 年数据库发展趋势的思考

本文由 PingCAP 黄东旭撰写，讨论了数据库技术在 2023 年的快速变革，并对 2024 年的数据库发展趋势进行了预测。文章重点关注了 GenAI 时代对数据库的影响，提出了在数据库选择上的两种路径：“向量数据库”和“向量搜索插件 + SQL 数据库”。文章强调了个性化数据服务的重要性，以及数据库在实时交互和弹性方面所起到的关键作用。

如果我们用一个词来总结 2023 年的数据技术领域，那个词无疑是“急速变革”。我们见证了数据库内核技术与云原生架构的融合演进，AI+Data 的浪潮涌现，以及用户工作负载的深刻转变。GenAI 时代的到来，就像一股不可抗拒的潮流，推动着数据技术的每一朵浪花，朝着更智能化、更灵活化的巨浪之海奔流。

2023 年，我们的眼前充满了夺目的 AI Demo 与炫技，你追我赶。转眼间，当我们步入 2024 年，这个年份将因为 “AI 在从 Demo 到真实场景落地”的急剧转变而被人们记住。随着开源大模型成本的加速下降，企业和开发者对数据的关注也急剧上升，对数据的关注度将很快取代对模型的关注度。有预测认为，在 2023 年，用户愿意在 AI 模型上投入 80% 的预算，然而在未来这一两年里，随着模型成本的降低，这一比重可能会逆转，用户将更多的投资（甚至大于 80%）倾向于数据，数据处理和分析能力变得更加重要。

毫无疑问，AI 将会对数据处理提出非常多新的诉求，数据技术领域也会面临着多重挑战与机遇，AI 正在重塑数据技术的全新生态。我们不禁要问：在 GenAI 的大潮中，选择 “向量数据库”还是“以 SQL 数据库作为核心，添加向量搜索插件”？数据库如何应对 Gen AI 对数据库扩展性和实时交互的诉求？浪涌般海量数据的实时查询会不会带来巨大的成本压力？AI 带来的自然交互方式催生怎样的开发者体验？这些问题将在本文中一一解答

/ 预测一 /

“向量数据库”还是“向量搜索插件 + SQL 数据库”？这是一个答案很明确的问题。

如果说过去 CRUD 应用是对数据库访问的静态封装，那么随着 GenAI 的普及，尤其是 Chatbot 或 Agent 的产品形态，对数据的使用会是更加灵活和动态的。过去，集中的数据存储和应用是因为技术的局限，很难为个人提供个性化的服务，尽管现代的 SaaS 其实很希望往这个方向发展，但是为每个用户都提供个性化的体验对算力和开发的挑战太高，而 GenAI 和 LLM 将提供个性化服务的成本降得很低（可能就是几段 Prompt），以至于对于数据库而言，带来几个变化：

○ 个人（或一个组织）产生的数据价值会变得越来越高，但这类数据通常不会很大

○ GenAI 会使用更加动态和灵活的方式直接访问数据，这样效率最高

○ 对数据的访问从边缘发起（从 Agent 或者 GenAI 直接发起）

一个很好的例子是 GPTs， GPTs 支持通过的自定义的 Prompt 和用户提供的 RESTful API 来创建自己的 ChatGPT，基础的 ChatGPT 会在它认为需要的时候以灵活的方式调用你给定的 Action。这个调用发生方式和参数是后端的 Action 提供者无法预料的。而且可以预料的是很快 GPTs 将会提供标记个人身份信息的机制，这样对于 Action 的提供者来说，相当于后端的数据库有了最重要的索引：UserID，剩下的就很好理解了。

这里你可能会提出质疑，RAG 不是标准的做法吗？但现有的 RAG 构建的方式几乎都是静态的，而知识应该是可以实时被更新的，这里不得不提到向量数据库。

对向量的支持，在去年是数据库迭代的一个热门方向，产生了很多专门的向量数据库， 但是我认为，更丰富的数据访问接口，使得向量搜索成为标配，然而 SQL 仍然是基石。向量搜索并不值得专门使用一个独立的数据库来支持，更应该是现有的数据库中的一个功能，就像 ：

Plaintext
Rust   INSERT INTO tbl (user_id, vec, ...) VALUES (xxx, [f32, f32, 
f32 ...], ...);   SELECT * FROM tbl WHERE user_id = xxx and 
vector_search([f32,f32,f32,f32 ...])

类似的访问可能是更符合开发者直觉的。

而 关系型数据库天然支持插入和更新 ，另外配合向量索引的搜索能力，便可以将 RAG 变成一个可以实时更新实时查找的正反馈循环（利用 LLM 引入进行二次的 Summary ，然后将更新的 Index 储存在 DB 中）。更重要的是， 关系型数据库的引入消除了向量数据库带来的数据孤岛的问题 ，当你可以将向量索引筛出来的数据关联（JOIN）到同一个 DB 中其他的数据的时候，灵活性带来的价值就得以显现。

另一个好处是，Serverless 的产品形态，同样也将数据的所有权归还给用户本人，大家思考一下，在我们熟知的 Web2 时代，我们的数据是隐藏在一个个互联网公司的服务背后的黑箱，我们没有办法直接访问；而在 GenAI 的应用场景下，数据的交互变成一个三角的关系，用户 - 数据 (RAG) - GenAI。很有意思的是，这个正是 Web3 的理想之一，GenAI 的普及很可能顺手也将 Web3 想实现的将数据的所有权交还给用户的理想，这在 Web2 时代是不可能实现的，这其实是一种技术理想的回归。

当然，我相信在未来 RAG 会成为数据库的很重要的一种新应用场景，在这种场景中 Serverless 形态提供的云数据库服务会变成标准化的。

/ 预测二 /

由高价值数据驱动的应用成为 GenAI 应用的主流，弹性与实时交互成为数据库能力的基石。

在预测一里我们提到， GenAI 时代的应用要求知识和数据是可以被实时更新的，这对数据库的弹性以及实时交互提出了非常直接的需求。

数据库的可扩展性一直是过去十年间，业界关注的重点之一。根据我们的观察，大多数单一在线业务，100TB 已经是很大规模，而这个规模下的一般 OLTP 业务，已经可以被市场上很多系统自信的解决。

但这些数据库大多是 Shared Nothing 的系统，Shared nothing 的系统通常会有一个假设：在集群中的节点是对等的，只有这样数据和 Workload 才能均匀的分散在各个节点上。这个假设对于海量数据 + 访问模式均匀的场景没有问题，但是仍然 有很多的业务具有明显的冷热特征，尤其是在 GenAI 带来的数据访问方式越来越动态和灵活的 2024 年及以后 。

我们最经常处理的数据库问题之一就是局部热点。如果数据访问倾斜是一个业务的天然属性的话，对等的假设就不再是合理的，更合理的方式是将更好的硬件资源倾斜给热点的数据，而冷数据库使用更廉价的存储，例如，TiDB 从一开始将存储节点（TiKV）/ 计算节点（TiDB）/ 元信息（PD）分离，以及在后来 TiDB 5.0 中引入自定义 Placement Rule 让用户能够尽可能决定数据摆放策略，就是为了尽可能弱化节点对等假设。

但是更终极的解决办法在云端，在基本的扩展性问题得到解决后，人们开始追求更高的资源利用效率，在这个阶段，对于 OLTP 业务来说，我想可能更好的评价标准是 Cost Per Request。因为在云端，计算和存储的成本差别是巨大的，对于冷数据来说，如果没有 Traffic，你甚至可以认为成本几乎为 0，但是计算却是昂贵的，而在线服务不可避免的需要计算（CPU 资源），所以 高效利用计算资源，云提供弹性将成为关键 。

另外，请不要误解，弹性并不意味着便宜，on-demand（随需提供的）的资源在云上通常比 provisioned（预分配）的资源更贵，持续的 burst 一定是不划算的，这种时候使用预留资源更合适，burst 那部分的成本是用户为不确定性支付的费用。仔细思考这个过程，这可能会是未来云上数据库的一种盈利模式，

与弹性同样重要的需求就是实时交互 。GenAI 时代的应用需要数据库不仅要有强大的数据处理能力，还需要有高效的实时数据广播和同步机制。这不只是让数据能够实时更新，而是确保数据流能够实时流动，让数据库能即时捕捉到每一次交互，每一个查询，确保每一个决策都是基于最新、最准确的信息。（就是用户愿意为更高价值的实时交互付钱，想想股票实时交易和直播电商的场景就知道了）

于是整个系统——从数据的产生到处理、再到存储和检索——都必须要在实时的框架下工作，能够在毫秒级别做出实时响应，这也需要数据库能实时在事务处理（OLTP）和分析处理（OLAP）之间无缝同步。这样的实时交互能力，将会是现代数据库区别于传统数据库的决定性因素之一。

/ 预测三 /

成本分析已经成为所有人关心的问题，在云数据库的可观测性中成为独立新视角。

今天我还想谈的一点是云数据库的可观测性，尤其是它是否能让我的云消费更透明。对于数据库云服务来说，可观测性的要求会更高，因为对于开发者来说，服务商提供的 Dashboard 几乎是唯一的诊断手段。介绍可观测性的文章也很多，相似的部分因为篇幅关系我也不打算说太多。

与传统的可观测性不一样的是： 在云上，一切 Workload 都会成为客户的帐单的一部分 。对于用户来说一个新的问题便是：为什么我的帐单看起来是这样？我需要做什么才能让我的帐单更便宜？账单的可解释性做得越好，用户体验也就越好。

但是如果计费测量的粒度过细，也会影响产品本身的性能以及增加实现的成本。这里面需要平衡。但可以确定的是，在思考可观测性产品的方向上，成本分析可以作为一个独立的新视角。

成本分析可以帮助用户发现系统运行中的潜在问题，并采取措施予以优化。例如，如果用户观测到某个数据库实例的 CPU 使用率较低，但成本却很高，就可以考虑将该实例的规格调整为更低的级别。

AWS 今年发布的 Cost and Usage Dashboard 和 Reinvent 上 Amazon CTO Dr. Werner 的演讲专注于成本的架构艺术也同样可以看到这个趋势。他提出了 “俭约架构” 七大法则来在云的环境中打造更加高效、可持续的系统，为我们提供了一个系统性的指导框架。

/ 预测四 /

当 GenAI 时代的各种应用和工具变得越来越轻巧，开发者体验将成为现代数据库设计的核心目标之一。

数据库平台化不仅仅是漂亮的 Web 管控界面以及一些花哨的功能堆砌。我很喜欢 PlanetScale 的 CEO Sam Lambert 在他的个人 Blog 里面关 Develop Experience 的描述他引用了乔布斯的一句话“Great art stretches taste, it doesn’t follow tastes（伟大的艺术拓展审美边界，而不是刻意迎合。）”。

好用的工具之所以好用，是因为其中是饱含了设计者的巧思和品味，而且这个设计者也必须是重度的使用者，这样人们才能体会到那些细微的快乐与痛苦，但是又不至于沉浸其中使其盲目，其实这对负责开发者体验的产品经理来说是极高的要求。

数据库管理工具作为一种频率不算高频、但每次使用都很严肃的工具，在 AI 和云的时代，我认为有一些与体验紧密相关的设计原则是需要遵守的：

API First, 数据库平台应该提供稳定的 / 前向兼容的 API，一切在管控平台里能干的事情，API 都要能做到，最好你的管控平台是基于你的 API 构造的。这为你提供一个功能齐备的好用的 CLI Tool 也是关键的必要条件。

使用统一的认证体系，在设计阶段将管控的认证和用户体系与数据库内部的认证体系打通，传统的数据库基于用户名和密码的权限体系在云的时代是不够的。这为了后续与云的 IAM 和 Secret 管理体系对接打下基础。

对不同的功能构建不同的 / 稳定的小工具 (Do one thing, do things well)，但是通过一个统一的 CLI 入口和语义系统进行调用。比较好的例子是 rustup, 甚至 git 也是个很好的例子。

稍微总结一下，2024 年，数据和数据库技术仍然处于巨大的变革期，谁也没办法预测未来，因为我们就身处这么一个不确定性巨大的时代。但好的一面是，创新仍然层出不穷。我今天预测的，很可能过几个月就会被我自己全部推翻，也是很正常的事情，如果能给当下的你有所启发，那就够了。

如何构建高效的向量数据库以优化大模型检索能力学习ing1 数据库
1.构建向量数据库的基础架构1.1确定数据存储需求构建高效的向量数据库以优化大模型检索能力，首先要明确数据存储需求。大模型通常涉及海量的参数和数据，例如一个拥有10亿参数的模型，其存储需求可能达到数百GB。根据数据的规模和类型，需要确定存储的容量、速度和可靠性。对于大规模数据，分布式存储是常见的选择，它可以将数据分散存储在多个节点上，提高存储效率和数据访问速度。同时，数据的读写频率也是重要因素，高
向量数据库FAISS/Chromadb/ES/milvus简单概述
FAISSFAISS（FacebookAISimilaritySearch）是一种高性能的向量相似性搜索库，用于在大规模向量数据集中快速搜索最相似的向量。它是由FacebookAIResearch开发的，旨在解决大规模向量搜索的问题，广泛应用于各种领域，如图像搜索、文本搜索、推荐系统等。FAISS的主要特点和优势如下：高效的相似性搜索：FAISS使用了一系列高效的算法和数据结构，如倒排索引、局部敏
LLM初识
从零到一：用Python和LLM构建你的专属本地知识库问答机器人摘要：随着大型语言模型（LLM）的兴起，构建智能问答系统变得前所未有的简单。本文将详细介绍如何使用Python，结合开源的LLM和向量数据库技术，一步步搭建一个基于你本地文档的知识库问答机器人。你将学习到从环境准备、文档加载、文本切分、向量化、索引构建到最终实现问答交互的完整流程。本文包含详细的流程图描述、代码片段思路和关键注意事项，
大模型——TRAE+Milvus MCP 自然语言就能搞定向量数据库不二人生大模型 milvus 数据库 trae 大模型
大模型——TRAE+MilvusMCP自然语言就能搞定向量数据库不久前，继Cursor和ClaudeDesktop在海外市场掀起智能编程浪潮后，字节跳动TRAE海外版也进入了付费模式。相较前两款海外产品，TRAE集成了代码补全、智能问答和Agent模式之外，还可以为中文开发者带来本土化的智能编程体验。恰逢其时，MilvusMCP服务器新增了SSE（Server-SentEvents）支持。相比传统
推荐开源项目：Milvus Lite —— 轻量级向量数据库，助力AI应用快速起飞穆希静
推荐开源项目：MilvusLite——轻量级向量数据库，助力AI应用快速起飞项目介绍MilvusLite是知名开源向量数据库Milvus的轻量级版本，专为需要在小型环境中进行向量嵌入和相似性搜索的AI应用设计。通过将MilvusLite导入您的Python应用，您可以直接使用Milvus的核心向量搜索功能。MilvusLite已集成在PythonSDKofMilvus中，只需通过pipinstal
【速通RAG实战：数据库】6.RAG向量数据库原理无心水速通 RAG 实战！解锁 AI 2.0 高薪密码速通RAG实战 RAG快速开发实战 RAG RAG向量数据库相似度 FAISS Chroma
在RAG（检索增强生成）系统中，向量数据库扮演着至关重要的角色，它负责存储文本经过Embedding处理后的向量表示，并能高效地进行向量检索，以找出与查询向量最相似的文档。1.向量数据库原理1.向量表示在RAG系统里，文本首先会通过Embedding模型（如OpenAIEmbeddings、SentenceTransformers等）转化为固定维度的向量。这些向量能够捕捉文本的语义信息，使得语义相
三层架构 vs SOA vs 微服务：该选谁？ Echo_Wish 架构运维实战：高可用与高性能架构微服务云原生
三层架构vsSOAvs微服务：该选谁？一、从单体到分布式：架构演进的必然性最早的系统架构通常是单体架构（MonolithicArchitecture），所有功能都打包在一个应用里，部署方便，但扩展性和灵活性有限。后来，为了让系统更具可维护性，三层架构成为主流。但当业务变得复杂，单纯的三层架构不再够用，SOA应运而生，再到后来的微服务，都是在解决“架构如何更灵活、可扩展、好维护”这个核心问题。那么，
mybatis/mybatis-plus添加数据,自增id的值为负数雾林小妖 Java开发常见BUG解决方案 mybatis
1、问题概述？使用mybatis-plus的insert方法添加数据的时候，数据虽然添加成功了，但是返回值为false，提示添加失败。当观察数据的时候，发现数据的自增主键id的值尽然为-1，或者无规律的长串负数，如：-109096962。2、解决办法？解决办法总体比较简单【注意点1：@TableId(value="id",type=IdType.AUTO)】AUTO(0,“数据库ID自增”),NO
微软CEO Satya Nadella提出AI重构法则：从范式跃迁到社会盈余 TGITCIC AI-大模型的落地之道 AI大模型大模型AI AI Agent AI智能体 AI落地大模型落地
1.范式跃迁：AI作为第四次技术革命的核心驱动力1.1技术代际的复合效应从客户端到互联网、移动互联网再到云计算，技术平台的演进始终遵循“平台变革→产品跃迁→反哺平台”的螺旋上升逻辑。AI的特殊性在于其叠加了前三代技术的基础设施能力：云计算：提供百亿级参数模型的分布式训练能力互联网：构建全球数据流动与反馈闭环移动终端：扩展AI服务的触达边界技术范式核心特征代表产品对AI的支撑作用客户端本地化计算Wi
UML设计系列(9)：开发过程中如何应用UML
传送门UML设计系列(1)：状态机图UML设计系列(2)：类图UML设计系列(3)：时序图UML设计系列(4)：用例图UML设计系列(5)：系统依赖图UML设计系列(6)：活动图UML设计系列(7)：UML设计阶段性总结UML设计系列(8)：数据库关联关系图我眼中的软件开发流程对于软件的开发流程，我们一直没怎么触碰，探讨不多。业界的标准开发模式也很成熟，比如你可能听过传统的瀑布、迭代开发模式，随着
LangChain 源码剖析（二）：LangChain 流程编排的核心骨架——Chain 基类源码剖析 ATM006 人工智能 langchain 大模型 Agent
每一篇文章都短小精悍，不啰嗦。在LangChain框架中，Chain是连接各种组件（模型、工具、数据库等）的核心骨架，负责将多个步骤按逻辑串联成可执行的工作流。无论是简单的「提问-回答」流程，还是复杂的「检索-思考-工具调用」pipeline，都依赖Chain基类提供的基础能力。本文将从架构设计、核心功能到实现细节，全面解析这一基类的设计智慧。一、架构定位：为什么需要Chain基类？Chain基类
大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
微服务链路雪崩防护深度解析：Hystrix与Sentinel熔断降级策略对比梦玄海微服务 hystrix sentinel
一、微服务雪崩效应与熔断机制核心原理1.1雪崩效应形成机制微服务架构中的雪崩效应本质上是服务调用链路的级联故障扩散过程，其形成机制可分为以下阶段：异常传播阶段：当某个下游服务节点因高负载、网络波动或代码缺陷出现响应延迟或异常时，调用方服务会持续积累待处理请求资源耗尽阶段：调用方线程池被持续占满，数据库连接池耗尽，TCP连接数达到上限，导致正常业务请求无法获取计算资源服务瘫痪阶段：故障通过服务依赖关
创建型模式大曰编程 java面试分布式设计模式
创建型模式是设计模式的核心分支，专注于对象创建机制的优化，通过封装对象实例化过程，提升系统的灵活性与可扩展性。在分布式系统中，由于多节点协作、网络通信延迟、状态一致性等特性，传统单体环境下的创建型模式需进行适应性演化。本文从分布式场景出发，系统解析单例、工厂方法、抽象工厂、建造者、原型五大创建型模式的核心原理、分布式变种及实战应用。一、单例模式：分布式环境下的唯一性保障1.1单体与分布式单例的本质
为什么阿里巴巴Java开发手册禁止使用存储过程？需要重新演唱 SQL java java 开发语言
阿里巴巴Java开发手册中禁止使用存储过程的原因主要基于以下几个方面的考虑：1.可维护性差复杂性：存储过程通常包含复杂的逻辑，随着业务逻辑的增加，存储过程的复杂性也会不断增加，导致维护成本高。调试困难：存储过程的调试通常比应用程序代码更困难，尤其是在分布式系统和微服务架构中。版本控制：存储过程的版本控制和变更管理相对复杂，难以与应用程序的版本控制流程集成。2.可移植性差数据库依赖：存储过程的语法和
不用存储过程怎么处理大批量数据？读取大批量数据 liu_111111 ASP.Net高级
解决方案一：可以从几个方面着手：第一，减少网络的数据传输量第二，减少服务器的计算时间消耗第三、使用存贮过程可以有效的减少指令的数据量。第四、没有更新冲突的需求，那么请去掉检查数据库更新冲突的选项。这样可以减少数据传输量，并能减少服务器的计算时间。解决方案二：1、建立一个临时表2、把数据插入临时表3、写一个存储过程，把对应删除老表数据后，插入临时表数据4、执行上述存储过程
存储过程都有什么替代方案? 瑞信卡券提货系统存储过程
存储过程的替代方案主要有以下几种：ORM（对象关系映射）：ORM框架，如Hibernate、EntityFramework等，在客户端逻辑和数据库之间插入了一个层。这些框架能够生成SQL语句以在数据库上执行，从而避免了直接编写存储过程。使用ORM，开发人员可以在应用层表达复杂的业务逻辑，而无需将逻辑分散到存储过程中。ORM框架允许开发人员使用面向对象的方式操作数据库，提供了更高层次的抽象，使得代码
你还在使用存储过程吗？
上周，reddit网r/dotnet区的网友technolang发帖：「你还在使用存储过程吗？」我很好奇为什么2024年了我们还在使用存储过程。难道网络应用中没有一个业务层来处理所有事情吗？依赖DBA并在数据库层创建依赖关系似乎没有必要。另外，存储过程调试起来很麻烦。所以它有什么好处呢？网友xabrol给出了非常用心的回答。他说：我不是说教，只是讲点事实。我从事咨询行业，曾在银行和抵押贷款公司工作
从0到1构建数据库安全审计系统：设计、实现与实战小张在编程数据库
引言2024年某金融机构发生数据泄露事件，内部审计日志显示，某运维人员在非工作时间执行了SELECT*FROMcustomer_info的全表查询，但当时未触发任何告警——这并非技术漏洞，而是数据库安全审计系统的“失效”。随着《数据安全法》《个人信息保护法》的落地，数据库作为企业核心资产，其操作行为的可追溯、风险的可预警已成为合规刚需。本文将从需求分析到代码实现，带你拆解一个企业级数据库安全审计系
Oracle Restore Points 彦祖的小号 Oracle oracle
（一）NormalRestorePoints一般还原点只是给恢复SCN起个别名方便使用，并不会生成类似flashbacklog，存储空间基本为0，并不保证一定能把数据库恢复到此还原点，你可以在RECOVERDATABASE、FLASHBACKDATABASE以及FLASHTALBE中使用CreatinganormalrestorepointassignsarestorepointnametoanS
使用闪回数据库（FLASHBACK DATABASE）和还原点（RESTORE POINT）数语数行 Oracle备份与恢复 Oracle 数据库 database flashback 闪回数据库 restore point
这个章节讲述闪回数据库和还原点。作为数据保护策略整体的一部分，讨论配置，监控和维护这些特性。1．闪回数据库，还原点和保证还原点概述Oracle闪回数据库和还原点是相关的数据保护特性，让你可以按时间倒回数据，纠正在指定的时间窗口内任何逻辑数据损坏或用户错误导致的问题。这些特性相对于时间点恢复提供了一个更有效的替代方案，它不需要先还原数据库的备份，效果与数据库时间点恢复（DBPITR）类似。闪回数据库
Redis中什么是看门狗机制 sevevty-seven redis
在Redis中，“看门狗机制”（WatchdogMechanism）不是Redis的核心机制之一，但它在一些场景中起到了重要作用，尤其是在使用Redlock分布式锁实现或在RedisEnterprise等高级用法中。一、看门狗机制的通用含义看门狗机制，本质上是一个自动续约或自动重置超时时间的机制，用于防止某些资源（如锁）在没有显式释放的情况下过早失效。二、在Redis中的典型应用场景1.Redis
Redis实战：第一章-初识Redis案例-文章投票随风而醒 MySQL/数据库 redis
redis全称REmoteDIctionaryServer，即远程字典服务，是一个由SalvatoreSanfilippo写的key-value存储系统。Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。它通常被称为数据结构服务器，因为值（value）可以是字符串(String),哈希(Map),
2025AI智能体平台，10个Agent智能体开发平台推荐 cczixun 人工智能智能体大数据安全
1、扣子（Coze）开发平台字节跳动推出的AI智能体开发平台，用户无需编程基础，通过拖拽和配置即可快速创建聊天机器人，并部署到豆包、飞书、抖音、微信等多个平台。平台提供超过1万+的插件，内置豆包・Functioncall32k、通义千问-Max8k等多个大模型，还具备知识库、数据库、图像流等功能。2、通义千问Agent平台阿里巴巴基于通义千问大模型打造的智能体开发框架，以强大的多模态能力和工具集成
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
Redis面试精讲 Day 4：Redis事务与原子性保证在未来等你 Redis面试专栏 Redis 面试数据库缓存
【Redis面试精讲Day4】Redis事务与原子性保证开篇欢迎来到"Redis面试精讲"系列的第4天！今天我们将深入探讨Redis的事务机制与原子性保证，这是Redis面试中出现频率极高的核心知识点。掌握Redis事务不仅能帮助你在面试中脱颖而出，更能让你在实际开发中合理利用事务特性构建可靠的分布式系统。在面试中，面试官通常会通过以下方式考察候选人对Redis事务的理解：解释Redis事务的基本
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
python实现自动化sql布尔盲注(二分查找) 海星船长丶 python 自动化 sql 网络安全 web安全
为了优化自动化布尔盲注的代码，我们可以使用二分查找来减少猜测次数，从而提高效率。以靶场sqli为例：importrequests#目标URLurl="http://127.0.0.1/sqli/Less-8/index.php"#要推断的数据库信息（例如：数据库名）database_name=""#字符集（可以根据需要扩展）charset="abcdefghijklmnopqrstuvwxyzAB
电科金仓AI数据库一体机发布：30%性能提升+自然语言运维，重塑数据底座！ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>百万级并发处理与聊天式数据库运维，正在中国企业机房掀起静默革命。“替换数据库是一件非常困难的事。”电科金仓总裁杜胜在7月15日北京发布会现场坦言。过去20多年里，国外数据库建立的标准让应用软件与数据库深度耦合，迁移复杂度高、改造成本大、停机风险难控。随着他身后大屏幕亮起**“数据库平替用金仓”**的全新口号，电科金仓正式向这一行业痛点宣战。这场名为“融合进化智领未来”的发布会，最耀眼的明星是**
云原生周刊：K8s 中的后量子密码学 KubeSphere 云原生云原生 kubernetes 密码学
开源项目推荐KanisterKanister是一个由CNCF托管的开源框架，最初由VeeamKasten团队创建，旨在简化Kubernetes上的应用程序级别数据操作管理。它通过定义Blueprint、ActionSet和Profile等CRD（自定义资源）及其相关组件，为专家提供一种模板化的方式，将复杂的数据库或分布式系统备份／恢复逻辑封装在可重用、可共享的蓝图中。Kanister支持异步或同步
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

黄东旭：“向量数据库”还是“向量搜索插件 + SQL 数据库”？丨我对 2024 年数据库发展趋势的思考

/ 预测一 /

/ 预测二 /

/ 预测三 /

/ 预测四 /

你可能感兴趣的:(tidb,分布式,云原生,数据库)