向量数据库

# 向量数据库

一、数据库

(一)概念。数据库是按照数据结构来组织、存储和管理数据的仓库,可视为电子化的文件柜,用户可对文件中的数据进行新增、截取、更新、删除等操作。

(二)分类。数据库分为关系型数据库(SQL)、非关系型数据库(NoSQL)两大类。关系型数据库是依据“一对一、一对多、多对多”关系模型创建数据库,将数据以二维表格的形式储存,各个表之间建立关系,通过表格间分类、合并、连接或选取等运算来实现数据的管理。随着互联网应用快速发展,关系型数据库逐渐无法满足超大规模数据和高并发访问的需求,非关系型数据库则由于其本身具有易扩展、大数据量高性能、灵活数据模型、高可用的特点得到迅速发展,有效补充了关系型数据库的适用范围。向量数据库则是非关系型数据库的一种,美国公司Zilliz早在2019年便推出了全球首个开源向量数据库产品Milvus。

二、向量数据库

(一)概念。向量数据是指由多个数值组成的数据,这些数值通常表示某种特征或属性。例如,一张图片可以表示为一个由像素值组成的向量,一个文本可以表示为一个由单词频率组成的向量。向量数据库则是用来存储、检索、分析向量数据的数据库系统,其支持基于向量的检索、聚类、降维、计算等操作。

(二)与传统数据库区别。向量数据库与传统关系型数据库主要存在数据类型、规模、查找方式等方面区别,呈现出优势互补的关系。针对传统关系型数据库难以处理的大规模数据、低时延高并发检索、模糊匹配等领域,向量数据库通过数据的向量化来满足特定需求,尤其适用于人工智能领域。同时,向量数据库的出现也会促进传统数据库对向量数据类型的支持。

特性 关系型数据库 向量数据库
数据类型 数值、字符串、时间等传统数据类型 新的数据类型:向量数据不存储原始数据
数据规模 小,1亿数据量为规模很大 大,千亿数据是底线
数据组织方式 基于表格,按照行和列组织 基于向量,按照向量维度组织
查找方式 精确查找:点查/范围查 近似查找:对算力要求较高
低时延,高并发
支撑上层应用 较弱 对外提供统一的API,更适合大规模AI引用程序的部署和使用
下游应用场景 政府、央企、国企。容错率低,需提供更为精准的搜索结果 互联网公司。场景容错率较高

(三)优缺点。优点:处理大规模数据、支持高维数据、支持复杂查询、易扩展、高兼容性;缺点:相对较新、成熟产品和应用较少、学习成本高、适用场景局限(大规模复杂数据)。

(四)现有国内外公司。国内:云创大数据(南京)于2022年6月推出cVector向量计算一体机;腾讯云于7月发布AI 原生向量数据库(Tencent Cloud VectorDB)。国外:Zilliz公司(美国,国内设有机构)于2019年推出全球首个开源向量数据库产品Milvus;Pinecone公司(美国)成立于2019年,主要产品Pinecone云原生向量数据库;Weaviate公司(荷兰)成立于2019年,主要产品Weaviate开源向量数据库。

三、应用领域

(一)支撑AI大模型。1.使大模型拥有“长期记忆”。向量数据库可使大模型保持准实时性,提高大模型的适用性,并使大模型能够动态调整;2.协助解决大模型泄露隐私问题。通过向量数据库本地部署,存储隐私数据,进而大模型可在有保护情况下访问隐私数据;3.拓展多模态能力。对不同源的多模态数据(文本、图像、音频、视频等)进行向量化,从而支撑多模态应用。

(二)其他应用领域。文本搜索(包含语义分析),与传统关键词搜索相比,检索结果范围更广;图片、语音、视频搜索,如以图搜图、语音识别等;推荐系统,根据系统给用户打的标签,给用户推荐相似度最高的商品、服务等;异常检测,如人脸识别,通过相似度计算,判断是否本人。

(三)市场规模及上下游产业。1.市场规模。据中国信通院测算,2020年中国数据库市场规模约241亿元。预计到2025年,中国数据库市场规模将达688亿元,年复合增长率为23.4%。随着AI大模型应用逐渐落地,预计2025年中国向量数据库市场规模约为82.56亿元。2.上下游产业。上游:向量检索库、向量插件、向量字段等数据供应商以实现检索功能;下游:个人开发者及付费企业等。

你可能感兴趣的:(大数据,数据库)