AI与数据双向赋能,DingoDB成向量海时代超强引擎

“向量海”(Vector Ocean)是九章云极DataCanvas公司基于多年来在数据库领域的研究和实践,结合向量数据的发展方向,创造性提出的数据发展的终极形态。在九章云极DataCanvas新产品发布会上,九章云极DataCanvas公司高级产品总监胡宗星深度剖析了“向量海”的发展理念和核心涵义,并详细介绍了通过向量海时代的超强引擎——DingoDB,用户如何构建专属的数据“向量海”,加速实现大模型时代下的数智化转型升级。

AI与数据双向赋能,DingoDB成向量海时代超强引擎_第1张图片

九章云极DataCanvas公司高级产品总监 胡宗星

演讲实录

各位现场和线上的朋友大家好,下面由我来为大家介绍一下Vector Ocean向量海。回顾整个数据发展的历史,毫无疑问数仓是数据发展的第一个阶段,将不同业务系统的数据经过采集、转换、清洗和整合,统一进行存储,支撑上层的BI和报表业务,来辅助业务实现业务决策。随着数据量的增长和数据类型的多元化需求,数据湖应运而生,主要解决数仓不支持结构化数据的问题。同时,在数仓建设的过程中我们需要采用分层建模的思想,把所有的数据整合到一起,但是现实需求往往是灵活多变的。如何处理灵活多变的需求,在数仓体系里面显得异常困难和低效。数据湖采用一种完全相反的思路,把所有的数据全部纳入湖中,基于用户需求加工数据,但这也带来几个潜在的问题。

首先,没有科学有效的治理方法,那么数据湖就会变成沼泽。另外,数据湖里面既包含结构化数据也包含非结构化数据,如何为业务提供准确的数据模型和算法模型是业界普遍困扰的一个问题。第三,数据湖名义上的结构化与非结构化的统一只是在存储介质上把所有的数据纳入湖中,本质上数据并没有融合和统一。

Vector Ocean是九章云极在数据领域深耕多年,针对数仓和数据湖架构的不足提出的一种新的数据架构设想。它的目标是实现结构化数据和非结构化数据的融合,使用一套存储引擎和计算引擎来支撑上层的业务,Vector Ocean是数据发展的最终形态。Vector Ocean是融合了传统的数据分析与AI算法的新一代数据架构,在Vector Ocean里面不仅包含了传统的数仓、MPB数据库里面的结构化数据,包括KA、文档、半结构化数据,以及数据存储当中占比最高的非结构化数据,这些非结构化数据包含音频、文本、图像、视频等数据,所有的数据终将被Vector Ocean所容纳,Vector Ocean将提供AB分析、向量检索、多模向量计算的能力,实现结构化数据和非结构化数据的融合统一,来支撑上层的BI、AI以及数据科学的智能应用。

构建Vector Ocean数据生态,总体来说需要几个步骤,第一步需要把不同业务系统、不同存储介质的数据全部拉入存储层,在存储层只是将所有的数据形式进行统一。在存储层之上需要借助各种组件,基于业务需求进行数据加工和计算,从整个生态构建流程上可以看到部署和安装了大量的组件,这些组件需要相关配合才能完成整个目标。回过头来发现,我们需要的功能往往是这些组件功能的一部分,现实的情况是我们安装和部署了大量的组件,几乎市面上所有的开源组件都会被安装和使用,这带来了极大的成本浪费,同时带来了数据一致性的问题,如何精简优化变成复杂而艰巨的问题。

在Vector Ocean时代,有没有这样一款一站式开箱即用的产品,能够实现结构化数据和非结构化数据的融合,同时能够提供生产级的高可用和高扩展性的产品?

DingoDB ——Vector Ocean的超强引擎,DingoDB是开源多模态向量数据库,提供结构化数据和非结构化数据联合存储和分析的能力,提供向量检索和多模向量计算的能力,是Vector Ocean时代基础支撑平台。简单看一下DingoDB的逻辑架构,分为三层:存储层、计算层和上层的协议层。存储层包括结构化数据对应的关系性存储以及非结构化数据经过向量编码之后的向量存储。在存储层之上是计算引擎层,包含了多模态的优化器和多模态的执行器。用户实际需求进入Dingo之后,优化器基于数据本身的特点,数据的分布以及各个节点的资源情况,提供最优的执行效率。同时,Dingo的执行引擎层不仅可以查询Dingo本身的数据存储,还可以对接第三方的仓存储和S3对应的湖存储,能够真正实现数据的融合和计算。在计算引擎层之上是整个集群的统一资源示图和元数据示图,协议层提供标准的Masking协议和高频服务的API以及元生向量的API,Dingo所有的能力融合到一起支持结构化分析、语义搜索、结构化和非结构化数据融合分析能力,以及大模型时代向量检索和向量存储的能力。

DingoDB的核心价值,首先DingoDB是多模态的引擎,能够实现结构化数据的统一存储和联合分析,它能够基于向量把所有的数据进行统一融合,基于向量做数据的检索和融合分析。同时,在协议层我们提供标准的sergo协议,一套语言对接结构化和非结构化的需求。有人说既然Dingo是一个多模态的向量数据库,它是不是和向量数据库是一样的?第三个点可以很好地回答这个问题,Dingo不仅仅是一个向量数据库,提供的能力远在向量数据库之上。在向量搜索和向量存储方面,Dingo也拥有新的特性,例如数据和索引的问题,在向量数据库里如何保证数据和索引的一致性其实是业界普遍存在困难的一件事。Dingo能够保证在数据写入的同时实现索引的实时同步,保障数据和索引的一致性。另外,向量计算和标量计算是两种不同的计算模式,对计算资源的消耗不一样,Dingo提供了CPU和GPU异构计算的能力,实现高效分析和科学计算。

Dingo底层采用Robot协议作为多副本,保证数据的一致性,保证数据和索引的一致性,同时能够保证多副本之间的一致性,即使节点在异常掉链或者宕机的情况下也能够提供生产级的高可用。向量计算和边量计算对于存储资源和计算资源的消耗差别较大,Dingo提供了横向扩展能力,可以基于计算和存储需求实现节点的弹性扩容。

当下最热门的话题是大模型,在大模型时代Dingo多模态提供哪些能力?总结下来有几点:

1、企业私域数据的支撑。大模型是过去知识的沉淀积累,是普适性的模型,在垂类应用的时候需要有一些特殊的数据,比如企业的私有数据。DingoDB可以充当企业私有数据的存储扩展能力,作为大模型的前置引擎,为大模型提供前置的支撑,辅助大模型生成最优答案。

2、大模型的短期记忆。可以将问答对应的提示词以及上下文全部向量化到DingoDB中,同时将检索的结果存储在DingoDB中,所有数据反哺给大模型再次重新进行训练,提供更加真实的应用场景。
3、大模型加速器。在使用ChatGPT时尤其在业务高峰期有一个不太友好的体验,反响速度比较慢,核心原因是所有请求都打到大模型这层,算力成为瓶颈。可以将DingoDB放到大模型的前置,实现大模型加速的能力。

总结一下DingoDB可以支持的业务场景:第一,基于结构化和非结构化统一存储与联合分析的能力,DingoDB可以支持企业知识库的构建,提升企业的运营效率和业务分析能力。第二,大模型加速以及在企业私域数据的管理方面提供一些大模型的助力。第三,DingoDB提供高频Server的能力,可以提供微秒级的响应,实现实时指标的计算能力,在一些传统行业比如实时风控,在实时风控、营销、推荐等场景实现业务赋能。同时,在传统非结构化数据检索行业,DingoDB可以充分赋能文本、图像、视频等非结构化数据的检索。DingoDB将作为Vector Ocean时代的基础支撑平台,提供结构化数据和非结构化数据融合存储以及融合计算的能力。相信随着大模型带来的技术变革,DingoDB将在数据和AI方向助力企业实现业务智能到数字人工智能的全面升级。

你可能感兴趣的:(人工智能)