向量数据库及其在大模型应用落地中的作用

一、几个术语

需要弄清楚几个术语,比如向量、Embedding、向量检索、向量数据库,具体如下。
1.向量:为AI理解世界的通用数据形式,是多模态数据的压缩,任何模态数据都可以转为向量。文本直接送给计算机是无法认识的,而且是高维数据,需要对其进行向量化处理(即Embedding),处理完成后就形成一个个向量。
2.Embedding:将文字文本转化为保留语义关系的向量文本,相当于利用embedding模型对自然语言的压缩和总结。
3.向量检索:在海量存储的向量中找到最符合要求的Top N个目标。向量搜索是模糊匹配,返回的是相对最符合要求的N个数据,并没有精确标准答案。传统数据库索引是精确匹配。
4.向量数据库:用以高效存储和搜索向量。保证100%信息完整的情况下,通过向量嵌入函数(embedding) 精准描写非结构化数据的特征,从而提供查询、删除、修改、元数据过滤等操作。向量数据库因为可以为大模型提供记忆而需求倍增, AutoGPT更是把对向量数据库需求量推到了更高的水平, AutoGPT从一开始就是采用了OpenAI API+ Pinecone的模式。

二、向量数据库给大模型应用落地带来哪些作用
1.使得大模型具备记忆交互的应用能力

在大模型的应用中,不断涌现出B端对专用数据的需求、 C端对个性化与自动化的需求,带来给大模型增加记忆

你可能感兴趣的:(高级数据应用,读书笔记,工作总结,数据库,向量数据库,解决方案)