老店迎新客:向量数据库选型与押注中,没人告诉你的那些事

‍原创:谭婧‍

(一)关键词:老店“迎”新客

某家云计算厂商员工告诉我,拜访客户,刚坐下,客户说的第一句话就是:

“你先给我推荐一个向量数据库吧。”

大模型火了,把向量数据库带火了。

向量数据库是小众技术,也是已有的成熟技术,突然间就出圈了。

确实,数据库技术非常底层,极少蹭到热度。

好不容易,天降流量。

这得一顿猛吹,要不然怎么配得上热情的营销号和多金的投资人呢。

客户迫切选型,融资烈火烹油。

不过我一向认为不知深浅,光看钱多也没劲。

这是一个“老店接新客”的故事。

向量数据库不是一个新技术,而它要面对的新挑战是:

如何服务好大模型这个“新客”。

老店迎新客:向量数据库选型与押注中,没人告诉你的那些事_第1张图片

但凡知道向量数据库,

几年前,不能不知道脸书公司的Faiss算法。

几月前,不能不知道Pinecone公司。

Pinecone公司凭借和大模型的“暧昧关系”,拉高估值,一跃成名。

我先点一笔,Pinecone确实干了一件好事。

它用一句话向全世界解释了向量数据库的用处,

将大模型和向量数据库的关系,用一言概之:

“为大模型提供长期记忆力。”

这个说法非常巧妙,尤其是面对投资人和吃瓜群众的时候。

建议轮次创业公司的创始人都好好参详。

别光埋头苦干,教育市场重要。

当然,还得有风口。

顺承记忆力的逻辑。

于是,向量数据库被推向人工智能重要基建的高位。

于是,有人断言:“大模型和向量数据库的组合拳,会对传统数据库产生冲击。”

猛一看,道理都对。

在大模型到来之前,向量数据库虽是“区区小事”,但又“不可或缺”。

要我说,这里并非AI的主战场,三千越甲可吞吴,二十精兵亦可挡。

谁能料到,大模型来了。

它的理解力被追捧,记忆力被吐槽。

你上次和它交互的话,到了下次也不会是已知背景。

槽点是,大模型没有长期记忆力。

这是病,得治。

有人认为解药是向量数据库。

还有一句据说是红杉投资人也认可的说法:

向量数据库是大模型的内存。

老店迎新客:向量数据库选型与押注中,没人告诉你的那些事_第2张图片

(二)关键词:缘起

要我说,向量数据库吧,起初就是互联网大厂里的一个秘密武器。

我发现它的时候,它就已经在互联网大厂里存在了挺多年。

谭老师我是怎么知道向量数据库的呢?

那是2021年的冬天,我一不小心摔断了脚趾骨。

拄着双拐在寒风中寻访科技大神非常困难,只好这样身残志坚地在一家互联网大厂里找了个工位,大概待了两个月。

那段时间,我参观学习了AI软件栈、中台、中间件、编译器等秘密武器。时间一长,和他们研发团队上上下下都脸熟了。

于是,我大声宣布,来吧,展示。

你们都有什么秘密武器?

以谭老师我口风紧、做事规矩的行事风格,

我亲眼见过不少大厂AI软件栈的内部文件和秘密武器。

一款向量数据库曾令我眼前一亮,居然还是开源的。

我内心的OS是这句:

老店迎新客:向量数据库选型与押注中,没人告诉你的那些事_第3张图片

像所有优秀的秘密武器一样,一开始都是低调研发,且专供内部使用。

向量数据库在电商大厂诞生的时候,有其明确的场景需求——自用。

用技术术语来说就是,针对业务中的相似性搜索(similarity search)需求发展而来。

在这个需求之下,一个好用的工具能够给厂商节省巨大的经济成本。

你用20块GPU干事,我用2块GPU干了同样的事。

卷王独白:我升职加薪,你离职走人。

接下来的两个问题比较重要:

现实需求中,人们为什么要用图来搜索?

技术实现里,为什么要用向量来搜索?

现实需求的答案是剁手党给出的,而且已经被淘宝APP的一个常用功能回答了,那就是2014年问世的拍立淘,也就是淘宝首页最上方的搜索框里的照相机。

从其出现的位置就能大概知道其好用程度。有了拍立淘,谭老师我找穿搭王者白百何同款、杨幂同款不再犯愁。

我转述华先胜老师的观点,图像搜索通过拍立淘(电商拍照购物搜索)所创造的商业机会,将技术潜力极大地释放出来。

拍立淘的背后,是一款向量检索引擎,名叫Proxima,它的底库规模有几十亿张图片。不止于此,Proxima还用于阿里巴巴“老集团”的众多业务,如优酷视频搜索。

京东零售虽迟但到,2018年初,构建起十亿规模的实时分布式图片搜索系统,向量数据库Vearch问世。出生之时便是“劳模”体质,很多活等着它去干:

解决重复铺货,商城APP同款推荐,商品详情页去重等等。

放眼全球,向量数据库这事儿不是中国两家头部电商最先做的。

而是美国硅谷那家叫做Meta(脸书)的公司。

这位AI算法开源狂魔,做向量数据库那帮人都特别感谢它。

因为该公司的人工智能基础研究小组(Fundamental AI Research Group)向全世界开源了FAISS(全称为Facebook AI Similarity Search)。

极客们认为,FAISS本身是很棒的算法,是向量数据库界的“风清扬”前辈。

甚至有人内心忍不住这样想:

“这个算法把这件事解决得这么好,那我何不赶紧拿来做封装?”

(三)关键词:封装

忍不住直拍大腿,谁说这不是一个好办法呢?

有的国产向量数据库创业公司是封装了Faiss,Nmslib和Annoy等ANN库。

不过,阿里巴巴和京东零售都没靠封装“别人家”算法来解决问题。

阿里巴巴向量检索内核Proxima是纯自研,京东零售向量数据库Vearch是基于Faiss自研,均做到了工业级大规模场景,高性能、高可用、低成本。

贴着自有业务做不复杂,但是想要通用并向外提供,且支持工业级场景,那就复杂了。

阿里巴巴和京东零售仅自用,也投入了很多年。

按道理,一个向量数据库能提供高效的向量存储、索引和相似性搜索功能,那就是一个很厉害的产品了。

不过,抄近路的人看似更猛。

这里可以讲一个挺出名的江湖段子,

暗戳戳指向向量数据库创业公司Chroma融到了千万美金的“方法论”:

底下是实时分析数据库 ClickHouse,搭上个开源向量检索算法,中间花几千行Python代码接起来。

下一步:融钱。

用ClickHouse而不用图数据库的原因是,没必要,点边会令复杂度增加得太多。

这是什么逻辑呢?

实现一个OK版本的向量数据库的门槛儿并不太高。

我不要求它在推荐系统、图像搜索和自然语言处理等领域全球最快,

也不要求它为全球规模最大的大模型服务。

能用就得嘞。

我无意贬低Chroma,

一家种子轮的创业公司,

还提什么严苛的产品要求呢?

老店迎新客:向量数据库选型与押注中,没人告诉你的那些事_第4张图片

(四)关键词:本质与竞争

回答“为什么用向量来搜索”这个问题。

有句高雅的表达:一切皆可向量化。

深度学习技术让计算机能“读懂”图片,原理是程序先把图像的特征抽出来。

我把向量简单理解为一种图片特征。

图片检索的根本是向量检索,也就是通过找特征,来找到有类似这个特征的图片。

专业说法是,非结构化的数据向量化之后去做相似度匹配。

要我说句粗朴表达,那就是:一根筋。

管你是图片、文本、音频,还是视频数据,

都一根筋地从中提取以向量为表示形式的特征。

内心OS:向量数据库我呀,只给你简单粗暴的爱,数据都给你向量化了。

向量数据库的本质是什么?

老店迎新客:向量数据库选型与押注中,没人告诉你的那些事_第5张图片

向量检索功能的背后,是向量相似度检索这个能力。

把数据以向量的形式存到一个数据库里,用向量相似度匹配的方式查找出来。

市面上有很多数据库产品都能做相似的事情,都能扩展出类似的能力。

就看看阿里云,云上有这个功能的产品就达七个之多,分别是:

阿里云实时分析数据库AnalyticDB,

阿里云PostgreSQL,

阿里云Redis版,

阿里云交互式分析产品Hologres,

阿里云OpenSearch,

阿里云多模数据库Lindorm,

阿里云托管Elastic search。

这些有此功能的数据库并不为阿里云所独有,AWS(亚马逊云)同样也会有这个能力。

这些数据库,并非刻意做向量检索,也不是因为有了大模型之后才做的,他们在更早的时候就具备了这个能力。

在大模型的定势所趋之下,

支持向量搜索功能的数据库并不少,

而且还会有更多数据库往这个方向去做。

搜索引擎数据库Elastic Search就是很好的例子,

我也很负责任地地说:“它也要吃向量数据库的蛋糕。”

观察Elastic Search的高版本(8.8和8.9版本),

迭代了非常多这方面的东西。

数据库Elastic Search有“雄心壮志”,在原有赛道里面增强自己这方面的能力,

在已有存量能力的基础上,提高新能力的权重。

无论是大模型的势头,还是投资人的态度,这块的竞争只会加剧,不会减弱。而且竞争对手也不是无备而来,均会侧重考虑和设计如何为“大模型”服务。

这是新的增量市场,兵家必争之地。

(五)关键词:技术落地用起来

一家公司有多少文档?假如100万份,将整间公司的知识沉淀在文档上,存在向量数据库里,实际上,一台服务器就足够了。

我们不可能举全球之资源、之算力,拥有一个全知全能的大模型。正常的情况会是,一个具备“基本素质”的大模型,日后不断接受来自新知识的考验。

我们有两个办法让大模型的效果变得更好,用新知识数据集微调,或配备向量数据库来检索新知识。

大模型微调成本非常高,以千亿参数大模型为例,一次全面微调大约需要两个月,过程中可能需要50T的数据,而仅大吨位的数据下载,可能就需要两周。

微调和向量数据库,这两个办法并不互斥。

有人认为:哪怕微调做得再好,也可以再上一个向量数据库,达成更好结果。

市面上有很多把数据向量化的模型,着急的客户们迫不及待地把数据向量化,再寻求咨询,如何选择向量数据库。这也就造成了云厂商销售拜访客户,客户心急向量数据库选型。

极客们已经撸起袖子,他们用向量数据库存向量,再用相似度查询来获取结果,然后用LangChain把提示(Prompts)作为输入传递给大模型,从而生成更好的内容。

或者说,极客们用LangChain来给大模型加上内存。

LangChain 最初是一个开源项目,由AI工程师Harrison Chase创建,在 GitHub 上获得大量关注之后迅速转型为一家初创公司。

LangChain以大模型为控制器连接各种工具,从而拓展能力边界。

开发一个有关大模型的新应用,远远不止是API调用。

基于大模型开发应用程序时,还有很多“手工活”要做。

极客们已经出发了,而大模型在生产环境下的要求会更高。

行文至此,不禁感慨:

LangChain真是个好东西,实现不需要太多代码,非常方便。

看上去,大模型革故鼎新,气象一新,新的软件栈正在形成之中。

老店迎新客:向量数据库选型与押注中,没人告诉你的那些事_第6张图片

比如,LangChain就是AI大模型技术堆栈里的编排层。

举个例子,让ChatGPT帮我干活(翻译),

为了效果好,像彩虹屁一样加上各种提示词(Prompt):

“you are a helpful translator” (你好棒),

“do not answer anything beyond what is provided”(你别管闲事),

“do make sure things are accurate”(你别做蠢事)等等,

这里的提示词(Prompt)管理和编排就是由LangChain来完成。

好工具,看似简单,实则关键。

比起国内大模型团队的同质化竞争到了白热化,这种别出新意的工具令人耳目一新。

大模型、向量数据库、LangChain三者关系密切,

国外社区甚至还造了一个新词:OPL。

取自OpenAI,Pinecone和LangChain首字母。

连类比物,我想到了“钢筋混凝土”。

在混凝土中加入钢筋网、钢板,构成一种组合材料,

强调共同工作来改善混凝土力学性质。

有不少人认为,向量数据库投资过热。

其中一个原因是:

把大模型分成三层,

上层应用层竞争增量太大,

戏称,睡一觉起来多了100个应用程序;

基础模型投入太重,一些投资机构跟不了;

中间层的投资,能力适中就可为。

现在,有两派不同的声音:

一派认为技术上不复杂,其他的数据库顺带做了就完事了;

另一派认为大语言模型颠覆性强,向量数据库会因大模型而变成主流数据库。

我们未能把大模型的边界摸清。

我们也未能把向量数据库的边界摸清。

向量数据库的未来究竟如何,这个时间点上下结论,也许过早了。

我更关注的是,

哪家国产大模型跑通了“大模型+向量数据库”?

哪家大模型用户企业在生产环境中用上了向量数据库?如何用?

毕竟,崭新的组合材料,好不好使,用了才知道。

热烈欢迎,向量数据库先行者们和我联系。

拜了个拜。

(完)

One More Thing

(《我看见了风暴》谭老师新书,京东有售)

老店迎新客:向量数据库选型与押注中,没人告诉你的那些事_第7张图片

老店迎新客:向量数据库选型与押注中,没人告诉你的那些事_第8张图片

更多阅读

AI大模型与ChatGPT系列:

1. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?

2. ChatGPT:绝不欺负文科生

3. ChatGPT触类旁通的学习能力如何而来? 

4. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进

5. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow,光年之外欲添新大将

6. ChatGPT大模型用于刑侦破案只能是虚构故事吗?

7. 大模型“云上经济”之权力游戏

8.  云从科技从容大模型:大模型和AI平台什么关系?为什么造行业大模型?

9. 深聊第四范式陈雨强丨如何用AI大模型打开万亿规模传统软件市场?

10. 深聊京东科技何晓冬丨一场九年前的“出发”:奠基多模态,逐鹿大模型

AI大模型与学术论文系列:

1.开源“模仿”ChatGPT,居然效果行?UC伯克利论文,劝退,还是前进?

2. 深聊王金桥丨紫东太初:造一个国产大模型,需用多少篇高质量论文?(二)

3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文(一)

漫画系列

1. 是喜,还是悲?AI竟帮我们把Office破活干完了

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛气症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,AI算老几? 

6. 给王心凌打Call的,原来是神奇的智能湖仓

7. 原来,知识图谱是“找关系”的摇钱树?

8. 为什么图计算能正面硬刚黑色产业薅羊毛?

9. AutoML:攒钱买个“调参侠机器人”?

10. AutoML:你爱吃的火锅底料,是机器人自动进货

11. 强化学习:人工智能下象棋,走一步,能看几步?

12. 时序数据库:好险,差一点没挤进工业制造的高端局

13. 主动学习:人工智能居然被PUA了?

14. 云计算Serverless:一支穿云箭,千军万马来相见

15. 数据中心网络:数据还有5纳秒抵达战场

16.  数据中心网络:迟到不可怕,可怕的是别人都没迟到

AI框架系列:

1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)

2.搞AI框架那帮人丨燎原火,贾扬清(二)

3.搞 AI 框架那帮人(三):狂热的 AlphaFold 和沉默的中国科学家

4.搞 AI 框架那帮人(四):AI 框架前传,大数据系统往事

注:(三)和(四)仅收录于《我看见了风暴》。

老店迎新客:向量数据库选型与押注中,没人告诉你的那些事_第9张图片

你可能感兴趣的:(数据库)