智源发布最强开源可商用中英文语义向量模型 BGE,超越同类模型,解决大模型制约问题

智源发布最强开源可商用中英文语义向量模型 BGE,超越同类模型,解决大模型制约问题_第1张图片

0.介绍

语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域。

在大模型时代,它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而,当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源。

为加快解决大模型的制约问题,近日,智源发布最强开源可商用中英文语义向量模型 BGE(BAAI General Embedding),在中英文语义检索精度与整体语义表征能力均超越了社区所有同类模型,如 OpenAI 的 text embedding 002 等。此外,BGE 保持了同等参数量级模型中的最小向量维度,使用成本更低。

本次 BGE 模型相关代码均开源于 FlagOpen 飞智大模型技术开源体系旗下 FlagEmbedding 项目,一个聚焦于 Embedding 技术和模型的新版块。智源研究院将持续向学术及产业界开源更为完整的大模型全栈技术。

智源发布最强开源可商用中英文语义向量模型 BGE,超越同类模型,解决大模型制约问题_第2张图片

与此同时,鉴于当前中文社区缺乏全面的评测基准,智源团队发布了当前最大规模、最为全面的中文语义向量表征能力评测基准 C-MTEB (Chinese Massive Text Embedding Benchmark),包含 6 大类评测任务和 31 个数据集,为评测中文语义向量的综合表征能力奠定可靠的基础,全部测试数据以及评测代码已开源。

你可能感兴趣的:(人工智能,Milvus,语义搜索,向量匹配,语义向量模型,BAAI,搜索系统)