LangChain知识库文件格式与准确率


本文结论经过自行测试,仅供参考

简介

langchain使用的是faiss,bge-large-zh,基础模型为chatglm3-6b,测试数据接近60万。


结论

1、使用txt的数据格式,不如csv文件,除非文本长度一致,切分及其精准,但这很难达到。

2、对于csv文件,分栏目的效果不如一整段话的效果。

格式对比:

图一的效果好于图二

LangChain知识库文件格式与准确率_第1张图片
LangChain知识库文件格式与准确率_第2张图片

你可能感兴趣的:(大语言模型,langchain,自然语言处理)