大模型开发流程

大模型开发流程

参考新想法(Halukisan (Xiao liu) (github.com))

大模型一般开发流程

  1. 设计:确定目标,设计功能。这一步需要认真考虑好,这个模型应用的目标群体是谁,需求方的具体应用场景是什么,不一定每次都要一个大模型为底座。

  2. 架构搭建:搭建整体架构,搭建数据库,可以参考Halukisan/ModelDataBase: Es和向量数据库Milvus的构建与数据存储 (github.com)这里面有向量数据库Milvus和ElasticSearch构建代码。使用LangChain框架进行定制开发。

  3. Prompt Engineering:应该首先构建出一个来源于实际业务的小型验证集,基于小型验证集设计满足基本要求、具备基本能力的Prompt。

  4. 验证迭代:捕捉Bad Case,迭代优化Pormpt

  5. 前后端搭建:搭建页面、上线体验。我们采用 Gradio 和 Streamlit,可以帮助个体开发者迅速搭建可视化页面实现 Demo 上线。

步骤一:项目规划与需求分析

确定项目使用的环境......(详见GitHub主页Halukisan (Xiao liu) (github.com))

步骤二:数据准备、清理,向量数据库构建

  1. 本地加载处理文本,(LangChain的文档加载模块)

  2. 文本分割,受限与大模型使用的token限制,我们需要对读取的文本进行切分,将长文本切为小文本,一个文本就是一个单位的知识。

  3. 文本向量化,不要忘记索引(在ModelDataBase中有介绍)

  4. question向量化,将用户知识库内容向量化存入数据库,并且,用户每次提问也会经过Embedding,然后利用向量相关性算法(例如余弦算法)找到最匹配的几个知识库片段,将这些知识库片段作为上下文,与用户问题一起作为 Prompt 提交给 LLM 回答。

  5. 在文本向量中匹配出与问题向量最相似的top k个,

  6. 匹配出的文本作为上下文和问题一起添加到Prompt中,

  7. 提交给LLM生成回答。

你可能感兴趣的:(语言模型)