1.RAG(检索增强生成)

  • 本质
    • 将用户输入的信息补充到大语言模型LLM中。LLM 可以使用这些信息来增强其生成的回答或响应。
    • 先检索,后生成
  • 传统RAG
    • 实现过程
      • 1.RAG(检索增强生成)_第1张图片

      • 对知识库进行索引。使用加载器获取知识并将其转换为单个文档,然后使用分割器将其转换为小块或片段。
      • 将这些片段传递给嵌入机,嵌入机将它们转换为可以用于语义搜索的向量。并将这些嵌入向量与其文本片段一起保存在向量数据库中。
      • 用户提出问题并将问题通过相同的嵌入机发送到向量数据库中,检索并确定最匹配的片段。
      • 将最匹配的片段、自定义的system prompt和用户提出的问题一起格式化,交由LLM处理,最终得到针对具体语境的答案。
    • 缺点
      • 许多文档包含多种内容类型,不仅仅是文本,还包括表格和图像。
      • 文本拆分可能会破坏表格,从而损坏检索中的数据
      • 嵌入表可能会给语义相似性搜索带来挑战
      • 图像中捕获的信息通常会丢失
  • 多模态RAG
    • 1.RAG(检索增强生成)_第2张图片

    • Option 1:
      • 使用多模态嵌入(如 CLIP)嵌入图像和文本
      • 使用相似性搜索检索两者
      • 将原始图像和文本块传递给多模态 LLM 以进行答案合成
    • Option 2:
      • 使用多模态 LLM(例如 GPT4-V, LLaVA, or FUYU-8b)从图像生成文本摘要
      • 嵌入和检索文本
      • 将文本块传递给 LLM 以进行答案合成
    • Option 3:
      • 使用多模态 LLM(例如 GPT4-V, LLaVA, or FUYU-8b)从图像生成文本摘要
      • 嵌入和检索引用原始图像的图像摘要
      • 将原始图像和文本块传递给多模态 LLM 以进行答案合成

你可能感兴趣的:(AI编程)