【AI大模型应用开发】【LangChain系列】2. 一文全览LangChain数据连接模块:从文档加载到向量检索RAG,理论+实战+细节

大家好,我是【同学小张】。持续学习,持续干货输出,关注我,跟我一起学AI大模型技能。

本文学习 LangChain 中的 数据连接(Retrieval) 模块。该模块提供文档加载、切分,向量存储、检索等操作的封装。最后,结合RAG基本流程、LangChain Prompt模板和输入输出模块,我们将利用LangChain实现RAG的基本流程。

文章目录

    • 0. 模块介绍
    • 1. Document loaders 文档加载模块
      • 1.1 加载本地文件
      • 1.2 加载在线PDF文件
        • 1.2.1 可能需要的环境配置
        • 1.2.2 示例代码
    • 2. Text Splitting 文档切分模块
    • 3. Text embedding models 文本向量化模型封装
    • 4. Vector stores 向量存储(数据库)
    • 5. Retrievers 检索器
    • 6. Indexing
      • 6.1 概念和用途
      • 6.2 工作原理
      • 6.3 Deletion modes
    • 7. 总结,用LangChain实现RAG流程

0. 模块介绍

在前面文章中我们已经讲了大模型存在的缺陷:数据不实时,缺少垂直领域数据和私域数据等。解决这些缺陷的主要方法是通过检索增强生成(RAG)。首先检索外部数据,然后在执行生成步骤时将其传递给LLM。

LangChain为RAG应用程序提供了从简单到复杂的所有构建块,本文要学习的数据连接(Retrieval)模块包括与检索步骤相关的所有内容,例如数据的获取、切分、向量化、向量存储、向量检索等模块(见下图)。

你可能感兴趣的:(大模型,python,人工智能,langchain,python,笔记,经验分享,prompt,embedding)