langchain教程

教程

  • langchain提供了一套框架,可以将多个组件链接在一起
  • 最终也是构建了一个智能AI机器人

数据读取

  • langchain除了可以直接读取文本数据,也可以读取视频中的语音,并将其转化为文本(这样说来,longchain中是有语音转文本的模型的,可以直接调用openai的whisper接口)
  • langchain还可以加载网页的数据,这样的话直接可以读取开发者社区的数据

文档分割

文档被分割成块(chunks)后才能保存到向量数据库中

文本的分割提供了多个现成可用的工具,可以直接调用
将文档基于特殊字符,序列长度分割为多个序列后进行token的分割

token分割

嵌入

与大语言模型预处理不同的是,longchain的嵌入直接将一句话转化为向量,而在LLM中,先进行分词,分词后再进行嵌入,且嵌入的向量的维度是固定的
这种方式为DocArrayInMemorySearch组件在内存中向量化存储数据,这种方式不高效,所以采用了embedding的方式

向量数据库

Chroma 为开源嵌入数据库

prompt的构建,通过创建输出解析器,模型可以输出格式化的python 形式的文本

如果要实现对话,必须有一个存储历史信息的组件;

longchain的chain的意思是将大语言模型和prompt连接在一起

你可能感兴趣的:(langchain)