查里王

LangChain + Embedding + Chromdb，关联使用ChatGLM的本地搭建训练平台教程

一.介绍

OpenAI 在国内用户注册会遇到各种阻力，目前可行的方法是使用本地数据集的功能实现联网搜索并给出回答，提炼出TXT、WORD 文档里的内容。
现在主流的技术是基于强大的第三方开源库：LangChain 。

文档地址：️ Langchain

这个库目前非常活跃，每天都在迭代，已经有 22k 的 star，更新速度飞快。
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。他主要拥有 2 个能力：

可以将 LLM 模型与外部数据源进行连接
允许与 LLM 模型进行交互

LLM 模型：Large Language Model，大型语言模型

1.1 基础功能

LLM 调用

支持多种模型接口，比如 OpenAI、Hugging Face、AzureOpenAI ...
Fake LLM，用于测试
缓存的支持，比如 in-mem（内存）、SQLite、Redis、SQL
用量记录
支持流模式（就是一个字一个字的返回，类似打字效果）

Prompt管理，支持各种自定义模板

拥有大量的文档加载器，比如 Email、Markdown、PDF ...

对索引的支持

文档分割器
向量化
对接向量存储与搜索，比如 Chroma、Pinecone、Qdrand

Chains

LLMChain
各种工具Chain
LangChainHub

1.2 必知概念

相信大家看完上面的介绍多半会一脸懵逼。不要担心，上面的概念其实在刚开始学的时候不是很重要，当我们讲完后面的例子之后，在回来看上面的内容会一下明白很多。

但是，这里有几个概念是必须知道的。

1.3 Text Spltters 文本分割

顾名思义，文本分割就是用来分割文本的。为什么需要分割文本？因为我们每次不管是做把文本当作 prompt 发给 Langchian ，embedding 功能都是有字符限制的。

比如我们将一份300页的 pdf 发给 LangChian，让他进行总结，这里就需要使用文本分割器去分割我们 loader 进来的 Document。

1.4 Vectorstores 向量数据库

因为数据相关性搜索其实是向量运算。所以，不管我们是使用 openai api embedding 功能还是直接通过向量数据库直接查询，都需要将我们的加载进来的数据 Document 进行向量化，才能进行向量运算搜索。转换成向量也很简单，只需要我们把数据存储到对应的向量数据库中即可完成向量的转换。

官方也提供了很多的向量数据库供我们使用。

https://python.langchain.com/en/latest/modules/indexes/vectorstores.html

1.5 Chain 链

我们可以把 Chain 理解为任务。一个 Chain 就是一个任务，当然也可以像链条一样，一个一个的执行多个链。

1.6 Embedding

用于衡量文本的相关性。这个也是 LangChain 能实现构建自己知识库的关键所在。

他相比 fine-tuning 最大的优势就是，不用进行训练，并且可以实时添加新的内容，而不用加一次新的内容就训练一次，并且各方面成本要比 fine-tuning 低很多。

二.实战

通过上面的必备概念大家应该已经可以对 LangChain 有了一定的了解，但是可能还有有些懵。

视频教程：

LangChain接入本地数据实操_哔哩哔哩_bilibiliLangChain接入本地数据实操, 视频播放量 8725、弹幕量 0、点赞数 288、投硬币枚数 109、收藏人数 974、转发人数 200, 视频作者灵镜实验室, 作者简介连接科技与生活 | 透过热闹看门道，相关视频：LangChain: 使用AI连接数据源的时代已经到来了！，langchain-chatglm：本地私有化部署企业专有大语言模型，建立企业的私有知识库，利用LangChain和国产大模型ChatGLM-6B实现基于本地知识库的自动问答，LangChain + OpenAI 5分钟实现自然语言SQL数据挖掘，LangChain + GLM =本地知识库，Streamlit + LangChain - 10分钟创建AI Web应用，PDF聊天机器人，LangChain03-九个经典用例：聊天、数据分析、评价系统等，OpenAI + LangChain + Spark - 基于自然语言的海量企业级数据查询与分析，13分钟解读LangChain（精译中字），5分钟学会搭建本地知识库聊天机器人(基于GPT4+Llamaindex+LangChain)https://www.bilibili.com/video/BV18X4y1t79H/?spm_id_from=333.337.search-card.all.click

注意：这个视频只是快速查看本次实战搭建本地知识库实操的demo，其中有很多细节是略过的，切记不能直接效仿。

2.1 搭建本地ChatGLM

项目地址：GitHub - THUDM/ChatGLM-6B: ChatGLM-6B：开源双语对话语言模型 | An Open Bilingual Dialogue Language Model

官网介绍：

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答，更多信息请参考我们的博客。

第一步，本地安装 Python

这一步暂略，可以自行下载安装 Python 环境。

Python 下载地址：Download Python | Python.org

注意：安装 >9 以上版本，建议安装 3.93.17。

安装手册：

CentOS 7 的 Python2 升级成 Python 3.9.17_python 3.9.17 下载_查里王的博客-CSDN博客

第二步，下载项目程序包

下载地址见附件，直接下载下来并解压。我这里解压到：/root/chatgpt/ChatGLM-6B-main

ChatGLM-6B-main，下载附件包如下：

第三步，下载模型包 chatglm(14GB存储空间)

下载地址：GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型

备选地址：THUDM/chatglm-6b at main

注意：海外的huggingface针对国内的IP是封锁的，无法直接下载，可以使用我存放在百度企业网盘里的源码包；

注意：百度企业网盘不让上传14GB的数据集；百度网盘单次只能上传4GB，由于个人没有开通网盘，所以只能通过公网下载；

官网介绍：

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGLM 相同的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

注意：下载后放到第二步程序包下，自行创建目录 chatglm-6b，如下：

#cd /root/.cache/huggingface/hub/models--THUDM--chatglm-6b/
yum -y install gcc-c++
pip install --upgrade pip setuptools wheel
pip install hnswlib langchain chromadb urllib3==1.26.6 sentence_transformers unstructured tiktoken gradio mdtex2html sentencepiece accelerate torch cpm_kernels protobuf transformers

注意：建议更新pip的源，别用阿里云，速度奇慢无比，推荐用中科大或者豆瓣的源地址作为PIP库；

Python pip更换升级源_更新pip的源_查里王的博客-CSDN博客

第四步，运行网页版 demo

vim 修改一下web_demo.py的配置

vim /root/chatgpt/ChatGLM-6B-main

模型默认是访问huggingface的在线库，必须更改为本地的chatglb-6b的离线库的路径；

如果本地有GPU，可以使用 half().cuda()；
如果本地没有GPU，就需要修改成 float()；

执行如下命令，运行网页版本的 demo，如下：

cd /root/chatgpt/ChatGLM-6B-main
python web_demo.py

程序会运行一个 Web Server，并输出地址。在浏览器中打开输出的地址即可使用。最新版 Demo 实现了打字机效果，速度体验大大提升。注意，由于国内 Gradio 的网络访问较为缓慢，启用 demo.queue().launch(share=True, inbrowser=True) 时所有网络会经过 Gradio 服务器转发，导致打字机体验大幅下降，现在默认启动方式已经改为 share=False，如有需要公网访问的需求，可以重新修改为 share=True 启动。

第五步，测试网页版程序

浏览器打开地址并访问，输入问题，可以看到 ChatGLM 会给予回复。

2.2 搭建本地数据切片向量化 Embeddings + ChromaDB

把Langchain和中文向量文本字符集下载到本地目录，并进行解压

unzip /root/db/LangChainTest-main.zip

unzip /text2vec-base-chinese.zip

修改# vim docIndex.py的脚本

cd /root/db/LangChainTest-main

vim docIndex.py

1.将model_name = 'xxxxxx'换成解压路径，例如：/root/db/text2vec-base-chinese

2.将embeddings_model_name = '/root/db/text2vec-base-chinese'

embeddings = HuggingFaceEmbeddings(model_name='/root/db/text2vec-base-chinese')也修改成解压的路径

执行 docIndex.py，将txt文本内容进行向量化入库到chromaDB中

最后，把main注释掉，取消以下的内容注释

if __name__ == "__main__":
    #main()
    embeddings_model_name = '/root/db/text2vec-base-chinese'
    embeddings = HuggingFaceEmbeddings(model_name='/root/db/text2vec-base-chinese')
    db = Chroma(persist_directory=persist_directory, embedding_function=embeddings, client_settings=CHROMA_SETTINGS)
    print(db.similarity_search("产品线划分是什么样的？"))

可以输出内容的即表示正确（由于客户提供的文档签署了保密协议，我这里就不贴图了）

三.LangChain 调用 ChatGLM

修改main.py中的embeddings的模型地址

vim /root/db/LangChainTest-main/main.py

将model_name修改成/root/db/text2vec-base-chinese

if __name__ == '__main__':
    embeddings = HuggingFaceEmbeddings(model_name='/root/db/text2vec-base-chinese')
    db = Chroma(persist_directory=persist_directory, embedding_function=embeddings, client_settings=CHROMA_SETTINGS)
    retriever = db.as_retriever(search_kwargs={"k": target_source_chunks})

    #llm = OpenAI(model_name="text-ada-001", n=2, best_of=2)
    llm = ChatGLM()

    prompt_template = """基于以下已知信息，简洁和专业的来回答用户的问题。
    如果无法从中得到答案，请说 "根据已知信息无法回答该问题" 或 "没有提供足够的相关信息"，不允许在答案中添加编造成分，答案请使用中文。
    已知内容:
    {context}
    问题:
    {question}"""

    promptA = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
    chain_type_kwargs = {"prompt": promptA}
    qa = RetrievalQA.from_chain_type(llm=llm, retriever=retriever, chain_type="stuff",
                                     chain_type_kwargs=chain_type_kwargs, return_source_documents=True)
    while True:
        query = input("\n请输入问题: ")
        if query == "exit":
            break

        res = qa(query)
        answer, docs = res['result'], res['source_documents']

        print("\n\n> 问题:")
        print(query)
        print("\n> 回答:")
        print(answer)

        for document in docs:
            print("\n> " + document.metadata["source"] + ":")

最后的结果，就会提示：请输入问题，表示搭建本地库成功！

你可能感兴趣的:(langchain,embedding)

快速入门：利用fast-elasticsearch-vector-scoring提升ES向量搜索效率劳泉文Luna
快速入门：利用fast-elasticsearch-vector-scoring提升ES向量搜索效率fast-elasticsearch-vector-scoringScoredocumentsusingembedding-vectorsdot-productorcosine-similaritywithESLuceneengine项目地址:https://gitcode.com/gh_mirro
【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度深度学习机器大语言模型深度学习入门人工智能语言模型
一传统方法之前的文章已经介绍过向量数据库在RAG（RetrievalAugmentedGenerative）中的应用，本文将会讨论另一个重要的工具-Embedding模型。一般来说，构建生产环境下的RAG系统是直接使用Embedding模型对用户输入的Query进行向量化表示，并且从已经构建好的向量数据库中检索出相关的段落用户大模型生成。但是这种方法很明显会受到Embedding模型性能的影响，比
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
使用LangChain访问个人数据第八章-总结明志刘明大模型学习手册 langchain 人工智能
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序本部分前几个章节请查看使用LangChain访问个人数据第一章-简介使用LangChain访问个人数据第二章-文档加载使用LangChain访问个人数据第三章-文档分割使用LangChain访问个人数据第四章
基于 LangChain 开发应用程序第一章-简介明志刘明大模型学习手册 langchain 人工智能
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统本部分章节目录如下：基于LangChain开发应用程序第一章-简介基于LangChain开发应用程序第二章-提示和输出基于LangChain开发应用程序第三章-储存基于LangChain开发应用程序第四章-模型链基于LangChain开发应用程序第五章-基于文档的问答基于LangCh
ollama教程——使用Ollama与LangChain实现Function Calling(函数调用)的详细教程（二）【附完整源码】 walkskyer ollama入门教程 langchain ollama LLM
ollama入门系列教程简介与目录相关文章:Ollama教程——入门：开启本地大型语言模型开发之旅Ollama教程——模型：如何将模型高效导入到Ollama框架Ollama教程——兼容OpenAIAPI：高效利用兼容OpenAI的API进行AI项目开发Ollama教程——使用LangChain：Ollama与LangChain的强强联合Ollama教程——生成内容API：利用Ollama的原生AP
PyTorch实现CNN：CIFAR-10图像分类实战教程吴师兄大模型 PyTorch pytorch cnn CIFAR-10图像分类人工智能 python 卷积神经网络开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
LangChain 发布政策详解 VYSAHF langchain 人工智能深度学习 python
技术背景介绍LangChain是一个用于构建和部署大型语言模型（LLM）应用的生态系统。它由多个组件包组成，例如langchain-core、langchain、langchain-community、langgraph和langserve等。随着应用需求的快速变化，LangChain的开发与发布策略也相应调整，以便更好地服务于用户社区。核心原理解析LangChain生态系统采用语义版本控制（Se
LangChain大模型应用开发指南-大模型Memory不止于对话喝不喝奶茶丫 langchain 人工智能大模型大模型应用 AI大模型 Memory 大语言模型
上节课，我我为您介绍了LangChain中最基本的链式结构，以及基于这个链式结构演化出来的ReAct对话链模型。今天我将由简入繁，为大家拆解LangChain内置的多种记忆机制。本教程将详细介绍这些记忆组件的工作原理、特性以及使用方法。【一一AGI大模型学习所有资源获取处一一】①人工智能/大模型学习路线②AI产品经理资源合集③200本大模型PDF书籍④超详细海量大模型实战项目⑤LLM大模型系统学习
在LangChain中运行Replicate模型的实用指南 fgayif langchain 人工智能 python
##技术背景介绍Replicate是一个平台，可以轻松调用各种预训练的AI模型。与传统的模型托管和调用相比，Replicate提供了简单的API接口，使开发者能够快速集成和使用强大的AI模型。本文将重点介绍如何在LangChain项目中集成和调用Replicate模型。##核心原理解析在集成Replicate模型之前，需要进行一些基础设置和安装工作。LangChain是一个用于自然语言处理的库，它
【带你 langchain 双排系列教程】8.LangChain开发Agent智能体：从入门到实战夜里慢慢行456 双排人工智能 python langchain
一、什么是LangChain？LangChain是一个专为构建大模型应用设计的开发框架，其模块化设计和丰富的工具链让智能体开发更高效。相比传统开发，LangChain提供以下核心优势：内置Agent模板：快速实现工具调用、多轮对话、记忆管理。无缝对接主流大模型：支持OpenAI、ChatGLM、DeepSeek等。灵活可扩展：通过Chains组合实现复杂业务逻辑。二、快速开始：环境搭建与基础配置1
从零起步：LangChain ChatPromptTemplate基础使用软件不硬 langchain
在上篇文章中，我们已经学习PromptTemplate。现在，我们继续学习ChatPromptTemplate。ChatPromptTemplate是LangChain框架中用于构建对话提示的强大工具。它专为多轮对话场景设计，能将不同角色的消息整合为连贯提示，助力开发者精准引导语言模型生成符合预期的回复。通过定义角色、消息内容及灵活的模板变量，ChatPromptTemplate让创建复杂对话提示
2.langchain中的prompt模板 (FewShotPromptTemplate) ZHOU_CAMP langchain实践 langchain prompt
本教程将介绍如何使用LangChain库中的PromptTemplate和FewShotPromptTemplate来构建和运行提示（prompt），并通过示例数据展示其应用。安装依赖首先，确保你已经安装了langchain和相关依赖：pipinstalllangchainlangchain_corelangchain_chromalangchain_community1.创建PromptTemp
第N4周：NLP中的文本嵌入 OreoCC 自然语言处理人工智能
本人往期文章可查阅：深度学习总结词嵌入是一种用于自然语言处理（NLP）的技术，用于将单词表示为数字，以便计算机可以处理它们。通俗的讲就是，一种把文本转为数值输入到计算机中的方法。之前文章中提到的将文本转换为字典序列、one-hot编码就是最早期的词嵌入方法。Embedding和EmbeddingBag则是PyTorch中的用来处理文本数据中词嵌入（wordembedding）的工具，它们将离散的词
Python 流程控制终极指南：if-else 和 for-while深度解析吴师兄大模型 python 开发语言 if-else for-while break continue 编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
LangChain 核心概念简介墨染辉大语言模型人工智能
2.1ComponentsandChainsComponents（组件）和Chains（链）是LangChain的基础构建块，用于创建复杂的语言模型应用程序。组件（Components）：定义：模块化的构建块，如语言模型、工具、记忆模块等。作用：单独使用或组合以实现特定功能，提升应用的灵活性和可扩展性。链（Chains）：定义：由一系列组件或其他链按特定顺序组合而成的工作流。作用：完成特定任务，如
快速入门Anthropic Chat模型的使用 wad485486aw python 开发语言
在这篇文章中，我们将深入探讨如何开始使用Anthropic的Chat模型。你将学习如何通过AWSBedrock和GoogleVertexAI来访问这些模型。此外，我们还将介绍如何安装和使用langchain-anthropic包来集成Anthropic的聊天功能。技术背景介绍Anthropic提供了一系列强大的聊天模型，这些模型可以通过不同的平台访问，如AWSBedrock和GoogleVerte
深度学习-144-Text2SQL之基于langchain的少量样本提示词模板FewShotPromptTemplate的应用实战(三) 皮皮冰燃深度学习深度学习 langchain Text2SQL
文章目录1基本组件1.1大模型1.2数据库Chinook1.2.1创建并载入数据1.2.2SQLDatabase2年龄最大的员工姓名和年龄3少量样本提示词模板3.1创建示例集3.2创建格式化程序3.3创建示例选择器3.4创建少量示例提示词模板3.5应用测试3.6添加新示例4参考附录1基本组件1.1大模型fromlangchain_ollamaimportChatOllamaimportosos.e
RoPE——Transformer 的旋转位置编码机智的小神仙儿深度学习大模型 transformer 深度学习人工智能
在自然语言处理领域，Transformer是现代深度学习模型的基础，而位置编码（PositionEmbedding）则是Transformer处理序列数据的关键模块之一。近年来，一种新型的位置编码方法RoPE（RotaryPositionEmbedding）得到了广泛关注。本文将全面解读RoPE的背景、原理、实现、优势及其应用场景，帮助读者深入理解这一方法。1.什么是RoPE？RoPE（Rotar
深入探讨如何在LangChain中将参数从一个步骤传递到下一个步骤：高级技巧与实际应用 m0_57781768 langchain
深入探讨如何在LangChain中将参数从一个步骤传递到下一个步骤：高级技巧与实际应用在现代软件开发中，特别是在复杂的自然语言处理（NLP）和人工智能应用中，数据的传递和处理是至关重要的。LangChainExpressionLanguage(LCEL)为开发者提供了一种强大的工具，能够有效地管理数据流，并确保任务链中的每一步都能顺利进行。在这些任务链中，开发者常常需要将数据从一个步骤无缝地传递到
基于AI的LangChain社区：关键贡献者与维护者 dgay_hua langchain python
在技术飞速发展的今天，开源社区的贡献者们扮演着至关重要的角色。LangChain作为一个日益壮大的社区，背后离不开全球各地开发者的辛勤付出。这篇文章将聚焦那些在LangChain社区中做出杰出贡献的个人，他们通过对开源代码库的直接贡献和审查，使得这个框架不断向前发展。核心贡献者随着LangChain的成长，维护人员需要覆盖的部分不断增加。非常感谢以下人员在审查PR方面做出的卓越贡献：@leo-ga
如何成为LangChain项目的贡献者 eahba langchain easyui 前端 python
技术背景介绍LangChain是一个开源项目，致力于处理自然语言处理和生成任务。随着AI和机器学习领域的快速发展，LangChain项目的更新速度也很快。此项目欢迎社区的参与，无论是新功能、基础设施改进、文档提升还是Bug修复，都在积极寻求贡献。核心原则解析参与开源项目不仅能提升个人技能，还能为社区带来价值。对LangChain的贡献包括但不限于以下几个方面：文档改进：帮助改善项目文档，以便新人和
LangChain大模型应用开发：消息管理与聊天历史存储老赵爱学习 langchain python 自然语言处理人工智能
介绍大家好，博主又来给大家分享知识了。今天要给大家分享的是LangChain中的消息管理与聊天历史存储。在LangChain里，消息管理可精细区分用户、助手、系统等不同角色消息，有序调度处理，让交互更顺畅。而聊天历史存储则赋予模型“记忆”，多轮对话时能参考过往记录，理解意图更精准，回复更连贯。二者相辅相成，为构建智能对话应用筑牢基础。希望大家能通过我本次的分享，对它们有更清晰的认知。消息存储在内存
使用LangChain实现最新NLP研究成果 eahba langchain 自然语言处理人工智能 python
近年来，自然语言处理（NLP）领域的研究取得了显著的进展，而LangChain通过实现这些最新的研究成果，为开发者和研究人员提供了强大的工具与服务。在本文中，我们将探讨一些被LangChain所引用的arXiv研究论文，并展示如何通过API调用和具体示例来实现这些前沿技术。技术背景介绍LangChain作为一个强大且灵活的开源工具，旨在简化大语言模型（LLMs）的开发与应用。通过对最新研究的集成，
如何高效使用LangChain实现复杂任务：全面功能指南 shuoac langchain 前端 python
LangChain是一个强大的工具集，它为开发基于大语言模型(LLM)的应用提供了丰富的组件和功能支持。无论你是初学者还是经验丰富的开发者，这篇指南将帮助你掌握LangChain的核心功能，并通过可运行的代码示例指导你完成各种任务。目录安装LangChain核心功能概览LangChain表达式语言(LCEL)组件详解及实现Prompt模板消息管理文档加载器向量存储应用场景分析问答系统(Q&A)信息
使用LangChain构建大语言模型(LLM)应用程序: 基础入门 bavDHAUO langchain 语言模型服务器 python
使用LangChain构建大语言模型(LLM)应用程序:基础入门在这个教程中，我们将了解如何使用LangChain快速上手并构建一个基本的大语言模型(LLM)应用。我们将涵盖核心概念、基本实现和应用场景分析。技术背景介绍LangChain是一个强大的框架，旨在帮助开发人员构建涉及LLM的应用程序。从简单的聊天机器人到复杂的数据分析系统，LangChain提供了一整套工具来实现这一目标。核心原理解析
大模型与图数据库RAG通俗流程拆解 gallonyin 产品笔记 AI 知识图谱
图构建（略）neo4j、tugraph等均可，不影响GraphRAG核心框架模型向量化模型bce-embedding-base_v1重排序模型bce-reranker-base_v1大语言模型Qwen/Qwen2.5-32B-Instruct图数据库tugraph索引faiss核心流程这个调用链日志展示了一个完整的问答系统处理用户输入“百草园里有什么”的过程。本项目使用和参考了开源项目茴香豆。以下
使用LangChain构建简单的LLM应用 fgayif langchain java 数据库 python
在这篇快速入门教程中，我们将向您展示如何使用LangChain构建一个简单的LLM（大型语言模型）应用程序。这个应用程序的功能是将文本从英语翻译成其他语言，这是一个相对简单的LLM应用，只需一个LLM调用加上一些提示。但即使是这样，也不失为一个很好的入门LangChain的方法——通过一点提示和LLM调用可以构建很多的功能！在阅读这篇教程后，您将对以下内容有一个高级别的概述：使用语言模型使用Pro
paddleOCR处理PDF遇到问题被编程为难的小娃娃 pdf paddlepaddle ocr 笔记
前提安装是上一篇，langchain的加载和分割参考博客：使用paddleOCR批量识别pdf_paddleocrpdf-CSDN博客遇到问题如下图。个人怀疑文档中有长表内容（是倒立的那种长表）--补充编辑，确实如此，解决方案后续优化了再发状态：目前未解决。在上一篇博客的基础上新增pippipinstallpaddlepaddlepipinstallpaddlehub(这里本来参考的这位博主，但是
语义检索-BAAI Embedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性汀、人工智能 LLM工业级落地实践 embedding langchain 人工智能智能问答 RAG 检索增强生成大模型
语义检索-BAAIEmbedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性语义向量模型（EmbeddingModel）已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代，它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而，当前中文世界的高质量语义向量模型仍比较稀缺，且很少开源。为加快解决大模型
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他