武安620

基于langchain-chatglm本地知识库得部署

项目的技术组成

LLM模型

大型语言模型（LLM，是large language model）是一种人工智能模型，旨在理解和生成人类语言。它们通过在大量文本数据上进行训练，能够执行多种任务，包括文本总结、翻译、情感分析等。LLM的显著特点是其规模庞大，包含数十亿个参数，这使得它们能够学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转换器，这有助于它们在各种自然语言处理任务上取得令人印象深刻的表现。

比如chatgpt就是目前最典型的llm模型，而在这个项目中我们使用的是清华开源的chatglm-6b模型，是一个最低要求只需要6b完全可以在个人的消费级显卡上部署。

embedding模型

Embedding翻译过来是“嵌入式”的意思,这一类模型的主要作用是可以把所有物体通过数学换算转换为可以被计算机的识别的数据和信号，这一类模型的主要作用有两个降维和升维。

我们都是知道文字的信息是通过被数字编码后作为矩阵储存在计算机中的，但是随着文字量的增多，矩阵的容量也是几何倍数增长，但是其中数据的密度会因为数字编码的问题，储存密度极低，这极大地浪费了资源。所以，我们可以通过矩阵乘法进行降维，减少资源的浪费，这是降维的用法。

升维的用处主要是在于通过细致观察，我们把眼睛靠近某一处物体，自然可以仔细观察某个物体，这要求我们靠近某一个物体，但是又不可以靠太近，因为靠近这个物体太近会导致我们无法观察到这个物体，embedding模型升维的一个作用是对低维的数据进行升维时，可能把一些其他特征给放大了，或者把笼统的特征给分开了。

文本向量储存

文本向量储存技术是指将文本数据转换为向量表示，并将这些向量储存起来的技术。通过将文本转换为向量，可以将文本数据表示为数值化的形式，从而方便存储、处理和分析。主流的文本向量储存技术有

1.词袋模型（Bag-of-Words）：词袋模型将文本表示为一个向量，其中向量的每个维度表示一个单词，而向量的值表示该单词在文本中的出现频率或权重。可以使用词频（Term Frequency）或词频-逆文档频率（TF-IDF）等方法来计算向量的值。

2.Word2Vec：Word2Vec 是一种基于神经网络的词嵌入模型，它将单词映射为连续向量空间中的向量。通过训练神经网络，Word2Vec 可以学习到单词之间的语义和语法关系，从而产生具有语义相关性的向量表示。

3.GloVe：GloVe（Global Vectors for Word Representation）也是一种词嵌入模型，它通过统计单词在上下文中的共现关系来生成向量表示。GloVe 模型将全局的词语共现统计信息与局部的上下文窗口统计信息相结合，产生更加全面和准确的向量表示。

4.BERT：BERT（Bidirectional Encoder Representations from Transformers）是一种基于 Transformer 模型的预训练语言模型。通过训练大规模的语料库，BERT 能够生成上下文敏感的单词嵌入向量，捕捉到单词的语义和句子之间的关系。

5.Doc2Vec：Doc2Vec 是一种将整个文档（而不仅仅是单词）嵌入为向量的技术。它类似于 Word2Vec，但将文档作为一个整体进行嵌入，从而生成文档级别的向量表示。

而今天我要介绍的的项目使用的是以word2vec为基础生成的embedding模型，适合于通过较少的资源生成精度较高的问答结果。

二．langchain和如何使用langchain

1.什么是langchain

LangChain是一个强大的框架，旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口，可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互，将多个组件链接在一起，并集成额外的资源，例如 API 和数据库。

如何使用langchain

首先需要安装langchain库（pip install langchain），又因为使用 LangChain 通常需要与一个或多个模型提供程序、数据存储、 API 等集成。如果想要使用openai的话要先安装openai的SDK（pip install openai）

import os

os.environ["OPENAI_API_KEY"] = "..."设置自己的openai的key

然后可以通过langchain的prompt模块快速生成prompt模板

from langchain.prompts import PromptTemplate

prompt = PromptTemplate(

input_variables=["product"],

template="What is a good name for a company that makes {product}?",

)

然后生成链chain

from langchain.chains import

LLMChainchain = LLMChain(llm=llm, prompt=prompt)

上述是一个langchain的简单应用，总之使用langchain除了可以为我们掉用各个模型提供了方便意外，还为我们设定prompt等模板提供了便利。

三．几个embedding模型的介绍和使用

1.openai的api

第一种使用embedding的方法，通过调用openai的api接口来实现embedding。这里不详细介绍，具体可以参考文章https://zhuanlan.zhihu.com/p/607703047

text2vec模型

Text2vec模型使用词嵌入（Word Embedding）技术来实现文本向量化。词嵌入是一种将单词映射到连续向量空间的技术，能够捕捉到单词之间的语义和语法关系。通过将文本中的每个单词映射为词嵌入向量，text2vec模型可以将整个文本表示为一个向量序列，从而保留了文本的语义信息。

在文本向量化过程中，text2vec模型可以使用不同的词嵌入算法，如Word2Vec、GloVe、BERT等。这些算法基于不同的原理和训练方法，但都旨在将单词表示为具有语义相关性的向量。目前使用广泛的还是word2vec.

通过使用textvec模型，我们可以将文本数据转换为数值向量，以便应用于各种机器学习和自然语言处理任务，例如文本分类、情感分析、机器翻译等。文本向量化的过程使得计算机能够更好地理解和处理文本数据，从而提高了文本相关任务的性能和效果。但是text2vec也有他自身的局限性，比如比较适合处理短文本，面对长文本容易出现问题数量判断错误，问题的题干理解不清晰等问题。

m3e模型

M3e模型同样作为一个embedding模型，也是由中文训练集训练出的，对于中文有着高支持度，同时比起text2vec来说，m3e-base还支持英文，比起text2vec更适合多语言场景。同时比较下图中的s2s和s2p能力指数。我们可以观察到m3e的指数明显高于text2vec，因此，在大多数中文场合m3e比起text2vec更适用。

s2s, 即 sentence to sentence ，代表了同质文本之间的嵌入能力，适用任务：文本相似度，重复问题检测，文本分类等

s2p, 即 sentence to passage ，代表了异质文本之间的嵌入能力，适用任务：文本检索，GPT 记忆模块等

ChatgGLM v1和v2的本地部署

通过git命令拉取chatglm模型

想要从git中拉取大型文件首先需要安装git lfs

使用以下命令添加Git LFS软件包源到系统

命令（Curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash）

安装Git LFS软件包：sudo apt-get install git-lfs

启用Git LFS扩展：git lfs install

如果要在本地部署chatglm模型，需要从github中拉取chatglm-6b模型，拉取模型命令git clone https://huggingface.co/THUDM/chatglm-6b，具体参考可以参考（https://github.com/THUDM/ChatGLM-6B）

如果要在本地部署chatglm2-6b模型，需要从github上拉取chatglm2-6b模型，拉取模型的命令(git clone 。具体可以参考https://github.com/THUDM/ChatGLM2-6B。

2.配置模型所需要的环境

使用大语言模型需要gpu,因此我们需要根据自己的显卡型号安装显卡驱动。首先安装好环境

sudo apt-get install g++，

sudo apt-get install gcc，

sudo apt-get install make实验室服务器用的是英伟达显卡这里查看显卡版本的命令是”lspci | grep -i nvidia”,查看好显卡版本后，使用命令行安装英伟达显卡驱动。

安装好英伟达显卡驱动后，我们还需要安装cuda和cudnn。在安装cuda和cudnn之前我们先执行nvidia-smi，执行获得显卡信息，查看显卡支持的最高CUDA的版本，以便下载对应的CUDA安装包。如图是在172.16.17.43的主机上的显卡信息。

这里我们是可以看到的，实验室的的显卡是由两块t4显卡组成的，这也就说明说明已经安装显卡驱动了。红色框内的cuda版本代表了显卡所支持的最高版本，因此我们可以下载11.4版本的cuda。

下载完cuda

安装必要的依赖项

sudo apt-get update

sudo apt-get upgrade

sudo apt-get install build-essential

安装cuda

sudo sh cuda_11.4.0__linux.run

按照安装程序的提示进行安装。您需要选择是否安装NVIDIA驱动程序、CUDA Toolkit、cuDNN等组件。建议选择默认选项。

安装完成后，您需要将CUDA的路径添加到环境变量中。在Ubuntu上运行以下命令：

echo 'export PATH=/usr/local/cuda-11.4/bin:$PATH' >> ~/.bashrc

echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.4/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

source ~/.bashrc

安装完成后输入nvcc -version

我们会看到cuda输出版本号。

然后我们激活这一个虚拟环境（conda activate chatglm)

当这两个下载完后，我们在ubuntu中创建一个虚拟环境（conda create --name hatglm python=3.10.11)

进入到项目目录中执行pip install -r requirements.txt，安装项目所需要的python包。

安装成功后，我们修改项目中的配置文件cli_demo.py中的路径，将THUDM/chatglm-6b改为本地的模型路径，这样子可以从本地加载模型

3.部署中一些可能出现的bug和解决方案

1.如果出现lib文件软连接错误，可以考虑重装，或者将软连接文件重新下载并建立连接。

2.Python一定要安装3.11以下的版本，某些库（尤其是paddlepaddle)不支持python3.11，最低是3.8以上，但是不建议安装3.8，会出现很多包的版本问题。

3.如果pip install中出现一些包安装错误，一个是建议手动安装尝试，另一个是建议尝试conda安装，如果这两个还不可以，可以个根据报错信息修改。

4.pip如果下载速度慢，可以手动配置清华源进行下载，命令（pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple）

5.部署chatglm2-6b模型大约需要13GB的显存以fp16的精度，在实验室的服务器上部署大约需要125000MIB的显存，自己尝试在电脑上部署的时候要注意自己电脑显存大小。

4.fastllm加速器的使用

对于加速chatglm和chatglm2模型，我们可以使用fastllm(目前该工具只在ubuntu系统中可以使用)，这一个在github上开源的工具。

在使用这个加速工具之前我们需要先查看自己的cmake的版本号，要在3.13以上。这里在实验室的服务器上执行cmake ..-DUSE-CUDA=ON的时候存在权限问题.

这个时候要使用管理员权限进行安装sudo cmake .. -DUSE-CUDA=ON,如果sudo 下执行出现以下错误，则需要升级sudo下的cmake版本。

Chatglm v1和 v2在个人数据库的项目部署

1.项目的拉取和配置

因为该项目是基于langchain(LLM)和清华的chatglm2-6b模型的可以通过必应和本地知识库的问答，本地知识库支持txt，docx，md，pdf 等格式。

从github中拉取项目https://github.com/imClumsyPanda/langchain-ChatGLM

命令git clone GitHub - imClumsyPanda/langchain-ChatGLM: langchain-ChatGLM, local knowledge based ChatGLM with langchain ｜基于本地知识库的 ChatGLM 问答

这里使用git命令拉取的时候应该多等待一段时间，模型的第一个权重文件需要下载完成后才会显示下载速度和进程。

对于embedding的处理模型项目使用的是text2vec,可以通过(git clone https://huggingface.co/GanymedeNil/text2vec-large-chinese /your_path/text2vec

)命令下载，我自己下载的时候从项目中的百度网盘下载的，这一个我把他挂在到我的文件夹下，大家可以直接通过xftp下载。

当环境配置好后，我们需要修改模型配置，进入项目以后，我们首先需要进入到config文件夹，找到model_config，修改文件的几处代码，修改代码中的”text2vec”的键值对，将他修改为本地的text2vec模型路径。

如果我们要部署chatglm2-6b模型，因此我们在下面寻找名为chatglm2-6b的字典

将local_model_path变化为本地模型路径。将下面的LLM_MODEL 名称改为chatglm2-6b。

如果要部署chatglm-6b模型，则要寻找名为chatglm的字典。

将local_model_path路径改为本地chatglm模型路径。

如果想要测试其他精度的chatglm2-6b模型或者chatglm模型的性能，按照上述操作，找到对应的模型名称，然后将对应模型下的路径改为本地路径，并且把LLM_MODEL改为模型在llm中的名称。

项目的运行

当我们修改完本地配置后，我们可以运行loader的image_loader.py，如果image_loader运行成功，那么可以尝试运行cli_demo.py文件，等到运行成功后，会提示你导入一个文件夹作为数据库，并将把它向量化，这里注意导入的文件中的文档不要有中文命名的文档。

当我们导入本地数据库成功后，可以尝试进行问答了。如果cli_demo可以正常运行，那么webui和api一般都没有问题。

如果我们想要建立属于自己本地数据库我们可以使用webui(api中无法通过文件夹批量上传文件）

图中红色框被框起来的部分便是你的本地数据库，他会被储存在你的langchain-ChatGLM-master/knowledge_base路径下。下面存在传文件和上传文件夹两种上传形式，这两种上传形式同样要遵循文件名不可以含有中文名字。

对于上传数据被向量化的速度，这里我自己稍微做了一个统计

这里的文档后缀名为tex,图片后缀名为jpg。所选择的计算token的库是tiktoken，采用“gpt2”编码进行运算。但是对于文件小，token小的文档上传速度远慢于文件大，token大的文档的原因，我没有找到答案。

3.项目中可能出现的一些bug和解决方法

1.“can’t find configs.model_config.py”，这一个错误意思是找不到configs.model_config文件，这个错误我们可以直接修改image_loader文件，在文件的最上面添加

这两行代码，然后找到from configs.model_config import * 这一行代

码变为from model_config import * 这个时候就不会再次报错了。

2.当我们把模型修改完成后，在里面找到执行我们执行loader/image_loader.py文件，执行它，如果执行image_loader出现错误，可以根据错误查找一下信息，一般不会出现环境问题，如果image_loader执行成功了，我们可以执行cli_demo.py观察测试是否报错。其中即使执行成功了，会出现一个警告。

WARNING 2023-07-12 09:23:31,619-1d: No sentence-transformers model found with name /data/ices/wangzeyu/text2vec-large-chinese. Creating a new one with MEAN pooling.

这个警告的存在是可以消除的，（根据作者的说法是不影响使用的，但是根据实际使用的交流中发现，因为找不到预训练模型，所以只可以对词汇向量化，不可以对句子向量化，这影响了回答的精确性），具体消除警告的方法可以参考

https://github.com/imClumsyPanda/langchain-ChatGLM/issues/156

上传文件的时候出现了在webui页面中出现了无法选择数据库的情况，这个问题主要是因为网页自动翻译的问题，在Edge浏览器中最上侧的导航栏里把页面自动翻译关掉就可以选择数据库了。

4.上传文件的时候，在webui页面中出现某些文档上传成功，但是后台xshell中，在提示这些文档上传成功后，最后出现所有文件上传失败提示或提示所有文件上传失败。这种错误有三种原因，

第一种：是因为你的页面自动翻译又打开了，导致上传的时候文件名被翻译过了。

第二种：你的文件夹种的文档名字存在中文，这里提供一个用python批量修改文档名的方法。

此时会弹出一个提示让你输入你想要导入的数据库，这个数据库可以是txt，jpg等但是注意导入的文件夹或者文件的名字不可以存在中文，如果存在中文会导致文件的导入失败。这里提供一个可以批量修改文件名的代码和一个可以批量删除符合某一条件文件的代码。

第三种：这个文件夹内的内容过多，一次性传输的数据过大，要把这一批数据分为好几个批次分别进行向量化存储。

5.如果要完全部署该项目，chatglm2-6b+m3e-base需要的显存是14000MIB左右，如果进行一次问答，需要的显存会达到147000左右，如果进行多次问答，显存可能会超过15109MIB.也就是实验室中T4显卡的显存，因此不建议单卡部署。

六．未来发展与期望(主要目的是优化模型的问答能力)

1.因为chatglm-6b的模型6B 的小容量，决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时，ChatGLM-6B 可能会生成不正确的信息；并且也不擅长逻辑类问题（如数学、编程）的解答。可以使用moss或者chatglm-130b等模型，替代chatglm模型进行问答。在问答效果上可能会比chatglm的问答效果更强。

2.如果使用的是text2vec-base模型，因为警告的存在只可以对词汇向量化，不可以对句子向量化，因此需要分词器来对句子进行分词，因此可以考虑更换分词器，目前使用的分词器当时分词的时候，过短的词语会导致分词器分词不成功，可以更换分词器来增强分词效果。

3.改进embedding模型。可以使用m3e-base模型，根据（三）中的论述，m3e对于中文的支持度，尤其是长文段别的支持远高于text2vec,对于检索问题数量和文段匹配能力强于text2vec模型，对于中文的增强比较明显。（这里观察的到，当如果换用了

4.结合知识图谱。深度学习在一个领域/任务是否成功主要由能否提供的信息量来决定，而信息量则有数据条目和每条数据特征个数两个维度来共同决定。利用了图的结构，将事物背后更高层的背景知识串联在了一起，使得图不光光可以进行直接联系的描述，同时也描述了隐藏在背景知识下的隐藏的联系。通过知识图谱可以将各个知识点连接起来，可以增强模型问答的推理能力。比如encoder-decoder 框架，能够充分利用知识图谱中知识的深度学习问答模型。在深度神经网络中，一个问题的语义往往被表示为一个向量。具有相似向量的问题被认为是具有相似语义。这是联结主义的典型方式。另一方面，知识图谱的知识表示是离散的，即知识与知识之间并没有一个渐变的关系。这是符号主义的典型方式。通过将知识图谱向量化，可以将问题与三元组进行匹配（也即计算其向量相似度），从而为某个特定问题找到来自知识库的最佳三元组匹配。

5.更改prompt模型，使其回答更加人性化。首先，这一个可以使用langchain.prompt来修改回答的模板，呈现总分总或者总分的结构，更容易被使用者抓住重点。其次可以考虑写出多个prompt模板，对其使用后，用相对应的评分规则对每一个prompt模板的答案做出评分，选取最高评分的prompt模板作为答案输出。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

基于langchain-chatglm本地知识库得部署

你可能感兴趣的:(langchain,chatgpt,人工智能,nlp,算法)