v_JULY_v

知识库问答LangChain+LLM的二次开发：商用时的典型问题及其改进方案

前言

如之前的文章所述，我司下半年成立大模型项目团队之后，我虽兼管整个项目团队，但为让项目的推进效率更高，故分成了三大项目组

第一项目组由霍哥带头负责类似AIGC模特生成系统
第二项目组由阿荀带头负责论文审稿GPT以及AI agent项目
第三项目组由朝阳带头负责企业多文档的知识库问答系统，朝阳、bingo、猫药师等人贡献了本文的至少一半

对于知识库问答，现在有两种方案，一种基于llamaindex，一种基于langchain +LLM

对于前者，我近期会另外写一篇文章
对于后者，考虑到我已在此文《基于LangChain+LLM的本地知识库问答：从企业单文档问答到批量文档问答》中详细介绍了langchain、以及langchain-ChatGLM项目的源码剖析
如下图所示，整个系统流程是很清晰的，但涉及的点颇多，所以决定最终效果的关键点包括且不限于：文本分割算法、embedding、向量的存储搜索匹配召回排序、大模型本身的生成能力
本文重点则阐述“如何通过基于langchain-chatchat二次开发一个知识库问答系统”，包括其商用时的典型问题以及对应的改进方案，比如
1 如何解决检索出错：embedding算法是关键之一
2 如何解决检索到相关但不根据知识库回答而是根据模型自有的预训练知识回答
3 如何针对结构化文档采取更好的chunk分割：基于规则
4 如何解决非结构化文档分割不够准确的问题：比如最好按照语义切分
5 如何确保召回结果的全面性与准确性：多路召回与最后的去重/精排
6 如何解决基于文档中表格的问答

最后强调一下，本文及后续相关的文章(比如embedding、文本语义分割、llamaindex等)更多是入门/梳理，其中的细节/深入，以及更多问题的解决暂在我司的「大模型项目开发线上营」里见

前置部分知识库的构建：基于langchain-chatchat的V0.2.6版本(chatglm2+m3e)

将七月近两年整理的大厂面试题PDF文件作为源文件来进行知识库的构建

默认使用RapidOCRPDFLoader作为文档加载器

RapidOCR是目前已知运行速度最快、支持最广，完全开源免费并支持离线快速部署的多平台多语言OCR。由于PaddleOCR工程化不是太好，RapidOCR为了方便大家在各种端上进行OCR推理，将PaddleOCR中的模型转换为ONNX格式，使用Python/C++/Java/Swift/C# 将它移植到各个平台

更多详情参考：https://rapidai.github.io/RapidOCRDocs/docs/overview/

另，本文里的测试及二次开发主要针对langchain-chatchat的V0.2.6版本，资源及相关默认配置如下：

显卡：Tesla P100，16G（显存）
分词器：ChineseRecursiveTextSplitter
chunk_size：250 (顺带说一下，250是默认分块大小，但该系统也有个可选项，可以选择达摩院开源的语义分割模型：nlp_bert_document-segmentation_chinese-base )
embedding模型：m3e-base
LLM模型：chatglm2-6b (默认为该模型，但下文会有些结果来自chatglm3)
向量库：faiss

第一部分如何解决检索的问题：比如检索出错等

1.1 如何解决检索出错：embedding算法是关键之一

1.1.1 针对「Bert的预训练过程是什么？」检索出的结果与问题不相关

使用原始的langchain-chatchat V0.2.6版本，会出现对某些问题检索不到的情况

比如问一个面试题：Bert的预训练过程是什么？

其在文档中的结果如下：
但实际检索得到的内容如下：

出处 [1] 2021Q2大厂面试题共121题（含答案及解析）.pdf

成. 15.6 bert 的改进版有哪些参考答案： RoBERTa：更强大的 BERT 加大训练数据 16GB -> 160GB，更大的batch size，训练时间加长不需要 NSP Loss： natural inference 使用更长的训练 SequenceStatic vs. Dynamic Masking 模型训练成本在 6 万美金以上（估算） ALBERT：参数更少的 BERT一个轻量级的 BERT 模型共享层与层之间的参数（减少模型参数）

出处 [2] 2022Q1大厂面试题共65题（含答案及解析）.pdf

可以从预训练方法角度解答。
… 20
5、RoBERTa 相比 BERT 有哪些改进？
…
20 6、BERT 的输入有哪几种 Embedding？

出处 [3] 2022Q2大厂面试题共92题（含答案及解析）.pdf

保证模型的训练，pre-norm 显然更好一些。 5、GPT 与 Bert 的区别 1） GPT
是单向模型，无法利用上下文信息，只能利用上文；而 BERT 是双向模型。 2） GPT 是基于自回归模型，可以应用在 NLU 和 NLG两大任务，而原生的 BERT 采用的基于自编码模型，只能完成 NLU 任务，无法直接应用在文本生成上面。 6、如何加速 Bert模型的训练 BERT 基线模型的训练使用 Adam with weight decay（Adam 优化器的变体）作为优化器，LAMB 是一款通用优化器，它适用于小批量和大批量，且除了学习率以外其他超参数均无需调整。LAMB 优化器支持自

可以看出，是没有检索到相关内容的
在没检索对的情况下，接下来，大模型便只能根据自己的知识去回答(下图左侧是chatglm2-6b的回答，下图右侧是chatglm3-6b的回答)

1.1.2 可能的原因分析与优化方法

使用默认配置时，虽然上传文档可以实现基础的问答，但效果并不是最好的，通常需要考虑以下几点原因

文件解析及预处理：对于PDF文件，可能出现解析不准确的情况，导致检索召回率低；
文件切分：不同的chunk_size切分出来的粒度不一样。如果设置的粒度太小，会出现信息丢失的情况；如果设置的粒度太大，又可能会造成噪声太多，导致模型输出的结果明显错误。且单纯根据chunk_size切分比较简单粗暴，需要根据数据进行针对性优化；
embedding 模型效果：embedding效果不好也会影响检索结果

优化方法：

文件解析及预处理
一方面可以尝试不同的PDF解析工具，解析更加准确
另一方面可以考虑将解析后的内容加上标题，并保存成Markdown格式，这样可以提高召回率
文件切分
基于策略：对于特定的文档，比如有标题的，可以优先根据标题和对应内容进行划分(就是按照题目和对应答案切分成一个块)，再考虑chunk_size
基于语义分割模型：还可以考虑使用语义分割模型
模型效果
尝试使用更多embedding模型，获得更精确的检索结果。如：piccolo-large-zh 或 bge-large-zh-v1.5等等，下文很快阐述
向量库
如果知识库比较庞大（文档数量多或文件较大），推荐使用pg向量数据库
如果文件中存在较多相似的内容，可以考虑分门别类存放数据，减少文件中冲突的内容
多路召回
结合传统方法进行多路召回
精排
对多路召回得到的结果进行精排

1.2 如何根据业务场景确定最合适的embedding算法

暂见此文：一文通透文本embedding表示：从m3e、bge到..

第二部分如何解决检索到相关但不根据相关结果回答

2.1 开源LLM并没有完全根据文档内容来回答，而是根据模型自有的预训练知识回答

LLM问题主要有以下几点：

LLM的回答会出现遗漏信息或补充多余信息的情况
chatglm2-6b还会出现回答明显错误的情况

2.1.1 针对「用通俗的语言介绍下强化学习？」检索到部分相关

比如问一个面试题：用通俗的语言介绍下强化学习？

该问题在文档中的结果如下：
检索得到的内容如下：

出处 [1] 2022Q2大厂面试题共92题（含答案及解析）.pdf

CART 树算法的核心是在生成过程中用基尼指数来选择特征。 4、用通俗的语言介绍下强化学习（Reinforcement Learning）监督学习的特点是有一个“老师”来“监督”我们，告诉我们正确的结果是什么。在我们在小的时候，会有老师来教我们，本质上监督学习是一种知识的传递，但不能发现新的知识。对于人类整体而言，真正（甚至唯一）的知识来源是实践——也就是强化学习。比如神农尝百草，最早人类并不知道哪些草能治病，但是通过尝试，就能学到新的知识。学习与决策者被称为智能体，与智能体交互的部分则称为环境。智能体与环境不断进行交互，具体而言，这一交互的过程可以看做是多个时刻，每一时刻，智能体根据环境的状态，依据一定的策略选择一个动作（这

出处 [2] 2021Q3大厂面试题共107题（含答案及解析）.pdf

20.2 集成学习的方式，随机森林讲一下，boost 讲一下， XGBOOST 是怎么回事讲一下。集成学习的方式主要有 bagging，boosting，stacking 等，随机森林主要是采用了 bagging 的思想，通过自助法（bootstrap）重采样技术，从原始训练样本集 N 中有放回地重复随机抽取 n 个样本生成新的训练样本集合训练决策树，然后按以上步骤生成 m 棵决策树组成随机森林，新数据的分类结果按分类树投票多少形成的分数而定。 boosting是分步学习每个弱分类器，最终的强分类器由分步产生的分类器组合而成，根据每步学习到的分类器去改变各个样本的权重（被错分的样本权重加大，反之减小) 它是一种基于 boosting增强策略的加法模型，训练的时候采用前向分布算法进行贪婪的学习，每次迭代

出处 [3] 2022Q2大厂面试题共92题（含答案及解析）.pdf

特征工程可以并行开发，大大加快开发的速度。训练速度较快。分类的时候，计算量仅仅只和特征的数目相关。缺点：准确率欠佳。因为形式非常的简单，而现实中的数据非常复杂，因此，很难达到很高的准确性。很难处理数据不平衡的问题。 3、介绍下决策树算法常见的决策树算法有三种：ID3、C4.5、CART 树 ID3 算法的核心是在决策树的每个节点上应用信息增益准则选择特征，递归地构架决策树。C4.5 算法的核心是在生成过程中用信息增益比来选择特征。 CART 树算法的核心是在生成过程中用基尼指数来选择特征。4、用通俗的语言介绍下强化学习（Reinforcement Learning）

可以看出
第一个检索结果和问题是相关的
第二个检索结果和问题是完全没关系的
而第三个检索结果的最后一句话是和问题相关的
最终，chatglm2基于知识库给的答案如下：
可以看出，LLM并没有完全根据文档内容来回答，而是基于自己的知识进行了相应回答，而对于回答的第三段话，强化学习算法主要有三种：ID3、C4.5和CART树。可以看出，这段话的表达是完全错误的

2.1.2 针对「生成式模型和判别式模型的区别并举一些例子」检索到的全是相关的

再看一个例子，即提问：生成式模型和判别式模型的区别并举一些例子

其在文档(知识库)中的答案如下
系统检索到的结果如下，很明显，三个检索结果都精准匹配到了问题
但，系统最终实际生成的答案如下(下图左侧是chatglm2-6b，下图右侧是chatglm3-6b)

相当于即便在上步骤中，系统检索到的三个结果的内容都是和问题相关的，但大模型还是根据自己的知识进行了回答

2.2 LLM不按照知识库回答的优化方法

优先使用最新的6B/7B模型：ChatGLM3-6B、Baichuan2-7B、Qwen-7B

当然，即便有的模型换成到了能力更强的最新版，也不一定听话(依然不严格按照知识库中的回答)，例如“2.1.1 针对「用通俗的语言介绍下强化学习？」”中，把chatglm2替换成最新的chatglm3，也未完全严格按照文档中的答案来回答(但GLM3这个结果相比GLM2的结果至少是进步了，没有出现毫不相干的决策树之类的内容)
所以，如果资源可以支持48G以上的显卡，可以考虑使用Qwen-14B-Chat 或 Baichuan-13B-Chat，13B的模型通常好于6B/7B模型
优化prompt，可能会有一定效果的。但由于随机性，结果并不能得到保证
PDF文档解析优化方案，下文详述

第三部分结构化文档与非结构化文档的典型问题：如何更好分割

3.1 如何针对结构化文档采取更好的chunk分割：基于规则

3.1.1 先解析PDF，然后分别获取文本内容和图片内容，最后拼接文本内容和图片内容

Langchian-Chatchat中对于不同类型的文件提供了不同的处理方式，从项目server/knoledge_base/utils.py文件中可以看到对于不同类型文件的加载方式，大体有HTML，Markdown，json，PDF，图片及其他类型等

LOADER_DICT = {"UnstructuredHTMLLoader": ['.html'],
               "UnstructuredMarkdownLoader": ['.md'],
               "CustomJSONLoader": [".json"],
               "CSVLoader": [".csv"],
               # "FilteredCSVLoader": [".csv"], # 需要自己指定，目前还没有支持
               "RapidOCRPDFLoader": [".pdf"],
               "RapidOCRLoader": ['.png', '.jpg', '.jpeg', '.bmp'],
               "UnstructuredFileLoader": ['.eml', '.msg', '.rst',
                                          '.rtf', '.txt', '.xml',
                                          '.docx', '.epub', '.odt',
                                          '.ppt', '.pptx', '.tsv'],
               }

这里，我们重点关注PDF文件的解析方式，并探究其可能的优化方案

从上面的文件加载字典中可以看出，PDF文件使用的加载器为RapidOCRPDFLoader，该文件的方法在项目document_loaders/mypdfloader.py中

处理方法：

首先使用fitz(即pyMuPDF)的open方法解析PDF文件；
对于每一页的文本内容，通过get_text方法进行获取，而对于图片内容通过get_images方法进行获取，获取后通过RapidOCR对图片中的文本内容进行提取；
最后将从图片中提取的文本和原始的文本内容进行拼接，得到最终的所有文本内容。然后进行下一步的分词和文本切割。

这种方式的优点简单粗暴，基本上对于任何排版的PDF文件都能够提取到有效信息。但缺点也很明显，就是无差别，比如我们的文档本身就有较好结构，提取出来的内容也无法将结构反映出来。所以，通常情况下需要根据文档的具体情况对解析后的文档做进一步定制化处理

3.1.2 针对结构化文档本身的特点：针对性分割

3.1.2.1 七月在线大厂面试题PDF文档特点

以七月在线大厂面试题PDF文档为例，有以下特点：

文档具有书签，可以直接根据书签对应到具体的页码
文档结构不复杂，共有两级标题，一级标题表示一个大的章节，二级标题表示面试题的问题，文本内容为每道面试题对应的答案；
每道面试题是独立的，和其前后的面试题并没有明显的相关性。
面试题题目的长度长短不一，短的有几个词组成，长的基本一句话
文档中除中文外，还有大量模型或算法英文词，且文档中包含部分公式和代码

因此，可以考虑根据文档的标题进行分割，即将文档中的标题和标题对应的内容分为一块，在放入向量库的时候可以尝试两种方式

一种是只将题目进行向量化表示存入向量库
另一种是将题目和答案一起进行向量化表示存入向量库

3.1.2.2 PDF文档解析可选方案

对此，尝试了几种PDF解析工具包：pdfplumber、PyPDF2、fitz（PyMuPDF）

通过fitz获取书签信息，得到面试题题目与其所在的页码，保存为一个字典；
尝试用pdfplumber、PyPDF2、fitz抽取每一页的文本信息，与字典中的标题进行匹配（使用find方法）
通过面试题当前位置和下一个面试题位置（这里的位置指的是索引），对面试题进行分块；
最后，输出面试题与其对应的答案

3.1.2.3 PDF文档解析存在问题

文档解析过程中存在的问题：

书签中的标题内容和文档中的标题内容并不完全一致，这种情况可能是解析后出现多余的空格导致的
需要考虑一道面试题可能存在跨页的情况，一般是会出现一道面试题出现在两页的情况，但也需要考虑一道面试跨三页或多页的情况
由于一级标题是有分页符的，每个一级标题会另起一页，因此在处理时也需要考虑此种情况。
解析的文本中带有页脚，如：第 4 页共 46 页，由于页脚的内容对面试题是没有意义的，因此也需要考虑去掉

3.1.2.4 PDF文档解析解决方案

解决方案：

对于书签中的标题内容和文档中的标题内容并不完全一致的问题
$\rightarrow$ 一种方式有考虑去除文档中标题的空格，实现困难在于无法精确定位，如果全去掉就会出现一些英文单词拼接在一块的情况，可能对语义或后续的检索产生影响
$\rightarrow$ 一种方式是不去除，如果出现这种情况，则将标题所在页的信息都提取出来；
对于一道面试题可能存在跨页的情况，可以通过设置起始页和终止页，对相邻标题（主要是下一个标题）所在页进行判断的方式来处理；
对于每个一级标题会另起一页的情况，可以通过添加对特殊字符“1、”判断的方式来处理；
对于页脚，可以使用正则表达式进行匹配去除

3.1.2.5 结果分析

测试效果：
以2022Q2大厂面试题共92题（含答案及解析）.pdf文件为例，共92道面试题，匹配不到的数量

pdfplumber：30
PyPDF2：20（解析过程中，英文词之间的空格会消失，如selfattention）
fitz：35

这个结果说明，即便根据文档的标题进行分割(将文档中的标题和标题对应的内容分为一块)，最终匹配率也不算高，因为92个问题，各个解析器下来，依然都20 30多个匹配不到，但如果不按照标题分割的话，就会出现那种比如一段文本中只有部分内容而不完整的情况

接下来，咱们来看下语义分割的方案

3.2 如何解决非结构化文档分割不够准确的问题：比如最好按照语义切分

// 待更

第四部分让召回结果更全面、准确，及基于表格的问答

4.1 如何确保召回结果的全面性与准确性：多路召回与最后的去重/精排

// 待更

4.2 如何解决基于文档中表格的问答

// 待更

参考文献与推荐阅读

我司第三项目组带头人朝阳的笔记：基于Langchain-Chatchat的知识库问答系统

1057 数零壹 Liu_Meihao 算法
题目1057数零壹思路本题分为两大步，第一步是求出序号和，先把大写转为小写，如果是字母的话，就统计序号；第二步是求0和1的个数，一开始第二个测试点不通过，把视为N不存在这种情况删掉后才通过。代码#include#include#includeusingnamespacestd;intmain(){stringa;getline(cin,a);intlen=a.length();intt[26];i
22章2节：如何在 R Markdown 和 R Notebook 中创建使用 DAT｜R科学用R探索医药数据科学 r语言开发语言
RMarkdown是一种广泛使用的工具，可以帮助数据科学家、统计学家和研究人员创建动态和交互式的报告。它结合了R语言的强大数据处理和分析能力，以及Markdown的简洁易用的文本格式，使得创建专业和美观的报告变得更加简单和高效。同时，RNotebook是一种交互式文档格式，它将叙述性文本、数据可视化以及其他多媒体组件与用R语言编写的代码结合在一起。RNotebook使用户能够创建和分享包含数据分析
运用python爬虫爬取汽车网站图片并下载，几个汽车网站的示例参考大懒猫软件 python 爬虫汽车图像处理
当然，以下是一些常见的汽车网站及其爬虫示例代码，展示如何爬取汽车图片并下载。请注意，爬取网站内容时应遵守网站的使用协议和法律法规，避免对网站造成不必要的负担。示例1：爬取汽车之家图片网站地址汽车之家爬虫代码Python复制importrequestsfrombs4importBeautifulSoupimportosdefdownload_images(url,folder):ifnotos.pa
Huffman编码的Python的实现 childish_tree python 算法霍夫曼树数据压缩
Huffman编码的Python的实现基本原理及步骤Huffman编码是一种贪心算法，用于无损数据压缩。它基于字符在数据中出现的频率来构建编码，频率高的字符使用较短的编码，而频率低的字符使用较长的编码。这种方式的目的是减少数据的大小，因为最常见的字符使用最短的编码，从而在整体上减少了所需的位数。实现Huffman编码的原理如下：频率统计：如果输入数据是一个字符串，代码会遍历这个字符串，统计每个字符
常用字符与ASCII代码对照表 childish_tree c语言笔记学习算法
常用字符与ASCII代码对照表温馨提示：使用电脑端阅读，获取更好体验【来源】ASCII码-基本ASCII码和扩展ASCII码,最全的ASCII码对照表ASCII码简介:1、ASCII码是现今最通用的单字节编码系统，并等同于国际标准ISO/IEC646。在这个页面，你可以找到8位的256个字符、ASCII码表和Windows-1252(codepage1252，它是国际标准ISO8859-1的一个扩
Vue 2 生命周期钩子，Vue 3 生命周期钩子【详解】 TOP印 vue vue.js javascript ecmascript
Vue.js的生命周期是指Vue实例从创建到销毁的过程，分为多个阶段，每个阶段有对应的生命周期钩子函数，可以在这些钩子中添加特定的逻辑。下面是Vue2和Vue3生命周期的详细介绍，以及示例代码。Vue2生命周期钩子beforeCreate:实例初始化之后，数据观测和事件配置之前被调用。created:实例创建完成后被调用，数据观测已完成，属性和方法可以访问，但DOM还未生成。beforeMount
计数排序算法及优化（java）爱吃土豆的程序员数据结构与算法（JAVA）算法 java 计数排序
1.1引言计数排序是一种非比较排序算法，它适用于一定范围内的整数排序。计数排序的核心思想是通过统计每个元素出现的次数来确定它们的位置，而不是通过比较来决定元素的顺序。本文将详细介绍计数排序的历史背景、工作原理，并通过具体案例来阐述其应用。此外，还将探讨计数排序的不同优化方案，并给出相应的Java代码示例。1.2计数排序的历史计数排序的思想可以追溯到20世纪初，最早是由HaroldH.Seward在
攻克设备数据质量难题：深度学习应用的数据基石搭建教程（DBSCAN 聚类算法） AI_DL_CODE 深度学习运维算法数据质量 DBSCAN聚类算法
摘要：在深度学习赋能设备管理的浪潮中，数据质量成为关键瓶颈。本文聚焦设备数据采集与预处理阶段面临的噪声干扰、数据缺失等难题，深入讲解强化采集端管控的策略，详细剖析聚类、统计法及线性回归模型在数据清洗与补全中的应用原理，并结合振动传感器数据实例给出可实操的Python代码。旨在为从业者提供一站式解决方案，助力打造高质量设备数据集，为深度学习模型高效运行筑牢根基，推动设备管理智能化落地。文章目录攻克设
超过80%大厂都在用，Jetpack Compose现代Android界面开发的未来 Calvin880828 现代Android开发 jetpack compose android
超过80%大厂都在用，JetpackCompose现代Android界面开发的未来1.引言JetpackCompose是一款用于构建Android界面的现代化工具包。目前该框架已经相对成熟，大厂包括Google、字节、阿里等大厂都在使用。根据反馈，普遍认为开发效率提高了很多，语法简单直观，受到普遍好评！相较于传统的XML布局文件和Java代码，JetpackCompose采用了声明式的方式来描述U
Java实现计数排序算法详解及优化捕风捉你从0开始学算法 java 排序算法算法
引言计数排序（CountingSort）是一种线性时间复杂度的排序算法，特别适用于数据范围有限的情况。它通过统计每个元素出现的次数，然后按照次数排序，从而实现排序。本文将详细讲解如何使用Java实现计数排序算法，并结合图解和实例代码，帮助您全面理解这一高级排序算法。同时，我们还将探讨计数排序的优化方法，以进一步提高其性能。计数排序算法的原理计数排序通过统计每个元素出现的次数，然后利用这些计数值将元
jetpack compose 开发架构选择探讨（二） iffly-csdn jetpack compose android jetpack redux
jetpackcompose开发架构选择探讨（二）本文所有代码均在compose_architecture中，需要的可以自取上篇我们讲解了如何在compose中使用MVVM和MVI架构，并且在最后解决了如何解决多page的通信问题，本篇文章主要来讲解redux架构在compose的实现，不过由于上篇的MVI实现有点不是特别"优雅"，没有充分发挥Flow和livedata之间的转换，因此本篇开始之前
jetpack compose 开发架构选择探讨（三） iffly-csdn jetpack compose android jetpack-compose redux
jetpackcompose开发架构选择探讨（三）jetpackcompose开发架构选择探讨（一）jetpackcompose开发架构选择探讨（二）本文所有代码均在compose_architecture中，需要的可以自取前面两篇文章我们探讨了jetpackcompose如何选用开发架构以及在compose中如何去实现MVVM、MVI以及redux开发架构，当然这里的讨论不是让大家拘泥于某种开发
CF 371A.K-Periodic Array(Java实现) Dr_Si java 开发语言
题目分析这里的意思是一共n个值每k个一组循环，最少改变多少个值就能让循环相同思路分析我在这里首先想的是二维数组方便观察循环，依据题目即为每一竖列比较，哪一个值出现的最少那么那就是需要更改的次数，(此题在这儿不考虑需要更改多类值，例[1,2][1,2][2,2][3,2],即每一竖列最多有两种值)，再把每一数列需要更改的次数加起来即为答案代码importjava.util.*;importjava.
CF 761A.Dasha and Stairs(Java实现) Dr_Si java 开发语言
题目分析大概意思是输入偶数值+奇数值，判断是否能够凑成一连串数字思路分析能够连成一串数字的条件考虑：1.偶数与奇数差为1；2.偶数与奇数相等，且不为0代码importjava.util.*;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);inta=sc.nextInt();//偶数
Nginx实战操作-动静分离全栈_HhM nginx 运维
listen80;server_namelocalhost;location/{proxy_passhttp://192.168.12.1;proxy_set_headerHost$host;proxy_set_headerX-Real-IP$remote_addr;proxy_set_headerX-Forwarded-For$proxy_add_x_forwarded_for;proxy_se
CSS 图像、媒体和表单元素的样式化指南 engchina LINUX css 前端
CSS图像、媒体和表单元素的样式化指南1.替换元素：图像和视频1.1调整图像大小示例代码：调整图像大小1.2使用`object-fit`控制图像显示示例代码：使用`object-fit`2.布局中的替换元素示例代码：Grid布局中的图像3.表单元素的样式化3.1样式化文本输入元素示例代码：样式化文本输入3.2表单元素的继承和盒模型示例代码：表单元素的继承和盒模型4.总结完整示例代码在网页设计中，图
.Net Web API 访问权限限定哦里哦里哦里给 c#开发语言 c#
看到一个代码是这样的：c#webapi上[Route("api/admin/file-service"),AuthorizeAdmin]AuthorizeAdmin的定义是这样的publicclassAuthorizeAdminAttribute:AuthorizeAttribute{publicAuthorizeAdminAttribute(){Roles="admin";}}这个Authori
【论文投稿-第八届智能制造与自动化学术会议（IMA 2025）】HTML, CSS, JavaScript：三者的联系与区别禁默学术会议前端 html css javascript 自动化制造
大会官网：www.icamima.org目录前言一、HTML（超文本标记语言）：网页的骨架HTML的作用：例子：总结：二、CSS（层叠样式表）：网页的外观设计CSS的作用：例子：总结：三、JavaScript：网页的行为和互动JavaScript的作用：例子：总结：四、HTML、CSS和JavaScript的联系与区别1.联系2.区别五、总结前言在现代Web开发中，HTML、CSS和JavaScr
Python绘图实例：太极图程序员林 python
这里写自定义目录标题1.太极图含义实例代码运行结果1.太极图含义所谓太极即是阐明宇宙从无极而太极，以至万物化生的过程。其中的太极即为天地未开、混沌未分阴阳之前的状态。易经系辞:“是故易有太极，是生两仪”。两仪即为太极的阴、阳二仪。太极图式说是《庄子》"太极"思想在儒、道两家结出的硕果。实例代码importturtle#导入turtle库turtle.speed(10)#画笔移动速度turtle.c
Oracle PL/SQL 编程入门：第十八章批处理 SQL caifox菜狐狸 Oracle PL/SQL 编程入门 oracle sql 数据库批处理 FORALL FETCH Loop
欢迎来到OraclePL/SQL编程入门的第十八章！在这一章中，我们将深入探讨批处理SQL。通过学习FORALL语句、批处理集合以及如何在SQL中绑定集合，你将能够编写更加高效和强大的数据库操作代码。此外，我们还会介绍一些注意事项，并通过实际例子展示它们的用法。准备好迎接新的挑战了吗？让我们开始吧！第一节：FORALL语句FORALL语句用于批量执行DML（数据操作语言）语句，如INSERT、UP
分布式数据库应用实践：架构设计与性能优化一ge科研小菜鸡大数据数据库数据库
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言在当今数据驱动的世界中，分布式数据库因其高可用性、可扩展性和强大的容错能力，已成为现代企业存储和管理数据的首选方案。它能够在多台服务器之间分散数据存储和处理任务，从而解决传统集中式数据库在处理大规模数据和高并发访问时的瓶颈问题。本教程旨在详细探讨分布式数据库的核心概念、架构设计以及在实际项目中的应用，并通过具体的案例与代码，帮助开发者掌握分布
Python:动态粒子爱心百年孤独_ 计算机趣事随心所欲不逾矩 python pygame 开发语言
预览代码结构概述这段代码使用了pygame库来创建一个动态的图形窗口，绘制一个心形图案，并在其中显示闪烁的文本。代码主要分为以下几个部分：初始化和设置心形曲线的计算粒子类的定义生成粒子文本设置主循环1.初始化和设置importpygameimportrandomimportmathimportos#初始化pygamepygame.init()#屏幕尺寸WIDTH,HEIGHT=800,600scr
单点登录SSO：概述与示例百宝门-SSO顾问单点登录(SSO)单点登录 sso 身份管理百宝门 oracle esso
原文是一个系列：http://www.cnblogs.com/baibaomen/p/sso.html，曾上博客园推荐榜首。建议看原文，此处排版全乱了。转载需注明原文链接。单点登录SSO概述本系列将由浅入深的，带大家掌握最新单点登录SSO方案选型，以及架构开发实战。系列将结合示例、源码以及演示视频，让大家能够直观、深入学习。文末附5个满足不同单点登录场景的gif动画演示。本系列后继文章会深入它们的
React18+Redux+antd 项目实战 JS Alexeigirl javascript 开发语言前端框架 react.js
React18+Redux+antd项目实战jsAntDesign插件官网Axios官网(可配置请求拦截器和响应拦截器)JavaScript官网Echarts官网一、项目前期准备1.创建新项目hotel-managernpxcreate-react-apphotel-manager2.安装依赖//安装路由npmireact-router-domnpmiaixos//安装组件库npmiantdnpm
Java中的`final`、`static`和`abstract`关键字的含义是什么？计算机学长大白 java java 开发语言
在Java编程语言中，final、static和abstract是三个非常重要的关键字，它们分别用于不同的场景，帮助开发者更好地控制代码的结构和行为。本文将详细解释这三个关键字的含义、用法以及示例，并结合实际案例进行说明。一、final关键字1.final关键字的基本含义final关键字用于修饰类、方法和变量，其核心特性是“不可改变性”。具体来说：「修饰类」：当一个类被声明为final时，该类不能
C中如何在C语言中使用结构体和联合体？计算机学长大白 C c语言算法
C语言中如何使用结构体和联合体？在C语言编程中，结构体（Structures）和联合体（Unions）是构建复杂数据类型的关键工具，它们允许将不同类型的变量组合为单一数据类型，便于数据组织、管理和访问。下面将详细介绍结构体和联合体的基本概念、使用方法及其在实际编程中的应用，并给出示例代码。结构体（Structures）「定义」：结构体允许用户自定义数据类型，将多个不同类型的数据项组合成一个整体，每
软件架构原理与实战：模块化和组件化设计的最佳实践 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着计算机技术的不断发展，软件系统的规模和复杂性不断增加。为了更好地组织和管理软件系统的代码和功能，软件架构设计成为了一个重要的研究领域。在这篇文章中，我们将讨论模块化和组件化设计的最佳实践，以及如何在实际项目中应用这些设计原则。模块化和组件化设计是软件架构设计的两个核心概念。模块化是指将软件系统划分为多个相互独立的模块，每个模块负责完成特定的功能。组件化是指将软件系统划分为多个可重用
软件架构原理与实战：解读架构师的职业发展路径 AI天才研究院架构师必知必会系列大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录软件架构原理与实战：解读架构师的职业发展路径(1)一、软件架构的基本概念二、软件架构师的角色三、软件架构师的职业发展路径四、软件架构的原则与实战五、结语软件架构原理与实战：解读架构师的职业发展路径(2)引言软件架构的核心原理抽象化模块化封装分层服务导向架构（SOA）实战经验了解业务需求技术选型设计模式的运用性能优化安全性设计可扩展性与可维护性架构师的职业发展路径初级阶段：技术专长中级阶段：
架构管理实战（1）：通过架构工具实现架构标准、规范化管理迪今科技架构
企业架构治理是体系化工程，跨越时间周期长，且覆盖架构设计、发布、更新等生命周期，同时涉及业务、应用、数据及技术等不同架构领域，需多专业、跨团队协作。企业架构的标准化、规范化管理是开展架构长期、可持续的关键，不仅确保不同系统、团队和技术之间的一致性与协同合作，减少了重复建设和技术债务，还提升了架构的可维护性和可扩展性。架构标准、规划化管理难点与对策架构治理开展落地过程中，架构标准和规范管理作为架构治
c++ 算法之二分答案详解必胜的小铭 c++算法 c++算法开发语言
二分答案是c++之中一个简单而重要的算法，每一个OIer必备的基础算法，你知道它究竟是什么吗？目录一、简介1.定义2.时间复杂度二、核心代码三、例题1.跳石头1.题目描述2.解法2.进击的奶牛1.题目描述2.思路一、简介1.定义二分答案是一种二分搜索，二分搜索（英语：binarysearch），也称折半搜索（英语：half-intervalsearch）、对数搜索（英语：logarithmicse
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

知识库问答LangChain+LLM的二次开发：商用时的典型问题及其改进方案

前言

前置部分 知识库的构建：基于langchain-chatchat的V0.2.6版本(chatglm2+m3e)

第一部分 如何解决检索的问题：比如检索出错等

1.1 如何解决检索出错：embedding算法是关键之一

1.1.1 针对「Bert的预训练过程是什么？」检索出的结果与问题不相关

1.1.2 可能的原因分析与优化方法

1.2 如何根据业务场景确定最合适的embedding算法

第二部分 如何解决检索到相关但不根据相关结果回答

2.1 开源LLM并没有完全根据文档内容来回答，而是根据模型自有的预训练知识回答

2.1.1 针对「用通俗的语言介绍下强化学习？」检索到部分相关

2.1.2 针对「生成式模型和判别式模型的区别并举一些例子」检索到的全是相关的

2.2 LLM不按照知识库回答的优化方法

第三部分 结构化文档与非结构化文档的典型问题：如何更好分割

3.1 如何针对结构化文档采取更好的chunk分割：基于规则

3.1.1 先解析PDF，然后分别获取文本内容和图片内容，最后拼接文本内容和图片内容

3.1.2 针对结构化文档本身的特点：针对性分割

3.1.2.1 七月在线大厂面试题PDF文档特点

3.1.2.2 PDF文档解析可选方案

3.1.2.3 PDF文档解析存在问题

3.1.2.4 PDF文档解析解决方案

3.1.2.5 结果分析

3.2 如何解决非结构化文档分割不够准确的问题：比如最好按照语义切分

第四部分 让召回结果更全面、准确，及基于表格的问答

4.1 如何确保召回结果的全面性与准确性：多路召回与最后的去重/精排

4.2 如何解决基于文档中表格的问答

参考文献与推荐阅读

你可能感兴趣的:(论文,代码,实战,知识库问答,langchain)

前置部分知识库的构建：基于langchain-chatchat的V0.2.6版本(chatglm2+m3e)

第一部分如何解决检索的问题：比如检索出错等

第二部分如何解决检索到相关但不根据相关结果回答

第三部分结构化文档与非结构化文档的典型问题：如何更好分割

第四部分让召回结果更全面、准确，及基于表格的问答