wshzd

LLM之长度外推（二）| Self-Extend：无需微调的自扩展大模型上下文窗口

论文链接：https://simg.baai.ac.cn/paperfile/a34ae7f4-f0ce-4f8f-b8f2-e8e4d84bbee5.pdf

目前大模型基本都采用transformer结构，而transformer中attention机制的计算复杂度与序列长度呈平方关系，因此大模型在训练时候通常会设置固定的上下文窗口，而且也不会太大，比如GPT-4支持32K上下文，但这会限制大模型在推理时处理长序列的能力。

作者认为LLM本身具有处理长上下文的能力，基于这一论点，提出了Self-Extend，其基本思想是构建两个维度的注意力机制：组维度和邻居维度。这两个维度是通过原始模型的self-attention来计算的，这意味着模型不需要任何训练。仅需修改四行代码，所提出的方法就可以毫不费力地扩展现有LLM的上下文窗口，而无需任何微调。

一、介绍

大多数现有LLM的上下文窗口长度是有限的，因为它们是用固定长度的训练序列训练的。在预训练阶段就确定了上下文窗口长度，在推断阶段，输入序列的长度一旦超过预训练上下文窗口大小，LLM的行为就变的不可预测，性能就会急速下滑，这可以从困惑度（PPL）指标看出，随着输入序列长度的增加，模型的PPL将出现陡然增强的趋势（可以参考论文：《EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS》）。

最近，针对扩展预训练LLM的上下文窗口大小已经提出了很多方法。一种常见而直接的方法是在足够广泛的文本上微调这些模型。除此之外，还有一些方法在寻求不需要微调或仅进行最小微调。在这些当代方法中，一些著名的技术包括“PI”、“CLEX”和“Yarn”。然而，这些通常都需要一些微调步骤来实现扩展，这可能是资源密集型且耗时的。这些方法旨在基于预先训练的LLM缺乏处理长内容的能力的假设来扩展内容窗口。因此，有限的微调可能会使LLM过拟合到特定的长序列，这对分布外的长序列缺乏可推广性，并在预训练过程中获得的短序列上失去性能。另一方面，一些方法（《EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS》）旨在避免微调。这些免微调方法主要依赖于序列中的局部信息。然而，这些方法可能无法有效扩展上下文窗口，因为它是有限的而不是扩展LLM的整体上下文处理能力。因此，它们可能无法完全实现在LLM中扩展上下文窗口的潜力，并且性能较差。

在本论文中，作者认为LLM应该具有处理长上下文的固有能力，而不是扩展内容窗口。信念源于这样一个事实，即当我们还是孩子的时候，我们被教导如何使用相对较短的文本来阅读和写作，比如几页的文章。我们很少像完整的那样使用超长的文本书籍或完整的文件作为学习材料。然而，我们仍然能够有效地理解长文本。有了这种强大的动机，LLM在面对超出预训练上下文窗口大小的长文本时表现不佳并不是因为缺乏长上下文理解能力。作者认为应该有一种方法来引出LLM固有的长上下文能力。

在作者的分析中，观察到，阻止LLM有效管理广泛上下文的关键挑战是与位置编码相关的分布外（O.O.D）问题，称之为位置O.O.D问题。当LLM在推理过程中遇到超过其预训练上下文窗口长度的文本序列时，就会出现这个问题，其中LLM暴露于新的相对距离在他们的预训练阶段没有出现。人们普遍认为，神经网络在处理O.O.D输入时容易受到不可预测行为的影响。为了解决这个问题，一个直观而实用的解决方案是将看不见的相对位置重新映射到预训练过程中遇到的相对位置，从而扩展LLM自然处理较长上下文的能力。

为了克服位置O.O.D问题，作者提出Self-Extend方法，该方法使用简单的FLOOR（//）操作作为映射函数，将看不见的较大相对位置映射到预训练期间遇到的位置。这个想法源于两种直觉：1）对于文本中距离较长的词之间并不需要精确的位置。只要保持不同部分的相对顺序，就足以理解文本的整体含义。在回答关于长文中信息的问题时，我们永远不会记住每个单词的确切位置，只记得相关信息的大致位置和顺序。由于自然语言文本往往在小范围内（如段落）具有相似的语义，因此接近甚至相等位置的编码应该足以保持有用信息的相对顺序，这与floor操作一致。2）在自然语言文本中，当一小词袋（比如n-grams）一起出现时，由于语言语法的惯例，大多数时候，该袋中的所有tokens只有一个可能的顺序。尽管从理论上讲，一袋tokens可以以任何顺序出现，但在实践中，一小组单词很少有多个合理的顺序，例如“unnecessary encodings”可以标记为“unn”、“necessary”、“enc”和“odings”，但这些标记只能按该顺序有意义地出现。这表明，在小区域内不需要保持精确的位置信息，这也与floor操作一致。

Self-Extend是一种即插即用的方法，在推理阶段使用，适用于现有的大型语言模型。作者使用三种流行的LLM（Llama-2、Mistral和SOLAR）对三种类型的任务（包括语言建模、合成长上下文任务和真实世界长上下文任务）进行Self-Extend评估。所提出的Self-Extend大大提高了长上下文理解能力，甚至在某些任务上优于基于微调的方法，这些结果说明了Self-Extend是上下文窗口扩展的有效解决方案。Self-Extend的卓越性能也展示了大型语言模型有效处理长上下文的潜力。

论文的主要贡献总结如下：

1.作者认为RoPE的LLM具有处理长文本的天生能力，即使他们在训练中没有遇到超长文本。之前的限制源于分布外的位置，这意味着在训练中没有看到“较大”的位置，称之为位置O.O.D.问题。

2.为了解决位置O.O.D.问题，我们建议Self-Extend在没有任何微调的情况下扩展LLM的上下文窗口，将看不见的大相对位置（在推理时）映射到已知位置（在训练时），因此它允许LLM在没有额外微调的情况下保持较长文本的连贯性。

3.在合成和现实世界的长上下文任务上，Self-Extend可以实现与许多现有的基于微调的模型相当或令人惊讶的更好的性能。

二、背景

2.1 位置编码

Transformers通过不同的位置嵌入设计结合了位置信息。常见的位置嵌入设计通常可以分为两类：绝对位置编码和相对位置编码。绝对位置编码提供了绝对位置，它将每个绝对位置i嵌入到位置向量pi中并添加单词embedding中，然后将它们发送到模型。使用绝对位置编码的例子包括sinusoidal位置嵌入，以及GPT3和OPT中的可学习位置嵌入，或者在注意力logit上添加两个标记的位置嵌入之间的点积。

最近，已经提出了相对位置编码来代替使用tokens之间的距离信息，并且已经成为位置嵌入的主流。相对位置编码通常应用在注意力层。这样的例子包括T5、Transformer XL；一种称为Alibi的固定线性注意力衰减；基于距离旋转query和key序列的RoPE和XPos。本文提出的方法是基于RoPE的。

2.2 RoPE

之前的工作表明RoPE可以有效地扩展上下文窗口，在推理过程中可以适用更长的文本序列。本节将介绍一下RoPE的基本概念。假设我们有一个表示为的token序列，它们对应的嵌入表示为 $x_1,...,x_L\in \mathbb{R}^{|D|}$ x1，···，xL∈R|D|，其中|D|是嵌入的维度数。

RoPE的基本思想是将位置信息分别合并到查询q和关键向量k中。这种集成确保了它们的内积包含相对位置嵌入信息。为了实现这一点，RoPE采用了以下矢量变换：

其中|L|是每个头部的隐藏维度大小。函数负责添加位置信息的，定义如下：

其中 $\theta _d=b^{-2d/|D|}$ ，b=10000和 $W_q,W_k:\mathbb{R}^{|D|}\rightarrow \mathbb{R}^{|L|}$ 。RoPE保持内积的实部，即Re(q＊k)。此操作确保query和key向量的点积完全取决于tokens之间的相对距离，由令牌m−n表示，如下所示

后续研究（https://arxiv.org/abs/2308.12950）表明，当对较短的序列长度进行微调预训练时，RoPE可以适应较长的序列长度。作者认为，使用RoPE的LLM具有直接处理长上下文的内在能力，这项工作的重点是利用这种潜在能力，而无需进行微调。

三、Self-Extend上下文窗口

在本节中，首先进行初步调查LLM处理长内容的固有能力。

3.1 初步分析

① 为什么LLM在预训练上下文窗口之外的输入时失败？作者认为，这种失败源于相对距离的分布外问题。神经网络对分布外（O.O.D.）输入不具有鲁棒性。对于具有相对位置编码（如RoPE）的预训练LLM，在推断时，如果序列长于其预训练上下文窗口长度，则LLM的行为将是不可预测的。《LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models》已经阐述了这一点，即对于看不见的相对位置，与预训练上下文窗口长度内的注意力分布相比，注意力分布非常不同。

② 如何在保持长距离信息的同时，绕过长度限制？——使用FLOOR操作进行group attention。Self-Extend的主要目标是在不进行任何微调的情况下引出LLM的固有能力。避免由看不见的相对位置引起的O.O.D.问题的一种可行方法是将新的相对位置映射到预训练期间看到的相对位置。FLOOR操作非常适合这些要求，因为有以下两个方面：

•使用floor操作可以映射tokens之间的顺序信息。尽管tokens之间的顺序并不是那么精确。

•FLOOR操作简单易用。

在图1中，我们展示了如何应用FLOOR操作将位置映射到预训练上下文窗口中的位置。除了在内积之前，FLOOR操作应用于每个token的原始位置之外，其他一切都与原始的自注意机制相同。在Python风格中，此操作可以表示为

而 $P\in R^{B\times L}$ 是整数中的原始位置。B是批量大小，N是输入文本序列长度。是组大小的超参数。它是FLOOR操作的基础。我们将使用FLOOR运算的自我注意力表示为“分组注意力”。

③ LLM在没有准确位置信息的情况下能正常工作吗？——是的，但不是那么完美。在图2中，作者展示了在PG-19数据集上FLOOR运算应用于不同序列长度的几个LLM的困惑（PPL）。作为比较，作者还将没有经过FLOOR操作的原始模型的PPL显示为虚线。从这个图中可以看出，通过FLOOR操作，LLM仍然可以保持相对良好的PPL。同时，在小组规模较小的情况下，PPL略高于原始LLM。这种语言建模性能下降是意料之中的事。然而，它可以暗示组注意力的有效性，并支持关于粗略位置编码的假设。PPL不太大，LLM的行为w.r.t.PPL与原始模型相似，即PPL在“上下文窗口”内几乎没有变化（对于Llama-2:2-8192、4-16384和8-32768）。

④ 如何重建群体注意力导致的语言建模能力下降？——在相邻区域重新引入正常注意力。在生成某个token时，相邻token对该token来说是最重要。这得到了稀疏注意力和上下文窗口扩展的许多现有工作的支持。所有这些工作都保持了相邻token的注意力机制不变。这也符合直觉：相邻token直接负责生成的下一个令牌。一旦LLM精确地建模了相邻token，至少生成的句子是流畅的，并且PPL不应该很大。更具体地说，如果我们使用前面提到的分组注意力，尽管它只会在生成下一个表征来构建可读句子时影响对文本的理解，但仍然需要提供确切的位置。最后，我们仍然需要保持注意机制在相邻区域保持不变，这将是预训练阶段使用的正常注意。

3.2.无需调整的自扩展LLM上下文窗口

基于上述见解，作者提出了Self-Extend方法，它包含两种注意力：分组注意力是为长距离的token设计的，并在位置上应用了FLOOR运算；在一个范围的相邻token采用标准的注意力机制，不需要任何修改，Self-Extend的示意图如图3所示。Self-Extend仅在推理过程中修改注意力机制，不需要任何微调或训练。

将预训练上下文窗口大小表示为L，将分组注意力的组大小表示为G，将相邻标记的窗口大小表示为。在将两个注意力合并在一起之前，我们将分组注意力的相对位置移动，这是因为从正常注意力区域到分组注意力区域的过渡是平滑的。我们通过用分组注意力的注意力值替换邻居标记窗口外的注意力值来合并注意力的两个部分。

在softmax操作之前应用所有修改，其他部分保持不变。扩展上下文窗口的最大长度为：

例如，在图3中，上下文窗口从其预训练长度7扩展到（7−4）*2+4=10。算法1中给出了SelfExtend的python风格的伪代码。

四、实验

作者使用目前比较流行的Llama-2家族以及基于RoPE编码的Mistral和SOLAE三个大模型来评估Self-Extend，并且在语言建模、合成长上下文任务和真实长上下文任务三种任务上评估Self-Extend的有效性。考虑到大多数任务都是短上下文，作者还构建了对标准短上下文任务的评估。

4.1 语言建模性能

语言建模是LLM最基本的、最起码的功能。PPL低不能保证在实际任务中具有良好的性能，而PPL过高则表明LLM的性能严重下降。

作者在长文本书籍PG19数据集上评估Self-Extend的语言建模性能。对PG19测试集（100本书）中每本书的第一句话来测试语言建模能力，使用困惑（PPL）来评估。所有PPL结果均使用滑动窗口法计算，S=256。作者还评估了PPL如何随着输入长度的增加而变化，结果如下表1所示：

在表1中，Self-Extend将原始Llama-2的上下文窗口长度从4096（4k）扩展到大于16384（16k），组大小G设置为8，相邻窗口wn设置为1024（1k）。对于不带SWA的Mistral，上下文窗口为8192（8k），也通过相同设置的“Self-Extend”扩展为大于16k。使用SWA，Mistral可以处理无限长的序列。

Self-Extend可以成功地在Llama-2-chat和Mistral的预训练上下文窗口之外保持较低的PPL。如果没有“Self-Extend”，PPL将从上下文窗口中展开。使用SWA的Mistral也可以在其上下文窗口之外保持较低的PPL。但在下一节的后面，我们将展示低PPL并不意味着处理长上下文的真正能力。

4.2 合成长上下文任务的表现

《Landmark Attention: Random-Access Infinite Context Length for Transformers》中所定义密钥检索任务需要一个语言模型来检索一个长而无意义的文本序列中的简单密钥（一个五位数的随机数）。这个任务非常简单，它测试LLM是否可以知道输入序列所有位置的信息。

受“Needle in a Haystack”测试设计的启发，密钥被放置在不同文档深度（密钥放置在输入文本中的位置）和上下文长度（从4k到24k不等）中。对于每个上下文长度的每个深度，从一个深度区间均匀分布中的一个随机位置执行多次迭代来检索密钥的位置。更具体地说，对于400的每个span迭代执行十次密钥检索。例如，如果针对上下文测试文档深度0.1长度为8k，密钥将在每次迭代中随机放置在[8001600）之间的位置，总共执行10×（8000×0.1/400）=20次迭代。

结果如图4所示。我们可以看到，在所有测试的深度和上下文长度中，无需任何微调，Self-Extend可以获得100%的密钥检索准确率。结果还表明：尽管Mistral w/SWA在其预训练上下文窗口之外具有较低的PPL，但它只能访问其滑动窗口内的信息（即密钥）。考虑到这项任务的简单性，这一结果强烈表明它仍然不具备处理长上下文的真正能力。

这主要是因为PPL是通过对许多tokens进行平均来计算的，并且只要大多数tokens都建模良好，PPL就不会很高。正如我们之前所讨论的，这与相邻token密切相关。来自相邻token（例如，滑动窗口中的令牌）的信息足以预测大多数令牌以及低PPL。

尽管如此，一些与理解长上下文和回答问题有关的重要表征可能无法很好地预测。

4.3 实际长上下文任务的表现

大多数现有的上下文长度扩展工作都依赖于语言建模（由PPL测量）和合成任务（如密钥检索）来测量LLM的真实长上下文能力。然而，这样的任务不能全面反映LLM的长上下文能力。密钥检索太容易了，LLM可能无法在低PPL的情况下很好地处理长上下文。

为了衡量长上下文性能，作者使用两个真实世界的长上下文评估基准进行评估：Longbench和L-Eval。结果如表2和表3所示：

在Longbench上，对于所有三个不同的基础模型和大多数数据集，应用Self-Extend后，与计数器部分相比，该模型可以获得显著的性能提升（SExt-Llama-2-7B-chat与Llama-2-7B-chat；SExt-Mistral-7B-in-0.1与Mistral7B-ins-0.1（w/SWA）；SExt-SOLAR-10.5B-instruct-v1.0与SOLAR-10.5B-instruct-v1.0）。在一些数据集上，Self-Extend没有获得性能改进，例如MultiNews。作者认为这主要是因为这些数据集的长度没有那么长，例如，MultiNews的平均长度只有2k，或者像PassageCount这样的一些任务不适合测试这种大小的模型（即太具有挑战性）。此外，与许多经过微调的模型相比，Self-Extend具有相当甚至更好的性能。更具体地说：

Llama-2-7B：使用Self-Extend将Llama-2-7bchat的上下文窗口从4k扩展到16k和25k4，并使用两种不同的设置。他们两个都比Llama2-7b-chat要好得多。在HotpotQA等多个数据集上，它们的性能也比所有经过微调的同类产品更好。在其他方面，性能仍然具有可比性。考虑到vicuna良好的指令跟随能力，还将vicuna1.5-7B从4k扩展到16k和25k。它的微调对应物是vicuna1.5-7B 16k。同样，通过Self-Extend，vicuna1.5-7B比vicuna1.5-7B-16k好得多，它甚至是所有基于Llama-2-7B的型号中的顶级模型之一。在一些数据集上，观察到25k变体的性能不如16k变体。这是由于较大的上下文窗口和位置精度之间的权衡。通过更大的上下文窗口，模型可以访问更多信息。但同时，为了拥有更大的上下文窗口，Self-Extend需要更大的组大小，这意味着更粗略的位置信息，并且对模型有害。

Mistral-7B：将Mistral-7B的指令微调变体的上下文窗口扩展到16k。使用Mistral基线的默认设置，该基线已应用SWA。Self-Extend再次显著提高了Mistral的长上下文能力。从Mistral-7b进行了微调的MistralLite模型也获得更长的上下文窗口，并在大多数数据集上具有更好的性能。但其中许多数据集已包含在MistralLite的微调数据中，如NarrativeQA、Qasper等。

SOLAR-10.7B:SOLAR-10.75B是《SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling》最新发布的，它还没有针对上下文窗口扩展进行微调的变体，使用Self-Extend将其从4k扩展到16k，并获得了实质性的性能改进。

在LEval上，观察到了类似的结果。除了使用Mistral作为基本模型外，与一些微调的自由基线（如NTK）或进一步训练的基线（如Longchat1.5-7b-32k和Vicuna1.5-7b-32k）相比，Self-Extend几乎在所有数据集上都实现了卓越的性能。对于Mistral，作者怀疑较差的性能主要来自Prompt工程。与vanilla Mistral相比，MistralLite的性能要差得多。作者没有为Mistral做Prompt工程。

简单地说，对于这两个基准测试，即使与需要进一步微调的方法相比，Self-Extend也能实现相当或最佳的性能。尽管最初，作者只是期望Self-Extend可以比没有任何扩展方法的基本模型更好。考虑到Self-Extend仅在推理过程中生效，不进行任何微调或训练。这太令人惊讶了。通常，基于学习的方法比没有学习的方法具有更好的性能，不仅在上下文窗口扩展和LLM方面，而且在许多其他任务和NN方面。

4.4 短期任务的表现

理想的上下文长度扩展方法应该确保标准短上下文任务的性能不会降低。作者使用Hugging Face Open LLM Leaderboard来评估Self-Extend在五个公共基准任务上的表现。具体而言，使用25-shot ARC-Challenge、10-shot HellaSwag、5-shot MMLU、0-shot TruthfulQA和5-shot GSM8K。结果如表4所示。Self-Extend对这些短上下文任务几乎没有影响。

此外，由于所提出的Self-Extend不做任何微调，只在推理过程中生效，因此Self-Extend是插件式的，可以是动态的。这意味着当遇到短文本序列时，Self-Extend可以自动禁用。在参数不变的情况下，LLM可以在这些短上下文场景中保持其原始性能。尽管我们并不是有意获得这样的优势，但与其他基于微调的方法相比，这是Self-Extend的额外优势，因为这种方法通常在短上下文任务中会出现性能下降。

4.5 消融研究

作者还构建了一个实验来研究组大小G和相邻窗口的不同选择的影响。消融研究是在LEval的两个真实世界数据集上构建的：GSM100和Quality。GSM100没有那么长，它的平均长度为5.5k，最大长度为6k。Quality稍微长一些且平均长度7k，它的最大长度是8.5k。之所以不选择超长数据集，因为作者想覆盖较小的组大小（G）。当G=4， =2048时，使用Self-Extend的Llama-2-chat可以处理长度小于10k的序列。结果如下图5所示：

五、结论与讨论

在本文中，作者认为LLM本身具有处理长序列的固有能力，并且它应该能够在没有任何微调的情况下扩展上下文窗口大小。基于这一信念，以一种无需微调的方式，提出了Self-Extend，通过简单地将看不见的相对位置映射到通过FLOOR操作在预训练期间看到的相对位置，来引出LLM固有的长上下文能力。作者进行了深入的实验来研究SelfExtend的有效性，包括语言建模任务、合成密钥检索任务和两个真实世界的基准测试。尽管没有任何调整或进一步的训练，但所提出的自扩展可以有效地改善LLM的长期环境表演更令人惊讶的是，Self-Extend甚至在许多数据集上击败了现有的基于微调的方法。这些结果突出了LLM处理长时间上下文的潜力，并可能启发对LLM固有能力进行更深入的研究。

局限性：Self-Extend的局限性包括缺乏Flash Attention的实现，以及组大小过大导致的性能下降，这意味着当前的Self-Extend仍然无法将上下文窗口扩展到无穷大。同时，与许多常规任务一样，目前如何对长上下文任务进行评估还没有达成共识，这可能会导致评估结果出现问题。

展望：对于未来的工作，作者将实施Flash Attention来提高Self-Extend的效率。也会在使用其他位置编码的模型上测试Self-Extend。如果将来能够获得更多的计算资源，那么可以在更大的模型、更长的上下文和更具挑战性的任务上进行测试。同时，将考虑使用更复杂的映射方法来代替简单的FLOOR操作，以实现更好的长上下文理解能力和更长的扩展上下文窗口长度。

参考文献：

[1] https://simg.baai.ac.cn/paperfile/a34ae7f4-f0ce-4f8f-b8f2-e8e4d84bbee5.pdf

你可能感兴趣的:(ChatGPT,笔记,chatgpt)

双线性函数的紧凑超平面散列（Compact Hyperplane Hashing with Bilinear Functions）阅读笔记 Legend105CC 机器学习主动学习机器学习
Abstract超平面散列（Hyperplanehashing）的目的是快速搜索到离超平面最近的点，并在使用支持向量机（SVM）扩大主动学习方面显示出实际效果。存在问题：不幸的是，现有的随机方法需要长哈希码才能达到合理的搜索精度，因此会降低搜索速度和内存开销。解决方法：为此，论文（CompactHyperplaneHashingwithBilinearFunctions）提出了一种新的超平面哈希技
AIGC时代的Vue或React前端开发 GISer_Jinger Javascript React Vue AIGC vue.js react.js
在AIGC（人工智能生成内容）时代，Vue开发正经历着深刻的变革。以下是对AIGC时代Vue开发的详细分析：一、AIGC技术对Vue开发的影响代码生成与自动化AIGC技术使得开发者能够借助智能工具快速生成和优化Vue代码。例如，通过自然语言处理模型（如ChatGPT），开发者可以描述组件的功能和样式需求，然后自动生成包含模板、脚本和样式的完整组件代码。这不仅大大提高了开发效率，还减少了人为错误的可
【笔记】CPU 性能调节好奇心害死薛猫笔记服务器
测试环境：EGS服务器；CPU频率调节驱动BIOS设置HardwareP-States为NativeMode，BIOS关闭EIST，intel_pstate，但是pstate只能有10个，所以CPU频率只能800MHz~1700MHz，turbomode自动关闭，且不可被开启。[root@localhost~]#paste<(ls$intel_pstate)<(cat$intel_pstate/*
【笔记】RHEL8 读取 exfat 和 NTFS 分区好奇心害死薛猫 Linux 笔记 linux 运维
##NTFSntfs-3g-2021.8.22-2.el8.x86_64.rpmntfs-3g-devel-2021.8.22-2.el8.x86_64.rpmntfs-3g-libs-2021.8.22-2.el8.x86_64.rpm##exFATfuse-exfat-1.3.0-3.el8.x86_64.rpm
【自学笔记】JavaWeb的重点知识点-持续更新 Long_poem 笔记 java web
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录JavaWeb知识点一、基础概念二、项目结构三、Tomcat服务器四、数据库连接（JDBC）五、前端技术六、高级技术总结以下是JavaWeb知识点的MD格式罗列：JavaWeb知识点一、基础概念静态Web与动态Web静态Web：页面内容固定不变，每次访问都返回相同的内容。动态Web：页面内容可以根据请求或用户输入而变化。网站访
LLM应用架构实战：基于LangChain的企业级最佳实践 LLM教程 langchain 大模型人工智能本地化部署 Agent 程序员 LLM
前言随着ChatGPT等大语言模型的广泛应用，越来越多的企业开始将LLM整合到其业务系统中。然而，从概念验证(PoC)到生产环境的转换过程中，往往会遇到诸多技术挑战。本文将基于实际项目经验，分享LLM应用开发中的架构设计、性能优化、成本控制等关键环节和解决方案。1.LLM应用的特殊性在开始具体的架构设计之前，我们需要深入理解LLM应用区别于传统应用的几个关键特性。这些特性将直接影响我们的架构设计决
联想r720安装固态_联想拯救者R720-15IKBN笔记本加装SSD不识别的案例 weixin_39999859 联想r720安装固态
故障现象客户送修拯救者R720-15IKBN笔记本，称自己购买的SSD不能识别，工程师加装超极盘SSD时不能确定方案；解决方案已经确认主机标配接口为M.2(NGFF2280)规格；测试联想加速度C80，C80Ls在此机器上均不能识别；因为此机型只支持PCI-E协议SSD，使用联想加速度E80S可以正常识别使用(31070553：加速度-超极盘升级E80s128G，可供参考)；如下图为随机带的SSD
联想R720升级Win11教程拯救者R720升级Win11方法 m0_70960708 笔记电脑
拯救者r720是联想拯救者系列在2017年推出的笔记本型号，虽然已经过去5年了，但是配置却还可以畅玩很多游戏，不少联想R720的用户也想要升级到Win11系统，那么到底能不能升级呢？下面就一起来看看吧。r720怎么升级win11：1、很遗憾的是，r720使用的是第七代英特尔处理器，不满足微软对于win11的要求。2、因此用户如果想要升级win11的话，必须要跳过系统检测，在pe系统之中进行升级。3
【方法论】ChatGPT与DeepSeek的联合应用，提升工作效率的新解决方案神经美学茂森 chatgpt 人工智能
标题：ChatGPT与DeepSeek的联合应用，提升工作效率的新解决方案【表格】ChatGPT与DeepSeek联合应用流程阶段工具主要任务优势备注初稿生成ChatGPT基于用户输入生成初步内容高效、快速生成内容，适应多种主题适合生成长篇文章、报告、分析等验证与修正DeepSeek对生成的内容进行实时联网验证，查找并修正错误提供最新的文献资源，保证内容准确性适合需要精确数据和最新研究支持的内容内
python入门教程jupyter_Jupyter Notebooks的安装和使用介绍 weixin_39953618
最近又开始重新学习Python，学习中使用到了一款编辑器JupyterNotebooks，非常想安利给初学python的同学。注：本文内容仅针对windows环境下安装和配置JupyterNotebooks。1.JupyterNotebooks简介国际惯例还是来一段官方的介绍：Notebooks其实就像是你的python笔记本一样，不仅可以运行书写的python代码，同时还支持markdown格式
YOLOv10-1.1部分代码阅读笔记-tasks.py 红色的山茶花 YOLO 笔记深度学习
tasks.pyultralytics\nn\tasks.py目录tasks.py1.所需的库和模块2.classBaseModel(nn.Module):3.classDetectionModel(BaseModel):4.classOBBModel(DetectionModel):5.classSegmentationModel(DetectionModel):6.classPoseModel
YOLOv10-1.1部分代码阅读笔记-checks.py 红色的山茶花 YOLO 笔记深度学习
checks.pyultralytics\utils\checks.py目录checks.py1.所需的库和模块2.defparse_requirements(file_path=ROOT.parent/"requirements.txt",package=""):3.defparse_version(version="0.0.0")->tuple:4.defis_ascii(s)->bool:5
YOLOv10-1.1部分代码阅读笔记-loss.py 红色的山茶花 YOLO 笔记深度学习
loss.pyultralytics\utils\loss.py目录loss.py1.所需的库和模块2.classVarifocalLoss(nn.Module):3.classFocalLoss(nn.Module):4.classBboxLoss(nn.Module):5.classRotatedBboxLoss(BboxLoss):6.classKeypointLoss(nn.Module)
YOLOv9-0.1部分代码阅读笔记-common.py 红色的山茶花笔记
common.pymodels\common.py目录common.py1.所需的库和模块2.defautopad(k,p=None,d=1):3.classConv(nn.Module):4.classAConv(nn.Module):5.classADown(nn.Module):6.classRepConvN(nn.Module):7.classSP(nn.Module):8.classMP
YOLOv7-0.1部分代码阅读笔记-common.py 红色的山茶花 YOLO 笔记
common.pymodels\common.py目录common.py1.所需的库和模块2.defautopad(k,p=None):3.classMP(nn.Module):4.classSP(nn.Module):5.classReOrg(nn.Module):6.classConcat(nn.Module):7.classChuncat(nn.Module):8.classShortcut
YOLOv8-ultralytics-8.2.103部分代码阅读笔记-block.py 红色的山茶花 YOLO 笔记深度学习
block.pyultralytics\nn\modules\block.py目录block.py1.所需的库和模块2.classDFL(nn.Module):3.classProto(nn.Module):4.classHGStem(nn.Module):5.classHGBlock(nn.Module):6.classSPP(nn.Module):7.classSPPF(nn.Module):
【Python百日基础系列】Day25 - 真机安装Ubuntu20.04服务器版 + Mysql8 岳涛@泰山医院 Dash python ubuntu
文章目录一、Ubuntu服务器版下载二、制作启动U盘，RAW写入三、笔记本真机安装Ubuntu20.04服务器版3.1设置笔记本U盘启动，插入启动U盘3.2检查安装文件完整性，需要一两分钟3.3选择语言3.4确认语言和布局3.5确认网络连接3.6输入代理地址，默认空着就行3.7确认服务器地址，默认就行3.8设置磁盘，默认就行3.9再次确认磁盘分区，默认就行3.10输入用户名、电脑名和密码3.11安
笔记day4 子非鱼921 Vue项目实战（尚品汇）笔记 vue
文章目录1复习2开发Search模块中的TypeNav商品分类菜单（过渡动画效果）3商品分类三级列表可以进行优化4合并params与query参数5开发Home首页中的ListContainer组件与Floor组件6swiper1复习商品分类的三级列表由静态变为动态形式【获取服务器数据：解决代理跨域问题】函数防抖与节流【面试频率很高】路由跳转：声明式导航（router-link）、编程式导航【编程
侯捷 C++ 课程学习笔记：深入理解 C++ 核心技术与实战应用不能只会打代码其他 java jvm 开发语言侯捷 C++课程学习笔记
目录引言第一章：C++基础回顾1.1C++的历史与发展1.2C++的核心特性1.3C++的编译与执行第二章：面向对象编程2.1类与对象2.2构造函数与析构函数2.3继承与多态第三章：泛型编程与模板3.1函数模板3.2类模板3.3STL容器与算法第四章：高级特性4.1智能指针4.2移动语义与右值引用4.3Lambda表达式第五章：实战应用5.1项目结构设计5.2性能优化5.3调试与测试第六章：学习心
机器学习笔记 - 将音频转换为图像进行分类的机器学习模型坐望云起深度学习从入门到精通机器学习深度学习语音识别光谱图 Whisper
一、简述语音识别技术是将音频信号转化为文本的过程。其基本原理如下：1.音频录制：首先需要对口语发音进行录制，并将其转化为数字形式的音频文件。2.预处理：对音频信号进行预处理，包括去除杂音干扰、增加音频的信噪比以及消除不必要的语音、噪声等。3.特征提取：特征提取是语音信号处理的一个重要部分，通过对音频数据进行分析，提取其中特有的频率、音调、幅度等数学特征，并转化成数字特征。4.模型训练：在特征提取完
Python 占位符详细笔记浮生_Lee #Python基础 python 笔记开发语言
目录1.`%`格式化（旧式格式化）1.1基本用法1.2数字格式化1.3填充和对齐2.`str.format()`方法（较新格式化）2.1基本用法2.2位置和关键字参数2.3格式化数字2.4对齐和填充2.5字符串长度和精度3.f-strings(格式化字符串字面量)3.1基本用法3.2格式化数字3.3表达式和计算3.4对齐和填充3.5嵌套字段4.字符串模板（`string.Template`类）4.
2025数学建模美赛C题【Models for Olympic Medal Tables】第一问步入烟尘 2025数学建模美赛C题 2025数学建模美赛数学建模奥运会历史奖牌
本文为个人解题笔记，仅供参考学习。本文C题的第一问。其他问题均在本专栏内，订阅一次，全部可见。文章目录问题1解题全流程解题完整过程：建立预测奥运会奖牌数的数学模型1.数据分析与清理1.1数据来源与结构1.2数据清理2.探索性数据分析(EDA)2.1国家奖牌分布趋势2.2奖牌与赛事数量的关系2.3主办国优势分析3.模型建立3.1奖牌数预测模型3.2奖牌首次获得预测模型3.3奖牌分布与赛事类型关联模型
Java程序员开发软件(工具)清单 nshkfhwr Java MySQL Linux java tomcat maven kafka eclipse
亲！你准备好了吗？【001】项目管理：禅道/JIRA【002】办公协同：钉钉【003】工作邮件：Foxmail/OutLook【004】项目文档：MS-Office(Word/Excel/PowerPoint)/WPS【005】MD-笔记：Typro【006】个人PKM：Zim-Wiki/思源笔记【007】ToDO清单：Todo清单【008】文件搜索：Everything【009】桌面整理：Fen
activeMQ笔记之一 kongxiangqi activemq jms session 消息中间件 api 企业应用
1.JMS介绍JMS源于企业应用对于消息中间件的需求，使应用程序可以通过消息进行异步处理而互不影响。Sun公司和它的合作伙伴设计的JMSAPI定义了一组公共的应用程序接口和相应语法，使得Java程序能够和其他消息组件进行通信。JMS有四个组成部分：JMS服务提供者、消息管理对象、消息的生产者消费者和消息本身。1)JMS服务提供者实现消息队列和通知，同时实现消息管理的API。JMS已经是J2EEAP
Mac系统安装 deepxde +VS code + pytorch 积分酱 pytorch python 人工智能机器学习
deepxde在Mac系统安装和学习笔记系列因为换了苹果电脑MacBookPro，所以软件都需要重新安装，记录一下安装过程。我的配置是python+VSCode。打开终端，直接按住command+空格键，输入终端就可以打开了。1.deepxde安装首先输入python3--version查看python版本，我的是Python3.9.13然后输入python3-mpip-V查看自己的pip版本，我
MVIKotlin学习笔记：时光旅行软件设计 UtoBug 学习笔记软件设计
时光旅行是一种引人入胜且令人兴奋的概念。在软件设计领域，我们可以借用这个概念来创建可预测和可追溯的应用程序。本篇文章将介绍如何使用MVIKotlin框架来实现时光旅行功能，并提供相应的源代码示例。MVIKotlin是一个基于MVI（Model-View-Intent）架构的库，它提供了一种结构化的方法来构建响应式、可测试和可维护的Android应用程序。时光旅行是MVIKotlin框架的一个强大特
vue3学习笔记（ref, reactive, setup, hook...） ***无名小卒学习 vue.js 1024程序员节
目录一、搭建项目二、常用的CompositionAPI1.ref函数（实现响应式）2.reactive函数3.vue2和vue3响应式的区别4.setup参数5.计算属性和监视6.vue3生命周期7.自定义hook8.toRef和toRefs9.其他组合式api10.新的组件一、搭建项目npminitvite-app进入项目npminpmrundev二、常用的CompositionAPI1.ref
《深入浅出HTTPS》读书笔记（30）：OpenSSL和TLS earthzhang2021 https 1024程序员节开发语言算法网络
《深入浅出HTTPS》读书笔记（30）：OpenSSL和TLS通过两个维度了解OpenSSL，首先OpenSSL是一个底层密码库，封装了所有的密码学算法、证书管理、TLS/SSL协议实现。OpenSSL库包含两种类型的库。◎crypto库函数：具体的密码学算法使用库，比如MD5、RSA、DES算法的实现，开发者可以直接使用这些库，可以理解为底层次库。◎EVP接口：高层次库，基于crypto库函数做
ChatGPT的150个角色提示场景实测（4） earthzhang2021 chatgpt
我想让你成为抖音自媒体运营职位求职者，我将成为面试官，我将向你询问自媒体运营职位的面试问题。我希望你只作为求职者进行回答，并列举你相关成功案例，我希望你回答我的问题后，等待我问下一个问题。像求职面试一样一个一个回答我的问题。我的第一个问题是“请问你对抖音自媒体运营的工作有哪些了解？”ChatGPT非常感谢您的提问。我对抖音自媒体运营的工作有一定的了解。我知道自媒体运营需要每天录制短视频、上传发布、
ChatGPT的150个角色提示场景实测（12）保姆 earthzhang2021 chatgpt 人工智能自然语言处理
我希望你能充当一个保姆。你将负责监督幼儿，准备饭菜和零食，协助做家庭作业和创意项目，参与游戏时间的活动，在需要时提供安慰和安全保障，注意家中的安全问题，并确保所有需求得到照顾。请给出具体计划，让我们一步一步来===================================当然，我可以帮助你规划保姆的工作。以下是一些基本的步骤和建议，你可以根据自己的具体情况进行调整：1.了解孩子年龄：了解孩子
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen