wshzd

LLM之长度外推（一）| 基于位置编码的长度外推研究综述

论文：Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding
地址：https://arxiv.org/abs/2312.17044

Transformer自诞生以来就席卷了NLP领域，因为它具有对序列中复杂依赖关系进行建模的优越能力。尽管基于Transformer的预训练语言模型(PLM)在几乎所有NLP任务中都取得了巨大成功，但它们都有预设的长度限制，因此很难将这种成功扩展到见过数据以外的更长的序列，即长度外推问题。为了增强Transformer的长度外推，人们提出了大量的可外推的位置编码。

一、介绍

在有限的学习资源下，人类可以通过理解它们的组成部分和结构来理解潜在无限长度的话语。在NLP中，这种能力称为模型的长度外推，即在较短的上下文窗口上进行训练，在较长的上下文窗口上进行推理。尽管神经网络在各种任务上取得了惊人的进展，但长度外推对它们来说仍然是一个重大挑战。Transformer被用来环节这一问题。

然而，Transformer的优势容量是以相对于输入序列长度的二次计算和内存复杂度为代价的，这导致了基于Transformer的模型的预定义上下文长度限制，通常是512或1024个token。因此，利用Transformer处理长序列是极其困难的。此外，人们普遍认为，用更长的上下文窗口对现有模型进行微调要么是有害的，要么是昂贵的。更糟糕的是，由于高质量长文本数据的稀缺和不可负担的二次成本，通过直接在长序列上训练Transformer来扩展上下文窗口是不可行的。因此，长度外推似乎是减少训练开销、同时放松Transformer上下文长度限制的最合适的方法。

最近，基于Transformer的LLMs，如Llama和GPT-4，在工业界和研究界引起了极大的兴趣。但即使这些能力很强的LLMs仍然对上下文长度有强制限制，并且在长度推断上失败，这极大地阻碍了它们的广泛采用。尽管GPT-4的上下文窗口达到了惊人的32k，但实际上，这个上下文长度远远不够。一方面，随着LLM能力的增长，我们对它们的期望也在增长。另一方面，现有有效利用LLM的技术也对上下文窗口的长度提出了更高的要求。

二、预备知识

Transformer最初是作为一个编码器-解码器架构引入的，其中编码器和解码器都由个相同的层组成。每个编码器层由两个子层组成，self-attention层和位置全连接前馈网络。而对于每个解码器层，还有第三个子层执行交叉注意力，即对编码器输出的注意力。我们在这里给出了编码器层的形式化描述。给定输入矩阵 $X\in \mathbb{R}^{n\times d}$ 为个维度为的嵌入序列，的编码器层 $f: \mathbb{R}^{n\times d}\rightarrow \mathbb{R}^{n\times d}$ 定义为:

其中,,是所谓的query、key和value，其中,, $W_v\in \mathbb{R}^{d\times d}$ 是投影矩阵。首先，兼容性分数被计算为具有缩放因子的query和key之间的点积。然后，利用逐行softmax函数将兼容性分数转换为权重，值的加权和正是注意力子层的输出。全连接的前馈网络由两个线性变换组成，中间由ReLU激活。为了提供可伸缩性，在每个子层周围利用残差连接，然后进行层归一化。

为了使模型能够共同关注来自不同表示子空间不同位置的信息，通常使用多头注意力。简而言之，个头意味着用不同的投影矩阵 $W_{q}^{(h)}$ , $W_{k}^{(h)}$ , $W_{v}^{(h)}\in \mathbb{R}^{d\times d_h}$ 计算自注意力次，其中。然后将输出矩阵 $A^{(h)}\in \mathbb{R}^{n\times d_h}$ 沿着第二个维度连接起来以获得最终的。从上面的描述中，不难看出整个编码器层是置换等价或顺序不变的，考虑到注意力子层和前馈子层都是置换等价的。即，给定任意置换矩阵 $P_\pi \in \mathbb{R}^{n\times n}$ ，得到 $P_\pi f(X)=f(P_\pi X)$ 。这种置换等价性质与人类语言的顺序性质不一致，可以通过向Transformer中注入位置信息来减少。

三、位置编码实现长度外推

直观地说，长度外推与长度和位置有很强的相关性。另一方面，在介绍Transformer时，研究人员也提出了正弦位置嵌入，并声称它可以外推到训练之外的更长的序列。这一说法背后的想法，即只需改变位置表示方法就可以实现长度外推，已得到广泛支持和证明。因此，开发更好的位置编码方法已经成为增强Transformer长度外推的主要途径。

有各种各样的方法将位置信息集成到Transformer中，统称为位置编码(PEs)。表1给出了不同外推PE的特征。我们根据PE是绝对的还是相对的来划分表格。使用绝对位置编码(APE)，每个位置都被映射到一个唯一的表示，而相对位置编码(RPE)基于两个token之间的相对距离来表示位置。

3.1 绝对位置编码

考虑到Transformer的置换等价性质，提出了将位置信息融入其中的APE。具体来说，对于位置为的token，位置嵌入定义为:

其中是位置嵌入的维数，表示模型维数。然后，将每个位置嵌入与对应的token嵌入相加，并将之和输入到Transformer中，从而将查询与键之间的兼容性得分形式化为:

这是许多不同PE的基础和重点。此外，比较了所提出的正弦APE和完全可学习的位置嵌入的性能，其中位置嵌入是在训练期间随机初始化和更新的。尽管具有类似的性能，但研究人员声称正弦位置嵌入可能能够推断出比所看到的更长的序列。然而，研究人员随后发现，正弦APE很难外推。因此，人们提出了各种APEs和RPEs，以增强正弦位置编码，从而增强Transformer的外推。

研究人员推测优异的外推性能来自PE的平移不变性，即即使输入发生移动，函数也不会改变其输出的特性。为了结合正弦APE中移位不变性的优点，他们只是对每个序列和训练期间的每次迭代，通过从离散均匀分布中提取的随机偏移量移动每个位置索引，其中 $K\in N$ 是最大偏移量。也就是说，他们只是用 $P_{pos+k}$ 代替了 $P_{pos}$ ，这阻止了模型使用绝对位置，而是鼓励使用相对位置。

遵循类似的想法，进一步利用连续信号来增强正弦APE。除了用相同的随机偏移量移动APE的每个位置索引(为全局偏移)外，还引入了局部偏移和全局缩放。这三种增广方法的形式如下:

其中 $pos\in \mathbb{R}^n$ 为位置索引向量， $X\in \mathbb{R}^{n\times d}$ , $Y\in \mathbb{R}^{{n}'\times d}$ 分别为源序列和目标序列的嵌入向量。全局位移将每个嵌入转换为一个从 $\Delta \sim U(-\Delta _{max},\Delta _{max})$ 的全局随机位移序列。

除了这些基于正弦APE的相对简单的方法外，还有一些APE采取了完全不同的理论途径。例如将每个词嵌入扩展为自变量上的连续函数，即位置，以便词表示随着位置的增加而平滑移动。通过数学上合理的推导，将单词在位置上的一般复数嵌入定义为:

注意，振幅向量 $r=[r_{j,1},...,r_{j,d}]$ ，频率矢量权值 $\omega =[\omega _{j,1},...,\omega _{j,d}]$ 和初始相位向量 $\theta =[\theta _{j,1},...,\theta _{j,d}]$ 都是可训练的参数。振幅只取决于单词wj和向量 $[e^{i(\omega _j,1pos+\theta _j,1)},...,e^{i(\omega _j,dpos+\theta _j,d)}]$ 可以被视为“purely”的位置嵌入。

研究人员也试图直接捕捉位置表示之间的依赖关系或动态关系。引入了一个动态系统来对这些位置表示进行建模，其特征可以表示为:

正弦APE作为Transformer的第一个PE，对以后的PE有重要影响。然而，发现它的外推性很差。为了增强Transformer的外推性，研究人员要么利用随机移位将移位不变性纳入正弦APE中，要么生成随位置平滑变化的位置嵌入。这些方法确实比正弦APE具有更好的外推性能，但只能勉强赶上RPEs的外推能力。

3.2 相对位置编码

已经提出了许多新的RPE加强Transformer的外推。在我们深入讨论之前，我们重新制定兼容性得分，如下所示，以帮助阐明RPEs的视角:

其中是编码相对位置信息的术语。RPEs倾向于直接修改注意力机制来融合相对位置信息。因此，这种位置信息通常在每一层都重复出现，而不是像APE那样只在第一层之前出现。此外，这种修改独立于值向量，使它们不与位置信息纠缠。这些差异如图1所示。

研究人员在此公式的基础上引入了RPE的思想。具体来说，他们将公式具体化为：

其中 $p_r\in \mathbb{R}^d$ 是可训练的相对位置嵌入， $r=clip(j-i,r_{min},r_{max})$ 表示关系位置关系。通过在确定的范围内裁剪相对位置，减少了要学习的位置嵌入数量，增强了长度外推。同样，在计算值时，他们还引入了 $p_r^v\in \mathbb{R}^d$ ，将其添加到词嵌入中。再此基础上，研究人员又增加了一个项来同时建模键嵌入和相对位置嵌入的交互:

然而，一些研究人员采取了完全相反的方法，将其简化为极其简单的形式。利用可学习的标量来表示相对位置信息:

为了使Transformer能够有效利用真实的token距离信息，研究人员提出了一种更复杂的方法:

其中ReLU被用于确保兼容性分数的非负性， $\hat{\mathbb{R}}_{i,j}$ 是通过可学习的sigmoid函数从加权相对距离 $\mathbb{R}_{i,j}$ 映射而来的重新缩放系数:

同样为了利用真实距离信息来增强上下文建模，另一种更简单的方法来表示相对位置信息:

其中标量是训练前固定的特定头部斜率。值得注意的是，该方法不需要额外的可学习参数，因此效率更高，也有助于更好地推断不在场证明。另一种方法建议按照以下方式计算兼容性:

类似地，研究人员认为位置嵌入和词嵌入对不同的概念进行编码，因此应该对不同的信息应用不同的投影。因此，他们建议用：

其中、为正弦位置嵌入。他们发现他们的方法结合T5偏差可以有效地降低预训练成本，并提高GLUE基准上的性能。

同样受到正弦APE的启发,研究人员提出通过正弦嵌入将键和查询相乘，而不是将它们相加。他们将相容性分数重新表述为:

这种方法称为旋转位置嵌入(RoPE)，因为直观地说，它根据位置索引旋转键和值嵌入，该索引形式化为 $f_{\{q,k\}}{(x_i,i)}=R_{\Theta ,i^{\omega_{\{q,k\}^{x_i}}}}^{d}$ 。值得注意的是，尽管这是一个绝对的旋转过程，但兼容性分数以及注意力机制仅依赖于查询与键之间的相对距离，这有助于长度外推。

尽管之前提出了大量的PEs，但在最近的LLMs中，只有ALiBi和RoPE被广泛采用。因此，LLM时代提出的PEs大多衍生自这两种方法，试图使ALiBi更具表现力或使RoPE更具外推性。

研究人员意识到正弦APE的过拟合问题，提出通过将正弦APE简化为一种新的RPE Sandwich来克服它。具体来说，他们删除了交叉项，但保留了两个位置嵌入的内积:

值得注意的是，在这种形式化中，成为与ALiBi具有相同衰减与距离模式的时间偏差项。此外，由于这里的位置嵌入只需要与自己交互，作者将它们的维度作为超参数，以进一步改善推断。

FIRE采用与T5 bias完全相同的形式，将位置信息与Transformer集成:

其中，它们的偏差使用可学习的连续函数 $f_\theta :\mathbb{R}\rightarrow \mathbb{R}$ ，例如MLP。为了避免输入在函数训练域之外时的泛化问题，提出了通过查询位置索引对距离进行归一化的渐进式插值方法。请注意，在因果注意中，相对距离总是在[0,1]之间有界，对于任何序列长度，这将使推理域与训练域对齐，从而带来更好的长度泛化。

由于RoPE在流行的LLM中被广泛使用，也有人提出一些变体来改进它。研究人员首先定义了两个特定距离上的token之间的注意力得分期望和进一步的注意力分辨率，作为Transformer编码位置能力的指标。他们将绳子外推性能较差的原因归结为注意期望的剧烈振荡，并提出引入平衡项来惩罚不稳定维度的振荡，保持稳定维度的分布。他们的方法可以简化为：

四、LLMs时代的长度外推

LLM彻底改变了NLP领域，并对长度外推提出了很大的要求，以更好地理解长文档，利用更多的演示，处理多轮对话，增强智能体的长期记忆等。因此，在LLM的长度推断方面付出了大量努力，导致了许多新的和新颖的PE的出现。除了这些方法，也有一些研究尝试分析LLM的外推，并试图揭示PE对长度外推的影响。

4.1 位置插值

尽管有大量具有更好外推性的PE，但RoPE由于其优越的分布性能，在最近的LLM中得到了最广泛的采用。因此，人们提出了许多方法来增强现有的用RoPE进行预训练的LLM的外推，其中最流行的是位置插值方法。基于将LLM外推到更长的序列的简单想法，引入了RoPE的位置插值，这是将线性缩放降低该位置索引的比例，以便在预训练期间最大位置索引匹配之前的长度限制。形式上，这个方法将RoPE 替换为，定义如下:

其中是预训练期间的长度限制，是推理时较长的上下文窗口。注意，这里的比例是 $\kappa ={L}'/L$ ，将位置转换为位置 $n/\kappa$ 。该方法将绝对位置索引从减少到以匹配原始范围，这也减少了从到的最大相对距离。因此，位置插值通过对齐位置索引的范围和扩展前后的相对距离，减轻了由于上下文窗口扩展对注意力分数计算的影响。

然而，从神经切线核(Neural Tangent Kernel, NTK)理论的角度来看，简单地线性插值RoPE的傅里叶空间会造成高频信息的丢失，会阻止模型区分附近的位置。为了解决这个问题，提出了NTK-Aware Scaling RoPE算法，通过修改基底来代替RoPE的尺度:

其中是原始基底，κ仍然是比例，两者都可以看作是超参数。这里的核心思想是减少高频的缩放，增加低频的缩放，以减少高频的信息损失。由于NTK-Aware插值不直接对傅里叶特征进行缩放，因此所有位置都是可以区分的。此外，该方法不需要对上下文窗口进行任何微调。

已经提出了几种改进NTK-Aware插值的变体。Dynamic-NTK插值在预训练的上下文窗口中为token使用精确的位置值，以防止性能下降，并随着当前序列长度的增加动态增加缩放比，以适应预训练的上下文窗口以外的位置:

其中是当前序列的长度，每一步都会增加。

无论是缩放位置索引还是修改基地，所有token都变得彼此更接近，这将损害LLM区分相近token的位置顺序的能力。结合他们对RoPE的波长的观察，存在一些波长比预训练的上下文窗口长的维度，NTK-by-parts插值的作者建议完全不插值较高的频率维度，而总是插值较低的频率维度。除了这种方法之外，在Softmax之前引入一个兼容性分数的温度可以持续降低困惑度，他们将其称为注意力缩放。具体来说:

请注意，该方法与上面的插值方法是正交的，这促使作者将YaRN作为注意力扩展和NTK-by-parts插值的组合，以进一步提高性能，并在微调和非微调场景中超越所有基于NTK-Aware插值的方法。

研究人员在此基础上提出了一种更简单的方法。不难看出，在训练过程中，模型已经看到了全范围的高频分量，而低频分量则没有。这种不平衡使得模型对低频进行外推是一项特别困难的任务。因此，他们建议使用apply给出的截断基:

其中ρ是一个相对较小的固定值，和是选定的截断值。这样，模型将通过选择适当的截断值，在微调期间使用的上下文长度中体验所有基值，并被认为在推理过程中进行更好的推断。

4.2 随机化位置编码

对于没有clipping机制的APE和RPE，长度外推意味着位置表示超出了训练期间观察到的位置表示，导致分布外位置表示，从而性能下降。为了解决这个问题，最直观的方法之一是使模型在训练期间观察所有可能的位置表示，这正是随机PEs背后的核心思想。

作为这一想法的具体化，研究人员提出模拟更长的序列的位置，并随机选择一个有序子集来适应训练上下文窗口。具体来说，的长度远大于训练和评估过程中的最大长度。对于每个训练步骤，长度为的序列的随机位置是较大范围位置的升序子样本，该范围大小为，且不包含重复。因此，通过充分的训练，可以确保模型遇到足够的唯一位置，并且在推理之前已经充分训练了从1到的所有位置，从而在token中的任何序列上实现一致的性能。

基于相同的想法，PoSE也试图通过在固定的预训练上下文窗口内操纵位置索引来模拟更长的输入。然而，PoSE是将原始序列划分为几个块，并通过添加不同的skip偏差项来调整每个块的位置索引。这样，PoSE保持了每个块中的连续位置，这与预训练非常相似，同时允许模型适应更长的上下文窗口中的所有位置。

本质上，随机PE只是通过在训练过程中引入随机位置，将预训练的上下文窗口与较长的推理长度解耦，从而提高了较长的上下文窗口中所有位置的暴露。

五、讨论

5.1 评估和基准

在早期阶段，研究人员通过有意在具有长度限制的序列上训练模型并在稍长的序列上测试来评估长度外推。在此期间，训练和测试的长度限制都只有几十个token和样本，指标通常来自各种不同的下游任务，如机器翻译，文本分类和问答。然后，由于PLM已经被证明是通用的，并且其他NLP任务可以很容易地转换为语言建模，语言建模和困惑度成为测试和评估长度外推的标准做法。然而，人们越来越认识到，作为唯一的指标，复杂度不能说明下游任务的性能，而且非常不充分。

5.2 理论基础

早期的方法大多是经验的，并声称通过下游性能进行外推。最近，有一种量化外推能力的趋势，如累积归一化梯度和注意力分辨率。对数衰减时间偏差模式被认为是成功的长度外推的秘密，而没有PE的仅解码器模型在小规模合成任务中有更好的长度外推。尽管取得了这些进展，但仍然需要建立一个坚实的理论基础，什么真正导致更好的长度外推仍然是一个开放的问题。

5.3 其他方法

除了上述方法外，还有几种采取不同思维方式的方法来提高长度外推性能，如暂存器或思维链，Λ-shaped注意力掩码和streamingLLM。此外，长度外推还适用于更大的任务，即上下文窗口扩展或长上下文LLM。

六、总结

本文对从Transformer诞生到LLM时代关于Transformer长度外推的研究工作进行了全面和有组织的概述，重点是外推PE和相关方法，包括位置插值和随机PE。

参考文献：

[1] https://arxiv.org/abs/2312.17044

[2] 综述：利用位置编码实现长度外推

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
Xcode 26 现已发布，并支持代码智能它与基于 Cursor 和 AI Agent 的工作流程相比如何？知识大胖 SwiftUI源码大全 xcode macos ide
简介Xcode26昨天发布了！惊喜的是，它支持macOS15，但要使用新的ChatGPT助手，你需要macOS26Tahoe。所以我把我的M3MaxMacBookPro升级到了Tahoe。我不是说你应该升级，但我这么做是为了测试Xcode的新功能并与大家分享！值得注意的是，这是迄今为止最小的Xcode版本（下载大小）！正如Apple在Xcode新功能会话视频（我建议您观看）中所说的那样，这是一项巨
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
12 个强大的 DeepSeek AI 提示将彻底改变您的日常生活知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
内容写作的最佳提示让我们从写作开始吧。无论您是博主、学生还是社交媒体创作者，这些提示都将帮助您创作出精彩的内容。提示1：“扮演专业文案撰稿人，为[产品/服务]撰写引人注目的广告文案。文案应引人入胜、具有说服力，且字数不得超过100个字。”这使得ChatGPT的响应结构就像真实的广告文案一样。提示2：“以更具吸引力和说服力的方式重写此段落，同时保持含义不变：[插入文本]。”推荐文章《Neo4j上使用
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
AnythingLLM教程系列之 04 AnythingLLM 允许您以正确的格式导出聊天日志，以构建 GPT-3.5 和 OpenAI 上其他可用模型的微调模型（教程含安装步骤）知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 ai anythinllm llama
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
两台pc如何高速度传输大文件费城之鹰其他两台电脑高速传输文件局域网不适用U盘传输资料网线直连两台电脑传资料
今天笔记本跑一个大一点的项目，8G的内存直接100%，i5的CPU直接75%并且在超频工作了，原本1.6Ghz的频率直接飙到了3.8Ghz，由于项目性质原因，采用的是公司配的笔记本，但是年初采购的联想E480，还在三包时间段内，公司不允许拆机增加内存，只能换一台新的台式机，听起来挺爽，有新设备，但是办公区域不准使用U盘这一类的存储设备，这就蛋疼了，大半年了项目代码，资料全在这个不够用的笔记本里，问
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
玩转Docker | 使用Docker部署NotepadMX笔记应用程序心随_风动玩转Docker docker 笔记 eureka
玩转Docker|使用Docker部署NotepadMX笔记应用程序前言一、NotepadMX介绍工具简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署NotepadMX服务下载NotepadMX镜像编辑部署文件创建容器检查容器状态检查服务端口安全设置四、访问NotepadMX服务访问NotepadMX首页设置访问验证编辑笔记总结前言在如今快节奏的工作与学习中，一
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str