小姜贼菜

关于transformer综述--源自A Survey of Transformers

主要是参考复旦大学6月多出的这篇A Survey of Transformers，然后自己整理记录下。如有错误，欢迎指出。

0.预备知识：什么是transformer

论文首先讲了下transformer，然后我稍微做下回顾。transformer的结构来自attention is all your need ，在NLP、CV、GNN领域都大杀四方。

0.0 self-attention注意力机制

如下左图所示，我们的输入是x1，通过一个函数(Embedding)位置编码函数，然后变成了 $a^1$ 。然后将我们的 $a^1$ 分别通过 $W^q、W^k、W^v$ 三个矩阵，得到Q(query)、K(key)、V(value)。这三个是参数矩阵，是可以学习的，即刚开始随机初始化，后期训练学习所得。细节可以看下右图所示，也就是 $a^i$ 得到 $q^i$ ，再由 $q^i$ 组成矩阵 $Q$ 。（论文中一般的大写字母都是矩阵，小写的都是向量）

图1 图2

接着就可以看到下图3的输入了，在这里我也把公式列出来，然后图中也可以清晰的看到 $Q*K^T$ 做点积.然后做个scaled也就是公式中的 $\sqrt{D_k}$ 。其中 $D_k$ （d is the dim of k），这一步的除法还是很好理解的，我解释下，然后为什么除这个数？应该是这个数效果最好的数吧，除法是因为后面要输入到softmax中。如果数值太大，softmax函数趋向正无穷和负无穷，从图像上来说，倾斜程度几乎不变（即在训练的时候，梯度会下降很慢），所以需要除个东西，让它输入到softmax函数时，可以往中间靠，梯度就大了。然后输入到softmax函数。最后将结果与V矩阵相乘即可。

关于transformer综述--源自A Survey of Transformers_第3张图片

Attention 公式

关于transformer综述--源自A Survey of Transformers_第4张图片

图3

自注意力的提出，其实一定程度上他可以替代rnn，正如下图4所示，如果大家学过rnn，或者了解，self-attention和rnn的输入输出很像，李宏毅老师说，用self-attention可以替代rnn。

0.1 Positional Encoding位置编码

关于transformer综述--源自A Survey of Transformers_第5张图片

图4

如上图4所示，其实我们随便改变输入的位置，对self-attention来说都是一样的，因为我每个 $a^i$ 生成的 $q^i$ 都会对别的 $k^i 、v^i$ 去做计算，说的很抽象，举个例子，我有三个参数x、y、z，排列出两两一组的组合就三种（x、y；x、z；y、z），我不论怎么换x、y、z的位置都是一样的组合，self-attention也是一样的，你计算了akv的所有组合方法，a的位置怎么换都没用，也就是说self-attention对位置不敏感，但在NLP中，语序其实很重要，所以我们就需要加入位置编码去标识输入的位置。这样就是为什么要在self-attention前加入位置编码的意义。当然，这片综述中，也提到了有人用卷积、rnn的方法去感知位置。
【注】详细的，比如说多头注意力，什么是多头？残差、还有关于LN层放前面还是后面…等等。大家可以看下这个博主讲 ---- 点击这里，或者李宏毅老师的都不错。

接下来进入正题：

transformer这几年都有哪些改进、哪些论文。A Survey of Transformers分了四大块去讲，如图5所示，也正好分别对应我的最大标题1、2、3、4.

图5

这里我也放了这个复旦大学的老师，也就是这篇作文的作者讲的视频链接 ---- 点击这里

1.Module-level

1.1 对attention机制的改进

1.1.0 attention存在的问题

首先根据模块的架构的改进，可以分为很多类，那么这一类主要是针对self-attention，那么attention的的问题主要有两个：
(1)第一个可以从注意力公式中看到，就是做矩阵算法的复杂度，论文中提到的复杂度 $O(T^2·D)$ 。那么很多的论文做的改进就是：降低Q、K、V矩阵计算的复杂度。

关于transformer综述--源自A Survey of Transformers_第7张图片

Attention 公式

(2)第二个是Structural prior(先验)，可以先理解成，Transformer通常很容易对小或中等大小的数据进行过度拟合。即Transformer不适合小数据集。

1.1.1 Sparse Attention

Sparse 稀疏，也就是意味着这一类的论文做的就是减少相关联性，比如说 $q^i$ 本来要和所有的 $k^i$ 做运算，现在只和部分 $k^i$ 的做运算。

1.1.1.1 Position-based Sparse Attention(基于位置)

稀疏化就是把矩阵的参数降下来，正如上面所说只算一部分。本来是感知所有的位置，现在只感知部分的位置。先看如图6下几种稀疏化的方法：

图6

a)global:稀疏化，会带来全局的损失，所以为了弥补损失，global做的就是用黄色的虚拟节点，来联系全局，(CV)如果大家看过ViT，可以了解到，在那个模型的开始加入的[cls]，然后用来输出分类的结果，这个[cls]就是一个全局的节点做法。没有看过也没事就忽视刚才的话，大家可以看下global上的小点，前面两个就是全局的点，即最前面的1、2两个点和全部的点都有联系，而后面的点没有联系。那么后面的点也是可以联系的，通过迭代两次，也就是说，后面第八个点想要与第九个点联系，首先找到第1、2两个点(迭代第一次)，再去找第九个点(迭代第二次)。
b)band:这种做法可以看到有点和卷积类似，看上面的点可以注意到，他是局部的，也就是 $q^i$ 只注意到左右的点才有联系。
c)dilated:间隔一个邻居。比刚刚的局部更加的扩散。计算量与刚刚一致。
d)random:随机，筛选。
e)block local:就是组与组之间的没有联系，组内全连接。

1.1.1.2 关于Position-based Sparse Attention论文

如图7所示，其实论文就是对上面几种进行了组合。

图7

拿Star-Transformer(图8)来说，引入了全局节点，邻居之间相互联系。连接数大量减少，那么也就是相关性下降，计算量上由原来的 $O(T^2·D)$ 下降到了 $O (2 \cdot T \cdot D)$ 。更加合适小的或中等数据集。

图8

【相关论文】Star-Transformer、Longformer、Extended Transformer Construction、BigBrid

1.1.1.3 Position-based Sparse Attention的扩展及论文

其实还有几种稀疏化的方法，如下图9所示：

图9

(a)BPT: attention时颗粒度可以由精细到粗糙，解释：这里可以从图中看到，比如我要计算2号到3号、6号和10号节点，他看3号是一个字；看6号时，是一个词；看10号是一个句子。这里我用字、词、句子这几个名词，大家对比下图中对应的节点应该就能理解，论文中所说的颗粒度。对2号看3号来说更加局部，对2号看10号来说更加全局。后面两个用在2D上，b也太像卷积了吧。

【相关论文】BP-Transformer

1.1.1.4 Content-based Sparse Attention(基于内容)

基于内容的稀疏化的方法，先采用低复杂的方法，先去计算一遍 $Q 、 K$ ，把不太相关的 $q^i、k^i$ 去掉，只去计算那些高相关的 $q^i、k^i$ 的注意力

1.1.1.5 关于Position-based Sparse Attention论文

拿Reformer来说，其实他就是先拿 $Q 、 K$ 先过一遍LSH bucketing(局部敏感哈希)，如果通过这个“函数”，他们到了同一个桶里面(bucket)，那么这些在桶里面的 $q^i、k^i$ 具有一定的相似性，然后计算他们的Attention。即，先用一个低复杂度的函数过滤掉一部分的 $q^i、k^i$ 。

拿Routing Transformer来说，首先采用聚类的方式，拿 $q^i、k^i$ 聚类，用聚类中心的 $q^i$ 代表附近的 $q$ ，这样也避免了计算每个 $q 、 k$ 的麻烦。

【相关论文】Reformer、Routing Transformer

【小结】这部分的稀疏化的总体思路就是要么减少矩阵的参数、要么减少关联性。

1.1.2 Linearized Attention

线性化的注意力，它主要的做的是从数学方法，把公式“解耦”。改变计算顺序，来降低计算量。如下图10所示:

它其实做的事情很简单，一句话描述，先做 $K V$ 点积再做 $Q$ 的点积，softmax是非线性的给他拆掉。

关于transformer综述--源自A Survey of Transformers_第11张图片

图10

1.1.2.1 关于Linearized Attention论文

Performer(图11)这篇论文中，常规的做法就是左边的，直接计算 $QK^T$ ，在计算 $V$ ，对比右边计算 $K^TV$ ，可以看到计算量会下降。然后在softmax中的 $e^x$ ，在论文中是构造了个函数代替。总之就是要解决图10中去掉的softmax的问题。

图11

【相关论文】Performer

1.1.3 Query Prototyping

我感觉这类方法有点类似1.1.1.5中的方法，这里减少的是源头，矩阵 $Q$ 的参数，区别在于而 $K 、 V$ 是不变的。去几个代表性的 $q^i$ 出来，然后和K矩阵相乘，如图12.
第一步，选出的有代表的 $q^i$ ，可以理解成去掉了无关的连接词，去降低 $Q 、 K$ 矩阵运算的复杂度。
第二步，他采用了均值的方法(use uniform distributions)然后扩到原来的样子再 $V$ 做运算，这里uniform distributions的做法可以理解成将句子中提取出关键词，现在给他加上无关紧要的连接词，组成句。
【注】看起来蛮愚蠢的，一会去掉一会加上，但其实真的降低了计算量，且核心思想还是没变，降低attention公式的复杂度，attention公式的冗余就在于 $Q 、 K$ 中 $q^i$ ，所以可以减少数量。(顺带提一下， $Q$ 矩阵的秩很小，低秩，等会也会讲)

关于transformer综述--源自A Survey of Transformers_第12张图片

图12

1.1.3.1 关于Query Prototyping论文

Informer这篇论文的动机就和上面介绍的相当契合了，如下图13原文所示:

图13

如果矩阵 $Q$ 中的 $q^i$ (a query)接近均匀分布，拿去计算其实是很浪费的，我们要计算那些有代表性的 $q^i$ (原文：We only need to compute the queries thats generate non-trivial attention distributions)
然后文论提出了个公式如下图14所示：

关于transformer综述--源自A Survey of Transformers_第13张图片

图14

粗粗的看下，这不就是找与均匀分布最大不同的 $q^i$ 吗？
当然这里不是每个 $q^i$ 都做的，是采样部分的 $q^i$ 。具体怎么做？比如i=T，那么，采样 $l o g T$ ，那么复杂度就从 $O(T^2·D)$ 降到了 $O (T \cdot l o g T \cdot D)$ .

【相关论文】Clustered Attention、Informer

1.1.4 Memory Compression

这类方法也是类似，上面减少了矩阵 $Q$ ，这里呢，减少的是矩阵 $K 、 V$ 的参数，如下图15所示：

关于transformer综述--源自A Survey of Transformers_第14张图片

图15

1.1.4.1 关于Memory Compression论文

Memory Compression中就是用了卷积的方法，卷积改变矩阵大小的操作应该是很熟悉了，就把这个 $K 、 V$ 矩阵降下来。

关于transformer综述--源自A Survey of Transformers_第15张图片

图16

【相关论文】Generating Wikipedia by Summarizing Long Sequences、Set Transformer、Linformer、Poolingformer

1.1.5 Low-Rank Self-Attention

秩这个概念，我不知道大家还记不记得，低秩就说明虽然矩阵是T维度的，但是秩很小的话，即可以用很少的向量去表示当前矩阵，比如我的矩阵是 $4 * 5$ 的，但是我的秩为 $1$ ，那么说明我只需要 $1$ 个 $1 * 5$ 的向量表示出 $4 * 5$ 的矩阵。如下图所示：

关于transformer综述--源自A Survey of Transformers_第16张图片

图17

大概的意思来说，就是我这个矩阵看起来是4维(行)的，但实质上我一维(行)的向量就能表示出来。这就是低秩吧。然后现在经验和实验得知，Self-Attention的矩阵常常是低秩的。那么我们可以通过降维的方式，减少参数量。

【相关论文】Low-Rank and Locality Constrained Self-Attention for Sequence Modeling

1.1.6 Attention with Prior

这一类呢就是解决问题二的，什么叫先验(Prior)Attention?如图18所示：

关于transformer综述--源自A Survey of Transformers_第17张图片

图18

我们根据Attention公式已经得到了第一个Attention(generated)，然后需要去叠加一个Prior Attention。这个Prior Attention怎么来？大概也可以分为很多类，有人为的设置的，也有比如我有很多层Attention，我第二层的Prior Attention就拿第一层的generated Attention当作Prior

1.1.6.1 关于Attention with Prior论文

a)Modeling locality
增强它的局部性，Local Transformer就是叠加一个高斯分布的先验
【相关论文】 Gaussian Transformer
b)Prior from lower modules
来自前一个Attention模块的generated Attention
【相关论文】RealFormer
c)Task related prior
根据不同的任务，生成不同的自适应的Prior Attention
【相关论文】Conditionally Adaptive Multi-Task Learning
d)Attention with only prior
只用prior，不用generated Attention, (那不就只有一个先验的固定，那不是光速？Attention算都不用算了)
【相关论文】Average Attention Network、Hard-Coded Gaussian Attention、Synthesizer

1.1.7 Improved Multi-head Mechanism

多头注意力机制中Multi-head可能是冗余的，可能两个head学习的分布是差不多一致的。
a)Head Behavior Modeling
引入一些正则化，尽量能让不同的head学到不同的分布；不同的head可以增加一些信息的流动，让不同的head能感知到别的head的存在；不同的head共享 $W^Q、W^K$ .
【相关论文】 Multi-Head Attention with Disagreement Regularization、Talking-head Attention、Multi-Head Attention: Collaborate Instead of Concatenate
b)Restricted Span
对于不同的head可以限制它的范围，可以让它看的大点，也可以让它看的小点
【相关论文】Adaptive Attention Span、Multi-scale Transformer
c)Information Aggregation with Dynamic Routing
对于不同的head注意到的信息，如何更好地利用
【相关论文】Information Aggregation for Multi-Head Attention with Routing-by-Agreement、Improving Multi-Head Attention with Capsule Networks
d)Other variants
出发点：不同的head如何共享信息，如何确定head的数量。
【相关论文】Low-Rank Bottleneck in Multi-head Attention Models

1.2 Position Representations

关于位置编码相关的工作方向如下：
a)Absolute position
绝对位置编码，transformer中用的就是用这种 $s i n x 、 c o n x$ encoding。
三种方式：Fixed sinusoidal encoding、Learnable embeddings、Learnable sinusoidal encoding
【相关论文】Vanilla Transformer、BERT
b)Relative position
相对位置编码，我们用 $R_i-j$ 这种i与j之间的关系进行编码。
【相关论文】Transformer-XL、T5: Text-To-Text Transfer Transformer
c)Other representations
这类编码是为了满足旋转不变性等采用的Position encoding.Roformer满足平移不变性
【相关论文】Roformer
d)Implicit representations
隐式建模比如加入CNN，这样就加入了位置感知。
【相关论文】R-Transformer、Conditional Positional Encodings for Vision Transformers

1.3 Layer Normalization

Layer Normalization在神经网络中还是很重要的，对某一层的神经元做一个归一化，使得能更好的训练，符合某个分布。但是在很多神经网络中， Layer Normalization放在哪个位置其实存在很大的争议，有些认为放在激活函数的后面，有些认为放在激活函数的前面。在transformer中也有这样的问题存在。
如下图19所示：

关于transformer综述--源自A Survey of Transformers_第18张图片

图19

关于LN层相关的工作方向如下：
a)Placement of LN
Pre-LN: More stable training;
Post-LN: Training could diverge - requires learning rate warm-up, but could lead to better performance when the model converges.
这两篇就是对LN位置的一个争论，最早的transformer用的是Post-LN，但是因为将LN放在attention后面，刚开始训练的时候会有极大的不稳定性，随后提出了Pre-LN，将LN放在attention前面，这样数据的分布使训练更加的稳定，但又有人提出，采用Post-LN时，再采用learning rate warm-up能够获得更好的性能。
【相关论文】On Layer Normalization in the Transformer Architecture
b)Substitutes of LN
这类方向不采用 Layer Normalization，而是采用别的归一化的方法，比如：AdaNorm、PowerNorm。
c)Norm-free Transformer
索性不用LN
【相关论文】ReZero-Transformer

1.4 Position-wise FFN

关于FNN相关的工作如下：
a)Activation
通过修改激活函数：ReLU、GELU、GLU
b)Using FFN to en enlarge capacity
product-key memory layer
Mixture-of-Experts
【相关论文】Large Memory Layers with Product-Keys、Switch Transformer
c)Can we drop FFN
这个方向虽然看起来是丢掉了FFN，其实有个做法是把它加入到attention层里面去了。
【相关论文】On the Sub-layer Functionalities of Transformer Decoder

2.Arch-level

2.1 Lightweight variants

a)Lite Transformer
将self-attention模块替换成两路，一路是卷积，一路是attention。这样计算复杂度也会下降。
b)Funnel Transformer
Transformer的计算复杂度主要是由序列的长度造成的，通过降采样(pooling)的方式把序列长度降下来。
c)DeLighT
FFN计算复杂度高，考虑在self-attention前升维，再进入在FFN中做降维，降低计算复杂度。
【相关论文】Lite Transformer、Funnel Transformer、DeLighT

2.2 Cross-block connectivity

a)RealFormer、Predictive Attention Transformer
在每个block之间做一个残差，相当于之前1.1.6中提到的，将前一层的产生的attention，当作是当前层的先验attention叠加在一起生成最终的attention。
b)Transparent Attention
decoder 之前是获取到的encoder的最后一层，在梯度回传的时候不方便，所以，对每个层进行一个加权求和，流入到decoder中，方便访问每个层。
c)Feedback Transformer
增加一些从高层传输一些到底层的路径。
【相关论文】RealFormer、Transparent Attention

2.3 Adaptive Computation Time

动态的自适应的计算，三种方式如下：

关于transformer综述--源自A Survey of Transformers_第19张图片

图20

Universal Transformer
举一个例子，可以考虑以下句子：“I arrived at the bank after crossing the river”。在这种情况下，“ I”或“river”的含义不太明确，需要更多的上下文来推断单词“ bank”的最可能含义。当使用标准的Transformer对该句子进行编码时，无条件地将相同的计算量应用于每个单词。但是，Universal Transformer的自适应机制允许模型仅将更多的计算花费在更模糊的单词上，例如使用更多的步骤来整合消除“bank”一词所需的其他上下文信息，同时在不太模糊的单词上花费更少的步骤。这就是自适应机制带来的好处。

【相关论文】Universal Transformer

2.4 recurrence & hierarchy

分而治之地方法用transformer处理长文档。核心思想：将一个长的序列切分成几个短的序列，然后处理短的序列。如下图17、18可以清晰看到两者的区别。
a)recurrence
用时序化的方法：

关于transformer综述--源自A Survey of Transformers_第20张图片

图21

【相关论文】Transformer-XL、Compressive Transformers for Long-Range Sequence Modelling、Memformer

b)hierarchy
层次化的方法：把短的序列放进transformer，再拼在一起放到transformer中

关于transformer综述--源自A Survey of Transformers_第21张图片

图22

【相关论文】HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

2.5 alternative architectures

改架构
【相关论文】Macaron Transformer、Sandwich Transformer、Evolved Transformer、DARTformer

3.Pre-trained Transformers

a) Encoder only
b) Decoder only
c) Encoder-Decoder

预训练综述：Pre-trained Models for Natural Language Processing: A Survey

4.Applications

4.1 NLP

【相关论文】Transformer、BERT、Compressive Transformer

4.2 CV

【相关论文】Vision Transformer、DETR

4.3 Audio

【相关论文】Music BERT

4.4 Multimodal

【相关论文】VisualBERT、VLBERT

LangChain Ask PDF: 构建基于大语言模型的PDF问答应用 m0_75126181 langchain pdf 语言模型
LangChainAskPDF:构建基于大语言模型的PDF问答应用在人工智能和自然语言处理技术快速发展的今天,如何有效地处理和利用大量文本信息成为了一个重要课题。本文将介绍一个名为LangChainAskPDF的开源项目,该项目展示了如何利用LangChain和OpenAI等先进工具,构建一个能够"理解"PDF文档并回答相关问题的智能应用程序。项目概述LangChainAskPDF是一个Pytho
毕设开源深度学习图像搜索算法-图像搜索引擎(源码分享) knooor 毕业设计毕设大数据
文章目录0简介1前言2图像检索介绍(1)无监督图像检索(2)有监督图像检索3图像检索步骤4应用实例最后0简介今天学长向大家分享一个毕业设计项目毕业设计深度学习图像搜索算法-图像搜索引擎(源码分享)项目运行效果：毕业设计深度学习图像搜索算法-图像搜索引擎项目分享:见文末!1前言图像检索：是从一堆图片中找到与待匹配的图像相似的图片，就是以图找图。网络时代，随着各种社交网络的兴起，网络中图片，视频数据每
RAG：本地部署Langchain-Ollma(Windows) MurphyStar python langchain windows
RAG：本地部署Langchain-Ollma(Windows)RAG，即“RetrievalAugmentedGeneration”（检索增强生成），是一种结合了检索和生成技术的自然语言处理模型。它主要用于文本生成任务，能够利用外部知识源来增强生成的文本，从而提高生成质量。相较于微调技术，RAG能够更加短平快的吸纳本地知识并整合大模型进行问答。因此本地部署了一个基于Langchain+Ollma
【声音场景分类--论文阅读】繁华落尽，寻一世真情分类论文阅读数据挖掘
1.基于小波时频图特征在声音场景分类基于小波时频图特征在声音场景分类任务中的表现2.增强增强高效音频分类网络https://arxiv.org/pdf/2204.11479v5https://github.com/Alibaba-MIIL/AudioClassfication音频分类网络如图4所示。在此阶段，主要重点是建立一个神经网络具有较大的感受野，同时保持较低的复杂性。可以将网络分解为两个主块
大模型应用之基于Langchain的测试用例生成少喝冰美式 langchain 测试用例人工智能自然语言处理 AI大模型大模型应用大模型微调
一用例生成实践效果在组内的日常工作安排中，持续优化测试技术、提高测试效率始终是重点任务。近期，我们在探索实践使用大模型生成测试用例，期望能够借助其强大的自然语言处理能力，自动化地生成更全面和高质量的测试用例。当前，公司已经普及使用JoyCoder，我们可以拷贝相关需求及设计文档的信息给到JoyCoder，让其生成测试用例，但在使用过程中有以下痛点：1）仍需要多步人工操作：如复制粘贴文档，编写提示词
全场景深度学习开源框架（MindSpore） deepdata_cn 人工智能深度学习开源人工智能
MindSpore是华为推出的一款全场景深度学习开源框架。旨在实现不同计算平台（如云端、边缘端、端侧）和不同硬件（如CPU、GPU、Ascend等）之间的高效协同。无论是在数据中心的大规模计算，还是在手机、物联网设备等资源受限的终端上，MindSpore都能灵活适配，充分发挥各硬件平台的性能优势，实现模型的高效训练和推理。该框架引入了自动并行技术，能够根据模型结构和硬件资源自动进行并行策略的搜索和
torch.nn.RNN: PyTorch 中的循环神经网络（RNN）模块彬彬侠自然语言处理 RNN PyTorch Python 循环神经网络 NLP 自然语言处理
torch.nn.RNN:PyTorch中的循环神经网络（RNN）模块1.概述在PyTorch中，torch.nn.RNN是一个用于构建循环神经网络（RNN）的模块。它提供了一个可以进行训练的RNN层，广泛应用于序列数据的建模，如自然语言处理、时间序列分析等。这个模块可以处理各种类型的序列数据，并支持多种功能和配置。2.主要功能torch.nn.RNN可以：处理序列数据，捕捉时间上的依赖关系。支持
AI学习指南HuggingFace篇-高级优化技巧俞兆鹏 AI学习指南 ai
一、引言在深度学习和自然语言处理（NLP）中，模型训练的效率和性能至关重要。HuggingFace提供了多种高级优化技巧，帮助开发者提升模型训练的效率和效果。本文将介绍混合精度训练、分布式训练等高级优化技巧，并探讨如何通过这些方法提升模型训练效率。二、混合精度训练（一）混合精度训练的原理混合精度训练利用自动混合精度（AMP）技术，高效管理FP16和FP32之间的转换。通过在前向传播中使用FP16加
零信任赋予安全牙齿，AI促使它更锋利零信任Enlink_Young 零信任网络安全 AI ai 网络安全
距离上次写关于安全的文字已经过去了很久很久，久到上次看到的AI还停留在TTS、ASR等最初的语音交互+搜索类似的各种智能音箱以及通过关键字匹配的基于知识库的聊天的机器人。之后的几年各种视觉识别遍地开花，AI四小龙在人脸识别上成熟应用，再然后到大热的机器学习、深度学习，对于AI一直都有关注，但商业价值均没有得到有效发挥，大部分都停在科研和实验室阶段。19年ChatGPT横空处世，直到ChatGPT通
LlamaIndex架构设计：大模型长期记忆模块竟暗藏图数据库玄机威哥说编程数据库 llama
随着人工智能技术的不断发展，大型语言模型（LLM）已经在自然语言处理、文本生成、对话系统等领域取得了显著的进展。然而，尽管这些模型在理解和生成语言方面表现出色，它们却面临着一个重要问题——长期记忆的缺失。传统的语言模型通常只依赖于当前输入的信息，并且无法记住过去的上下文或从历史中积累的知识。这使得它们在需要长期记忆或复杂知识推理的任务中表现不佳。为了解决这一问题，越来越多的研究开始探索如何为大模型
PyTorch动态计算图:如何灵活构建复杂模型 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
PyTorch动态计算图:如何灵活构建复杂模型关键词：PyTorch、动态计算图、自动微分、反向传播、神经网络、模型构建、计算图优化文章目录PyTorch动态计算图:如何灵活构建复杂模型1.背景介绍1.1深度学习框架的发展1.2静态图与动态图的对比1.3PyTorch的崛起及其优势2.核心概念与联系2.1PyTorch中的张量(Tensor)2.2自动微分(Autograd)机制2.3动态计算图的
深度学习框架PyTorch原理与实践 AI天才研究院 AI实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.简介2.背景介绍3.基本概念和术语3.1PyTorch简介3.2PyTorch的特点1）自动求导机制2）GPU加速3）模型部署4）数据管道5）代码阅读友好4.核心算法原理4.1神经网络结构4.2神经网络层4.3激活函数5.实际案例——MNIST手写数字识别数据准备模型定义训练测试整体代码1.简介Deeplearning(DL)hasbeenanincreas
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）开源技术探险家开源模型-实际应用落地 #人工智能自然语言处理语言模型深度学习
一、前言在当今人工智能技术迅猛发展的时代，各类人工智能模型如雨后春笋般不断涌现，其性能的优劣直接影响着应用的广度与深度。从自然语言处理到计算机视觉，从智能安防到医疗诊断，AI模型广泛应用于各个领域，人们对其准确性、稳定性和高效性的期望也与日俱增。在此背景下，DeepSeek模型的出现为行业带来了新的曙光。DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型，利用蒸馏
python中keras_Python深度学习——keras（一） weixin_39534321 python中keras
神经网络的核心组件是层(layer)，它是一种数据处理模块，可以看成是一个数据过滤器。进去一些数据，出来的数据变得更加有用(吃进去的是草，挤出来的是奶)。大多数深度学习，都是将若干个简单的层给链接起来，实现渐进式的数据过滤，也就是数据蒸馏(过滤到一定程度就等同于蒸馏)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist#加载keras中的mn
基于BiGRU的预测模型及其Python和MATLAB实现追蜻蜓追累了机器学习深度学习 cnn lstm 神经网络 gru 回归算法
##一、背景在当今快速发展的数据驱动的时代，尤其是在自然语言处理（NLP）、时间序列预测、语音识别等任务中，深度学习技术的应用已经变得越来越普遍。传统的机器学习算法往往无法很好地捕捉数据中的时序信息和上下文关系，因此深度学习中的循环神经网络（RNN）逐渐成为解决这一问题的重要工具。RNN能够处理序列数据，但它们在长序列数据的学习中存在梯度消失和梯度爆炸的问题。为了解决这些问题，长短期记忆网络（LS
Transformer预测模型及其Python和MATLAB实现追蜻蜓追累了 transformer 深度学习人工智能机器学习算法回归算法神经网络
###一、背景在自然语言处理（NLP）领域，传统的序列到序列（Seq2Seq）模型大多依赖于循环神经网络（RNN）和长短期记忆（LSTM）网络。这些模型虽然在许多任务中取得了成功，但由于其计算效率低下以及长距离依赖关系处理的不足，导致模型训练时间漫长，并在处理较长文本时效果不佳。2017年，Vaswani等人提出的Transformer模型在《AttentionisAllYouNeed》一文中引起
关于双塔模型的简单介绍 eso1983 python 算法推荐算法
双塔模型是一种常用于推荐系统和信息检索等领域的深度学习架构，其核心思想是将用户和物品分别映射到不同的向量空间，通过计算两个向量的相似度来预测用户对物品的偏好或相关性。1.python示例使用python语言来简单示例一下实现过程如下：importtensorflowastffromtensorflow.keras.layersimportInput,Dense,Embedding,Concaten
DeepSeek在协同过滤和深度学习技术中的应用场景 python算法(魔法师版) 深度学习人工智能
DeepSeek作为一个集成多种先进技术的平台，利用协同过滤和深度学习技术在多个领域实现了创新应用。以下是一些具体的场景和示例，展示了这些技术如何被应用于实际问题中。一、推荐系统电子商务协同过滤：在电商平台中，协同过滤用于根据用户的历史行为（如购买记录、浏览历史等）推荐相关商品。基于用户的相似性或项目的相似性来生成个性化推荐。Python深色版本fromsurpriseimportDataset,
一篇文章了解AI大神何凯明 Ai知识精灵人工智能
何凯明（KaimingHe）是一位在国际计算机视觉和深度学习领域享有盛誉的科学家。以下是对他的一些详细介绍：个人背景：何凯明出生于中国，后赴美国深造。他分别在2007年和2011年在清华大学获得学士和博士学位，专业是电子工程。职业经历：在完成博士学位后，何凯明加入了微软亚洲研究院（MicrosoftResearchAsia）。2015年，他加入了FacebookAIResearch（FAIR），成
MOE模型入门云帆@ AI 人工智能
一、目录定义：MOE架构代表类型如何解决expert平衡的？而不是集中到某一专家。如何训练、微调MOE模型？基础架构优缺点不同MOE模型实现方式、训练方法二、实现定义：MOE架构MOE:混合专家模型，多个专家共同决策的模型。实现：将transformer模型中的每个前馈网络(FFN)层替换为MoE层，其中MoE层由两个核心部分组成:一个路由器（或者叫门控网络）和若干数量的专家。代表类型谷歌MOE，
基于深度学习的物体分割技术：从理论到实践人工智能_SYBH 深度学习人工智能神经网络机器学习 lstm
1.引言物体分割（ObjectSegmentation）是计算机视觉中的一项核心任务，其目标是将图像中的不同物体或区域分离出来，通常分为语义分割和实例分割两种类型。随着深度学习的迅猛发展，尤其是卷积神经网络（CNN）的应用，物体分割技术已取得了显著的进展。它被广泛应用于医学影像分析、自动驾驶、视频监控、机器人感知等领域。在本篇博客中，我们将深入探讨基于深度学习的物体分割技术，介绍其发展历程、核心原
动手学PyTorch建模与应用：从深度学习到大模型王国平 pytorch 人工智能数据分析 python 数据挖掘
在人工智能时代，机器学习技术日新月异，深度学习是机器学习领域中一个全新的研究方向和应用热点，它是机器学习的一种，也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展，而且促进了人工智能技术的革新，已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域，具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南，重点介绍了基于P
AI浪潮下程序员的职业转型与技术进阶之路 nbsaas-boot 人工智能
一、引言1.1研究背景与意义在科技飞速发展的当今时代，人工智能（AI）无疑是最为耀眼的技术领域之一。从早期简单的专家系统到如今复杂的深度学习模型，AI技术经历了从理论探索到广泛应用的巨大跨越，正以前所未有的速度改变着我们的生活和工作方式。近年来，AI技术取得了一系列突破性进展。以GPT系列为代表的大型语言模型，展现出强大的自然语言处理能力，能够实现文本生成、对话交互、代码编写等多种任务。根据《20
TensorFlow实现卷积神经网络CNN 红叶骑士之初 Tensorflow
一、卷积神经网络CNN简介卷积神经网络（ConvolutionalNeuralNetwork，CNN）最初是为解决图像识别等问题设计的，CNN现在的应用已经不限于图像和视频，也可用于时间序列信号，比如音频信号和文本数据等。CNN作为一个深度学习架构被提出的最初诉求是降低对图像数据预处理的要求，避免复杂的特征工程。在卷积神经网络中，第一个卷积层会直接接受图像像素级的输入，每一层卷积（滤波器）都会提取
DeepSeek的出现对全球GPT产业产生的冲击不要em0啦机器学习 gpt
引言近年来，人工智能技术的迅猛发展推动了自然语言处理（NLP）领域的革命性进步。特别是以GPT（GenerativePre-trainedTransformer）系列模型为代表的大规模预训练语言模型，已经在全球范围内引发了广泛关注和应用。然而，随着技术的不断演进，新兴的GPT模型如DeepSeek的出现，正在对全球GPT产业产生深远的影响。本文将从技术、市场、应用场景和产业生态等多个维度，深入探讨
python 图像特征提取_python实现LBP方法提取图像纹理特征实现分类的步骤 weixin_39969060 python 图像特征提取
题目描述这篇博文是数字图像处理的大作业.题目描述:给定40张不同风格的纹理图片,大小为512*512,要求将每张图片分为大小相同的9块,利用其中的5块作为训练集,剩余的4块作为测试集,构建适当的模型实现图片的分类.图片如下图所示:分析:由于数据集太小,所以神经网络模型并不适合此类的图像处理.就需要寻找方法提取图像的纹理信息.本文采用LBP的方法提取图像的纹理信息,然后转化成直方图作为图像的特征,然
打架检测系统：基于YOLOv5的实时人群打架行为识别 2025年数学建模美赛 YOLO 深度学习 ui 计算机视觉视觉检测
1.引言打架检测，作为一个复杂且具有挑战性的任务，已经在多个领域展现出其巨大的应用潜力，尤其是在公共安全监控、安防摄像头、智能城市等应用场景中。通过深度学习技术，尤其是基于YOLOv5的目标检测，我们能够对实时视频流中的人群行为进行实时监控，并有效地检测和识别人群中的打架行为。本博客将详细介绍如何使用YOLOv5模型搭建一个打架检测系统，包含数据集准备、YOLOv5训练、UI界面设计以及优化和部署
深度学习目标检测中的_单目测距原理与实现关键点及改进建议 QQ_767172261 单目测距深度学习目标检测人工智能
深度学习目标检测中的_单目测距原理与实现关键点及改进建议文章目录单目测距的进一步解释1.焦距的确定2.物体宽度$W$的获取3.图像处理技巧4.提高性能的建议5.实现代码中的注释添加一、前言单目视觉测距：网上有很多关于单目测距的文章，主要借鉴的是OpenCV学习笔记（二十一）——简单的单目视觉测距尝试和单目摄像机测距（python+opencv）两篇文章，在这里特别作出说明。工作环境：Ubunt
高通modem架构_高通神经网络处理引擎SNPE分析与评测 weixin_39811036 高通modem架构
骁龙（SnapDragon）神经处理引擎（SNPE）是一个针对高通骁龙加速深层神经网络的运行时软件，高通在CSDN和其官网都提供了下载。本文以SNPE1.23为基准，将结合高通官方的SDK说明文档（高通在CSDN也提供了开发者社区，中文社区论坛，以及SNPE部分文档），介绍SNPE这一高通官方的神经网络处理引擎开发包。开发中有疑问可在高通的CreatePoint检索相关文档或者在SNPE论坛提交疑
神经架构搜索：自动化设计神经网络的方法俊星学长架构自动化神经网络
神经架构搜索：自动化设计神经网络的方法一、引言在深度学习领域，神经网络架构的设计对模型的性能具有至关重要的影响。传统的神经网络设计依赖于专家经验和大量实验，这一过程繁琐且耗时。为了解决这一问题，神经架构搜索（NeuralArchitectureSearch,NAS）应运而生。NAS是一种自动化设计神经网络架构的方法，旨在通过搜索最优的神经网络结构来提高模型性能。本文将详细介绍神经架构搜索的定义、产
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s