AI科技大本营

这么多年，终于有人讲清楚Transformer了

作者 | Jay Alammar

译者 | 香槟超新星，责编 | 夕颜

来源 | CSDN（ID:CSDNnews）

注意力机制是一种在现代深度学习模型中无处不在的方法，它有助于提高神经机器翻译应用程序性能的概念。在本文中，我们将介绍Transformer这种模型，它可以通过注意力机制来提高训练模型的速度。在特定任务中，Transformer的表现优于Google神经机器翻译模型。但是，最大的好处来自于Transformer如何适用于并行化。实际上，Google Cloud建议使用Transformer作为参考模型来使用其Cloud TPU产品。因此，我们试试将模型分解开吧，看看它是如何工作的。

Attention is All You Need一文中提出了Transformer。它的TensorFlow实现是Tensor2Tensor包的一部分。哈佛大学的NLP团队创建了一份指南，用PyTorch实现对这篇文章进行注释。在本文中，我们将试着尽可能地简化讲解，并逐一介绍概念，希望能让那些对这方面没有深入知识的人们更容易理解Transformer。

Transformer概览

首先，让我们先将模型视为一个黑盒。在机器翻译应用程序中，这个模型将拿一种语言中的一个句子，然后以另一种语言输出其翻译。

打开擎天柱的引擎盖（Optimus Prime，Transformer与变形金刚是同一个词，故而产生这个梗），我们能看到编码组件，解码组件，以及它们之间的连接。

编码组件是一个编码器组成的堆栈（论文上一个摞一个地堆叠了六个编码器——六这个数字本身没有什么神奇之处，人们肯定可以尝试其他个数）。解码组件是一个由相同数量的解码器组成的堆栈。

编码器的结构均相同（但它们权重不同）。每一层都可以被分为两个子层：

编码器的输入首先流经自注意力层，这一层可以帮助编码器在对特定单词进行编码时查看输入句子中的其他单词。稍后我们将会进一步关注自注意力层。

自注意层的输出被送到前馈神经网络（feed-forward neural network）。每个位置都独立应用了完全相同的前馈网络。

解码器也具有这两层，但是在它们之间还有一个注意力层，可以帮助解码器专注于输入语句的相关部分上（类似于seq2seq模型中的注意力机制）。

引入张量（Tensor）

现在，既然我们已经了解了模型的主要组成部分，那就开始研究一下各种向量/张量，以及它们在这些组成部分之间是如何流动的，才能使经过训练的模型把输入转化为输出。

通常，在NLP应用程序中，我们首先使用embedding算法将输入的每个字变成向量。

每个单词都被嵌入到大小为512的向量中。我们将用这些简单的框代表这些向量。

嵌入仅发生在最底层的编码器中。对于所有编码器都适用的抽象概念是，它们都会收到一系列向量，每个向量的大小均为512——在最底层的编码器中是单词的嵌入，但在其他编码器中将是直接在下面的编码器的输出。向量列表的大小是一个我们可以设置的超参数，基本上来说，这个参数就是训练数据集中最长句子的长度。

在将我们输入序列中的单词嵌入以后，每个单词都分别流经编码器的两层。

从这里开始，我们就可以看到Transformer的一个关键属性了，那就是每个位置的单词都沿着自己的路径流经编码器。自注意力层中的这些路径之间存在依赖性。但是，前馈层不具有这些依赖性，因此各种路径可以在流过前馈层的同时被并行执行。

接下来，我们将换一个较短的句子作为示例，然后看一下在编码器的每个子层中都发生了些什么。

现在，我们才是在编码！

正如我们已经提到的，编码器接收一个向量列表作为输入。它首先将这些向量传递到自注意力层，然后传递到前馈神经网络，然后将输出向上发送到下一个编码器，以这样的一个流程来处理向量列表。

每个位置的单词都会经过一个自注意力流程。然后，它们中的每个会都通过前馈神经网络——完全相同的网络，每个向量分别独立流过。

自注意力机制概览

不要因为我一直在讲“自注意力”（self-attention）这个词，就误认为这是每个人都应该熟悉的概念。在阅读Attention is All You Need论文之前，我自己从未碰到过这个概念。让我们来提炼总结一下它的工作原理。

比方说，下面的句子是我们要翻译的输入：

“The animal didn't cross the street because it was too tired.”

这句话中的“it”指的是什么？是指街道还是动物？对人类来说，这是一个简单的问题，但对算法而言却不那么简单。

当模型处理“ it”一词时，自注意力机制使其能够将“it”与“animal”相关联。

在模型处理每个单词（输入序列中的每个位置）时，自注意力使其能够查看输入序列中的其他位置，以寻找思路来更好地对该单词进行编码。

如果你熟悉RNN，请想一下如何通过保持隐状态来使RNN将其已处理的先前单词/向量的表示与当前正在处理的单词/向量进行合并。Transformer使用自注意力机制来将相关词的理解编码到当前词中。

当我们在编码器#5（堆栈中的顶部编码器）中对单词“ it”进行编码时，注意力机制的一部分集中在“The Animal”上，并将其表示的一部分合并到“it”的编码中。

一定要去看一下Tensor2Tensor notebook，你可以在在里面加载Transformer模型，并使用交互式可视化检查一下。

自注意力详解

首先，让我们看一下如何使用向量来计算自注意力，然后着眼于如何使用矩阵来实现。

计算自注意力的第一步是依据每个编码器的输入向量（在这种情况下，是每个单词的embedding）创建三个向量。因此，对于每个单词，我们创建一个Query向量，一个Key向量和一个Value向量。通过将embedding乘以我们在训练过程中训练的三个矩阵来创建这些向量。

请注意，这些新向量的维数小于embedding向量的维数。新向量的维数为64，而embedding和编码器输入/输出向量的维数为512。新向量不一定非要更小，这是为了使多头注意力（大部分）计算保持一致的结构性选择。

x1乘以WQ权重矩阵可得出q1，即与该单词关联的“Query”向量。我们最终为输入句子中的每个单词创建一个“Query”，一个“Key”和一个“Value”投射。

什么是“Query”，“Key”和“Value”向量？

它们是一种抽象，对于注意力的计算和思考方面非常有用。继续阅读下面的注意力计算方式，你几乎就能了解所有这些媒介所起的作用了。

计算自注意力的第二步是计算一个分数（score）。假设我们正在计算这个例子中第一个单词“Thinking”的自注意力。我们需要根据该单词对输入句子中的每个单词打分。这个分数决定了当我们为某个位置的单词编码时，在输入句子的其他部分上的重视程度。

分数是通过将Query向量的点积与我们要评分的各个单词的Key向量相乘得出的。因此，如果我们正在处理位置＃1上的单词的自注意，则第一个分数将是q1和k1的点积。第二个得分将是q1和k2的点积。

第三和第四步是将分数除以8（论文中使用的Key向量维数的平方根，即64。这将引入更稳定的渐变。此处也许会存在其他可能的值，但这是默认值），然后将结果通过一个softmax操作传递。Softmax对分数进行归一化，使它们均为正数，并且和为一。

这个softmax分数将会决定在这个位置上的单词会在多大程度上被表达。显然，当前位置单词的softmax得分最高，但有时候，注意一下与当前单词相关的另一个单词也会很有用。

第五步是将每个Value向量乘以softmax分数（对后续求和的准备工作）。这里直觉的反应是保持我们要关注的单词的value完整，并压过那些无关的单词（例如，通过把它们乘以0.001这样的很小的数）。

第六步是对加权向量进行求和。这将在此位置（对于第一个单词）产生自注意层的输出。

这样就完成了自注意力的计算。生成的向量是可以被发送到前馈神经网络的。但是，在实际的实现过程中，此计算以矩阵形式进行，以实现更快的处理速度。现在，看完了单词级计算，让我们接着看矩阵计算吧。

自注意力的矩阵计算

第一步是计算Query，Key和Value矩阵。我们将嵌入内容打包到矩阵X中，然后将其乘以我们训练过的权重矩阵（WQ，WK，WV）。

X矩阵中的每一行对应于输入句子中的一个单词。我们再次看到嵌入向量（图中的512或4个框）和q / k / v向量（图中的64或3个框）的大小差异。

最后，由于我们要处理的是矩阵，因此我们可以通过一个公式将步骤2到6压缩来计算自注意力的输出。

矩阵形式的自注意力计算

长着很多头的野兽

论文通过添加一种名为“多头”注意力的机制，进一步完善了自注意力层。这样可以通过两种方式提高注意力层的性能：

1、它扩展了模型专注于不同位置的能力。是的，在上面的例子中，z1包含所有其他编码的一小部分，但是它可能由实际单词本身主导。如果我们要翻译这样的句子，例如“The animal didn’t cross the street because it was too tired”，那么我们会想知道这里面的“it”指的是什么。

2、它为注意力层提供了多个“表示子空间”（representation subspaces）。正如我们接下来将要看到的，在多头注意力机制下，我们拥有多组Query/Key/Value权重矩阵（Transformer使用八个注意力头，因此每个编码器/解码器最终都能得到八组）。这些集合中的每一个都是随机初始化的。然后，在训练之后，将每个集合用于将输入的embedding（或来自较低编码器/解码器的向量）投影到不同的表示子空间中。

在多头注意力下，我们单独为每个头维护不同的Q / K / V权重矩阵，从而就会得到不同的Q / K / V矩阵。就像之前那样，我们将X乘以WQ / WK / WV矩阵以生成Q / K / V矩阵。

如果我们执行上面概述的自注意力计算，每次使用不同的权重矩阵，计算八次，我们最终将得到八个不同的Z矩阵。

这给我们带来了一些挑战。前馈层所预期的并不是8个矩阵，而是一个单一的矩阵（每个单词一个向量）。因此，我们需要一种方法来将这八个矩阵压缩为单个矩阵。

我们该怎么做？我们把这些矩阵合并，然后将它们乘以一个另外的权重矩阵WO。

这差不多就是多头注意力的全部内容。我发现其中的矩阵还是很多的。下面我试试将它们全部放在一个视图中，以便我们可以统一查看。

既然我们已经涉及到注意力头的内容，那么让我们重新回顾一下前面的例子，看看在示例句中对“ it”一词进行编码时，不同的注意力头关注的位置分别在哪：

当我们对“it”一词进行编码时，一个注意力头专注于“the animal”一词，而另一个则专注于“tired”一词——从某种意义上来说，模型对单词“it”的表示既依赖于对“animal”的表示又依赖于对“tired”的表示。

但是，如果我们将所有的注意力头都加到图片中，则可能会比较难以直观解释：

使用位置编码表示序列的顺序

到目前为止，我们对这个模型的描述中尚且缺少一种表示输入序列中单词顺序的方法。

为了解决这个问题，Transformer为每个输入的embedding添加一个向量。这些向量遵循模型学习的特定模式，能够帮助我们确定每个单词的位置，或序列中不同单词之间的距离。在这个地方我们的直觉会是，将这些值添加到embedding中后，一旦将它们投影到Q / K / V向量中，以及对注意力点积，就可以在embedding向量之间提供有意义的距离。

为了使模型感知到单词的顺序，我们添加了位置编码向量，它的值遵循特定的规律。

如果我们假设embedding的维数为4，则实际的位置编码则应如下图所示：

一个真实示例，其embedding大小为4的位置编码

这种规律看起来会是什么样的？

在下图中，每行对应一个向量的位置编码。因此，我们要把第一行添加到输入序列中第一个单词的embedding向量。每行包含512个值，每个值都在1到-1之间。我们对它们进行了颜色编码，从而使变化规律更加明显。

一个真实例子的位置编码，embedding大小为512（列），20个单词（行）。你会发现，它看起来像是从中心位置向下分开的。这是因为左半部分的值是由一个函数（使用正弦函数）生成的，而右半部分的值是由另一个函数（使用余弦函数）生成的。然后它们被合并起来形成每个位置的编码向量。

论文中描述了位置编码用到的公式（第3.5节）。你可以在get_timing_signal_1d（）中查看用于生成位置编码的代码。这不是唯一的位置编码方法。但是，它的优势在于能够放大到看不见的序列长度（例如，我们训练后的模型被要求翻译一个句子，而这个句子比我们训练集中的任何句子都长）。

（代码地址：

https://github.com/tensorflow/tensor2tensor/blob/23bd23b9830059fbc349381b70d9429b5c40a139/tensor2tensor/layers/common_attention.py）

2020年7月更新：上面显示的位置编码来自Transformer的Tranformer2Transformer实现。论文中用的方法略有不同，论文中没有直接链接，而是将两个信号交织。下面的图显示了这种方式的样子。这是用来生成它的代码：

https://github.com/jalammar/jalammar.github.io/blob/master/notebookes/transformer/transformer_positional_encoding_graph.ipynb

残差

在继续进行讲解之前，我们需要提一下编码器结构中的一个细节，那就是每个编码器中的每个子层（自注意力，ffnn）在其周围都有残差连接，后续再进行层归一化（layer-normalization）步骤。

（layer-normalization ：https://arxiv.org/abs/1607.06450）

如果我们要对向量和与自注意力相关的层规范操作进行可视化，则看起来应该像这样：

这也适用于解码器的子层。如果我们设想由2个编码器解码器堆栈组成的Transformer，它看起来像这样：

解码器端

现在，我们已经讲解了编码器方面的大多数概念，同时也基本了解了解码器各组件是如何工作的。然而，接下来让我们看一下它们如何协同。

编码器首先处理输入序列。然后，顶部编码器的输出转换为注意力向量K和V的集合。每个解码器将在其“编码器-解码器注意力”层中使用它们，这有助于解码器将重心放在输入序列中合适的位置：

在完成编码阶段之后，我们开始解码阶段。解码阶段的每个步骤都从输出序列中输出一个元素（在这个例子下，为语句的英文翻译）。

后续步骤一直重复该过程，直到得到一个特殊符号，标志着Transformer解码器已完成其输出。每个步骤的输出都被馈送到下一个步骤的底部解码器，并且解码器会像编码器一样，将其解码结果冒泡。就像我们对编码器输入所做的操作一样，我们给这些解码器输入做嵌入并添加位置编码来表示每个单词的位置。

解码器中的自注意力层与编码器中的略有不同：

在解码器中，自注意力层仅被允许参与到输出序列中的较早位置。这是通过在自注意力计算中的softmax步骤之前屏蔽将来的位置（将它们设置为-inf）来完成的。

“编码器-解码器注意力”层的工作方式与多头自注意力类似，不同之处在于它从下一层创建其Queries矩阵，并从编码器堆栈的输出中获取Keys和Values矩阵。

最终的线性层和Softmax层

解码器堆栈输出一组浮点数组成的向量。我们如何把它变成一个词？最后的线性层，以及它之后Softmax层做的就是这项工作。

线性层（he Linear layer）是一个简单的完全连接的神经网络，将解码器堆栈产生的向量投射到一个大得多的对数向量中。

我们假设自己的模型从训练数据集中共学会了10,000个不同的英语单词（我们模型的“输出词汇表”）。这将使对数向量的宽度变为10,000个单元，每个单元对应各个单词的得分。我们将会通过这样的方式来解释模型的输出。

然后，softmax层将会把这些分数转换为概率（全部为正数，各项相加和为1.0）。概率最高的单元被选中，且与该单元相关联的单词将成为该步的输出。

该图从底部开始，生成的向量作为解码器堆栈的输出，后续会被转换为文字输出。

训练过程回顾

现在，我们已经讲解了一个训练完毕的Transformer的前向过程，那么再看一下模型的训练过程也是很有用的。

在训练过程中，未经训练的模型将历经完全相同的前向过程。但是，由于我们正在用已标记的训练数据集对其进行训练，因此我们可以将其输出与正确的输出进行比较。

为了直观地视觉化讲解这一点，我们假设输出词汇表仅包含六个单词（“a”，“am”，“i”，“thanks”，“student”和“ ”（“end of sentence”的缩写））。

我们模型的输出词汇表是在预处理阶段创建的，那时候还没有开始训练。

一旦定义好了输出词汇表，我们就可以使用一个相同宽度的向量来表示词汇表中的每个单词了。这也被称为one-hot encoding。因此，例如，我们可以使用下面这个向量来表示单词“am”：

示例：我们输出词汇表的one-hot encoding

回顾完了之后，接下来让我们讨论一下模型的损失函数（loss function）——我们在训练阶段想要优化的指标，以期最终可以得到一个非常准确模型。

损失函数

假设我们正在训练我们的模型。假设这是我们训练阶段的第一步，我们用一个简单的例子训练它，使其将“merci”转换为“thanks”。

这意味着，我们希望输出的是一个能表示单词“thanks”的概率分布。但是，由于该模型尚未经过训练，因此目前这还不太可能发生。

由于模型的参数（权重）在初始化的的时候都是随机分配的，因此（未经训练的）模型为每个单元格/单词生成的概率分布值都是随机的。我们可以将其与实际输出进行比较，然后使用反向传播来调整所有模型的权重，让输出结果更接近我们想要的输出。

如何比较两个概率分布？我们只需用一个减去另一个就可以。欲知更多详细信息，请查阅交叉熵（cross-entropy）和Kullback-Leibler散度（Kullback–Leibler divergence）相关内容。

（https://colah.github.io/posts/2015-09-Visual-Information/

https://www.countbayesie.com/blog/2017/5/9/kullback-leibler-divergence-explained）

但是请注意，这个例子过于简单了。更贴近实际一点，我们将使用由不止一个单词组成的句子。例如，输入：“je suis étudiant”，预期输出：“I am a student”。这实际上意味着，我们希望自己的模型连续输出一些概率分布，其中：

每个概率分布都由一个宽度为vocab_size的向量表示（在我们的简单示例中vocab_size为6，但更贴近实际情况的数量往往为30,000或50,000）
第一个概率分布在单词“i”的相关单元中具有最高概率
第二个概率分布在单词“am”的相关单元中具有最高概率
依此类推，直到第五个输出分布标志着“ ”符号，该符号也具有自己的单元格，也处在10,000个元素词汇表中。

在训练示例中针对一个样本句子，我们将会参照这个目标概率分布训练我们的模型。

将模型在一个在足够大的数据集上训练足够长的时间之后，我们希望产生的概率分布能像下面这样：

理想情况下，经过训练，该模型将输出我们所期待的正确译文。当然，这并不能表明该短语是否属于训练数据集（请参阅：交叉验证https://www.youtube.com/watch?v=TIgfjmp-4BA）。请注意，即使不可能成为该步的输出，每个位置也会获得一点概率——这是softmax的一个非常有用的特性，可以帮助训练过程。

由于该模型每次生成一个输出，因此我们可以假定模型会从概率分布中选择具有最高概率的一个单词，然后丢弃其余的。这是其中的一种方法（称为贪婪解码，greedy decoding）。还有另一种方法是，比如先确定前两个单词（例如，“ I”和“ a”），然后下一步，运行模型两次：第一次假设第一个输出位置为单词“I”，第二次假设第一个输出位置是单词“a”，并且最终采用在位置＃1和＃2误差更小的版本。我们在#2和#3等位置重复此操作。此方法称为“beam search”，在我们举的例子中，beam_size为2（这意味着在内存中始终都保留有两个部分假设（未完成的翻译）），top_beams也为2（意味着我们将返回两份译文）。对于这些超参数你都可以自己进行试验。

阅读更多

希望本文能对你有用，让你能开始逐渐理解Transformer的主要概念。如果你想更进一步，建议按照以下步骤逐步学习：

阅读Attention is All You Need论文，Transformer博客文章（Transformer：A Novel Neural Network Architecture for Language Understanding）以及Tensor2Tensor公告。

博客地址：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

观看ŁukaszKaiser详细讲解模型的演讲

（https://www.youtube.com/watch?v=rBCqOTEfxvg）

探索Tensor2Tensor repo中提供的Jupyter Notebook
探索Tensor2Tensor repo

进一步学习：

Depthwise Separable Convolutions for Neural Machine Translation（https://arxiv.org/abs/1706.03059）
One Model To Learn Them All（https://arxiv.org/abs/1706.05137）
Discrete Autoencoders for Sequence Models（https://arxiv.org/abs/1801.09797）
Generating Wikipedia by Summarizing Long Sequences（https://arxiv.org/abs/1801.10198）
Image Transformer（https://arxiv.org/abs/1802.05751）
Training Tips for the Transformer Model（https://arxiv.org/abs/1804.00247）
Self-Attention with Relative Position Representations（https://arxiv.org/abs/1803.02155）
Fast Decoding in Sequence Models using Discrete Latent Variables（https://arxiv.org/abs/1803.03382）
Adafactor: Adaptive Learning Rates with Sublinear Memory Cost（https://arxiv.org/abs/1804.04235）

原文链接：

http://jalammar.github.io/illustrated-transformer/

本文为CSDN翻译文章，转载请注明出处。

更多精彩推荐

告别CNN？一张图等于16x16个字，计算机视觉也用上Transformer了
AI 还原康乾盛世三代皇帝的样貌，简直太太太好玩了！
四款5G版iPhone 12齐发，苹果股价却应声而跌
这么多年，终于有人讲清楚 Transformer 了！
什么才是真正的程序员？

你可能感兴趣的:(人工智能,深度学习,java,神经网络,python)

Java--方法递归
介绍：递归就是方法自己调用自己，每次调用时传入不同的变量，递归有助于编程者解决复杂问题，同时让代码变得简介。递归重要规则：1.执行一个方法时，就创建一个新的受保护的独立空间2.方法的局部变量是独立的，不会相互影响，比如n变量3.如果方法中使用的是引用类型变量（比如数组，对象），就会共享该引用类型的数据。4.递归必须向退出递归的条件逼近，否则就是无限递归，5.当一个方法执行完毕，或者遇到retur，
高效主机发现与端口枚举：fscan工具实战指南 Bruce_xiaowei 笔记总结经验网络安全 fscan 信息搜集
高效主机发现与端口枚举：fscan工具实战指南在网络安全领域，主机发现与端口枚举是渗透测试和信息收集的基础环节。本文将深入探讨fscan这一高效工具的核心技术原理与实战应用，帮助你快速掌握网络扫描的核心技能。一、fscan与Nmap工具对比特性fscanNmap开发语言Python3C++主要功能主机探测、端口扫描、漏洞检测主机发现、服务识别、OS检测爆破能力内置弱口令检测需配合其他工具扫描速度极
2025年上半年软考系统架构设计师--案例分析试题与答案不对法计算机软考机考系统架构
必选题一:大模型训练系统某公司开发一个在线大模型训练平台，支持Python代码编写、模型训练和部署,用户通过python编写模型代码,将代码交给系统进行模型代码的解析,最终由系统匹配相应的计算机资源进行输出，用户不需要关心底层硬件平台。a.系统发生错误时，不影响正常运行时发送一个消息给系统管理员(可靠性。ps:可靠性中包括了健壮性:指的是保护应用程序不受错误使用和错误输入的影响，在发生意外错误事件
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
苍穹外面Day10 guslegend python 数据库 java
SpringTaskSpringTask是Spring框架提供的任务调度工具，可以按照约定的时间自动执行某个代码逻辑。定位：定时任务框架作用：定时自动执行某段Java代码cron表达式cron表达式其实就是一个字符串，通过cron表达式可以定义任务触发的时间构成规则：分为6或7个域，由空格分隔开，每个域代表一个含义每个域的含义分别为：秒、分钟、小时、日、月、周、年(可选)举例：2022年10月12
关于JAVA中LIST元素修改的一个问题记录
在工作中有遇到一个问题，需要从既有获取数据库中的LIST数据，做一下对其中部分数据做处理存入另外一个LIST集合之中，但是，有些现象还是比较出乎我的意料的，模拟了一下相关场景，具体的代码如下：packagecom.interview.demo;importjava.util.ArrayList;importjava.util.List;classStudent{privateStringname;
服务器、树莓派/香橙派部署HomeAssistant与小爱音箱联动不对法物联网物联网
HomeAssistant功能介绍与多平台部署实战：CentOS服务器、树莓派、香橙派部署及小爱音箱联动控制一、HomeAssistant简介HomeAssistant是一款基于Python开发的开源智能家居自动化平台，它最大的特点是高度集成和自定义。通过HomeAssistant，用户可以将不同品牌、不同协议的智能家居设备（如空调、电灯、传感器等）整合到一个统一的平台进行管理和控制，同时还支持通
数据分析案例-全球表面温度数据可视化与统计分析艾派森数据分析信息可视化 python 数据分析数据挖掘
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
山西大同大学学生公寓管理系统（11402）
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
生信技能16 - 生信分析序列处理常用函数生信与基因组学生信分析项目实战技能合集 python numpy 数据分析
生信分析序列处理常用函数生信分析经常需要对序列进行处理，下面的实现代码可用于个人练习，可以让我们更好地理解序列处理的原理，当然python也有更高效率的包可以实现以下功能。read_seq_file读取序列txt文件函数count_nucletotides计算各核苷酸数量函数dna2rnaDNA序列转RNA序列函数seq_reverseDNA序列转换为互补序列函数count_GC_ratio计算序
Python 数据分析实践经验与学习心得 lzzy_sj_0999 python 数据分析开发语言
在当今数据驱动的时代，Python以其丰富的库和便捷的语法，成为数据分析领域的首选语言。本文将结合实际案例，分享Python数据分析的学习心得与实践经验，涵盖数据读取、清洗、分析及可视化等关键环节，希望能为大家的学习和工作提供帮助。一、数据分析必备库介绍在Python数据分析中，有几个核心库是必须掌握的，它们就像我们手中的“神兵利器”，能够高效完成各种数据分析任务。Pandas：用于数据处理和分析
MySQL(107)如何进行分片查询？辞暮尔尔-烟火年年 MySQL mysql 数据库
进行分片查询时，需要根据分片键确定查询应在哪些分片上执行。分片查询的复杂性在于需要处理跨分片查询的情况。以下是一个更为详细的示例，展示如何在分片数据库中进行查询，并结合Java代码进行实现。1.环境准备假设我们继续使用SpringBoot和MySQL，且需要查询的表是orders表。我们已经有了分片的数据库环境和数据源配置。2.项目依赖在pom.xml中添加必要的依赖：org.springfram
【分治算法】【Python实现】Strassen矩阵乘法「已注销」 #分治算法分治算法 Python
文章目录@[toc]问题描述基础算法时间复杂性Strassen算法时间复杂性问题时间复杂性Python实现个人主页：丷从心·系列专栏：分治算法学习指南：算法学习指南问题描述设AAA和BBB是两个n×nn\timesnn×n矩阵，AAA和BBB的乘积矩阵CCC中元素cij=∑k=1naikbkjc_{ij}=\displaystyle\sum\limits_{k=1}^{n}{a_{ik}b_{kj
MCP如何助力智能交通系统？从数据融合到精准决策 Echo_Wish Python 进阶 python 开发语言
MCP如何助力智能交通系统？从数据融合到精准决策近年来，智能交通系统（ITS）正在全球范围内快速发展，它结合人工智能（AI）、物联网（IoT）和数据分析，致力于提高交通效率、减少拥堵、增强安全性。而MCP（Multi-ConstraintPathfinding，多约束路径寻优）技术作为一种复杂路径优化算法，在智能交通系统中扮演着重要角色，尤其是在导航优化、公共交通调度、应急响应等场景。今天，我们就
AI如何提升个性化广告精准度——让投放更智能、更懂用户 Echo_Wish 前沿技术人工智能人工智能
AI如何提升个性化广告精准度——让投放更智能、更懂用户随着人工智能（AI）技术的发展，个性化广告已经从粗暴推送演变为智能匹配，广告主再也不想把预算砸给不感兴趣的人，而是精准触达有购买意向的用户。AI在广告投放中的核心优势在于深度数据分析、智能推荐、实时优化，让广告投放更精准、更有效。今天，我们就来聊聊AI如何提升个性化广告的精准度，并用Python代码演示其中的关键技术。1.为什么传统广告投放越来
AI框架之Spring AI与Spring Cloud Alibaba AI使用讲解 web13688565871 面试学习路线阿里巴巴人工智能 spring java
文章目录1AI框架1.1SpringAI简介1.2SpringAI使用1.2.1pom.xml1.2.2可实现的功能1.3SpringCloudAlibabaAI1.4SpringCloudAlibabaAI实践操作1.4.1pom.xml1.4.2配置文件1.4.3对接文本模型1.4.4文生图模型1.4.5语音合成模型1AI框架1.1SpringAI简介在软件开发的世界中，Java一直是企业级应
N-P准则下的多传感器融合(python) 不会打架的锤子机器学习自动化算法算法 python vscode
本文设计了一个主程序：main_sensor_fusion，和一个函数程序：cal_fuse。主程序里面包含主干部分和绘图部分，函数程序包含数据生成函数gen，检测概率计算函数cal，非0逻辑矩阵函数No_zero_value，单传感器判决函数fus_seq，多传感融合函数fusion。需要的点赞私聊if__name__=="__main__":begin_time=time()#Measurep
Python+Vue计算机毕业设计智慧养老院管理系统egn81（源码+程序+LW+部署）心心毕设程序源码 python vue.js 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Python3.7.7+Django+Mysql5.7+piplist+HBuilderX（Vscode也行）+Vue+Pychram社区版。项目技术：Django+Vue+Python+Mysql等等组成，B/S模式等等。环境需要1.运行环境：最好是安装Python3.7.7，我们在这个平台上运行的。其他版本理论上也
字节跳动Java开发面试题及参考答案（综合篇）大模型大数据攻城狮 java 后端面试大厂面试大厂校招加密算法 nacos 线程池
HTTP与HTTPS的区别？HTTP（超文本传输协议）和HTTPS（超文本传输安全协议）主要有以下区别。从安全性角度看，HTTP是明文传输协议，数据在网络中传输时是以原始文本的形式发送的。这就好比在信件传递过程中没有进行密封，任何中间节点（如路由器、代理服务器等）都可以查看信件内容。例如，用户登录一个网站时发送的用户名和密码信息，如果是通过HTTP协议传输，很容易被窃取。而HTTPS是加密的安全协
java项目启动报错‘dependencies.dependency.systemPath‘ for com.jacob:jacob:jar must specify an absolute path 橙-极纪元JJYCheng java dependencies systemPath
java项目启动报错’dependencies.dependency.systemPath’forcom.jacob:jacob:jarmustspecifyanabsolutepath我的建议请看《解决方案7-让Maven只专注拉取远程的第三方包》这样，你的Maven只专注拉取远程的第三方包其他操作交给编辑器如果你觉着这样不是你的风格请看《解决方案1-运行mvninstall:install-f
道可云人工智能每日资讯｜江苏首个机器人训练中心在苏州吴江启动道可云道可云人工智能人工智能机器人 ar DeepSeek xr 百度
道可云人工智能&元宇宙每日简报（2025年6月26日）讯，今日人工智能&元宇宙新鲜事有：江苏首个机器人训练中心在苏州吴江启动近日，长三角一体化示范区智能机器人训练中心在东太湖度假区（太湖新城）正式启用，成为江苏省首个机器人智能训练中心。该中心占地1500平方米，设有8个训练场景和30个生产工位，涵盖智能制造、商业服务、特种应用三大领域，年产数据可超200万条，旨在加速机器人从实验室走向真实产业场景
道可云人工智能每日资讯｜《辽宁省促进人工智能创新发展实施方案》发布道可云道可云人工智能人工智能 ar DeepSeek xr
道可云人工智能&元宇宙每日简报（2025年6月13日）讯，今日人工智能&元宇宙新鲜事有：《辽宁省促进人工智能创新发展实施方案》发布近日，辽宁省人民政府办公厅印发《辽宁省促进人工智能创新发展实施方案》。根据《实施方案》可知，到2027年，实现以沈阳、大连“双核”牵引辐射带动，各地协同共进，千行百业深度赋能，打造人工智能创新发展和融合应用的新高地。人工智能赋能可持续发展论坛于成都市天府国际会议中心举办
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能机器学习
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构引言欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要参加学术会议，发
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.1数据欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习人工智能
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.2深度学习模型2.2.1GlacierNet模型2.2.2DeepLabV3+模型欢迎铁子们点赞、关注、收藏！祝大
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k? 努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记人工智能
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?文章目录【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?一、什么是K折交叉验证？✅目的：二、K折交叉验证的发展背景三、K折交叉验证的步骤详解步骤如下：数学
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记机器学习人工智能
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。文章目录【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。一、背景与发展：为什么需要
Python在自动驾驶中的多传感器融合——让智能汽车“看得更清楚” Echo_Wish Python！实战！python 自动驾驶汽车
Python在自动驾驶中的多传感器融合——让智能汽车“看得更清楚”在自动驾驶技术的演进过程中，多传感器融合（Multi-SensorFusion）是不可或缺的一环。单一传感器往往存在局限性，例如摄像头怕光线变化，激光雷达价格昂贵，毫米波雷达分辨率有限，但如果将它们结合起来，就能形成一个更全面、更可靠的环境感知系统。今天，我们就来聊聊如何用Python实现自动驾驶中的多传感器融合，并结合最新技术趋势
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt