cloudless_sky

transformer框架+self-attention技术+和图的关系

注意力机制能够显著提高神经机器翻译任务的性能。本文将会看一看Transformer—加速训练注意力模型的方法。Transformers在很多特定任务上已经优于Google神经机器翻译模型了。不过其最大的优点在于它的并行化训练。
Transformer模型：

编码组件是一系列编码器的堆叠（文章中是6个编码器的堆叠——没什么特别的，你也可以试试其他的数字）。解码部分也是同样的堆叠数。
编码器在结构上都是一样的（但是它们不共享权重）。每个都可以分解成两个子模块：

编码器的输入首先流经self-attention层，该层有助于编码器对特定单词编码时查看输入序列的其他单词。本文后面将会详细介绍self-attention。
Self-attention层的输出被送入前馈神经网络。完全相同的前馈神经网络独立应用在每个位置。
解码器也具有这两层，但是这两层中间还插入了attention层，能帮助解码器注意输入句子的相关部分（和seq2seq模型的attention相同）。

上面我们看到了模型的主要部件，我们现在开始研究各种向量/张量以及他们如何在这些组件中流动来将训练好的模型的输入转换为输出。
和传统NLP任务一样，我们首先使用词嵌入来将每个输入单词转换为向量。

词嵌入仅发生在最底部的编码器中。所有编码器的共同之处是他们接收元素大小为512的向量列表——在最底部的编码器中这恰好是词嵌入后的大小，而在其他的编码器中这恰好是其下面编码器输出的大小。这个列表大小是我们设置的超参数----基本上它就是训练集中最长句子的大小。在输入序列中进行词嵌入后，每一个输入都将会流过编码器的两个层。

这里我们看到Transformer一个重要特性，每个位置的单词在经过编码器时流经自己的路径。self-attention层中这些路径之间有依赖关系。然而前馈层并不具有这些依赖关系，所以各种路径在流经前馈层时可以并行执行。下面我们将例子中句子换为更短的句子来看一下每个编码器中的子层发生了什么。

开始编码
上面提到过，编码器接受向量列表作为输入。编码器将向量列表传入self-attention层，之后进入前馈神经网络，然后再输出到下一个编码器。

更高的视角看self-attention

句子中“it”指的是什么？指street还是说animal呢？对人来说很简单的问题，对机器却很复杂。
当模型处理单词“it”时，self-attention 就可以使它指代“animal”。
当模型处理每个单词时（输入序列中每个位置），self-attention使得它可以查看输入序列的其他位置以便于更好的编码该单词。
如果你熟悉RNN，考虑一下如何维护隐藏层状态来更好的结合已经处理的先前的单词/向量与目前正在处理的单词/向量。Transformer使用self-attention来将其他相关单词的“理解”融入到目前正在处理的单词。

Self-Attention 细节
首先我们看看如何使用向量计算self-Attention，之后再研究它如何实现的———使用矩阵实现呗。

计算self-attention的第一步需要从每个编码器的输入向量（这个例子中是每个词的词嵌入表示）创建三个向量。因此，对于每个单词，我们创建一个Query向量，一个Key向量和一个Value向量。这些向量是通过将词嵌入(embedding)乘以在训练过程中训练的三个矩阵来创建的。

注意，这些新创建的向量的维度小于词嵌入向量(embedding vector)。它们（新创建的向量）的维度是64，而词嵌入和编码器的输入输出向量的维度是512。它们不必更小，这是一种架构选择，可以使多头注意力(multiheaded attention)计算不变。

那么，究竟什么是“query”，“key”，“value”向量呢？

计算self-attention的第二步是计算得分(score 权重)。假设我们正在计算例子中第一个单词"Thinking"的self-attention。我们需要根据这个词对输入句子的每个词进行评分。当我们在某个位置编码单词时，分数决定了对输入句子的其他部分放置多少的焦点(注意力)。

这里的分数是通过将"query"向量与我们正在评分的单词的“key”向量做点积来得到。所以如果我们计算位置#1处的单词的self-attention，第一个得分就是就是q1和k1的点积。第二个得分是q1和k2的点积。

第三第四是将分数除以8（论文中使用**“Key”向量维数的平方根**—64。这可以有更稳定的梯度。实际上还可以有其他可能的值，这里使用默认值），然后经过一个softmax操作后输出结果。Softmax可以将分数归一化，这样使得结果都是正数并且加起来等于1。

softmax后的分数决定了每个单词在这个位置被表达了多少。很明显该位置的这个词具有最高的softmax分数，但是有时候关注与当前单词相关的其它词更有用。

第五步 将每个值向量乘以softmax得分（准备将他们相加）。直觉上讲需要保持我们关注的单词的值不变，忽略掉不相关的单词（比如可以将它们乘以0.001这样的小数字）。

第六步对加权值向量求和。这样就产生了在这个位置的self-attention的输出（对于第一个单词）。

这就是self-attention计算。得到的向量可以送往前馈神经网络。然而在真正的实现中，计算过程通过矩阵计算来进行，以便加快计算。现在我们已经清楚了单词级别的计算过程。

Self-Attention的矩阵计算
第一步是计算Query, Key, Value矩阵。通过将词嵌入整合到矩阵X中，并将其乘以我们训练过的权重矩阵(WQ，WK，WV)来实现。

最后，由于我们在处理矩阵，我们可以将步骤2到步骤6合并为一个公式来计算self-attention层的输出。

来自https://blog.csdn.net/qq_44689178/article/details/123691354

多头注意力机制

这篇文章通过增加一种称为“多头”注意力的机制完善了self-attention层。这通过两种方式改善了注意力层的性能：

1、它扩展了模型关注不同位置的能力。在上面的例子中，Z1包含了每个其他编码的一点，但它可能由实际的单词本身支配。翻译句子：“The animal didn’t cross the street because it was too tired”，我们很想知道这里的“it”指代什么？这时候会很有帮助。
2、它给予attention层多个“表达子空间”。接下来会看到多头注意力有多组Query/ Key /Value权重矩阵（Transformer使用了8组注意力头，所以这里我们为每个编码器/解码器设置了8组），而不是简单的一组。每组集合都是随机初始化。之后在训练中每组用于将词嵌入（或来自较低层编码器/解码器的输出）映射到不同的表达子空间。

如果我们进行上面概述提到的相同的self-attention计算，在8个不同的时间使用8个不同的权重矩阵，最终将会得到8个不同的Z矩阵。

这就有点麻烦了。因为前馈神经网络层并不是期望8个矩阵，而是需要一个矩阵（每个单词一个向量）。所以我们需要将这8个矩阵整合成一个矩阵。

怎么办？我们将8个矩阵连接起来然后乘以一个单独的矩阵WO。

这就是多头注意力的全部内容。这仅是一小部分的矩阵。我们把这些矩阵都放到一个图解中，更容易总览全局：

现在我们已经粗略了解了注意力头了，我们重新审视之前的例子，看看在例子中编码单词“it”的时候，不同的注意力头关注在哪里？

然而当我们把所有注意力头都在图上画出来时，可能就有点难以理解了：

使用位置编码表示序列顺序
到目前为止我们还未考虑输入序列中单词顺序的问题。为解决这个问题，Transformer为每个输入的词嵌入增加了一个向量。这些向量遵循模型学习到的特定模式，这有助于确定每个单词的位置，或者学习到不同单词之间的距离。直觉告诉我们，将这些值添加到词嵌入之中可以在计算点积注意和将词嵌入映射到 Q/K/V 向量时提供有意义的距离信息。

All need is the attention的描述：由于我们的模型不包含递归性和卷积，为了使模型利用序列的顺序，我们必须注入一些关于序列中标记的相对或绝对位置的信息。为此，我们在编码器和解码器堆栈的底部的输入嵌入中添加“位置编码”。位置编码与嵌入具有相同的维数d，因此两者可以求和。有许多位置编码的选择，被学习到的和固定的。

如果假定词嵌入维度为4，那真实的位置编码（维度也是4，方便相加）如下：

这种模式究竟看起来如何呢？

下图中，每一行对应一个向量的位置编码。因此第一行就是输入序列中第一个单词的词嵌入向量。每行包含512个值—每个值介于-1到1之间。这里我们进行了涂色，使模式可见。注意：该例子中共20个词（行），词嵌入向量维度为512维(列)，位置编码也有512维。不要被上个例子中的4个迷惑了。

位置编码的公式：

其中pos是位置，i是维度。也就是说，**位置编码的每个维度都对应于一个正弦曲线。**波长形成了一个从2π到10000·2π的几何级数。我们选择这个函数是因为我们假设它允许模型容易地学习相对位置，因为对于任何固定的偏移量k，PEpos+k可以表示为PEpos的线性函数。

你可以在 get_timing_signal_1d() 函数中看到用于生成位置编码的代码。这并不是生成位置编码的唯一方式。然而，它的优点在于可以扩展到看不见的序列长度（eg. 如果要翻译的句子的长度远长于训练集中最长的句子）。

残差连接
需要注意一下：编码器架构中每个编码器中每个子层（self-attention, ffnn）都在其周围有残差连接，之后就是层标准化(layer-normalization)步骤。

如果将向量和self-attention层的标准化操作可视化，它会如下所示：

这也适用于解码器的子层。如果我们想看到堆叠两个编码器和解码器的Transformer，它将如下所示：

解码器
我们已经介绍了编码器的的大部分概念，相信大家都知道解码器如何工作的。现在我们看一下它们是如何协同工作的。
编码器开始处理输入序列。然后将顶部编码器的输出变换为一组注意力向量K和V。这些将在每个解码器的“encoder-decoder attention” 层使用，这有助于解码器集中注意力在输入序列的合适位置：

接下来的步骤会一直重复此过程，直到遇到结束符。下一时间步骤中，每个步骤的输出被发送到其底部解码器中，解码器就像编码器那样弹出他们的解码结果。就像对编码器输入所做的那样，我们对解码器输入中嵌入位置进行编码来指示每个词的位置。

解码器中的self-attention层与编码器中的操作方式略有不同：

在解码器中，仅允许 self-attention层关注输出序列中较早的位置。这是通过在计算self-attention中softmax步骤前屏蔽未来位置（将它们设置为-inf）实现的。
“Encoder-Decoder Attention” 层就像多头注意力(multiheader self-attention)一样工作———而**“Encoder-Decoder Attention” 层从其下面的层创建其Queries矩阵，并从编码器堆栈的输出中获取Keys和Values矩阵。**

最后的线性层和softmax层
解码器堆叠(decoder stack)输出浮点数向量。如何将其转换为一个单词？这就是最后Softmax层后线性层的工作了。

线性层是一个简单的全连接神经网络，它将解码器堆叠(decoder stack)产生的向量映射到一个更大更大的向量中去，这个向量称为logits向量。

假设模型有10000个单独的英文单词（模型的“输出词汇表”），这是从训练集中学到的。这使得logits向量有10,000个单元的宽度 ———每个单元对应一个唯一单词的得分。这样就解释了线性层后面的模型输出。

softmax层将这些分数转化为概率(全部为正数，加起来为1.0)。选择具有最高概率的单元，并将与其相关的单词作为本时间步的输出。

当我们在标记的训练集上训练的时候，我们可以将它的输出与真实的标签进行对比。
可视化理解一下，当我们假设输出词汇仅包含6个单词（“a”, “am”, “i”, “thanks”, “student”, “”）。

一旦定义了输出词汇表，就可以使用相同宽度(大小)的向量来表示词汇表中的每个单词了。这就是one-hot编码。例如，可以使用如下向量来表示单词“am”：

损失函数
假设我们正在训练模型，这是训练一个简单例子的第一步，比如将“merci”翻译为“thanks”。
我们如何理解这个翻译任务？这意味着我们希望输出一个指向“thanks”的概率分布。但是模型还未训练好，它输出极有可能是这个样子：

怎么来比较两个概率分布呢？可以简单地一个减去另一个。更多详细信息，就需要看一下交叉熵和 KL散度。

注意，这是一个过度简化的例子。更现实一点的是，我们将使用更长一些的句子而不是单个单词。比如：输入：“je suis étudiant” ，期望输出：“I am a student”。这意味着我们希望模型能够输出一个如下的连续概率分布：

每个概率分布都被表达成宽度为 vocab_size 的向量。（在我们这个玩具模型中是6。现实一点的数字往往是3,000或10,000）
第一个概率分布在与单词”I“相关联的单元处有最高概率。
第二个概率分布在与单词”am“相关联的单元处有最高概率。
以此类推，直到第五个输出分布表示 ‘’ ，这个符号也与10,000个元素的单词表中某个单元相关联。

在足够大的数据集中训练模型足够长的时间后，我们希望生成的概率分布如下所示：

期望通过训练，模型会输出我们期望的正确翻译。不过这也并不能说明什么———如果这个短语是训练集的一部分的话（参考：交叉验证）。注意，每个位置即便不是该时间步的输出，它也会获得一点的概率值——这就是softmax有用的地方。现在因为模型一次产生一个输出，我们可以假设模型从该概率分布中选择具有最高概率的单词并丢弃其他可能的单词。这种方法称为贪婪解码。另一种方法是保持住该词的前两个候选（比如是“I”和“a”），在下一步解码中运行模型两次：一旦假设第一个输出位置是单词“I”，另一次假设输出位置是“me”，考虑#1和#2位置，保留错误较少的那个候选版本… 这种方法称为“集束搜索(beam search)”，在这个例子中，beam_size是2（因为我们比较了两个位置#1，#2后给出的结果），top_beams也是2（因为我们保留了2个词）。这都是试验中可以尝试的超参数。

以下来自视频 https://www.youtube.com/watch?v=TQQlZhbC5ps
编解码过程详解实例：英语翻译成法语
RNN就像一个传送带，需要顺序依次输入每个单词；而transformer可以同时输入多个单词，因为内部是并行的；

嵌入（假设是英语）与位置编码相加，形成输入向量；编码器经过多头注意力机制得到attention向量；attention向量经过前向神经网络并行将每一个attention vector转化成下一层编码器或者解码器可以消化的格式，再经过层归一化提高训练效率。

解码器：

将已经输出的法语经过embedding得到嵌入，和来自编码器的英语的向量，一起经过一个编解码attention层；

为对应的英语和法语生成相似的attention向量；

刚刚被翻译出来的法语的嵌入被作为output embedding，和位置编码相加后送入多头注意力机制，masked是指训练的时候后面未翻译的单词的标签被置为0，前向线性层是为了把向量映射成法语单词数，softmax将其转换为人类可以解释的概率分布，最终单词是与总体概率最高的单词相对应。在多个句子步长上执行该操作，直到解码出结束标志。
因为output embedding只能用已经翻译出来的法语句子的部分，所以把标签里后面的部分遮住；

归一化可以加快模型的训练速度。

以下：原来Transformer就是一种图神经网络，这个概念你清楚吗？
https://m.thepaper.cn/baijiahao_6255298
将长句 S 中的第 i 个单词的隐藏特征 h 从 ℓ 层更新至ℓ+1 层：

其中 j∈S 为句子中单词的集合，Q^ℓ、Kℓ、V^ℓ为可学习的线性权重（分别表示注意力计算的 Query、Key 以及 Value）。针对句子中每个单词的并行执行注意力机制，从而在 one shot 中（在 RNNs 转换器上的另外一点，逐字地更新特征）获取它们的更新特征。

考虑到 h_j^l； ∀j∈S 句中 h_i^l 和其他词的特征，通过点积计算每对（i，j）的注意力权重，然后在所有 j 上计算出 softmax。最后通过所有 h_j^l 的权重进行相应的加权，得到更新后的单词特征 h_i^l+1。

多头注意力机制

让点积注意力机制发挥作用是被证明较为棘手：糟糕的随机初始化可能会破坏学习过程的稳定性，此情况可以通过并行执行多头注意力将结果连接起来，从而克服这个问题（而每个「head」都有单独的可学习权重）：

其中 Q^k,ℓ、Kk,ℓ、V^k,ℓ是第 K 个注意力 head 的可学习权重，O^ℓ 是向下的投影，用以匹配 h_i^l+1 和 h_i^l 跨层的维度。
此外，多头允许注意力机制从本质上做「对冲」，从上一层看不同的转换或隐藏特征方面。

尺度问题和前向传播子层

一个推动 Transformer 的关键问题是**词的特征在经过了注意力机制后可能会有不同的尺度：**1）这可能是因为在相加之后，有些词有非常高或分布注意力权重 w_ij；2）在独立特征/向量输入阶段，将多个注意力头级联（每个注意力头都可能输出不同尺度的值），最终会导致最后的向量 h_i^ℓ+1 有不同的值。根据传统的 ML 思路，似乎增加一个归一化层是个合理的选择。

Transformer 克服了这一点，因为它使用了 LayerNorm，可以在特征层级归一和学习一个仿射变化。此外，Transformer 使用平方根来缩放点乘规模。

最终，Transformer 的作者还提出了另一个小窍门，用来控制尺度——一个有着特殊架构的、位置级别的双层全连接层。在多头注意力之后，它们会使用可学习权重来映射 h_i^ℓ+1 到一个更高维度。这其中使用了 ReLU 非线性，然后再将它映射会原有的维度，并使用另一个归一化操作。

在很多深度网络中，Transformer 架构是可以调整的，使得 NLP 社区可以从模型参数量和数据层面提升其规模。而残差连接也是堆栈 Transformer 层的关键。

GNN 构建图展示

图神经网络（GNNs）或图卷积网络（GCNs）在图形数据中建立节点和边的表示。通过邻域聚合（或者信息传递）来实现这一点，每一个节点从其相邻处收集特征，用以更新其相邻本地图结构的表示。堆叠多个 GNN 层能够使模型在整个图中传播每个节点的特征，从相邻处扩散到相邻处的相邻处，等等。

以社交网络为例：由 GNN 产生的节点特征可以用于预测，比如识别最有影响力的成员或提供潜在的联系。
在最基本的形式中，GNNs 更新了第一层节点 i 的隐藏特征 h，并通过节点自身特征 h_i^l 的非线性转换添加到每个相邻节点 j∈N(i) 的特征 h_i^l 集合中：

其中 U^l,Vl 是 GNN 层的可学习矩阵，类似于 ReLU 的非线性矩阵。

领域 j 节点 j∈N(i) 上的和可以用其他输入大小不变的聚合函数来代替，如简单的均值/最大值或者是其他更有效的函数，比如通过注意机制得到的加权和。

如果我们采用邻域聚合的多个并行 head，用注意机制（即加权和）代替邻域 J 上的和，我们就得到了图注意网络（GAT）。添加正则化和前馈 MLP 就得到了 Graph Transformer。
https://blog.csdn.net/qq_45836365/article/details/122757107

句子就是全连接词语的图

为了让 Transformer 和图神经网络的关系更直接，我们可以将一个句子想象为一个全连接图，每个词都和其余的词相连接。现在，我们使用图神经网路来构建每个节点（词）的特征，这是之后可以在其他 NLP 任务中用到的。

广义来说，这其实就是 Transformer 所做的事情。它们实际上就是有着多头注意力（作为集群聚合函数：neighbourhood aggregation function）的 GNN。标准的 GNN 从局部集群节点 j∈N(i) 中聚合特征，而 Transformer 则将整个句子 S 视为一个局部集群，在每个层中从每个词 j∈S 获得聚合特征。

重要的是，各种针对问题的技巧，如位置编码、masked 聚合、规划学习率和额外的预训练——对于 Transformer 的成功很重要，但是很少在 GNN 中见到。同时，从 GNN 的角度来看 Transformer，可以帮助我们在架构上舍弃很多无用的部分。

可以从 Transformers 和 GNN 学到什么？

现在我们已经建立起了 Transformers 与 GNN 之间的联系，那么以下一些问题也就随之而来：

全连接图对于 NLP 来说是最佳的输入格式吗？

在统计型 NLP 和 ML 出现之前，诺姆·乔姆斯基等语言学家着重创建语言结构的形式化理论，如语法树/图等。Tree-LSTM 就是其中一种尝试，但 Transformers 或者 GNN 架构是否能够更好地拉近语言学理论和统计型 NLP 呢？这又是一个问题。
如何学习长期依赖（long-term dependency）

全连接图的另一个问题是它们会使得学习单词之间的长期依赖变得困难。这仅仅取决于全连接图中的边数如何随着节点数而呈平方地扩展，例如在包含 n 个单词的句子中，Transformer 或者 GNN 将计算 n^2 个单词对。n 数越大，计算愈加困难。

NLP 社区对于长序列和依赖的观点很有趣，即为了获得更好的 Transformers，我们可以在考虑输入大小的时候执行稀疏或自适应的注意力机制，在每一层添加递归或压缩，以及使用局部敏感哈希来实现有效注意力。

所以，融合 GNN 社区的一些观点有可能收获显著的效果，例如用于句子图稀疏化的二元分区（binary partitioning）似乎就是一个不错的方法。

交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
机器学习数学基础-极值和最值华东算法王（原聪明的小孩子小孩哥解析宋浩微积分机器学习算法人工智能
极值和最值极值和最值是数学中关于函数变化的重要概念，它们描述了函数在某些点附近或在整个定义域内的“最大”或“最小”行为。理解极值和最值对优化问题、函数分析、物理建模等领域有重要的应用。1.极值（LocalExtrema）极值是指函数在某个区间内的某一点取得的局部最大值或最小值。(1)局部最大值（LocalMaximum）一个函数在某点(x=c)取得局部最大值，意味着存在一个包含(c)的小区间，使得
一文看懂llama2（原理&模型&训练） Qpeterqiufengyi llama
自从Transformer架构问世以来，大型语言模型（LargeLanguageModels,LLMs）以及AIGC技术的发展速度惊人，它们不仅在技术层面取得了重大突破，还在商业应用、社会影响等多个层面展现出巨大潜力。随着ChatGPT的推出，这一技术日益走进大众视野，这也预示着一个由生成式AI塑造的未来正在加速到来。与此同时，MetaAIMetaAI在2023年推出了LLama（LargeLan
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
提升YOLOv8性能：用Swin Transformer替换Backbone的详细实现与分析【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLOv8 YOLO 目标跟踪
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录YOLOv8改进|主干篇|SwinTransformer替换Backbone（附代码+详细修改步骤+
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）学术菜鸟小晨千问多模型 qwen2 vl
一、简介VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM）的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多GPU环境下的推理速度和效率。VLLM的核心特点包括：显存高效性：VLLM能够动态管理显存，
使用Python实现LLM的文本生成：风格迁移与内容控制二进制独立开发 GenAI与Python 非纯粹GenAI python 开发语言人工智能自然语言处理分布式语言模型 transformer
文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移4.内容控制4.1内容控制的基本原理4.2使用Python实现内容控制5.高级技巧与优化5.1多轮对话生成5.2生成参数优化6.应用场景与未来展望结论引言随着自然语言处理（NLP）技术的快速发
qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习模型推理速度/吞吐量计算(附代码） Scabbards_ 1500深度学习笔记深度学习人工智能
参考博文：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247546551&idx=2&sn=f198b6365e11f0a18832ff1203302632&chksm=ebb70e63dcc0877569d1838b2391744be628bf6cbb6e203a49f855e0769ecbbbf5a9929fe2db&scene
PyTorch使用教程- Tensor包 Loving_enjoy 论文 pytorch 人工智能
###PyTorch使用教程-Tensor包PyTorch是一个流行的深度学习框架，它提供了一个易于使用的API来创建和操作张量（Tensors）。张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。本文将详细介绍PyTorch中的Tensor包，包括张量的创建、运算、形状变换、索引与切片、以及重要的张量处理方式。####一、张量的创建在PyTorch中，可以
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
机器学习-期末测试难以触及的高度机器学习 python 人工智能
机器学习-期末测试线性回归1.代码展示#coding=UTF-8#拆分训练集和测试集importmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_split#是线性回归类是sklearn写好的根据梯度下降法fromsklearn.linear_modelimportLinearRegressionimportpand
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题 Loving_enjoy 论文深度学习计算机视觉人工智能
###Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题####引言在金融领域中，欺诈检测是一项至关重要的任务。然而，欺诈交易数据往往呈现出正负样本极度不平衡的特点，这给机器学习模型的训练带来了挑战。传统的分类算法在面对这种不平衡数据时，往往会导致模型对多数类（正常交易）过拟合，而对少数类（欺诈交易）的识别能力较差。为了解决这个问题，生成对抗网络（GAN）提供了一种有效的手
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

transformer框架+self-attention技术+和图的关系

你可能感兴趣的:(深度学习,研究生机器学习,transformer)