无意识积累中

深度学习基础----Transformer（简单图解版+细节版）

好看视频版

transformer对于RNN比较直观的功能理解：

RNN是单向的，按照时间顺序进行的，所以像此句中的“他”，“它”是很难得到理解的。
所以，相较之下transformer的优势是：
- 结合句子理解上下文语义。
- 并行执行，堆叠多层解决LSTM训练太慢，不能多层的问题。
- 不分先后顺序提取单个词与整句话中其它词的关系，解决单项信息流问题。

参考视频：https://haokan.baidu.com/v?vid=2085943961213514205

transformer比较简单直观的结构：

总体分为四层：
- 输入层
- 文本的向量表示层
- transformer encoder层
- 最终特征层

（一）向量表示层：

文本的信息由：字向量+文本向量+位置向量拼接而成
位置向量(重点关注一下, 也变成了其它地方的trick): 解决了时序问题, 先后位置关系问题. 不用像RNN一样等一个输入完了之后再下一个输入.

（二）transformer encoder 层

(二.1)由self-attention拆分组成multi-head-attention层

解决RNN不能并行问题.
self-attention解决单个词和句中其它词的关系问题.
multi-head-attention可以提取多个语义的表达

(二.2)合并multi-head-attention数据与传入向量数据合并归一化

合并: 向量层 +(直接) multi-head-attention: 相当于一个残差网络
归一化(优点): 梯度反向传播的时候容易求导, 容易计算
相当于一个残差网络: 因为层数的增加并不一定使得网络的效果更好, shortcut使得最起码不会比已有的差

(二.3)全连接层

对特征进行放大

(二.4)合并上一层归一化层和全连接层合并归一化

(和上面的残差归一化层一样)

(二.5)下游任务层: 进行情感分析, 阅读理解, 序列标注...

视频参考: https://haokan.baidu.com/v?vid=1610822505726764527

（三）最终特征层

位置向量的原理和作用:??????

虽然这个视频讲得不怎么样,但是还是放在这: https://haokan.baidu.com/v?vid=4677311838408474595

CSDN翻译版:

Transformer概览

首先，让我们先将模型视为一个黑盒。在机器翻译应用程序中，这个模型将拿一种语言中的一个句子，然后以另一种语言输出其翻译。

打开擎天柱的引擎盖（Optimus Prime，Transformer与变形金刚是同一个词，故而产生这个梗），我们能看到编码组件，解码组件，以及它们之间的连接。

编码组件是一个编码器组成的堆栈（论文上一个摞一个地堆叠了六个编码器——六这个数字本身没有什么神奇之处，人们肯定可以尝试其他个数）。解码组件是一个由相同数量的解码器组成的堆栈。

编码器的结构均相同（但它们权重不同）。每一层都可以被分为两个子层：

编码器的输入首先流经自注意力层，这一层可以帮助编码器在对特定单词进行编码时查看输入句子中的其他单词。稍后我们将会进一步关注自注意力层。

自注意层的输出被送到前馈神经网络（feed-forward neural network）。每个位置都独立应用了完全相同的前馈网络。

解码器也具有这两层，但是在它们之间还有一个注意力层，可以帮助解码器专注于输入语句的相关部分上（类似于seq2seq模型中的注意力机制）。

引入张量（Tensor）

现在，既然我们已经了解了模型的主要组成部分，那就开始研究一下各种向量/张量，以及它们在这些组成部分之间是如何流动的，才能使经过训练的模型把输入转化为输出。

通常，在NLP应用程序中，我们首先使用embedding算法将输入的每个字变成向量。

每个单词都被嵌入到大小为512的向量中。我们将用这些简单的框代表这些向量。

嵌入仅发生在最底层的编码器中。对于所有编码器都适用的抽象概念是，它们都会收到一系列向量，每个向量的大小均为512——在最底层的编码器中是单词的嵌入，但在其他编码器中将是直接在下面的编码器的输出。向量列表的大小是一个我们可以设置的超参数，基本上来说，这个参数就是训练数据集中最长句子的长度。

在将我们输入序列中的单词嵌入以后，每个单词都分别流经编码器的两层。

从这里开始，我们就可以看到Transformer的一个关键属性了，那就是每个位置的单词都沿着自己的路径流经编码器。自注意力层中的这些路径之间存在依赖性。但是，前馈层不具有这些依赖性，因此各种路径可以在流过前馈层的同时被并行执行。

接下来，我们将换一个较短的句子作为示例，然后看一下在编码器的每个子层中都发生了些什么。

现在，我们才是在编码！

正如我们已经提到的，编码器接收一个向量列表作为输入。它首先将这些向量传递到自注意力层，然后传递到前馈神经网络，然后将输出向上发送到下一个编码器，以这样的一个流程来处理向量列表。

每个位置的单词都会经过一个自注意力流程。然后，它们中的每个会都通过前馈神经网络——完全相同的网络，每个向量分别独立流过。

自注意力机制概览

不要因为我一直在讲“自注意力”（self-attention）这个词，就误认为这是每个人都应该熟悉的概念。在阅读Attention is All You Need论文之前，我自己从未碰到过这个概念。让我们来提炼总结一下它的工作原理。

比方说，下面的句子是我们要翻译的输入：

“The animal didn't cross the street because it was too tired.”

这句话中的“it”指的是什么？是指街道还是动物？对人类来说，这是一个简单的问题，但对算法而言却不那么简单。

当模型处理“ it”一词时，自注意力机制使其能够将“it”与“animal”相关联。

在模型处理每个单词（输入序列中的每个位置）时，自注意力使其能够查看输入序列中的其他位置，以寻找思路来更好地对该单词进行编码。

如果你熟悉RNN，请想一下如何通过保持隐状态来使RNN将其已处理的先前单词/向量的表示与当前正在处理的单词/向量进行合并。Transformer使用自注意力机制来将相关词的理解编码到当前词中。

当我们在编码器#5（堆栈中的顶部编码器）中对单词“ it”进行编码时，注意力机制的一部分集中在“The Animal”上，并将其表示的一部分合并到“it”的编码中。

一定要去看一下Tensor2Tensor notebook，你可以在在里面加载Transformer模型，并使用交互式可视化检查一下。

以下矩阵形式是正片(敲代码,写论文之用):

自注意力详解

首先，让我们看一下如何使用向量来计算自注意力，然后着眼于如何使用矩阵来实现。

计算自注意力的第一步是依据每个编码器的输入向量（在这种情况下，是每个单词的embedding）创建三个向量。因此，对于每个单词，我们创建一个Query向量，一个Key向量和一个Value向量。通过将embedding乘以我们在训练过程中训练的三个矩阵来创建这些向量。

请注意，这些新向量的维数小于embedding向量的维数。新向量的维数为64，而embedding和编码器输入/输出向量的维数为512。新向量不一定非要更小，这是为了使多头注意力（大部分）计算保持一致的结构性选择。

x1乘以WQ权重矩阵可得出q1，即与该单词关联的“Query”向量。我们最终为输入句子中的每个单词创建一个“Query”，一个“Key”和一个“Value”投射。

什么是“Query”，“Key”和“Value”向量？

它们是一种抽象，对于注意力的计算和思考方面非常有用。继续阅读下面的注意力计算方式，你几乎就能了解所有这些媒介所起的作用了。

计算自注意力的第二步是计算一个分数（score）。假设我们正在计算这个例子中第一个单词“Thinking”的自注意力。我们需要根据该单词对输入句子中的每个单词打分。这个分数决定了当我们为某个位置的单词编码时，在输入句子的其他部分上的重视程度。

分数是通过将Query向量的点积与我们要评分的各个单词的Key向量相乘得出的。因此，如果我们正在处理位置＃1上的单词的自注意，则第一个分数将是q1和k1的点积。第二个得分将是q1和k2的点积。

第三和第四步是将分数除以8（论文中使用的Key向量维数的平方根，即64。这将引入更稳定的渐变。此处也许会存在其他可能的值，但这是默认值），然后将结果通过一个softmax操作传递。Softmax对分数进行归一化，使它们均为正数，并且和为一。

这个softmax分数将会决定在这个位置上的单词会在多大程度上被表达。显然，当前位置单词的softmax得分最高，但有时候，注意一下与当前单词相关的另一个单词也会很有用。

第五步是将每个Value向量乘以softmax分数（对后续求和的准备工作）。这里直觉的反应是保持我们要关注的单词的value完整，并压过那些无关的单词（例如，通过把它们乘以0.001这样的很小的数）。

第六步是对加权向量进行求和。这将在此位置（对于第一个单词）产生自注意层的输出。

这样就完成了自注意力的计算。生成的向量是可以被发送到前馈神经网络的。但是，在实际的实现过程中，此计算以矩阵形式进行，以实现更快的处理速度。现在，看完了单词级计算，让我们接着看矩阵计算吧。

自注意力的矩阵计算

第一步是计算Query，Key和Value矩阵。我们将嵌入内容打包到矩阵X中，然后将其乘以我们训练过的权重矩阵（WQ，WK，WV）。

X矩阵中的每一行对应于输入句子中的一个单词。我们再次看到嵌入向量（图中的512或4个框）和q / k / v向量（图中的64或3个框）的大小差异。

最后，由于我们要处理的是矩阵，因此我们可以通过一个公式将步骤2到6压缩来计算自注意力的输出。

矩阵形式的自注意力计算

长着很多头的野兽

论文通过添加一种名为“多头”注意力的机制，进一步完善了自注意力层。这样可以通过两种方式提高注意力层的性能：

1、它扩展了模型专注于不同位置的能力。是的，在上面的例子中，z1包含所有其他编码的一小部分，但是它可能由实际单词本身主导。如果我们要翻译这样的句子，例如“The animal didn’t cross the street because it was too tired”，那么我们会想知道这里面的“it”指的是什么。

2、它为注意力层提供了多个“表示子空间”（representation subspaces）。正如我们接下来将要看到的，在多头注意力机制下，我们拥有多组Query/Key/Value权重矩阵（Transformer使用八个注意力头，因此每个编码器/解码器最终都能得到八组）。这些集合中的每一个都是随机初始化的。然后，在训练之后，将每个集合用于将输入的embedding（或来自较低编码器/解码器的向量）投影到不同的表示子空间中。

在多头注意力下，我们单独为每个头维护不同的Q / K / V权重矩阵，从而就会得到不同的Q / K / V矩阵。就像之前那样，我们将X乘以WQ / WK / WV矩阵以生成Q / K / V矩阵。

如果我们执行上面概述的自注意力计算，每次使用不同的权重矩阵，计算八次，我们最终将得到八个不同的Z矩阵。

这给我们带来了一些挑战。前馈层所预期的并不是8个矩阵，而是一个单一的矩阵（每个单词一个向量）。因此，我们需要一种方法来将这八个矩阵压缩为单个矩阵。

我们该怎么做？我们把这些矩阵合并，然后将它们乘以一个另外的权重矩阵WO。

这差不多就是多头注意力的全部内容。我发现其中的矩阵还是很多的。下面我试试将它们全部放在一个视图中，以便我们可以统一查看。

既然我们已经涉及到注意力头的内容，那么让我们重新回顾一下前面的例子，看看在示例句中对“ it”一词进行编码时，不同的注意力头关注的位置分别在哪：

当我们对“it”一词进行编码时，一个注意力头专注于“the animal”一词，而另一个则专注于“tired”一词——从某种意义上来说，模型对单词“it”的表示既依赖于对“animal”的表示又依赖于对“tired”的表示。

但是，如果我们将所有的注意力头都加到图片中，则可能会比较难以直观解释：

使用位置编码表示序列的顺序

到目前为止，我们对这个模型的描述中尚且缺少一种表示输入序列中单词顺序的方法。

为了解决这个问题，Transformer为每个输入的embedding添加一个向量。这些向量遵循模型学习的特定模式，能够帮助我们确定每个单词的位置，或序列中不同单词之间的距离。在这个地方我们的直觉会是，将这些值添加到embedding中后，一旦将它们投影到Q / K / V向量中，以及对注意力点积，就可以在embedding向量之间提供有意义的距离。

(图中的意思好像就是累加起来, 而不是拼接起来)

为了使模型感知到单词的顺序，我们添加了位置编码向量，它的值遵循特定的规律。

如果我们假设embedding的维数为4，则实际的位置编码则应如下图所示：

一个真实示例，其embedding大小为4的位置编码

这种规律看起来会是什么样的？

在下图中，每行对应一个向量的位置编码。因此，我们要把第一行添加到输入序列中第一个单词的embedding向量。每行包含512个值，每个值都在1到-1之间。我们对它们进行了颜色编码，从而使变化规律更加明显。

一个真实例子的位置编码，embedding大小为512（列），20个单词（行）。你会发现，它看起来像是从中心位置向下分开的。这是因为左半部分的值是由一个函数（使用正弦函数）生成的，而右半部分的值是由另一个函数（使用余弦函数）生成的。然后它们被合并起来形成每个位置的编码向量。

论文中描述了位置编码用到的公式（第3.5节）。你可以在get_timing_signal_1d（）中查看用于生成位置编码的代码。这不是唯一的位置编码方法。但是，它的优势在于能够放大到看不见的序列长度（例如，我们训练后的模型被要求翻译一个句子，而这个句子比我们训练集中的任何句子都长）。

（代码地址：

https://github.com/tensorflow/tensor2tensor/blob/23bd23b9830059fbc349381b70d9429b5c40a139/tensor2tensor/layers/common_attention.py）

2020年7月更新：上面显示的位置编码来自Transformer的Tranformer2Transformer实现。论文中用的方法略有不同，论文中没有直接链接，而是将两个信号交织。下面的图显示了这种方式的样子。这是用来生成它的代码：

https://github.com/jalammar/jalammar.github.io/blob/master/notebookes/transformer/transformer_positional_encoding_graph.ipynb

残差

在继续进行讲解之前，我们需要提一下编码器结构中的一个细节，那就是每个编码器中的每个子层（自注意力，ffnn）在其周围都有残差连接，后续再进行层归一化（layer-normalization）步骤。

（layer-normalization ：https://arxiv.org/abs/1607.06450）

如果我们要对向量和与自注意力相关的层规范操作进行可视化，则看起来应该像这样：

这也适用于解码器的子层。如果我们设想由2个编码器解码器堆栈组成的Transformer，它看起来像这样：

解码器端

现在，我们已经讲解了编码器方面的大多数概念，同时也基本了解了解码器各组件是如何工作的。然而，接下来让我们看一下它们如何协同。

编码器首先处理输入序列。然后，顶部编码器的输出转换为注意力向量K和V的集合。每个解码器将在其“编码器-解码器注意力”层中使用它们，这有助于解码器将重心放在输入序列中合适的位置：

在完成编码阶段之后，我们开始解码阶段。解码阶段的每个步骤都从输出序列中输出一个元素（在这个例子下，为语句的英文翻译）。

后续步骤一直重复该过程，直到得到一个特殊符号，标志着Transformer解码器已完成其输出。每个步骤的输出都被馈送到下一个步骤的底部解码器，并且解码器会像编码器一样，将其解码结果冒泡。就像我们对编码器输入所做的操作一样，我们给这些解码器输入做嵌入并添加位置编码来表示每个单词的位置。

解码器中的自注意力层与编码器中的略有不同：

在解码器中，自注意力层仅被允许参与到输出序列中的较早位置。这是通过在自注意力计算中的softmax步骤之前屏蔽将来的位置（将它们设置为-inf）来完成的。

“编码器-解码器注意力”层的工作方式与多头自注意力类似，不同之处在于它从下一层创建其Queries矩阵，并从编码器堆栈的输出中获取Keys和Values矩阵。

最终的线性层和Softmax层

解码器堆栈输出一组浮点数组成的向量。我们如何把它变成一个词？最后的线性层，以及它之后Softmax层做的就是这项工作。

线性层（he Linear layer）是一个简单的完全连接的神经网络，将解码器堆栈产生的向量投射到一个大得多的对数向量中。

我们假设自己的模型从训练数据集中共学会了10,000个不同的英语单词（我们模型的“输出词汇表”）。这将使对数向量的宽度变为10,000个单元，每个单元对应各个单词的得分。我们将会通过这样的方式来解释模型的输出。

然后，softmax层将会把这些分数转换为概率（全部为正数，各项相加和为1.0）。概率最高的单元被选中，且与该单元相关联的单词将成为该步的输出。

该图从底部开始，生成的向量作为解码器堆栈的输出，后续会被转换为文字输出。

训练过程回顾

现在，我们已经讲解了一个训练完毕的Transformer的前向过程，那么再看一下模型的训练过程也是很有用的。

在训练过程中，未经训练的模型将历经完全相同的前向过程。但是，由于我们正在用已标记的训练数据集对其进行训练，因此我们可以将其输出与正确的输出进行比较。

为了直观地视觉化讲解这一点，我们假设输出词汇表仅包含六个单词（“a”，“am”，“i”，“thanks”，“student”和“ ”（“end of sentence”的缩写））。

我们模型的输出词汇表是在预处理阶段创建的，那时候还没有开始训练。

一旦定义好了输出词汇表，我们就可以使用一个相同宽度的向量来表示词汇表中的每个单词了。这也被称为one-hot encoding。因此，例如，我们可以使用下面这个向量来表示单词“am”：

示例：我们输出词汇表的one-hot encoding

回顾完了之后，接下来让我们讨论一下模型的损失函数（loss function）——我们在训练阶段想要优化的指标，以期最终可以得到一个非常准确模型。

损失函数

假设我们正在训练我们的模型。假设这是我们训练阶段的第一步，我们用一个简单的例子训练它，使其将“merci”转换为“thanks”。

这意味着，我们希望输出的是一个能表示单词“thanks”的概率分布。但是，由于该模型尚未经过训练，因此目前这还不太可能发生。

由于模型的参数（权重）在初始化的的时候都是随机分配的，因此（未经训练的）模型为每个单元格/单词生成的概率分布值都是随机的。我们可以将其与实际输出进行比较，然后使用反向传播来调整所有模型的权重，让输出结果更接近我们想要的输出。

如何比较两个概率分布？我们只需用一个减去另一个就可以。欲知更多详细信息，请查阅交叉熵（cross-entropy）和Kullback-Leibler散度（Kullback–Leibler divergence）相关内容。

（https://colah.github.io/posts/2015-09-Visual-Information/

https://www.countbayesie.com/blog/2017/5/9/kullback-leibler-divergence-explained）

但是请注意，这个例子过于简单了。更贴近实际一点，我们将使用由不止一个单词组成的句子。例如，输入：“je suis étudiant”，预期输出：“I am a student”。这实际上意味着，我们希望自己的模型连续输出一些概率分布，其中：

每个概率分布都由一个宽度为vocab_size的向量表示（在我们的简单示例中vocab_size为6，但更贴近实际情况的数量往往为30,000或50,000）
第一个概率分布在单词“i”的相关单元中具有最高概率
第二个概率分布在单词“am”的相关单元中具有最高概率
依此类推，直到第五个输出分布标志着“ ”符号，该符号也具有自己的单元格，也处在10,000个元素词汇表中。

在训练示例中针对一个样本句子，我们将会参照这个目标概率分布训练我们的模型。

将模型在一个在足够大的数据集上训练足够长的时间之后，我们希望产生的概率分布能像下面这样：

理想情况下，经过训练，该模型将输出我们所期待的正确译文。当然，这并不能表明该短语是否属于训练数据集（请参阅：交叉验证https://www.youtube.com/watch?v=TIgfjmp-4BA）。请注意，即使不可能成为该步的输出，每个位置也会获得一点概率——这是softmax的一个非常有用的特性，可以帮助训练过程。

由于该模型每次生成一个输出，因此我们可以假定模型会从概率分布中选择具有最高概率的一个单词，然后丢弃其余的。这是其中的一种方法（称为贪婪解码，greedy decoding）。还有另一种方法是，比如先确定前两个单词（例如，“ I”和“ a”），然后下一步，运行模型两次：第一次假设第一个输出位置为单词“I”，第二次假设第一个输出位置是单词“a”，并且最终采用在位置＃1和＃2误差更小的版本。我们在#2和#3等位置重复此操作。此方法称为“beam search”，在我们举的例子中，beam_size为2（这意味着在内存中始终都保留有两个部分假设（未完成的翻译）），top_beams也为2（意味着我们将返回两份译文）。对于这些超参数你都可以自己进行试验。

阅读更多

希望本文能对你有用，让你能开始逐渐理解Transformer的主要概念。如果你想更进一步，建议按照以下步骤逐步学习：

阅读Attention is All You Need论文，Transformer博客文章（Transformer：A Novel Neural Network Architecture for Language Understanding）以及Tensor2Tensor公告。

博客地址：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

观看ŁukaszKaiser详细讲解模型的演讲

（https://www.youtube.com/watch?v=rBCqOTEfxvg）

探索Tensor2Tensor repo中提供的Jupyter Notebook
探索Tensor2Tensor repo

进一步学习：

Depthwise Separable Convolutions for Neural Machine Translation（https://arxiv.org/abs/1706.03059）
One Model To Learn Them All（https://arxiv.org/abs/1706.05137）
Discrete Autoencoders for Sequence Models（https://arxiv.org/abs/1801.09797）
Generating Wikipedia by Summarizing Long Sequences（https://arxiv.org/abs/1801.10198）
Image Transformer（https://arxiv.org/abs/1802.05751）
Training Tips for the Transformer Model（https://arxiv.org/abs/1804.00247）
Self-Attention with Relative Position Representations（https://arxiv.org/abs/1803.02155）
Fast Decoding in Sequence Models using Discrete Latent Variables（https://arxiv.org/abs/1803.03382）
Adafactor: Adaptive Learning Rates with Sublinear Memory Cost（https://arxiv.org/abs/1804.04235）

参考文章: http://jalammar.github.io/illustrated-transformer/

参考视频：https://www.bilibili.com/video/BV1sE411Y7cP?from=search&seid=13367569567436166529

你可能感兴趣的:(注意力机制,深度学习基础)

轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
《自然语言处理 Transformer 模型详解》黑色叉腰丶大魔王自然语言处理 transformer 人工智能
一、引言在自然语言处理领域，Transformer模型的出现是一个重大的突破。它摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）架构，完全基于注意力机制，在机器翻译、文本生成、问答系统等众多任务中取得了卓越的性能。本文将深入讲解Transformer模型的原理、结构和应用。二、Transformer模型的背景在Transformer出现之前，RNN及其变体（如LSTM和GRU）是自然语言
验证resneXt，densenet，mobilenet和SENet的特色结构 dfj77477 人工智能 python
简介图像分类对网络结构的要求，一个是精度，另一个是速度。这两个需求推动了网络结构的发展。resneXt：分组卷积，降低了网络参数个数。densenet：密集的跳连接。mobilenet：标准卷积分解成深度卷积和逐点卷积，即深度分离卷积。SENet：注意力机制。简单起见，使用了[1]的代码，注释掉layer4，作为基本框架resnet14。然后改变局部结构，验证分类效果。实验结果GPU：gtx107
微积分在神经架构搜索中的应用光剑书架上的书深度强化学习原理与实战元学习原理与实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
微积分在神经架构搜索中的应用1.背景介绍随着深度学习技术的飞速发展,神经网络模型的复杂度也在不断提高,从最初的简单全连接网络,到如今的卷积神经网络、循环神经网络、注意力机制等各种复杂的神经网络架构。这些先进的神经网络架构大大提高了深度学习模型的性能,但同时也给神经网络的设计和调优带来了巨大的挑战。手工设计神经网络架构通常需要大量的专业知识和经验积累,过程繁琐复杂,难以推广。为了解决这一问题,神经架
CVPR 2021 | 即插即用！ CA：新注意力机制，助力分类/检测/分割涨点！ Akita·wang 文献解析paper python 机器学习人工智能深度学习计算机视觉
摘要最近关于移动网络设计的研究已经证明了通道注意(例如，挤压和激发注意)对于提升模型性能的显著效果，但是它们通常忽略位置信息，而位置信息对于生成空间选择性注意图是重要的。本文提出了一种新的移动网络注意机制，将位置信息嵌入到信道注意中，我们称之为“协同注意”。与通过2D全局汇集将特征张量转换为单个特征向量的通道注意力不同，坐标注意力将通道注意力分解为两个1D特征编码过程，这两个过程分别沿两个空间方向
Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用 Funhpc_huachen transformer bert gpt 语言模型深度学习
作为AI智能大模型的专家训练师，我将从主流模型框架的角度来分析其核心技术特点及其在不同实际行业中的应用。我们重点讨论以下几个主流模型框架：Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用。1.Transformer框架Transformer是一种基础的深度学习模型架构，由Google于2017年提出。它引入了注意力机制（Self-Attention）
Transformer模型在文本摘要任务中的应用与性能分析 liuxin33445566 transformer 深度学习人工智能
Transformer模型自从由Vaswani等人在2017年提出以来，已经在自然语言处理（NLP）的多个领域取得了显著的成果，尤其是在文本摘要任务中。文本摘要是将长文本转换成更短的、包含关键信息的文本的过程。本文将探讨Transformer模型在文本摘要任务中的应用，并分析其性能表现。1.Transformer模型简介Transformer模型是一种基于自注意力机制的神经网络架构，它摆脱了传统的
爆改YOLOv8|利用yolov10的PSA注意力机制改进yolov8-高效涨点不想敲代码！！！爆改yolov8 即插即用 YOLO yolov8 目标检测 python 人工智能
1，本文介绍PSA是一种改进的自注意力机制，旨在提升模型的效率和准确性。传统的自注意力机制需要计算所有位置对之间的注意力，这会导致计算复杂度高和训练时间长。PSA通过引入极化因子来减少需要计算的注意力对的数量，从而降低计算负担。极化因子是一个向量，通过与每个位置的向量点积，确定哪些位置需要计算注意力。这种方法可以在保持模型准确度的前提下，显著减少计算量，从而提升自注意力机制的效率。关于PSA的详细
You Only Cache Once: Decoder-Decoder Architectures for Language Models YiHanXii 语言模型人工智能自然语言处理
这篇论文介绍了一种名为YOCO（YouOnlyCacheOnce）的新型解码器-解码器架构，专为大型语言模型设计，以提高推理效率和性能。以下是其核心内容的总结：YOCO架构关键特点：双重解码器结构：YOCO由自解码器和交叉解码器两部分组成，自解码器生成全局键值（KV）缓存，交叉解码器通过交叉注意力机制重用这些缓存。单次缓存：与标准Transformer相比，YOCO只缓存一次KV对，显著减少了GP
深度学习算法——Transformer fw菜菜数学建模深度学习 transformer 人工智能数学建模 python pytorch
参考教材：动手学pytorch一、模型介绍Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层。尽管Transformer最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习领域。Transformer作为编码器－解码器架构的一个实例，其整体架构图在下图中展示。正如所见到的，Trans‐former是由编码器和解码器
深度学习基础之循环神经网络 Ctrl+CV九段手机器学习和深度学习 rnn 深度学习神经网络人工智能机器学习学习
目录基本概念与特点定义与工作原理结构组成应用领域自然语言处理语音识别时间序列分析优缺点优点缺点改进方法总结循环神经网络在自然语言处理中的最新应用和研究进展是什么？长短期记忆网络（LSTM）与门控循环单元（GRU）在解决梯度消失和爆炸问题上的具体差异和优势是什么？LSTM的结构与优势GRU的结构与优势具体差异门的数量：计算复杂度：性能对比：总结双向循环神经网络如何增强模型的上下文捕捉能力，与单向RN
计算机视觉之 GSoP 注意力模块 Midsummer-逐梦计算机视觉（CV）深度学习机器学习人工智能
计算机视觉之GSoP注意力模块一、简介GSopBlock是一个自定义的神经网络模块，主要用于实现GSoP（GlobalSecond-orderPooling）注意力机制。GSoP注意力机制通过计算输入特征的协方差矩阵，捕捉全局二阶统计信息，从而增强模型的表达能力。原论文：《GlobalSecond-orderPoolingConvolutionalNetworks(arxiv.org)》二、语法和
大语言模型诞生、探索和爆发阶段花开盛夏^.^ 人工智能语言模型人工智能自然语言处理
大语言模型的发展可以分为几个阶段，每个阶段都有其特点和发展重点。以下是大致的时间线以及各个阶段的特点：一、大语言模型诞生阶段这一阶段大约从2017年末到2019年初，期间出现了几个关键的技术突破，这些技术奠定了现代大语言模型的基础。2017年：Google发表了Transformer架构，这是一种基于自注意力机制的神经网络架构，它彻底改变了自然语言处理（NLP）领域，使得大规模并行化处理成为可能，
Transformer面试真题详解——覆盖99%的Transformer面试问题（建议收藏）爱睡觉的咋 LLM transformer 深度学习人工智能
文章目录1.请简述一下Transformer的基本结构和原理2.Transformer为什么使用多头注意力机制3.Transformer计算attention为什么选择点乘而不是加法？两个计算复杂度和效果上有什么区别？4.为什么在softmax之后要对attention进行scaled（为什么除以d_k的平方根）5.在计算attentionscore时，如何对padding做mask操作6.简单介
【论文笔记】Training language models to follow instructions with human feedback B部分 Ctrl+Alt+L 大模型论文整理论文笔记论文阅读语言模型人工智能自然语言处理
TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer的叠加解码器（掩码自注意力机制、残差、Layernorm）；下游各种具体任务的适应是通过在模型架构的输出后增加线性权重WyW_{y}Wy实
unet各模块内容的理解（包含注意力机制、残差、以及数据维度的变化）云梦之上 #扩散模型系统性学习人工智能神经网络 pytorch
文章目录attention机制Unet的各个模块的设计①残差块②下块做一次残差，做一次自注意力③上块：这里做了skipconnect，做一次残差，做一次注意力④中块：做两次残差和一次自注意力⑤上采样：通道数不变，长宽翻两倍⑥下采样：通道数不变，长宽缩小到原来的一半整个unet模块unet模块的示意图参考的unet代码unet代码attention机制参考内容:超详细图解Self-Attention
总结：大模型技术栈---算法与原理 lichunericli LLM零碎知识人工智能自然语言处理算法
原文地址：大模型技术栈-算法与原理1.tokenizer方法word-levelchar-levelsubword-levelBPEWordPieceUniLMSentencePieceByteBPE2.positionencoding绝对位置编码ROPEAliBi相对位置编码Transformer-XLT5/TUPEDeBERTa3.注意力机制Mamba,H3,Hyena,RetNet,RWKV
YOLOv9独家改进：一种高效移动应用的卷积加性自注意Vision Transformer AI小怪兽 YOLOv9魔术师 YOLO transformer 深度学习开发语言人工智能 python
本文独家改进：轻量化改进之高效移动应用的卷积加性自注意VisionTransformer，构建了一个新颖且高效实现方式——卷积加性相似度函数，并提出了一种名为卷积加性标记混合器（CATM）的简化方法来降低计算开销《YOLOv9魔术师专栏》将从以下各个方向进行创新：【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化】【SPPEL
Unet改进10：在不同位置添加CPCA||通道先验卷积注意力机制 AICurator Unet改进专栏深度学习神经网络 unet 语义分割
本文内容：在不同位置添加CPCA注意力机制目录论文简介1.步骤一2.步骤二3.步骤三4.步骤四论文简介低对比度和显著的器官形状变化等特征经常出现在医学图像中。现有注意机制的自适应能力普遍不足，限制了医学影像分割性能的提高。本文提出了一种有效的通道先验卷积注意(CPCA)方法，该方法支持通道和空间维度上注意权重的动态分布。通过采用多尺度深度卷积模块，有效地提取空间关系，同时保留先验通道。CPCA具有
YOLOv8改进 | 注意力篇 | YOLOv8引入SimAM注意力机制小李学AI YOLOv8有效涨点专栏 YOLO 深度学习计算机视觉目标检测人工智能机器学习神经网络
1.SimAM介绍1.1摘要：在本文中，我们提出了一个概念上简单但非常有效的卷积神经网络（ConvNets）注意力模块。与现有的通道和空间注意力模块相比，我们的模块为层中的特征图推断3D注意力权重，而不向原始网络添加参数。具体来说，我们基于一些著名的神经科学理论，提出优化能量函数来找到每个神经元的重要性。我们进一步推导了能量函数的快速封闭式解决方案，并表明该解决方案可以用不到十行代码来实现。该模块
YOLOv10改进 | 独家创新- 注意力篇 | YOLOv10引入结合EMAttention和ParNetAttention形成全新的EPA注意力机制和C2f_EPA(全网独家创新) 小李学AI YOLOv10有效涨点专栏 YOLO 深度学习计算机视觉人工智能目标检测机器学习神经网络
1.EPAAttention介绍EPAAttention注意力机制综合了EMAttention和ParNetAttention的优势，能够更有效地提取图像特征。(1).综合性与多样性EPAAttention结合了两种不同的注意力机制，充分利用了EMAttention的分组归一化和特征增强能力，以及ParNetAttention的空间注意力和全局特征提取能力。通过这种多样化的组合，EPAAttent
大模型训练和推理李明朔 AIGC 深度学习人工智能
文章目录一、NLP基础1.Tokenizer2.positionencoding3.注意力机制与transformer架构二、大模型训练1.SFT训练2.RLHF训练3.分布式并行训练技术（1）模型并行（2）数据并行4.MoE技术4.PEFT训练5.上下文扩展技术三、大模型推理1.模型压缩（1）剪枝（2）量化2.显存优化技术3.调度优化技术4.请求优化技术5.采样和解码加速6.模型并行策略7.其他
爆改yolov8|利用BSAM改进YOLOv8，高效涨点不想敲代码！！！爆改yolov8 即插即用 YOLO yolov8 目标检测人工智能深度学习
1，本文介绍BSAM基于CBAM进行改进，经实测在多个数据集上都有涨点。BSAM（BiLevelSpatialAttentionModule）是一个用于提升深度学习模型在空间特征处理中的能力的模块。它主要通过双层注意力机制来增强模型对重要空间信息的关注，从而提升任务性能。核心特点：双层空间注意力：BSAM结合了两个层次的注意力机制——全局和局部。全局注意力捕捉图像或特征图的整体信息，而局部注意力则
爆改YOLOv8 | yolov8添加MSDA注意力机制不想敲代码！！！爆改yolov8 即插即用 YOLO 深度学习人工智能 yolov8 目标检测
1，本文介绍MSDA（多尺度扩张注意力）模块通过自注意力机制在不同尺度上有效地捕捉特征的稀疏性。它首先通过线性投影生成特征图(X)的查询、键和值。然后，将特征图的通道划分为(n)个头部，在每个头部中使用不同的扩张率进行多尺度的自注意力操作。具体来说，MSDA按以下步骤操作：对每个头部(i)进行自注意力处理，并将所有头部的输出连接在一起，之后通过线性层进行特征融合。通过为不同头部设置不同的扩张率，M
爆改YOLOv8 | yolov8添加GAM注意力机制不想敲代码！！！爆改yolov8 即插即用 YOLO yolov8 目标检测人工智能计算机视觉
1，本文介绍GAM（GlobalAttentionMechanism）旨在改进传统注意力机制的不足，特别是在通道和空间维度上的信息保留问题。它通过顺序的通道-空间注意力机制来解决这些问题。以下是GAM的关键设计和实现细节：通道注意力子模块：3D排列：使用3D排列来在三个维度上保留信息，这种方法有助于捕捉更多维度的特征。两层MLP：通过一个两层的多层感知机（MLP）增强跨维度的通道-空间依赖性，提升
基于霜冰优化算法(RIME)优化CNN-BiGUR-Attention风电功率预测研究（Matlab代码实现）程序辅导帮算法 cnn matlab
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、技术概述1.霜冰优化算法（RIME）2.卷积神经网络（CNN）3.双向门控循环单元（BiGRU）4.注意力机制（AttentionMechanism）三、研究内容与方法四、预期成果与贡献五、结论与展望2运行结果3参考文献4Mat
语音识别技能汇总语音不识别语音识别语音识别人工智能 linux python
语音识别技能汇总常见问题汇总importwarningswarnings.filterwarnings('ignore')基础知识Attention-注意力机制原理：人在说话的时候或者读取文字的时候，是根据某个关键字或者多个关键字来判断某些句子或者说话内容的含义的。即通过对上下文的内容增加不同的权重，可以实现这样对局部内容关注更多。常用语音识别工具相关包的安装pipinstallpygameSpe
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><