tangjunjun-owen

Attention Is All You Need原理与代码详细解读

文章目录

前言
一、Transformer结构的原理
- 1、Transform结构
- 2、位置编码公式
- 3、transformer公式
- 4、FFN结构
二、Encode模块代码解读
- 1、编码数据
- 2、文本Embedding编码
- 3、位置position编码
- 4、Attention编码
- 5、FFN编码
三、Decode模块代码解读
- 1、编码数据
- 2、文本Embedding与位置编码
- 3、mask编码
- 4、Attention编码
- - self attention
  - cross attention
- 5、FFN编码
四、源码附件(源码有注释)
总结

前言

目前，我研究大模型相关知识，常用到transformer结构，我想到NLP领域开篇之作Attention is all you need论文，论文实际提出transform结构，可与CNN并驾齐驱的结构，该结构利用Q/K/V模式整合全局信息，与CNN提取局部信息有所差别。介于此，我将一年前博客园更新笔记迁入该博客中，本文将介绍transform原理，也根据源码解读，深入介绍transforme经典典结构，并附有代码。

论文链接：点击这里

一、Transformer结构的原理

该部分主要介绍Attention is all you need 结构、模块、公式。暂时不介绍什么Q K V 什么Attention 什么编解码等，后面我将会根据代码解读介绍，让读者更容易理解。

1、Transform结构

Transformer由且仅由Attention和Feed Forward Neural Network(也称FFN)组成，其中Attention包含self Attention与Mutil-Head Attention，如下图：

注：模型一般可有encode与decode组成，encode负责特征编码，decode负责解码。目前，也有论文不使用解码器decode，如swin-transform。

2、位置编码公式

位置编码公式(还有很多其它公式，该论文使用此公式)，如下：

3、transformer公式

4、FFN结构

FFN是由nn.Linear线性和激活函数构成，后面代码详细说明。

二、Encode模块代码解读

1、编码数据

编码输入数据介绍：
enc_input = [
[1, 3, 4, 1, 2, 3],
[1, 3, 4, 1, 2, 3],
[1, 3, 4, 1, 2, 3],
[1, 3, 4, 1, 2, 3]]
编码使用输入数据，为4x6行，表示4个句子，每个句子有6个单词，包含标点符号。
注：至于文本如何表示数字，可参考这里

2、文本Embedding编码

文本嵌入embedding：

self.src_emb = nn.Embedding(vocab_size, d_model) # d_model=128

vocab_size:词典的大小尺寸，比如总共出现5000个词，那就输入5000。此时index为（0-4999）

d_model:嵌入向量的维度，即用多少维来表示一个词或符号

nn.Embedding（）函数可使用torch调用，建议读者百度了解其功能。

随后可将输入x=enc_input，可将enc_outputs则表示嵌入成功，维度为[4,6,128]分别表示batch为4，词为6，用128维度描述词6

x = self.src_emb(x)  # 词嵌入

3、位置position编码

位置编码,使用上面公式嵌入，我将不再介绍，其代码如下：

 pe = torch.zeros(max_len, d_model)
         position = torch.arange(0., max_len).unsqueeze(1)
         div_term = torch.exp(torch.arange(0., d_model, 2) * -(math.log(10000.0) / d_model))  # 偶数列
         pe[:, 0::2] = torch.sin(position * div_term) # 奇数列
         pe[:, 1::2] = torch.cos(position * div_term)
         pe = pe.unsqueeze(0)

将编码进行位置编码后，位置为[1,6,128]+输入编码的[4,6,128]，相当于句子已经结合了位置编码信息，作为新新的输入，代码如下：

x = x + Variable(self.pe[:, :x.size(1)], requires_grad=False)  #torch.autograd.Variable 表示有梯度的张量变量

4、Attention编码

在介绍此之前，先普及一个知识，若X与Y相等，则为self attention 否则为cross-attention，因为解码时候X!=Y.

获取Q K V 代码，实际是一个线性变化，将以上输入x变成[4,6,512]，然后通过head个数8与对应dv,dk将512拆分[8,64]，随后移维度位置，变成[4,8,6,64]

 self.WQ = nn.Linear(d_model, d_k * n_heads)  # 利用线性卷积
 self.WK = nn.Linear(d_model, d_k * n_heads)
 self.WV = nn.Linear(d_model, d_v * n_heads)

变化后的q k v

 q_s = self.WQ(Q).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)  # 线性卷积后再分组实现head功能
 k_s = self.WK(K).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
 v_s = self.WV(V).view(batch_size, -1, self.n_heads, self.d_v).transpose(1, 2)
 attn_mask = attn_mask.unsqueeze(1).repeat(1, self.n_heads, 1, 1)  # 编导对应的头

随后通过以上self公式，将其编码计算

scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(self.d_k)
attn = nn.Softmax(dim=-1)(scores)
context = torch.matmul(attn, V)

以上编码将是encode编码得到结果，我们将得到结果进行还原：

context = context.transpose(1, 2).contiguous().view(batch_size, -1, self.n_heads * self.d_v)  # 将其还原
output = self.linear(context)  # 通过线性又将其变成原来模样维度
layer_norm(output + Q)  # 这里加Q 实际是对Q寻找

以上将重新得到新的输入x，维度为[4,6,128]

5、FFN编码

将以上的输出维度为[4,6,128]进行FFN层变化，实际类似线性残差网络变化，得到最终输出

  class PoswiseFeedForwardNet(nn.Module):
  
      def __init__(self, d_model, d_ff):
          super(PoswiseFeedForwardNet, self).__init__()
          self.l1 = nn.Linear(d_model, d_ff)
          self.l2 = nn.Linear(d_ff, d_model)
  
          self.relu = GELU()
          self.layer_norm = nn.LayerNorm(d_model)
 
     def forward(self, inputs):
         residual = inputs
         output = self.l1(inputs)  # 一层线性卷积
         output = self.relu(output)
         output = self.l2(output)  # 一层线性卷积
         return self.layer_norm(output + residual)

重复以上顺序编码，即将得到经过FFN变化的输出x，维度为[4,6,128]，将其重复步骤③-④，因其编码为6个，可重复5个便是完成相应的编码模块。

三、Decode模块代码解读

1、编码数据

解码输入数据介绍，包含以下数据输入dec_input、enc_input的输入与解码后输出的数据，维度为[4,6,128]，而dec_input输入如下：

dec_input = [
[1, 0, 0, 0, 0, 0],
[1, 3, 0, 0, 0, 0],
[1, 3, 4, 0, 0, 0],
[1, 3, 4, 1, 0, 0]]

2、文本Embedding与位置编码

dec_input的Embedding与位置编码，因其与encode的实现方法一致,只需将enc_input使用dec_input取代，得到dec_outputs，因此这里将不在介绍。

3、mask编码

整体编码，代码如下：

  def get_attn_pad_mask(seq_q, seq_k, pad_index):
     batch_size, len_q = seq_q.size()
     batch_size, len_k = seq_k.size()
     pad_attn_mask = seq_k.data.eq(pad_index).unsqueeze(1)
     pad_attn_mask = torch.as_tensor(pad_attn_mask, dtype=torch.int)
     return pad_attn_mask.expand(batch_size, len_q, len_k)

以上代码实际是将dec_input进行处理，实际变成以下数据：

[[0, 1, 1, 1, 1, 1],
[0, 0, 1, 1, 1, 1],
[0, 0, 0, 1, 1, 1],
[0, 0, 0, 0, 1, 1]]

将其增添维度为[4,1,6]，并将其扩张为[4,6,6]

局部代码编写，实际为上三角矩阵：

[[0. 1. 1. 1. 1. 1.]
[0. 0. 1. 1. 1. 1.]
[0. 0. 0. 1. 1. 1.]
[0. 0. 0. 0. 1. 1.]
[0. 0. 0. 0. 0. 1.]
[0. 0. 0. 0. 0. 0.]]
将以上数据添加维度为[1,6,6]，在将扩展变成[4,6,6]
关于整体mask与局部mask编码，我的理解是整体信息为语句4个词6个，根据解码输入编码整体信息，而局部编码是基于一个语句6*6编码信息，将其扩张重复到4个语句，
使其mask获得整体信息与局部信息。

         dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs, self.pad_index)  # 整体编码的mask
         dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs)
         dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequent_mask), 0)  # torch.gt(a,b) a>b 则为1否则为0
         dec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs, self.pad_index)

最终将mask整合，获取dec_self_attn_mask信息，同理dec_enc_attn_mask(维度为解码编码词维度)采用dec_self_attn_mask的第一步便可获取。

4、Attention编码

编码输入self-Attention,包含2部分，self Attention与cross Attention。

self attention

解码输入dec_outputs进行self.Attention:
实际使用以上Q K V公式，具体实现和编码实现方法一致，唯一不同是在Q*K^T会使用解码maskdec_self_attn_mask，其重要代码为scores.masked_fill_(attn_mask, -1e9)，代码如下：

  class ScaledDotProductAttention(nn.Module):
  
      def __init__(self, d_k, device):
          super(ScaledDotProductAttention, self).__init__()
          self.device = device
          self.d_k = d_k
  
      def forward(self, Q, K, V, attn_mask):
          scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(self.d_k)
          attn_mask = torch.as_tensor(attn_mask, dtype=torch.bool)
          attn_mask = attn_mask.to(self.device)
          scores.masked_fill_(attn_mask, -1e9)  # it is true give -1e9
          attn = nn.Softmax(dim=-1)(scores)
          context = torch.matmul(attn, V)
          return context, attn

以上代码将执行以下代码：

context, attn = ScaledDotProductAttention(d_k=self.d_k, device=self.device)(Q=q_s, K=k_s, V=v_s,
                                                                            attn_mask=attn_mask)
context = context.transpose(1, 2).contiguous().view(batch_size, -1, self.n_heads * self.d_v)  # 将其还原
output = self.linear(context)  # 通过线性又将其变成原来模样维度
dec_outputs = self.layer_norm(output + Q)  # 这里加Q 实际是对Q寻找

到此为止已经完成了解码输入的self-attention模块，输出为dec_outputs实际除了增加mask编码调整Q*K^T以外，其它完全相同。

cross attention

编码输出dec_outputs进行Cross Attention：

dec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs, enc_outputs, dec_enc_attn_mask)

重点说明enc_outputs来源编码结果，是一直不变的,以上为Cross Attention 过程，以上代码除了Q来源dec_outputs，K V 来源编码输出enc_outputs以外，即论文所说X与Y不等得到的Q K V称为Cross Attention。
实际以上代码与执行解码self-Attention方法完全一致，仅仅mask更改上文提供的方法，得到输出结果为dec_outputs，因此这里将不在解释了。

5、FFN编码

该部分编码与encode的FFN一样，我将不在解释。

重复步骤上面4与5为n次，便实现解码过程。

四、源码附件(源码有注释)

最后，我给出attention is all you need的所有代码，只需简单环境便可使用，整体实现代码如下：

import json
import math
import torch
import torchvision
import torch.nn as nn
import numpy as np
from pdb import set_trace

from torch.autograd import Variable


def get_attn_pad_mask(seq_q, seq_k, pad_index):
    batch_size, len_q = seq_q.size()
    batch_size, len_k = seq_k.size()
    pad_attn_mask = seq_k.data.eq(pad_index).unsqueeze(1)
    pad_attn_mask = torch.as_tensor(pad_attn_mask, dtype=torch.int)
    return pad_attn_mask.expand(batch_size, len_q, len_k)


def get_attn_subsequent_mask(seq):
    attn_shape = [seq.size(0), seq.size(1), seq.size(1)]
    subsequent_mask = np.triu(np.ones(attn_shape), k=1)
    subsequent_mask = torch.from_numpy(subsequent_mask).int()
    return subsequent_mask


class GELU(nn.Module):

    def forward(self, x):
        return 0.5 * x * (1 + torch.tanh(math.sqrt(2 / math.pi) * (x + 0.044715 * torch.pow(x, 3))))


class PositionalEncoding(nn.Module):
    "Implement the PE function."

    def __init__(self, d_model, dropout, max_len=5000):  #
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)

        # Compute the positional encodings once in log space.
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0., max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0., d_model, 2) * -(math.log(10000.0) / d_model))  # 偶数列
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)  # 将变量pe保存到内存中，不计算梯度

    def forward(self, x):
        x = x + Variable(self.pe[:, :x.size(1)], requires_grad=False)  # torch.autograd.Variable 表示有梯度的张量变量
        return self.dropout(x)


class ScaledDotProductAttention(nn.Module):

    def __init__(self, d_k, device):
        super(ScaledDotProductAttention, self).__init__()
        self.device = device
        self.d_k = d_k

    def forward(self, Q, K, V, attn_mask):
        scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(self.d_k)
        attn_mask = torch.as_tensor(attn_mask, dtype=torch.bool)
        attn_mask = attn_mask.to(self.device)
        scores.masked_fill_(attn_mask, -1e9)  # it is true give -1e9
        attn = nn.Softmax(dim=-1)(scores)
        context = torch.matmul(attn, V)
        return context, attn


class MultiHeadAttention(nn.Module):

    def __init__(self, d_model, d_k, d_v, n_heads, device):
        super(MultiHeadAttention, self).__init__()
        self.WQ = nn.Linear(d_model, d_k * n_heads)  # 利用线性卷积
        self.WK = nn.Linear(d_model, d_k * n_heads)
        self.WV = nn.Linear(d_model, d_v * n_heads)

        self.linear = nn.Linear(n_heads * d_v, d_model)

        self.layer_norm = nn.LayerNorm(d_model)
        self.device = device

        self.d_model = d_model
        self.d_k = d_k
        self.d_v = d_v
        self.n_heads = n_heads

    def forward(self, Q, K, V, attn_mask):
        batch_size = Q.shape[0]
        q_s = self.WQ(Q).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)  # 线性卷积后再分组实现head功能
        k_s = self.WK(K).view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
        v_s = self.WV(V).view(batch_size, -1, self.n_heads, self.d_v).transpose(1, 2)

        attn_mask = attn_mask.unsqueeze(1).repeat(1, self.n_heads, 1, 1)  # 编导对应的头
        context, attn = ScaledDotProductAttention(d_k=self.d_k, device=self.device)(Q=q_s, K=k_s, V=v_s,
                                                                                    attn_mask=attn_mask)
        context = context.transpose(1, 2).contiguous().view(batch_size, -1, self.n_heads * self.d_v)  # 将其还原
        output = self.linear(context)  # 通过线性又将其变成原来模样维度
        return self.layer_norm(output + Q), attn  # 这里加Q 实际是对Q寻找


class PoswiseFeedForwardNet(nn.Module):

    def __init__(self, d_model, d_ff):
        super(PoswiseFeedForwardNet, self).__init__()
        self.l1 = nn.Linear(d_model, d_ff)
        self.l2 = nn.Linear(d_ff, d_model)

        self.relu = GELU()
        self.layer_norm = nn.LayerNorm(d_model)

    def forward(self, inputs):
        residual = inputs
        output = self.l1(inputs)  # 一层线性卷积
        output = self.relu(output)
        output = self.l2(output)  # 一层线性卷积
        return self.layer_norm(output + residual)


class EncoderLayer(nn.Module):

    def __init__(self, d_model, d_ff, d_k, d_v, n_heads, device):
        super(EncoderLayer, self).__init__()
        self.enc_self_attn = MultiHeadAttention(d_model=d_model, d_k=d_k, d_v=d_v, n_heads=n_heads, device=device)
        self.pos_ffn = PoswiseFeedForwardNet(d_model=d_model, d_ff=d_ff)

    def forward(self, enc_inputs, enc_self_attn_mask):
        enc_outputs, attn = self.enc_self_attn(Q=enc_inputs, K=enc_inputs, V=enc_inputs, attn_mask=enc_self_attn_mask)
        # X=Y 因此Q K V相等
        enc_outputs = self.pos_ffn(enc_outputs)  #
        return enc_outputs, attn


class Encoder(nn.Module):

    def __init__(self, vocab_size, d_model, d_ff, d_k, d_v, n_heads, n_layers, pad_index, device):
        #                   4        128     256   64   64     8        4          0
        super(Encoder, self).__init__()
        self.device = device
        self.pad_index = pad_index
        self.src_emb = nn.Embedding(vocab_size, d_model)
        # vocab_size:词典的大小尺寸，比如总共出现5000个词，那就输入5000。此时index为（0-4999） d_model:嵌入向量的维度，即用多少维来表示一个符号
        self.pos_emb = PositionalEncoding(d_model=d_model, dropout=0)

        self.layers = []
        for _ in range(n_layers):
            encoder_layer = EncoderLayer(d_model=d_model, d_ff=d_ff, d_k=d_k, d_v=d_v, n_heads=n_heads, device=device)
            self.layers.append(encoder_layer)
        self.layers = nn.ModuleList(self.layers)

    def forward(self, x):
        enc_outputs = self.src_emb(x)  # 词嵌入
        enc_outputs = self.pos_emb(enc_outputs)  # pos+matx
        enc_self_attn_mask = get_attn_pad_mask(x, x, self.pad_index)

        enc_self_attns = []
        for layer in self.layers:
            enc_outputs, enc_self_attn = layer(enc_outputs, enc_self_attn_mask)
            enc_self_attns.append(enc_self_attn)

        enc_self_attns = torch.stack(enc_self_attns)
        enc_self_attns = enc_self_attns.permute([1, 0, 2, 3, 4])
        return enc_outputs, enc_self_attns


class DecoderLayer(nn.Module):

    def __init__(self, d_model, d_ff, d_k, d_v, n_heads, device):
        super(DecoderLayer, self).__init__()
        self.dec_self_attn = MultiHeadAttention(d_model=d_model, d_k=d_k, d_v=d_v, n_heads=n_heads, device=device)
        self.dec_enc_attn = MultiHeadAttention(d_model=d_model, d_k=d_k, d_v=d_v, n_heads=n_heads, device=device)
        self.pos_ffn = PoswiseFeedForwardNet(d_model=d_model, d_ff=d_ff)

    def forward(self, dec_inputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask):
        dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs, dec_inputs, dec_self_attn_mask)
        dec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs, enc_outputs, dec_enc_attn_mask)
        dec_outputs = self.pos_ffn(dec_outputs)
        return dec_outputs, dec_self_attn, dec_enc_attn


class Decoder(nn.Module):

    def __init__(self, vocab_size, d_model, d_ff, d_k, d_v, n_heads, n_layers, pad_index, device):
        super(Decoder, self).__init__()
        self.pad_index = pad_index
        self.device = device
        self.tgt_emb = nn.Embedding(vocab_size, d_model)
        self.pos_emb = PositionalEncoding(d_model=d_model, dropout=0)
        self.layers = []
        for _ in range(n_layers):
            decoder_layer = DecoderLayer(d_model=d_model, d_ff=d_ff, d_k=d_k, d_v=d_v, n_heads=n_heads, device=device)
            self.layers.append(decoder_layer)
        self.layers = nn.ModuleList(self.layers)

    def forward(self, dec_inputs, enc_inputs, enc_outputs):
        dec_outputs = self.tgt_emb(dec_inputs)
        dec_outputs = self.pos_emb(dec_outputs)

        dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs, self.pad_index)
        dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs)
        dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequent_mask), 0)
        dec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs, self.pad_index)

        dec_self_attns, dec_enc_attns = [], []
        for layer in self.layers:
            dec_outputs, dec_self_attn, dec_enc_attn = layer(
                dec_inputs=dec_outputs,
                enc_outputs=enc_outputs,
                dec_self_attn_mask=dec_self_attn_mask,
                dec_enc_attn_mask=dec_enc_attn_mask)
            dec_self_attns.append(dec_self_attn)
            dec_enc_attns.append(dec_enc_attn)
        dec_self_attns = torch.stack(dec_self_attns)
        dec_enc_attns = torch.stack(dec_enc_attns)

        dec_self_attns = dec_self_attns.permute([1, 0, 2, 3, 4])
        dec_enc_attns = dec_enc_attns.permute([1, 0, 2, 3, 4])

        return dec_outputs, dec_self_attns, dec_enc_attns


class MaskedDecoderLayer(nn.Module):

    def __init__(self, d_model, d_ff, d_k, d_v, n_heads, device):
        super(MaskedDecoderLayer, self).__init__()
        self.dec_self_attn = MultiHeadAttention(d_model=d_model, d_k=d_k, d_v=d_v, n_heads=n_heads, device=device)
        self.pos_ffn = PoswiseFeedForwardNet(d_model=d_model, d_ff=d_ff)

    def forward(self, dec_inputs, dec_self_attn_mask):
        dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs, dec_inputs, dec_self_attn_mask)
        dec_outputs = self.pos_ffn(dec_outputs)
        return dec_outputs, dec_self_attn


class MaskedDecoder(nn.Module):

    def __init__(self, vocab_size, d_model, d_ff, d_k,
                 d_v, n_heads, n_layers, pad_index, device):
        super(MaskedDecoder, self).__init__()
        self.pad_index = pad_index
        self.tgt_emb = nn.Embedding(vocab_size, d_model)
        self.pos_emb = PositionalEncoding(d_model=d_model, dropout=0)

        self.layers = []
        for _ in range(n_layers):
            decoder_layer = MaskedDecoderLayer(
                d_model=d_model, d_ff=d_ff,
                d_k=d_k, d_v=d_v, n_heads=n_heads,
                device=device)
            self.layers.append(decoder_layer)
        self.layers = nn.ModuleList(self.layers)

    def forward(self, dec_inputs):
        dec_outputs = self.tgt_emb(dec_inputs)
        dec_outputs = self.pos_emb(dec_outputs)

        dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs, self.pad_index)
        dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs)
        dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequent_mask), 0)
        dec_self_attns = []
        for layer in self.layers:
            dec_outputs, dec_self_attn = layer(
                dec_inputs=dec_outputs,
                dec_self_attn_mask=dec_self_attn_mask)
            dec_self_attns.append(dec_self_attn)
        dec_self_attns = torch.stack(dec_self_attns)
        dec_self_attns = dec_self_attns.permute([1, 0, 2, 3, 4])
        return dec_outputs, dec_self_attns


class BertModel(nn.Module):

    def __init__(self, vocab_size, d_model, d_ff, d_k, d_v, n_heads, n_layers, pad_index, device):
        super(BertModel, self).__init__()
        self.tok_embed = nn.Embedding(vocab_size, d_model)
        self.pos_embed = PositionalEncoding(d_model=d_model, dropout=0)
        self.seg_embed = nn.Embedding(2, d_model)

        self.layers = []
        for _ in range(n_layers):
            encoder_layer = EncoderLayer(
                d_model=d_model, d_ff=d_ff,
                d_k=d_k, d_v=d_v, n_heads=n_heads,
                device=device)
            self.layers.append(encoder_layer)
        self.layers = nn.ModuleList(self.layers)

        self.pad_index = pad_index

        self.fc = nn.Linear(d_model, d_model)
        self.active1 = nn.Tanh()
        self.classifier = nn.Linear(d_model, 2)

        self.linear = nn.Linear(d_model, d_model)
        self.active2 = GELU()
        self.norm = nn.LayerNorm(d_model)

        self.decoder = nn.Linear(d_model, vocab_size, bias=False)
        self.decoder.weight = self.tok_embed.weight
        self.decoder_bias = nn.Parameter(torch.zeros(vocab_size))

    def forward(self, input_ids, segment_ids, masked_pos):
        output = self.tok_embed(input_ids) + self.seg_embed(segment_ids)
        output = self.pos_embed(output)
        enc_self_attn_mask = get_attn_pad_mask(input_ids, input_ids, self.pad_index)

        for layer in self.layers:
            output, enc_self_attn = layer(output, enc_self_attn_mask)

        h_pooled = self.active1(self.fc(output[:, 0]))
        logits_clsf = self.classifier(h_pooled)

        masked_pos = masked_pos[:, :, None].expand(-1, -1, output.size(-1))
        h_masked = torch.gather(output, 1, masked_pos)
        h_masked = self.norm(self.active2(self.linear(h_masked)))
        logits_lm = self.decoder(h_masked) + self.decoder_bias

        return logits_lm, logits_clsf, output


class GPTModel(nn.Module):

    def __init__(self, vocab_size, d_model, d_ff,
                 d_k, d_v, n_heads, n_layers, pad_index,
                 device):
        super(GPTModel, self).__init__()
        self.decoder = MaskedDecoder(
            vocab_size=vocab_size,
            d_model=d_model, d_ff=d_ff,
            d_k=d_k, d_v=d_v, n_heads=n_heads,
            n_layers=n_layers, pad_index=pad_index,
            device=device)
        self.projection = nn.Linear(d_model, vocab_size, bias=False)

    def forward(self, dec_inputs):
        dec_outputs, dec_self_attns = self.decoder(dec_inputs)
        dec_logits = self.projection(dec_outputs)
        return dec_logits, dec_self_attns


class Classifier(nn.Module):

    def __init__(self, vocab_size, d_model, d_ff,
                 d_k, d_v, n_heads, n_layers,
                 pad_index, device, num_classes):
        super(Classifier, self).__init__()
        self.encoder = Encoder(
            vocab_size=vocab_size,
            d_model=d_model, d_ff=d_ff,
            d_k=d_k, d_v=d_v, n_heads=n_heads,
            n_layers=n_layers, pad_index=pad_index,
            device=device)
        self.projection = nn.Linear(d_model, num_classes)

    def forward(self, enc_inputs):
        enc_outputs, enc_self_attns = self.encoder(enc_inputs)
        mean_enc_outputs = torch.mean(enc_outputs, dim=1)
        logits = self.projection(mean_enc_outputs)
        return logits, enc_self_attns


class Translation(nn.Module):

    def __init__(self, src_vocab_size, tgt_vocab_size, d_model,
                 d_ff, d_k, d_v, n_heads, n_layers, src_pad_index,
                 tgt_pad_index, device):
        super(Translation, self).__init__()
        self.encoder = Encoder(
            vocab_size=src_vocab_size,  # 5
            d_model=d_model, d_ff=d_ff,  # 128  256
            d_k=d_k, d_v=d_v, n_heads=n_heads,  # 64 64  8
            n_layers=n_layers, pad_index=src_pad_index,  # 4  0
            device=device)
        self.decoder = Decoder(
            vocab_size=tgt_vocab_size,  # 5
            d_model=d_model, d_ff=d_ff,  # 128  256
            d_k=d_k, d_v=d_v, n_heads=n_heads,  # 64 64  8
            n_layers=n_layers, pad_index=tgt_pad_index,  # 4  0
            device=device)
        self.projection = nn.Linear(d_model, tgt_vocab_size, bias=False)

    # def forward(self, enc_inputs, dec_inputs, decode_lengths):
    #     enc_outputs, enc_self_attns = self.encoder(enc_inputs)
    #     dec_outputs, dec_self_attns, dec_enc_attns = self.decoder(dec_inputs, enc_inputs, enc_outputs)
    #     dec_logits = self.projection(dec_outputs)
    #     return dec_logits, enc_self_attns, dec_self_attns, dec_enc_attns, decode_lengths

    def forward(self, enc_inputs, dec_inputs):
        enc_outputs, enc_self_attns = self.encoder(enc_inputs)
        dec_outputs, dec_self_attns, dec_enc_attns = self.decoder(dec_inputs, enc_inputs, enc_outputs)
        dec_logits = self.projection(dec_outputs)
        return dec_logits, enc_self_attns, dec_self_attns, dec_enc_attns


if __name__ == '__main__':
    enc_input = [
        [1, 3, 4, 1, 2, 3],
        [1, 3, 4, 1, 2, 3],
        [1, 3, 4, 1, 2, 3],
        [1, 3, 4, 1, 2, 3]]
    dec_input = [
        [1, 0, 0, 0, 0, 0],
        [1, 3, 0, 0, 0, 0],
        [1, 3, 4, 0, 0, 0],
        [1, 3, 4, 1, 0, 0]]
    enc_input = torch.as_tensor(enc_input, dtype=torch.long).to(torch.device('cpu'))
    dec_input = torch.as_tensor(dec_input, dtype=torch.long).to(torch.device('cpu'))
    model = Translation(
        src_vocab_size=5, tgt_vocab_size=5, d_model=128,
        d_ff=256, d_k=64, d_v=64, n_heads=8, n_layers=4, src_pad_index=0,
        tgt_pad_index=0, device=torch.device('cpu'))

    logits, _, _, _ = model(enc_input, dec_input)
    print(logits)

总结

本文已全部介绍完transformer结构原理及代码，但我个人有以下几点说明：
编码传递K V 解码传递Q；
self-attention 和 cross attention本质是X与Y值不同，即得到Q 和 K V 数据来源不同，但实现方法一致；
transformer重点模块为attention(一般是mutil-head attention)、FFN、位置编码、mask编码；

你可能感兴趣的:(语言模型-多模态大模型,深度学习,语音识别,自然语言处理,语言模型)

【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
【AI大模型应用开发】Prompt提示词工程 bay_Tong桐小白 AI大模型人工智能 prompt ai 大模型应用开发 LLM 聊天机器人
halo~我是bay_Tong桐小白本文内容是桐小白个人对所学知识进行的总结和分享，知识点会不定期进行编辑更新和完善，了解最近更新内容可参看更新日志，欢迎各位大神留言、指点感谢新老朋友给予过的关心，过去经历了很多，身心状态慢慢调整，因此更新文章较慢，给关注我的新老朋友道声抱歉，也再次给对桐小白给予关心的新老朋友表示感谢~Prompt提示词工程（初步）【更新日志】大模型分类prompt基本概念pro
批评之二敏儿说成长
批评之二大家好，我是敏儿，昨天我提到与人相处，要善于发现他人的闪光点，并告诉他，不断的给予正反馈，使其优势不断地放大再放大。但是很多时候，如技能的提升，是需要刻意练习的，刻意练习需要及时的反馈，哪里不对立刻指出，立即改正。如弹钢琴，哪里弹得不对，就得死磕，一直练，直到熟练为止，学英语也是一样，哪个英文单词发音不对，就得反反复复练哪个单词，很痛苦，我儿子刚刚学英语，有几个单词反复说反复不对，最后跑的
“东方瑞士”新加坡：如何用短短几十年成就一个金融帝国外小至
新加坡是一个1965年才取得独立的，面积很小的岛国。然而它却在短短的几十年之间，发展成为一个繁荣的金融帝国。它是亚洲最大的新兴市场货币交易中心，全球第三大外汇交易中心，全世界发展最快的国内债券市场之一，同时也是亚洲地区金融衍生品交易的领军国，亚洲为数不多的国际金融中心。这让人在叹服的同时，也忍不住好奇他们是如何做到在几十年之内做到这样飞速地发展的。下面，我们就来学习下新加坡金融市场以及金融衍生品市
《和闺蜜一起穿进仙界救赎文》林黎叶昭九月书舍
简介：“可没想到这只狸奴竟然敢是叶昭姑娘养的，为了它叶昭姑娘竟然要杀我。”“可是它是魔物啊，叶昭姑娘为什么会养一只魔物呢。”小说书名：《和闺蜜一起穿进仙界救赎文》主角：林黎叶昭那天我和闺蜜去我的太子夫君管下的蟠桃园炫了一大堆蟠桃，撑得肚子溜圆才各回各家。结果刚和她分开没多久。我就收到了她的求救信号。等我火急火燎赶去她的寝殿。就看到分开时还好端端的闺蜜，此时满身是血。她不顾自己不断涌血的伤口，挥着一
北恒私募高级班周一丰，马建军受骗无法出金!慈善投票真相不是你想的那么简单! 昌龙律法
不少市民群众将闲置资金用于炒股、投资等，各种网上理财投资产品也越来越多，这让诈骗分子有了可趁之机。他们打着“低门槛、高收益”的幌子，制作虚假APP，通过网络交友等手段推荐“理财投资”产品，再通过小额盈利赢得投资人信任，继而增加资金投入数额。一旦大资金转入，骗子马上就会关闭APP或者编造亏损、要提现需要缴纳税费、手续费等理由诱骗投资人继续转账，从而掏空投资人的口袋。若你也不幸被骗遇到此类平台一定不要
Leetcode703. 数据流中的第K大元素 LonnieQ
题目设计一个找到数据流中第K大元素的类（class）。注意是排序后的第K大元素，不是第K个不同的元素。你的KthLargest类需要一个同时接收整数k和整数数组nums的构造器，它包含数据流中的初始元素。每次调用KthLargest.add，返回当前数据流中第K大的元素。示例:intk=3;int[]arr=[4,5,8,2];KthLargestkthLargest=newKthLargest(
看完《这就是街舞》，潮男潮女你鞋穿对了吗？肃一街舞工作室
谈恋爱不如跳舞，跳舞你得穿这双《这！就是街舞》这档全新的综艺节目，虽然现在只更新了第一集，但其中可挖的点还真不少；其中最大的亮点就是四位明星队长和焦点选手的穿搭了！今天工作室小编想先跟大家聊聊他们的“鞋”，然后再推荐鞋子给想去学街舞的你。易烊千玺身穿超拽的红白oversize套装，搭配一双RevengexStorm球鞋，以帅气的街舞模式霸气登场！第二个出场的是最近吸粉无数的黄子韬，黄子韬继续大走高
零基础学习性能测试第一章：核心性能指标-并发量试着性能测试学习性能测试零基础性能指标并发量
目录零基础学习性能测试：第一章-核心性能指标：并发量一、并发量核心概念解析1.并发量定义与分类2.并发量关键特性二、并发量测试的核心价值1.业务意义三角模型2.实际工作场景应用三、并发量测试实战指南1.测试工具配置要点2.并发测试四步流程3.JMeter并发测试实操四、并发瓶颈分析与优化1.并发瓶颈定位矩阵2.常见并发问题解决方案3.电商系统并发优化案例五、工作应用模板与工具1.并发测试报告模板2
八月文森林木
窗户吹进来的风有些凉朋友在家里住了一晚，早早就醒来赶往他拖家带口打拼的中山他从老家带来了龙眼和花生油“原生态的龙眼和正宗的花生油！”他说夜里我们去恒大影城看了一场电影关于那部电影我想说但不知道说什么深夜我们回来一起吃了饭但没有喝酒我们看《我的团长我的团》到凌晨此刻。对面别墅人工湖岸边有一位穿白色防晒衣老人在垂钓像一位大隐隐于市的白衣天使很多个早晨我都见他在那里多么凉爽的早晨多么宁静的湖面隔一墙之外
大森林里的瑞贝卡江洋二稻
图片发自App01瑞贝卡是一只眼睛很大，拥有红色眼珠的小兔子。她白色的毛像冬天的雪一样白。这个森林里所有的小动物都喜欢她。因为她太美丽了。02瑞贝卡每一天走在去找食物的长满苔藓的树林里，她都唱着那首最喜欢的歌：阳光照在脸上，我踩在小苔藓上，没有人知道我要去哪里，我也不知道我要去哪里。03这一天，她像往常一样走在路上，唱着歌。歌声太动听了。不过今天没有阳光，天气很阴。瑞贝卡唱着，突然，听到有什么声音
故宫指路的星星
以前的时候，从天安门走到过午门，走过太庙和中山公园，从景山远眺过故宫。天坛地坛日坛也逛完了。唯独没有走进过故宫。可能是觉得故宫很宏大，很神圣，要郑重庄严的准备一下才好。看完了《故宫100》和《台北故宫》，从《国家宝藏》上了解了网红院长。有给孩子买了《故宫里的大怪兽》，孩子把怪兽地图也看了又看。零散的攻略也读了一些。是不是就做好逛故宫的准备了？其实哪有那么多准备好。到了故宫，发觉不懂的东西还是很多，
蜗牛 665c4fe29665
我家养了好几只蜗牛。我经过仔细观察发现蜗牛有一对长长的触须，触须不停地来回摆动，触须下面是一对短须似的小眼睛，两只眼睛下面有一张红红的小嘴。蜗牛身上背着螺旋形的硬壳，身体是肉形的，分为两部分，一部分是永远在壳里的，另一部分经常露在外面并和头连在一起，这也就是蜗牛有吸盘的“脚”。蜗牛爬行时靠头和身体的蠕动带着壳前进，速度很慢，但很灵活，它还会翻大跟头呢！它先把头翻个面，吸住固定物，再带动身体翻了个面
#零基础学画画#第『111』天各位早安！ Loura明珠
昨晚下雨，车的防盗器在楼下半夜响，空调定时停了，打蚊子，整晚没睡好。早上下雨，装备齐全出发，到小区门口车车坏了，安乔童自己走路去学校，推车回家赶出门。天气不好，温差大，会造成出行不便，身体不适，大家注意哦。#零基础学画画#第『111』天各位早安！图片发自App
物联网安装调试-继电器速易达网络物联网技术实训课程物联网
以下为物联网继电器安装调试的全流程技术指南，涵盖选型、接线、控制逻辑及安全防护，结合工业自动化、智能家居和农业物联三大场景实操方案：一、继电器选型核心参数表参数工业控制智能家居农业物联选型建议负载类型电机/加热管(10-30A)灯具/插座(5-10A)水泵/风机(8-15A)工业选固态继电器(SSR)，家居选电磁继电器触点材质银氧化镉(耐电弧)银镍合金(万次寿命)镀金触点(防腐蚀)频繁开关场景用磁
基于 Qwen-Agent 与 MCP 实现阿里云 ECS 实例查询（含完整代码与实操）
✅关键词：Qwen-Agent、MCP、阿里云、运维、LLM、FunctionCalling在现代云运维场景中，我们不仅希望大语言模型（LLM）能回答文本问题，更希望它能直接调用云端API、查询资源，实现「智能运维」。本文将分享如何基于Qwen-Agent和MCP，快速实现一个“云资源助手”，能帮你查询阿里云ECS实例信息。什么是MCP？MCP(Model-ComputingPlatform)是阿
2023-06-03 Eltonpeople
今日启发：Elton:《兰花与蒲公英》(Ⅲ)[美]W.托马斯·博伊斯人类大脑内的两大主要应激神经系统：皮质醇系统和战斗-逃跑系统。皮质醇系统当人感受到压力之后，脑垂体会分泌促肾上腺皮质激素，然后促肾上腺皮质激素顺着血液流到肾上腺，肾上腺再分泌出皮质醇。皮质醇这种物质会提高血糖、血压，当血糖升高的时候，抵达脑部的养分也会增加，有利于我们思考，而血压升高的时候，心脏向身体各处泵氧的能力也增加了，有利于
排序算法—交换排序（冒泡、快速）（动图演示）每天都要进步1 排序算法排序算法算法
目录十大排序算法分类编辑冒泡排序算法步骤：动图演示：性能分析：代码实现（Java）：快速排序（挖坑法）算法步骤：动图演示：性能分析：代码实现（Java）：十大排序算法分类本篇分享十大排序算法中的需要进行交换操作的冒泡排序与快速排序,其余算法也有介绍噢（努力赶进度中，后续会添加上）冒泡排序冒泡排序是一种非常直观的排序算法，遍历数组，每次比较两个元素，如果后者比前者小则交换位置，重复的进行直至没有再需
一维数组练题习~ 遇见尚硅谷初学者算法数据结构 c语言开发语言排序算法
1.键盘录入一组数列，利用冒泡排序将数据由大到小排序/*************************************************************************>FileName:demo01.c>Author:阮>Description:>CreatedTime:***********************************************
智慧光伏发电信息化系统需求文档小赖同学啊 test Technology Precious 物联网
以下是从产品经理角度撰写的智慧光伏发电信息化系统需求文档，聚焦光伏行业痛点与业务价值，遵循标准PRD结构：智慧光伏发电信息化系统需求文档版本：1.0日期：2025年7月19日作者：产品经理视角一、文档概述1.1产品背景光伏电站运营面临四大挑战：发电损失定位难：组串故障、阴影遮挡等问题人工排查效率低运维成本占比高：占LCOE（平准化度电成本）超15%电网调度协同弱：缺乏精准发电预测，罚款风险高资产收
犀水家族办公室理财入门课程七：为什么我的基金一买进去就亏？犀水家族办公室
嗨大家好，老宋又来了，今天我们聊得深入一点，我们只聊一个问题，为什么你的基金一买就亏。很多小伙伴很爱学习，又是买书又是百度又是看视频，学习了很多筛选基金的办法，这指标那指标，什么三个月、半年、三年表现，阿尔法、贝塔一起上，自己在电脑面前精挑细选了一只基金，满怀希望买进去，结果一买进去就蹭蹭蹭下跌？是我智商有问题？其实乱买基金就是自己往火坑里面跳！什么？个股到处是坑，基金也有坑？大了去了，以前没听说
14.3 FFT与PEFT终极对决：1%参数实现3倍速训练，显存暴降80%！少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力人工智能机器学习大数据语言模型 chatgpt llama
以微调权重比例分类：FFTvsPEFT深度解析在大模型微调领域，参数调整比例直接决定训练效率与模型性能的平衡。本小节将深入解析全参数微调（FullFine-Tuning,FFT）与参数高效微调（Parameter-EfficientFine-Tuning,PEFT）的核心差异，并通过具体技术方案对比和实战代码示例揭示其工程应用场景。一、FFT与PEFT技术对比矩阵
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
MJExtension AlanGe
MJExtension：https://github.com/CoderMJLee/MJExtensionExamples【示例】AddMJKeyValueprotocoltoyourmodelifneeded【如果有需要,请在模型中加入MJKeyValue协议】ThemostsimpleJSON->Model【最简单的字典转模型】typedefenum{SexMale,SexFemale}Sex
如何调整优化器的参数来优化神经网络性能？ Idividuals 深度学习神经网络机器学习 python scikit-learn
不同优化器有不同的可调整参数，下面以常见的优化器为例，讲解如何调整其参数来优化神经网络性能：Adam优化器Adam优化器有几个关键参数：learning_rate（学习率）、beta_1、beta_2和epsilon。1.学习率(learning_rate)-作用：控制每次参数更新的步长。学习率过大，模型可能无法收敛，在最优解附近振荡甚至发散；学习率过小，训练速度会非常缓慢。-调整方法：通常初始值
12.24 历史上的今天；清朝雍正皇帝登上帝位！谈小样她爹
图片发自App在296年前的今天，1722年12月24日(农历冬月十七)，清朝雍正帝胤禛登上帝位。清世宗爱新觉罗·胤禛(公元1678年—公元1735年)，满族，母为康熙孝恭仁皇后乌雅氏，清圣祖玄烨第四子，是清朝入关后第三位皇帝，1722—1735年在位，年号雍正，死后葬于清西陵之泰陵，庙号世宗，谥号敬天昌运建中表正文武英明宽仁信毅睿圣大孝至诚宪皇帝。雍正在位时期，置“军机处”加强皇权、“火耗归公”
2020-05-31 星期日瑞雪芬花
一、朗读师父的十大人生哲学感悟今天是我人生中最好的一天，感恩今天过的惬意舒适，让我感觉到好开心。二、收听师父喜马拉雅收获“培养有创意的下一代（02）”：塑造有创意的下一代，让孩子们养成解决问题的习惯，欣赏赞美认同孩子，建立孩子的自信心，独能立照顾好自己。三、感恩日记1.我太幸福了，我要感恩自己的勤奋好学，不断追求新的知识，新的人生导向，让我感觉到好幸福。谢谢！谢谢！2.太幸福了，我要感恩自己简单的
一次争吵皮木偶yoyo
“你在干什么！”随着这突然的一声的呵斥，我从睡梦中被惊醒，呀，美好的星期六早上，就这样被打扰了，本想着不理不睬，继续蒙头大睡，可是争吵过于激烈，隔音过于简陋，一句句争执的声音还是传入了我的耳中。对面楼的一对父女总是在吵架。自我搬入这租房中起，每个月至少有一次大的争吵，争吵时间早、中、晚不定，我租房的小区是老小区，隔音效果并不是很好，所以当我在家而他们争吵时，我总是能清除听到他们的争吵内容。那么这一
零基础入门数据库，万字超详细Sql server期末复习 Heyqings sql
前言本篇主要讲述的是关系型数据库SqlServer，原因也很简单，因为大部分学校还在以sqlserver为教学材料，不过没关系无论是sqlserver、mysql还是oracle,只要是关系型数据库，概念都是相通的，语句也大差不差。关系型数据库是一种采用关系模型来组织数据的数据库系统。它将数据存储在表格形式的结构中，通常称为表。这些表由行和列组成，每一行代表一条记录，每一列代表一个字段。关系型数据
Spring04：Spring MVC dfraetaem Spring spring mvc java 后端
一、SpringMVC核心解析SpringMVC是基于Java实现MVC模型的轻量级Web框架，其核心优势在于简化Web开发、灵活性强和与Spring生态无缝集成。通过分层设计，它将应用分为：Controller层：处理请求和响应Service层：业务逻辑处理Dao层：数据持久化操作分层架构示例（SpringBoot+MyBatis）1.Dao层（数据访问层）//UserDao.java（接口）@
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在