Suppose-dilemma

NLP模型（五）——Transformer模型实现（以一个小型文本翻译为例子）

文章目录

1. 数据集处理
- 1.1 提取源和目标
- 1.2 获取词典
- 1.3 字符串转为编号
- 1.4 得到输入输出
2. 制作数据管道
3. 构建模型
- 3.1 模型整体架构
- 3.2 编码器
- - 3.2.1 Encoder 整体结构
  - 3.2.2 位置编码
  - 3.2.3 多头注意力机制
  - 3.2.4 前馈神经网络
  - 3.2.5 单层Encoder
- 3.3 编码器
- - 3.3.1 Decoder整体结构
  - 3.3.2 带mask的多头注意力机制
  - 3.3.3 单层Decoder
- 3.4 预测层
4. 模型训练
- 5. 模型测试

1. 数据集处理

借由这里介绍Transformer，我们使用一个英文中文的小型翻译数据集来作为本次模型讲解的数据集，数据集下载的网址在这里，进去后选择英文-中文的数据集下载即可。

该数据集的格式为 English + TAB + Chinese + TAB + Attribution ，其中 Attribution 是指数据集的出处，个人用途的话不用管，数据集具体如下：

1.1 提取源和目标

首先，我们需要读取文件并将英文和中文分开，而且为了统一，我们将英文和中文的标点符号全部去掉，这个很简单，以前我们也进行过相似的处理，直接使用正则表达式即可，英文全部改成小写的字母，我们使用英文和中文的最大字符长度作为Encoder和Decoder的长度，所以还需要统计英文和中文分别的最大字符长度，代码如下：

import re


def get_sentences():
    """
    得到中文和英文的最大长度，以及词源集合和目标词集合
    :return: 
    """
    path = 'cmn-eng/cmn.txt'
    # 记录中文和英文的最大长度
    en_word_length = 0
    ch_word_length = 0
    source = []
    target = []
    with open(path, 'r', encoding='utf-8') as f:
    	# 逐行读取
        for line in f:
            line_data = line.split('\t')
            # 去除标点符号
            line_data[0] = re.sub(r'[^\w\s]', '', line_data[0])
            line_data[1] = re.sub("[^\u4e00-\u9fa5]", "", line_data[1])
            # 字母小写
            line_data[0] = line_data[0].lower()
            # 分别添加到源词和目标词中
            source.append(line_data[0])
            target.append(line_data[1])
            # 得到最大的中文、英文长度
            en_word_length = max(en_word_length, len(line_data[0].split(' ')))
            ch_word_length = max(ch_word_length, len(line_data[1]))
    return en_word_length, ch_word_length, source, target


max_en_length, max_ch_length, source, target = get_sentences()

1.2 获取词典

源词汇和目标词汇时字符类型的，而我们输入到模型中的必须时模型可以处理的数字类型的，这里我们采用对源词汇和目标词汇的每一个不同单词进行编号的形式，使得每一个词都有一个编号与之对应，因为英文我们是按照空格进行分词的，中文我们是按照字进行分词的，所以需要分别写两个函数。代码如下：

begin = ''
pad = ''
end = ''


def get_source_dict(sentences):
    '''
    得到词源的 字：索引 和 索引：字 的字典
    :param sentences:
    :return:
    '''
    source_words = set()
    for i in sentences:
    	# 按空格进行分词
        words = i.split(' ')
        for j in words:
            source_words.add(j)
    source_words.add(pad)
    # 得到 index: word 字典
    idx2words = dict(enumerate(sorted(source_words)))
    # 得到 word: index 字典
    words2idx = {v: k for k, v in idx2words.items()}
    return idx2words, words2idx


def get_target_dict(sentences):
    '''
    得到目标词的 字：索引 和 索引：字 的字典
    :param sentences:
    :return:
    '''
    target_words = set()
    for i in sentences:
        for j in i:
            target_words.add(j)
    target_words.add(begin)
    target_words.add(pad)
    target_words.add(end)
    idx2words = dict(enumerate(sorted(target_words)))
    words2idx = {v: k for k, v in idx2words.items()}
    return idx2words, words2idx


source_idx2words, source_words2idx = get_source_dict(source)
target_idx2words, target_words2idx = get_target_dict(target)
# 字典大小
src_vocab_size = len(source_words2idx)
tgt_vocab_size = len(source_words2idx)

1.3 字符串转为编号

得到了上述的编码后，我们就可以将我们源词汇和目标词汇中每一句话的每一个词替换成相对应的编号了，注意，在这里我们需要将源词汇的长度统一为最大英文长度，目标词汇的长度统一为最大中文长度，如果长度不够，那么需要添加 pad 符进行填充。

import torch


def source_string_to_int(table, length, vocab):
    """
    将每条数据按照字典对应的编码转为编码格式
    string -- 输入的字符串
    length -- 想要转为的编码的长度
    vocab -- 字符与数字对应的字典
    """
    result = []
    for string in table:
        string = string.replace(',', '')
        # 如果大于这个长度就截断，英文按照空格分词
        if len(string.split(' ')) > length:
            string = ' '.join(string.split(' ')[: length])
        # 填充字典里没有的字符为''的编码
        rep = list(map(lambda x: vocab.get(x), string.split(' ')))
        # 如果小于规定长度则用''的编码进行填充
        if len(string.split(' ')) < length:
            rep += [vocab[pad]] * (length - len(string.split(' ')))
        result.append(rep)
    return torch.tensor(result)


def target_string_to_int(table, length, vocab):
    """
    将每条数据按照字典对应的编码转为编码格式
    string -- 输入的字符串
    length -- 想要转为的编码的长度
    vocab -- 字符与数字对应的字典
    """
    result = []
    for string in table:
        string = string.replace(',', '')
        # 如果大于这个长度就截断，中文按照字分词
        if len(string) > length:
            string = string[:length]
        # 填充字典里没有的字符为''的编码
        rep = list(map(lambda x: vocab.get(x), string))
        # 如果小于规定长度则用''的编码进行填充
        if len(string) < length:
            rep += [vocab[pad]] * (length - len(string))
        result.append(rep)
    return torch.tensor(result)


# 得到词源和目标词的编码
encode_input = source_string_to_int(source, max_en_length, source_words2idx)
decode = target_string_to_int(target, max_ch_length, target_words2idx)

1.4 得到输入输出

首先我们来看Transformer的结构，包含输入输出的地方有三个，

首先编码器只有一个输入，那肯定是输入的源句子，但是解码器有两个输入，一个是上面的，一个是下面的。仔细回想一下，比如 “I have a cat” 一句话中，我们需要在前面添加一个，变为 “ I have a cat” ，还需要在后面添加一个，成为 “I have a cat ” ，这样，我们就可以使用来预测 “I”， “I” 来预测 “hava” ，直到最后用 “cat” 来预测 “” 。

由此，解码器的两个输入也就一目了然了，下面的输入是在前面加上一个的输入，然后编码器进行预测，如果一切顺利应该输出 “I” ，所以上面的输入应该是后面加上一个的输入，代码如下：

# 得到decode的输入，在每一句话前面加上一个begin
decode_input = torch.cat((torch.full((decode.size()[0], 1), target_words2idx[begin]), decode), dim=1)
# 得到decode的输出，在每一句话后面加上一个end
decode_output = torch.cat((decode, torch.full((decode.size()[0], 1), target_words2idx[end])), dim=1)
# decoder的长度+1
max_ch_length += 1

2. 制作数据管道

在这里我们需要的只是随机选择一个数，然后抽取对应的 encode_input, decode_input, decode_output 进行运算即可。代码如下：

import torch.utils.data as Data

# 自定义数据集函数
class MyDataSet(Data.Dataset):
    def __init__(self, enc_inputs, dec_inputs, dec_outputs):
        super(MyDataSet, self).__init__()
        self.enc_inputs = enc_inputs
        self.dec_inputs = dec_inputs
        self.dec_outputs = dec_outputs

    def __len__(self):
        return self.enc_inputs.shape[0]

    def __getitem__(self, idx):
        return self.enc_inputs[idx], self.dec_inputs[idx], self.dec_outputs[idx]

# 设置批量大小为128，随机抽取
loader = Data.DataLoader(MyDataSet(encode_input, decode_input, decode_output), 128, True)

3. 构建模型

3.1 模型整体架构

在观看Transformer的架构之前，我们先将一些需要设置的超参数进行设置，

d_model = 512   # 字 Embedding 的维度
d_ff = 2048     # 前向传播隐藏层维度
d_k = d_v = 64  # K(=Q), V的维度
n_layers = 6    # 有多少个encoder和decoder
n_heads = 8     # Multi-Head Attention设置为8

Transformer 一层的架构如下，接下来我们按照这个架构进行构建即可。

Transformer 含有若干个编码器和解码器，将待翻译的句子输入进编码器，然后将编码器的结果与翻译好的句子输入到解码器来进行解码预测，最后将其传入一个线性层加上一个softmax层计算损失，这就是Transformer的全部流程，故，我们可以构建模型结构如下：

import torch.nn as nn

class Transformer(nn.Module):
    def __init__(self):
        super(Transformer, self).__init__()
        # 编码器层
        self.Encoder = Encoder().cuda()
        # 解码器层
        self.Decoder = Decoder().cuda()
        # 线性层
        self.projection = nn.Linear(d_model, tgt_vocab_size, bias=False).cuda()

    def forward(self, enc_inputs, dec_inputs):
        """
        整体的Transformer层
        :param enc_inputs: [batch_size, max_ch_length]
        :param dec_inputs: [batch_size, max_ch_length]
        :return:
        """
        enc_outputs, enc_self_attns = self.Encoder(enc_inputs)         # enc_outputs: [batch_size, max_ch_length, d_model],
                                                                       # enc_self_attns: [n_layers, batch_size, n_heads, max_ch_length, max_ch_length]
        dec_outputs, dec_self_attns, dec_enc_attns = self.Decoder(
            dec_inputs, enc_inputs, enc_outputs)                       # dec_outpus    : [batch_size, max_ch_length, d_model],
                                                                       # dec_self_attns: [n_layers, batch_size, n_heads, max_ch_length, max_ch_length],
                                                                       # dec_enc_attn  : [n_layers, batch_size, max_ch_length, max_en_length]
        dec_logits = self.projection(dec_outputs)                      # dec_logits: [batch_size, max_ch_length, tgt_vocab_size]
        return dec_logits.view(-1, dec_logits.size(-1)), enc_self_attns, dec_self_attns, dec_enc_attns

3.2 编码器

知道了Transformer的整体结构后，我们首先来实现编码器，也就是上图中左边的部分。

3.2.1 Encoder 整体结构

Encoder层首先输入时将其转为Embedding形式，然后与其位置编码进行相加，通过一个多头注意力机制和一个带残差和层归一化的前馈神经网络层，然后再经过一个残差和层归一化将其传递给下一个Encoder 或者将信息传给Decoder，整体结构如下：

class Encoder(nn.Module):
    def __init__(self):
        super(Encoder, self).__init__()
        # 嵌入层
        self.src_emb = nn.Embedding(src_vocab_size, d_model)
        # 位置嵌入
        self.pos_emb = PositionalEncoding(d_model)
        # 单层Encoder
        self.layers = nn.ModuleList([EncoderLayer() for _ in range(n_layers)])

    def forward(self, enc_inputs):
        """
        enc_inputs: [batch_size, src_len]
        """
        # 嵌入向量编码
        enc_outputs = self.src_emb(enc_inputs) # [batch_size, src_len, d_model]
        # 与位置嵌入相加
        enc_outputs = self.pos_emb(enc_outputs.transpose(0, 1)).transpose(0, 1) # [batch_size, src_len, d_model]
        # 将填充的信息遮住，防止做注意力计算
        enc_self_attn_mask = get_attn_pad_mask(enc_inputs, enc_inputs) # [batch_size, src_len, src_len]
        enc_self_attns = []
        for layer in self.layers:
            # enc_outputs: [batch_size, src_len, d_model], enc_self_attn: [batch_size, n_heads, src_len, src_len]
            enc_outputs, enc_self_attn = layer(enc_outputs, enc_self_attn_mask)
            enc_self_attns.append(enc_self_attn)
        return enc_outputs, enc_self_attns

接下来我们分别对其进行实现即可。

3.2.2 位置编码

编码器中的输入是嵌入向量的形式，也就是需要输入映射为 d_model 维度的向量，这里使用一层 Embedding 层即可，输入还需要采用位置编码，这里我们用Transformer原文中使用的位置编码，即奇数位置的编码为：
$\sin(\omega_1\cdot t),\omega_{k}=\frac{1}{10000^{2k/d}}$
其中 $t$ 为每个 token 的位置，比如位置1，位置2 $\cdots$ ，偶数位置的编码只需要将 $\sin$ 变为 $\cos$ 即可。故其实现如下：

import numpy as np

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout=0.1, max_len=5000):
        super(PositionalEncoding,self).__init__()
        self.dropout = nn.Dropout(p=dropout)
        pos_table = np.array([
        [pos / np.power(10000, 2 * i / d_model) for i in range(d_model)]
        if pos != 0 else np.zeros(d_model) for pos in range(max_len)])
        # 字嵌入维度为偶数时
        pos_table[1:, 0::2] = np.sin(pos_table[1:, 0::2])
        # 字嵌入维度为奇数时
        pos_table[1:, 1::2] = np.cos(pos_table[1:, 1::2])
        self.pos_table = torch.FloatTensor(pos_table).cuda()               # enc_inputs: [seq_len, d_model]

    def forward(self, enc_inputs):
        """
		将嵌入向量与位置编码进行相加
        :param enc_inputs: [batch_size, seq_len, d_model]
        :return:
        """
        enc_inputs += self.pos_table[:enc_inputs.size(1), :]
        return self.dropout(enc_inputs.cuda())

3.2.3 多头注意力机制

多头注意力机制实际上就是多个自注意力机制并行运算然后相加的操作，在进行多头注意力计算之前，我们需要将我们填充的长度遮住，也就是需要一个mask矩阵，因为我们填充的长度是不进行注意力计算的，mask矩阵计算如下：

def get_attn_pad_mask(seq_q, seq_k):
    """
    将注意力矩阵中的 遮住
    :param seq_q: 
    :param seq_k: 
    :return: 
    """
    # seq_q 用于升维，为了做attention，mask score矩阵用的
    batch_size, len_q = seq_q.size()
    batch_size, len_k = seq_k.size()
    # 判断 输入那些含有P(=0),用1标记 ,[batch_size, 1, len_k]
    pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)
    return pad_attn_mask.expand(batch_size,len_q,len_k) # 扩展成多维度   [batch_size, len_q, len_k]

之后，计算多头注意力机制只需要传入 $Q, K, V$ 和mask过后的注意力矩阵即可，计算如下：

class ScaledDotProductAttention(nn.Module):
    def __init__(self):
        super(ScaledDotProductAttention, self).__init__()

    def forward(self, Q, K, V, attn_mask):
        """
        计算注意力分数
        :param Q: [batch_size, n_heads, len_q, d_k]
        :param K: [batch_size, n_heads, len_k, d_k]
        :param V: [batch_size, n_heads, len_v(=len_k), d_v]
        :param attn_mask: [batch_size, n_heads, seq_len, seq_len]
        :return:
        """
        scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k)   # scores : [batch_size, n_heads, len_q, len_k]
        scores.masked_fill_(attn_mask, -1e9)                           # 如果是停用词P就等于 0
        attn = nn.Softmax(dim=-1)(scores)
        context = torch.matmul(attn, V)                                # [batch_size, n_heads, len_q, d_v]
        return context, attn


class MultiHeadAttention(nn.Module):
    def __init__(self):
        super(MultiHeadAttention, self).__init__()
        self.W_Q = nn.Linear(d_model, d_k * n_heads, bias=False)
        self.W_K = nn.Linear(d_model, d_k * n_heads, bias=False)
        self.W_V = nn.Linear(d_model, d_v * n_heads, bias=False)
        self.fc = nn.Linear(n_heads * d_v, d_model, bias=False)

    def forward(self, input_Q, input_K, input_V, attn_mask):
        """
        计算多头注意力分数
        :param input_Q: [batch_size, len_q, d_model]
        :param input_K: [batch_size, len_k, d_model]
        :param input_V: [batch_size, len_v(=len_k), d_model]
        :param attn_mask: [batch_size, seq_len, seq_len]
        :return:
        """
        residual, batch_size = input_Q, input_Q.size(0)
        Q = self.W_Q(input_Q).view(batch_size, -1, n_heads, d_k).transpose(1, 2)  # Q: [batch_size, n_heads, len_q, d_k]
        K = self.W_K(input_K).view(batch_size, -1, n_heads, d_k).transpose(1, 2)  # K: [batch_size, n_heads, len_k, d_k]
        V = self.W_V(input_V).view(batch_size, -1, n_heads, d_v).transpose(1,
                                                                           2)  # V: [batch_size, n_heads, len_v(=len_k), d_v]
        attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1,
                                                  1)  # attn_mask : [batch_size, n_heads, seq_len, seq_len]
        context, attn = ScaledDotProductAttention()(Q, K, V, attn_mask)  # context: [batch_size, n_heads, len_q, d_v]
        # attn: [batch_size, n_heads, len_q, len_k]
        context = context.transpose(1, 2).reshape(batch_size, -1,
                                                  n_heads * d_v)  # context: [batch_size, len_q, n_heads * d_v]
        output = self.fc(context)  # [batch_size, len_q, d_model]
        return nn.LayerNorm(d_model).cuda()(output + residual), attn

3.2.4 前馈神经网络

前馈神经网络实际就是一个单纯的线性层，但是，在传入之前我们需要进行残差计算以及层归一化运算，使得训练更容易。

class PoswiseFeedForwardNet(nn.Module):
    def __init__(self):
        super(PoswiseFeedForwardNet, self).__init__()
        self.fc = nn.Sequential(
            nn.Linear(d_model, d_ff, bias=False),
            nn.ReLU(),
            nn.Linear(d_ff, d_model, bias=False))

    def forward(self, inputs):
        """
        前馈神经网络
        :param inputs: [batch_size, seq_len, d_model]
        :return:
        """
        residual = inputs
        output = self.fc(inputs)
        return nn.LayerNorm(d_model).cuda()(output + residual)  # [batch_size, seq_len, d_model]

3.2.5 单层Encoder

Encoder层是由很多个单层Encoder层进行叠加而来的，每一个单层Encoder都实现了上面的多头注意力机制、前馈神经网络、残差计算和层归一化，而整个Encoder层只需要堆叠单层Encoder即可，代码如下：

class EncoderLayer(nn.Module):
    def __init__(self):
        super(EncoderLayer, self).__init__()
        self.enc_self_attn = MultiHeadAttention()                                     # 多头注意力机制
        self.pos_ffn = PoswiseFeedForwardNet()                                        # 前馈神经网络

    def forward(self, enc_inputs, enc_self_attn_mask):
        """
        单独的编码层计算
        :param enc_inputs: [batch_size, src_len, d_model]
        :param enc_self_attn_mask: [batch_size, src_len, src_len]
        :return:
        """
        #输入3个enc_inputs分别与W_q、W_k、W_v相乘得到Q、K、V
        enc_outputs, attn = self.enc_self_attn(enc_inputs, enc_inputs, enc_inputs,    # enc_outputs: [batch_size, src_len, d_model],
                                               enc_self_attn_mask)                    # attn: [batch_size, n_heads, src_len, src_len]
        enc_outputs = self.pos_ffn(enc_outputs)                                       # enc_outputs: [batch_size, src_len, d_model]
        return enc_outputs, attn

3.3 编码器

接下来我们再实现Transformer右边的结构，也就是编码器的结构。

3.3.1 Decoder整体结构

Decoder与Encoder有一些不同，不仅其内部多了一个带 Mask 的多头注意力，而且Decoder还需要接受Encoder传递过来的信息，其整体代码如下：

class Decoder(nn.Module):
    def __init__(self):
        super(Decoder, self).__init__()
        self.tgt_emb = nn.Embedding(tgt_vocab_size, d_model)
        self.pos_emb = PositionalEncoding(d_model)
        self.layers = nn.ModuleList([DecoderLayer() for _ in range(n_layers)])

    def forward(self, dec_inputs, enc_inputs, enc_outputs):
        """
        dec_inputs: [batch_size, tgt_len]
        enc_intpus: [batch_size, src_len]
        enc_outputs: [batch_size, src_len, d_model]
        """
        dec_outputs = self.tgt_emb(dec_inputs) # [batch_size, tgt_len, d_model]
        dec_outputs = self.pos_emb(dec_outputs.transpose(0, 1)).transpose(0, 1).cuda() # [batch_size, tgt_len, d_model]
        # Decoder输入序列的pad mask矩阵
        dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs).cuda() # [batch_size, tgt_len, tgt_len]
        # Masked Self_Attention：当前时刻是看不到未来的信息的
        dec_self_attn_subsequence_mask = get_attn_subsequence_mask(dec_inputs).cuda() # [batch_size, tgt_len, tgt_len]
        # Decoder中把两种mask矩阵相加（既屏蔽了pad的信息，也屏蔽了未来时刻的信息）
        dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequence_mask), 0).cuda() # [batch_size, tgt_len, tgt_len]

        # 这个mask主要用于encoder-decoder attention层
        # get_attn_pad_mask主要是enc_inputs的pad mask矩阵(因为enc是处理K,V的，求Attention时是用v1,v2,..vm去加权的，
        # 要把pad对应的v_i的相关系数设为0，这样注意力就不会关注pad向量)
        #                       dec_inputs只是提供expand的size的
        dec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs) # [batc_size, tgt_len, src_len]

        dec_self_attns, dec_enc_attns = [], []
        for layer in self.layers:
            # dec_outputs: [batch_size, tgt_len, d_model], dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len], dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]
            dec_outputs, dec_self_attn, dec_enc_attn = layer(dec_outputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask)
            dec_self_attns.append(dec_self_attn)
            dec_enc_attns.append(dec_enc_attn)
        return dec_outputs, dec_self_attns, dec_enc_attns

Decoder中的多头注意力机制与Encoder中的一致，接下来我们对其中的带mask的多头注意力机制进行讲解即可。

3.3.2 带mask的多头注意力机制

带mask的多头注意力机制听着不同，其实也就是改变了一下mask矩阵而已，原来的多头注意力机制是将pad填充的信息进行了mask，现在是将矩阵进行上三角的mask操作，具体如下：

def get_attn_subsequence_mask(seq):
    """
    获取mask过后的注意力矩阵
    :param seq: [batch_size, tgt_len]
    :return:
    """
    # 生成上三角矩阵
    attn_shape = [seq.size(0), seq.size(1), seq.size(1)]          # [batch_size, tgt_len, tgt_len]
    subsequence_mask = np.triu(np.ones(attn_shape), k=1)
    subsequence_mask = torch.from_numpy(subsequence_mask).byte()  #  [batch_size, tgt_len, tgt_len]
    return subsequence_mask

3.3.3 单层Decoder

Decoder是由多个单层的Decoder堆叠在一起的，这与Encoder的组成一样，因此，单层Decoder的计算就显得尤为重要，根据Transformer里面的结构，其既需要带mask的多头注意力，又需要不带mask的多头注意力，需要注意的是，不带mask的多头注意力这里是将Encoder信息结合的点，其 $K, V$ 使用的是Encoder传递过来的信息进行变换的，而其 $Q$ 依然使用的是Decoder的信息，代码实现如下：

class DecoderLayer(nn.Module):
    def __init__(self):
        super(DecoderLayer, self).__init__()
        self.dec_self_attn = MultiHeadAttention()
        self.dec_enc_attn = MultiHeadAttention()
        self.pos_ffn = PoswiseFeedForwardNet()

    def forward(self, dec_inputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask):
        """
        计算单独的解码层
        :param dec_inputs: [batch_size, tgt_len, d_model]
        :param enc_outputs: [batch_size, src_len, d_model]
        :param dec_self_attn_mask: [batch_size, tgt_len, tgt_len]
        :param dec_enc_attn_mask: [batch_size, tgt_len, src_len]
        :return:
        """
        # 带mask的多头注意力
        dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs,
                                                 dec_inputs, dec_self_attn_mask)   # dec_outputs: [batch_size, tgt_len, d_model]
                                                                                   # dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len]
        # 不带mask的多头注意力，其 Q 是Decoder的信息，K,V都是Encoder的信息
        dec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs,
                                                enc_outputs, dec_enc_attn_mask)    # dec_outputs: [batch_size, tgt_len, d_model]
                                                                                   # dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]
        dec_outputs = self.pos_ffn(dec_outputs)                                    # dec_outputs: [batch_size, tgt_len, d_model]
        return dec_outputs, dec_self_attn, dec_enc_attn

3.4 预测层

最后的预测层也就是一个线性层加上一个softmax即可，跟一般的预测输出一样，这块在Transformer的整体架构那里已经进行了实现。

4. 模型训练

构建完模型后，就需要对模型进行训练了，将模型的输出与现实的输出做交叉熵损失，当作模型的损失，代码如下：

def train():
    model = Transformer().cuda()
    model.load_state_dict(torch.load('transformer.params'))
    #忽略 占位符 索引为0
    criterion = nn.CrossEntropyLoss(ignore_index=0)
    optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.99)
    pre = 100000
    for epoch in range(100):
        epoch_loss = 0
        for enc_inputs, dec_inputs, dec_outputs in loader:
            enc_inputs, dec_inputs, dec_outputs = enc_inputs.cuda(), dec_inputs.cuda(), dec_outputs.cuda()
            outputs, enc_self_attns, dec_self_attns, dec_enc_attns = model(enc_inputs, dec_inputs)
            loss = criterion(outputs, dec_outputs.view(-1))
            epoch_loss += loss
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
        print('Epoch:', '%04d' % (epoch + 1), 'loss =', '{:.6f}'.format(epoch_loss))
        # 如果训练的损失减小，则保存模型
        if epoch_loss < pre:
            torch.save(model.state_dict(), 'transformer.params')
        	pre = epoch_loss


train()

5. 模型测试

训练好模型后，需要进行模型的测试，比如使用一个 “I have an apple” 进行测试，但是，我们模型的输入 model(enc_inputs, dec_inputs) 中前一个参数是Encoder的编码，可以得到，但是后一个参数是Decoder的编码，这是我们需要预测的信息，这怎么进行输入呢？

这里，我们可以将模型拆为Encoder和Decoder，分别使用其两个部分的信息，先使用Encoder编码得到编码信息，然后从开始使用Decoder进行逐个预测，然后将逐个预测得到的结果查编号-字的字典进行输出即可。

def detect(words):
    clone = Transformer()
    clone.load_state_dict(torch.load('transformer.params'))
    clone.eval()

    # 编码
    words = words.lower()
    enc_input = list(map(lambda x: source_words2idx.get(x), words.split(' ')))
    if len(words.split(' ')) < max_en_length:
        enc_input += [source_words2idx[pad]] * (max_en_length - len(words.split(' ')))
    enc_input = torch.tensor(enc_input).view(1, -1).cuda()
	
	# 从 begin 编码开始逐个预测
    start_symbol = target_words2idx[begin]
    enc_outputs, enc_self_attns = clone.Encoder(enc_input)
    dec_input = torch.zeros(1, max_ch_length).type_as(enc_input.data)
    next_symbol = start_symbol
    for i in range(0, max_ch_length):
        dec_input[0][i] = next_symbol
        dec_outputs, _, _ = clone.Decoder(dec_input, enc_input, enc_outputs)
        projected = clone.projection(dec_outputs)
        prob = projected.squeeze(0).max(dim=-1, keepdim=False)[1]
        next_word = prob.data[i]
        next_symbol = next_word.item()
    print([target_idx2words[n.item()] for n in dec_input[0]])


detect("I have an apple")

你可能感兴趣的:(NLP模型,自然语言处理,transformer,c#)

RAG 助力教育个性化：重塑学习体验的科技引擎 hy098543 学习科技
一、引言1.1研究背景与动机随着自然语言处理（NLP）技术的飞速发展，大语言模型（LLM）在众多任务中展现出了强大的能力，如文本生成、问答系统和机器翻译等。然而，传统的大语言模型在知识存储和更新方面存在一定的局限性。一方面，模型的知识主要依赖于预训练阶段所接触的数据，这导致其知识更新滞后，难以应对快速变化的现实世界信息。例如，对于一些新出现的事件、技术或研究成果，模型可能无法及时给出准确的信息。另
重塑未来：AI如何重新定义全栈开发熊猫钓鱼>_> 人工智能
在传统认知中，全栈开发者被誉为技术界的“全能选手”。——他们需要精通前端界面构建（HTML/CSS/JavaScript）、后端业务逻辑实现（Python/Java/Node.js）、数据库设计优化（MySQL/MongoDB）以及服务器部署运维（Linux/Docker）。这种“一人包打天下”的能力模型长期被视为高效开发的黄金标准，尤其受到创业公司和小型团队的青睐，因为它能大幅减少沟通成本，加速
IDC权威认可：瑞数信息双项入选《中国大模型安全保护市场概览》科技云报道安全
近日，国际数据公司IDC正式发布了《中国大模型安全保护市场概览，2025：全方位安全检测与防护构建可信AI》报告。本次报告中IDC结合全球统一定义以及中国市场特色，将中国大模型安全保护市场划分为7个细分领域，并通过对中国大模型安全保护市场的广泛和深入的调研，对各细分领域的代表厂商进行了全面梳理。瑞数信息凭借在AI领域的深厚技术积累与前瞻布局，入选中国大模型安全保护市场“保护大模型接口”与“保护大模
模型优化-------模型压缩 AI扶我青云志人工智能模型优化
模型压缩是一种优化技术，目标是在尽量保留模型性能的前提下，减少模型的体积、计算成本和内存占用。特别适合模型部署在边缘设备、移动端、嵌入式系统等资源受限环境中。其中，“剪枝（Pruning）、量化（Quantization）和知识蒸馏（KnowledgeDistillation）”是最常用且研究最深入的三种方法。一、剪枝（Pruning）原理：剪枝的核心思想是去掉对模型输出影响较小的参数或结构，使得
BERT模型架构大多_C bert 人工智能深度学习
BertModel((embeddings):BertEmbeddings((word_embeddings):Embedding(30522,768,padding_idx=0)(position_embeddings):Embedding(512,768)(token_type_embeddings):Embedding(2,768)(LayerNorm):LayerNorm((768,),e
云服务器环境下Linux系统epoll机制与高并发服务器优化实践 cpsvps_net 服务器 linux 运维
在当今云计算时代，云已成为企业部署高并发服务的首选平台。本文将深入探讨Linux系统核心的epoll机制如何赋能云环境下的高并发服务器，解析其底层工作原理与性能优势，并对比传统IO复用模型的差异，帮助开发者构建更高效的云端服务架构。云服务器环境下Linux系统epoll机制与高并发服务器优化实践一、云服务器环境对高并发服务的特殊需求在云服务器环境中，资源弹性扩展的特性使得高并发服务成为可能，但同时
Unity UI的未来之路：从UGUI到UI Toolkit的架构演进与特性剖析(1) 伽蓝_游戏 unity ui 架构游戏引擎游戏 c#.net
第一章：全面的特性对决——一份来自官方的详细评测报告在Unity引擎的UI开发领域，开发者主要面对两种核心技术选型：成熟且深度集成的UGUI(UnityUI)系统，以及代表未来方向、以性能和现代工作流为设计目标的UIToolkit。两者在底层架构、工作流程、性能模型和功能覆盖上存在本质差异。本章将基于详细的功能特性对比，对二者进行深入的技术分析，为开发者在项目初期做出合理的技术选型提供依据。核心差
微服务架构监控：四大黄金指标解析 AI云原生与云计算技术学院架构微服务云原生 ai
微服务架构监控：四大黄金指标解析关键词：微服务架构、监控体系、四大黄金指标、SRE、延迟、流量、错误、饱和度摘要：本文深入解析微服务架构监控的核心方法论——四大黄金指标（延迟、流量、错误、饱和度），基于GoogleSRE最佳实践，结合具体技术实现与数学模型，阐述指标设计原理、数据采集方法、可视化实践及异常诊断逻辑。通过完整的项目实战案例，演示如何构建端到端监控体系，帮助技术团队建立可观测性基线，提
verilator如何实现RTL的仿真(腾讯混元)
Verilator是一个用于将Verilog或SystemVerilogRTL（寄存器传输级）代码转换为C++或SystemC模型的工具，主要用于高性能的功能仿真和验证。它不是像ModelSim或VCS那样的传统事件驱动仿真器，而是通过静态编译的方式将RTL转换为可执行的C++代码，从而实现高效仿真。下面详细介绍Verilator实现RTL仿真的流程与实现细节。一、Verilator的基本工作流程
GPU 之后，IMU 登场：AI 发展的下一次飞跃
你早晨醒来，手机上的大模型帮你写完邮件、翻译合同，却依旧不能帮你把厨房里洒掉的牛奶擦干。你戴上的AR眼镜知道“那里有杯子”，却抓不到它——AI会说不会做。是不是哪里少了一截？人工智能（AI）的发展历程中，我们见证了从简单的数据处理到复杂的语言生成能力的飞跃。然而，尽管AI在虚拟世界中表现出色，它在物理世界中的表现却相对滞后。为了填补这一空白，AI正在进入一个新的发展阶段：行动驱动时代。在本文中，我
阿里云天池-学习笔记（7.22） 2301_81822737 深度学习
概念的初步认识和学习一、损失函数损失函数是衡量模型预测值与真实值之间差异的一个量度，通过最小化这个差异来优化模型的参数。损失函数的选择直接影响到模型的训练效果和最终性能。二、one-hot编码one-hot编码使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候其中只有一位有效（即为1，其余为0）。具体来说，对于每个分类变量，都会为其分配一个唯一的二进制位，并使用该
借助零信任网格重塑分布式MCP与LLM访问：安全、灵活的下一代架构实践码力金矿机器学习深度学习人工智能人工智能自动化运维数据库 mysql python java
在数字化转型的浪潮中，AI应用与分布式系统正在加速融合。传统架构中，MCP（模型上下文协议）服务与LLM（大语言模型）工具的部署常面临安全暴露、网络复杂性、跨防火墙通信等挑战。本文将结合零信任网格（ZTM,ZeroTrustMesh）与Flomesh技术，探索一种更安全、灵活的分布式架构方案，让MCP服务无需VPN或静态IP即可实现全球可访问，同时为LLM应用提供统一的安全层。一、传统分布式架构的
爆改YOLOv8 | 利用AFPN增加小目标检测层(替换小目标检测头）
1，本文介绍这篇文章的改进机制是利用新推出的渐近特征金字塔网络（AFPN）来优化yolov8的检测头，AFPN的核心是引入一种渐近的特征融合策略，将底层和高层的特征逐渐整合到目标检测过程中。这种方式有助于减小不同层次特征之间的语义差距，提高特征融合效果，使得检测模型能更好地适应不同层次的语义信息。关于AFPN的详细介绍可以看论文：https://arxiv.org/pdf/2306.15988.p
Unity与VS2015协同调试C#脚本实战指南带你玩遍北海道
本文还有配套的精品资源，点击获取简介：Unity是广受青睐的跨平台游戏引擎，C#是其主要编程语言。VisualStudio2015作为一个强大的IDE，支持对Unity项目中的C#代码进行深入调试。本文将指导你如何设置VisualStudio2015作为Unity项目的官方外部脚本编辑器，并详细说明如何在VS2015中进行代码调试，包括断点设置、启动调试、调试操作和性能优化等步骤。了解这些调试技巧
7、开启C与Unity 3D的编程之旅珊珊333333 Unity C#Unity 3D 编程基础
开启C#与Unity3D的编程之旅1.前期准备在进行每一个教程之前，都有一个名为Scene的场景文件。在整个学习过程中，教程通常从下载项目中的Scene文件开始。打开场景的方法有两种：-直接在项目面板的Assets目录下双击场景图标。-选择File→OpenScene来打开项目中的任何场景。2.学习回顾与要点创建并将新的C#文件分配给对象并不复杂，在Unity3D编辑器中有多种方法可以实现。添加代
Java内存模型深度解析：栈、堆、方法区详解 wsj__WSJ java java
本文通过生动比喻和实战案例，帮你彻底掌握Java内存结构中栈内存、堆内存和方法区的核心原理与协作方式。一、为什么要区分三种内存？Java划分栈、堆、方法区是为了提高内存使用效率，不同数据有不同的生命周期和访问频率：数据类型类比场景存储位置生命周期临时数据（方法参数）便签纸栈内存方法执行期间对象实例常用文件夹堆内存对象存在期间类定义信息公司制度手册方法区程序运行期间就像高效的办公桌管理：栈内存：临时
初识TCP和UDP F.LASH. 网络编程网络 tcp/ip udp linux arm开发
文章目录前言一、网络是什么？二、TCP和UDP的特点三、网络层协议四、Linux下网络命令以及网络配置总结前言本期主要分享的是网络的一些基本概念以及UDP相关通信的内容，希望各位小伙伴能够把接口使用起来！一、网络是什么？1.网络：主机间数据共享、数据收发2.协议：通信双方约定的一套标准3.国际标准OSI模型应用层传输数据表示层数据加密会话层建立会话链接传输层传输方式网络层数据路由数据链路层局域网通
一文快速了解.NET项目文件(.csproj) ，基础而重要的文件【代码之美系列】 Microi风闲【开源】NET Core 跨平台 .net c#
代码之美系列目录一、C#命名规则规范二、C#代码约定规范三、C#参数类型约束四、浅析B/S应用程序体系结构原则五、浅析C#Async和Await六、浅析ASP.NETCoreSignalR双工通信七、浅析ASP.NETCore和MongoDB创建WebAPI八、浅析ASP.NETWebUI框架RazorPages/MVC/WebAPI/Blazor九、如何使用MiniProfilerWebAPI分
AI Agent开发学习系列 - langchain之memory(1)：内存中的短时记忆 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
内存中的短时记忆，在LangChain中通常指ConversationBufferMemory这类“对话缓冲记忆”工具。它的作用是：在内存中保存最近的对话历史，让大模型能理解上下文，实现连续对话。对话缓冲记忆”工具主要特点只保留最近的对话内容（如最近N轮），不会无限增长，节省内存和token。适合短对话、上下文关联不深的场景。支持多种变体，如窗口记忆（ConversationBufferWindo
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
【论文蒸馏】Recent Advances in Speech Language Models: A Survey Greener_Pat 论文蒸馏语言模型人工智能 AudioLM
AbstractLLM蓬勃发展，但从交互的自然性上看语音大模型(SpeechLM)有巨大的发展空间。直接的方法是ASR(语音转文字)+LLM+TTS(文字转语音)，但是这样有其固有的限制，而端到端的SpeechLM表现更好，本文及其方法论做了一个概览的综述1.Introduction大语言模型提供了强大的AI基础支架，在其它领域有着广泛应用。但交互上不自然，所以需要声学大模型。一种直接的实现方式是
基于LDA模型的经济金融政策文本研究与分析设计与实现，很详细 python编程狮金融人工智能 python LDA主题分析情感分析词云图文本挖掘
摘要经济金融政策文本的研究与分析对于理解国家经济发展方向和政策制定逻辑至关重要。近年来，随着信息技术的发展，基于文本的定量分析方法在经济金融领域得到广泛应用。LDA（LatentDirichletAllocation）作为一种典型的主题模型，能够有效地从大量政策文本中提取潜在的主题结构，帮助研究者理解和分析政策的核心内容和演变趋势。本研究基于LDA模型，对经济金融政策文本进行了系统的研究与分析。首
基于SVm和随机森林算法模型的中国黄金价格预测分析与研究 python编程狮支持向量机算法随机森林 python 机器学习人工智能
摘要本研究基于回归模型，运用支持向量机（SVM）、决策树和随机森林算法，对中国黄金价格进行预测分析。通过历史黄金价格数据的分析和特征工程，建立了相应的预测模型，并利用SVM、决策树和随机森林算法进行训练和预测。首先，通过对黄金价格时间序列数据的探索性分析，发现黄金价格存在一定的趋势和季节性变化。随后，进行了数据预处理和特征选择，为建立准确的预测模型奠定了基础。分别使用SVM、决策树和随机森林算法建
C++学习笔记day3 既白765 c++学习
继承：好处：减少重复代码语法：class子类：继承方式父类子类也称为派生类，父类也称为基类。继承中的对象模型：父类中所有的非静态成员都会被子类继承。利用开发人员命令提示工具查看对象模型：跳转盘符C：跳转文件路径cd具体路径下查看命名cl/d1reportSingleClassLayout类名文件名继承中的构造和析构顺序：先构造父类再构造子类先析构子类再析构父类继承中同名成员处理方式：访问子类同名成
JAVA面试宝典 -《DDD实战：从贫血模型到领域事件》
DDD实战：从贫血模型到领域事件引言：为什么从三层架构转向DDD？在传统的三层架构中，我们习惯将系统划分为Controller、Service和Repository层，关注点更多落在“技术职责”而非“业务语义”。然而，随着系统复杂度提高，贫血模型、重复逻辑、脆弱耦合等问题层出不穷。领域驱动设计（DDD）正是为了解决这些问题而生。它强调以业务为中心建模，将“业务行为”作为核心驱动软件设计，帮助系统在
《Spring核心容器源码解密：IOC与事件驱动模型》
Spring核心容器源码解密：IOC与事件驱动模型引言：Spring容器的核心职责Spring框架的核心容器是其基石，承担着两大关键职责：控制反转(IOC)：管理对象生命周期与依赖关系事件驱动模型：实现组件间解耦通信这两大机制共同构建了Spring"高内聚、低耦合"的架构哲学。本文将深入源码层面，揭示IOC容器与事>件模型如何协同工作，并通过实战展示如何构建解耦的业务系统。Spring容器IOC控
代理服务器详解(proxy server) 玄魄灵归分布式代理模式服务器 java
什么是代理服务器(proxyserver)代理服务器（ProxyServer）是一个中间服务器，位于客户端和目标服务器之间。它代表客户端向目标服务器发送请求，并将目标服务器的响应返回给客户端，其模型如下图所示：客户端请求：客户端（如浏览器）向代理服务器发送请求，例如请求访问一个网站。请求转发：代理服务器接收到客户端的请求后，会将该请求转发给目标服务器。目标服务器响应：目标服务器处理请求并将响应数据
HTTP性能优化实战技术文章大纲 x10n9 http 性能优化网络协议
HTTP性能优化实战技术文章大纲理解HTTP性能瓶颈HTTP协议在请求-响应模型中的性能瓶颈主要涉及延迟、带宽限制和资源加载效率。通过分析网络请求的各个环节，识别关键性能问题，例如DNS解析时间、TCP连接建立、SSL/TLS握手时间等。减少HTTP请求数量合并CSS和JavaScript文件，使用CSSSprites技术减少图片请求次数。内联小型资源如图标或CSS片段，避免额外的HTTP请求。采
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
JVM基础篇1 - Class的加载 The小可 JVM java ide
JVM基础篇1-Class的加载JVM基础篇2-指令集JVM进阶篇1-内存模型JVM进阶篇2-GC垃圾回收JVM总览-JVM架构引入jvm面试题：谈谈对jvm的理解？java8虚拟机和之前的变化更新？什么是OOM，什么是栈溢出StackOverFlowError？怎么分析JVM常用的调优参数有哪些？内存快照如何抓取？怎么分析Dump文件？知道吗？谈谈jVM，类加载器的认识？1.什么是JVM？jvm
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {