benben044

transformer算法解析

本文参考：

详解Transformer （Attention Is All You Need） - 知乎

Transformer 代码完全解读！_AI科技大本营的博客-CSDN博客

Transformer学习笔记一：Positional Encoding（位置编码） - 知乎

1、Transformer概述

Transformer抛弃了CNN和RNN，整个网络结构完全由self-Attention和Feed Forward Neural Network机制组成。同时它有很好的并行性。

Attention机制的公式如下：

对于Self-Attention则Q=K=V

Feed Forward Neural Network（FFN）的公式如下：

全连接有两层，第一层的激活函数是ReLU，第二层是一个线性激活函数。

Transformer的整体架构如下：

训练阶段过程概述（针对seq2seq场景）：

（1）输入input，首先经过input embedding和positional embedding得到了带位置信息的embedding信息

（2）encoder阶段，在每个encoder子层中包含多头注意力机制（Mutli-Head Attention）和全连接（Feed Forward），而每个Multi-Head Attention和Feed Forward又都是残差结构，最后输出包含inputs特征的memory信息

（3）输入output，output的首位是起始符，同样经过input embedding和positional embedding得到了带位置信息的embedding信息

（4）decoder阶段，在每个decoder子层中包含两个Multi-Head Attention和全连接（Feed Forward），其中第一个Multi-Head Attention得到了output自身的特征，第二个Multi-Head Attention融合了encoder输出的memory后优化了output的特征信息

（5）decoder输出的特征经过Linear和softmax之后得到了在所有输出字符的预测分布信息，与输出字符的实际分布进行对比计算loss

推理预测阶段过程概述（针对seq2seq场景）：

（1）输入inputs通过embedding模块和encoder模块得到输入特征memory

（2）将输入decoder模块结合memory预测出第一个字符，然后将和第一个字符再输入decoder模块预测出第二个字符，直到预测出结束字符

2、Transformer详述

2.1、位置编码

2.1.1 编码公式

使用sin和cos函数进行固定位置的编码，编码公式如下：

2.1.2 位置编码的演变过程

（1）用整型值标记位置

用1、2、3…标记位置，会带来以下问题：

模型可能会遇到比训练序列更长的序列，不利于模型的泛化
模型的位置值不断变大是无界的

（2）用[0,1]范围标记位置

用0表示第一个字符，用1表示最后一个字符。但是会带来以下问题：

当序列长度不同时，字符间的相对距离是不一样的。

比如序列长度为3时某两个字符的相对距离是0.5，而序列长度为4时某两个字符的相对距离是0.33。

（3）用二进制向量标记位置

用一个和input embedding维度一样的向量来表示位置，形式如下：

但是也存在问题：这样编码出来的位置向量是离散的而非连续的。

比如有4个位置需要编码，我们得到了[0,0], [0,1], [1,0], [1,1]

第2个位置[0,1]和第3个位置[1,0]到第1个位置[0,0]的相对距离是一样的。

（4）用周期函数sin来表示位置

把位置向量当中的每一个元素都用一个sin函数来表示，则第t个字符的位置可以表示为：

为了避免出现位置的冲突，可以把所有频率都设置成同一个非常小的值。公式修改为：

以上公式的特点为：

每个字符的向量唯一（每个sin函数的频率足够小）
位置向量有界且连续，模型在处理位置向量时更容易泛化，即更好处理长度和训练数据分布不一致的序列。

存在的问题：不同的位置不能通过线性变化转换得到。

（5）用sin和cos交替来表示位置

理想位置表示公式：

通过旋转的线性变化可以得到如下：

融合周期函数sin和cos得到最终版本：

2.2、多头注意力机制

2.2.1、注意力机制

注意力机制启发：人们在观察事物时不能同时仔细观察眼前的一切，只能聚焦到某一个局部。对于神经网络的应用中，就是通过一种方式得到权重再更新特征向量，使得重要的特征更突出，不重要的特征被打压。公式如下：

在seq2seq中，首先计算每个时间步的系数，是通过当前时间步的query和其他时间步对应的key做内积得到，最后用该系数乘以每个时间步的特征向量value得到注意力计算结果。

2.2.2、多头注意力机制

多头注意力机制，即多个注意力模块组合在一起。

让每个注意力机制去优化每个词汇的不同特征部分，从而均衡同一种注意力机制可能产生的偏差，让词义拥有来自更多元表达。

举例说明：bank是银行的意思，如果只有一个注意力模块，那么它大概率会学习去关注类似money、loan贷款这样的词。如果我们使用多个多头机制，那么不同的头就会去关注不同的语义，比如bank还有一种含义是河岸，那么可能有一个头就会去关注类似river这样的词汇，这时多头注意力的价值就体现出来了。

举例说明如下：

（1）输入X：batch_size=32, seq_len=15(字符串的长度), feature_size=512

（2）分别通过Wq、Wk、Wv三个权重矩阵得到query、key和value

（3）将特征拆分为多头，512=8*64，将feature_size=512拆分为8头，每一头对应64位的特征，变为(32, 8, 15, 64)

（4）并行计算score分数，batch_size * head_num=32*8=256同时进行score分数计算，计算的是seq_len中两两之间的score分数。

（5）计算attention值。(32, 8, 15, 15) 与(32, 8, 15, 64)进行矩阵相乘，得到(32, 8, 15, 64)。

（6）通过view操作再将多头特征重新组装为一个特征，得到(32, 15, 512)

（7）通过512 -> 512的权重矩阵得到输出X为(32, 15, 512)。

2.2.3 Decoder中的注意力机制

（1）假设此时输入Y为(32, 14, 512)。区别于Encoder中seq_len=15，此时Decoder中的输入Y的seq_len=14。经过第1次多头注意力机制后得到(32, 14, 512)，整个过程与Encoder中的多头流程完全一致。

（2）Decoder阶段的输入变query(32, 14, 512)拆分为多头后为(32, 8, 14, 64)，encoder阶段的memory拆分为多头后为key(32, 8, 15, 64)和value(32, 8, 15, 64)。通过query和key的转置相乘后得到score(32, 8, 14, 15)，然后score再乘以value得到(32, 8, 14, 64)，经过后续操作后最终转化为(32, 14, 512)。

2.3、掩码mask机制

在transformer中掩码主要有两个作用，一个是屏蔽掉无效的padding区域，一个是屏蔽掉来自”未来”的信息。Encoder中的掩码主要是起到第一个作用，Decoder中的掩码则同时发挥着两种作用。

屏蔽掉无效的padding区域：我们训练需要组batch进行，就以机器翻译任务为例，一个batch中不同样本的输入长度很可能是不一样的，此时我们要设置一个最大句子长度，然后对空白区域进行padding填充，而填充的区域无论在Encoder还是Decoder的计算中都是没有意义的，因此需要用mask进行标识，屏蔽掉对应区域的响应。

屏蔽掉来自未来的信息：我们已经学习了attention的计算流程，它是会综合所有时间步的计算的，那么在解码的时候，就有可能获取到未来的信息，这是不行的。因此，这种情况也需要我们使用mask进行屏蔽。如下图所示：

在训练阶段预测出最后一个字“人“即可终止，所以mask是一个倒三角的结构，通过这种mask机制可以保证并行进行训练。

2.4 整体架构流程详情手稿

3、示例代码实现

3.1 transformer.py实现transformer网络结构

import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.autograd import Variable
import math, copy, time



class Embeddings(nn.Module):
    def __init__(self, d_model, vocab):
        """
        类的初始化
        :param d_model: 词嵌入的维度
        :param vocab: 词表的大小
        """
        super(Embeddings, self).__init__()
        # 调用nn中的预定义层Embedding，获得一个词嵌入对象self.lut
        self.lut = nn.Embedding(vocab, d_model)
        self.d_model = d_model

    def forward(self, x):
        """
        Embedding层的前向传播逻辑
        :param x: 输入给模型的单词文本通过词表映射后的one-hot向量
        :return: 将x传给self.lut并与根号下self.d_model相乘作为结果返回
        """
        embedds = self.lut(x)
        return embedds * math.sqrt(self.d_model)


class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout, max_len=5000):
        """
        位置编码器类的初始化函数
        :param d_model: 词嵌入维度
        :param dropout: dropout比率
        :param max_len: 每个句子的最大长度
        """
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)

        # compute the positional encodings
        # 下面代码的计算方式与公式中给出的不同但等价，这样计算是为了避免中间的数值计算结果超出float的范围
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)

    def forward(self, x):
        x = x + Variable(self.pe[:, :x.size(1)], requires_grad=False)  # 变量级别控制gradient
        return self.dropout(x)

# 定义一个clones函数，来更方便的将某个结构复制若干份
def clones(module, N):
    return nn.ModuleList([copy.deepcopy(module) for _ in range(N)])


class Encoder(nn.Module):
    def __init__(self, layer, N):
        super(Encoder, self).__init__()
        # 调用时会将编码器传进来，简单克隆N份叠加在一起，组成完整的Encoder
        self.layers = clones(layer, N)
        self.norm = LayerNorm(layer.size)

    def forward(self, x, mask):
        for layer in self.layers:
            x = layer(x, mask)
        return self.norm(x)

class SublayerConnection(nn.Module):
    """
    实现子层连接结构的类
    """
    def __init__(self, size, dropout):
        super(SublayerConnection, self).__init__()
        self.norm = LayerNorm(size)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, sublayer):
        sublayer_out = sublayer(x)
        sublayer_out = self.dropout(sublayer_out)
        x_norm = x + self.norm(sublayer_out)
        return x_norm

class EncoderLayer(nn.Module):
    "EncoderLayer is made up of two sublayer: self-attn and feed forward"
    def __init__(self, size, self_attn, feed_forward, dropout):
        super(EncoderLayer, self).__init__()
        self.self_attn = self_attn
        self.feed_forward = feed_forward
        self.sublayer = clones(SublayerConnection(size, dropout), 2)
        self.size = size # embedding's dimentionof model 512

    def forward(self, x, mask):
        # attention sub layer
        x = self.sublayer[0](x, lambda x: self.self_attn(x, x, x, mask))
        # feed forward sub layer
        z = self.sublayer[1](x, self.feed_forward)
        return z

def attention(query, key, value, mask=None, dropout=None):
    "Compute Scaled Dot Product Attention"

    # 首先取query的最后一维的大小，对应词嵌入维度
    d_k = query.size(-1)
    # 按照注意力公式，将query和key的转置相乘，这里面key是将最后两个维度进行转置，再除以缩放系数得到注意力得分张量scores
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)

    # 接着判断是否使用掩码张量
    if mask is not None:
        # 使用tensor的masked_fill方法，将掩码张量和scores张量每个位置一一比较，如果掩码张量则对应的scores张量用-1e9这个值来替换
        scores = scores.masked_fill(mask == 0, -1e9)

    # 对scores的最后一维进行softmax操作，使用F.softmax方法，这样获得最终的注意力张量
    p_attn = F.softmax(scores, dim=-1)

    # 之后判断是否使用dropout进行随机置0
    if dropout is not None:
        p_attn = dropout(p_attn)

    # 最后根据公式将p_attn与value张量相乘获得最终的query注意力表示，同时返回注意力张量
    return torch.matmul(p_attn, value), p_attn

class MultiHeadedAttention(nn.Module):
    def __init__(self, h, d_model, dropout=0.1):
        # 在类的初始化时，会传入三个参数，h代表头数，d_model代表词嵌入的维数，dropout代表进行置0比率
        super(MultiHeadedAttention, self).__init__()
        # 在函数中，首先判断h是否能被d_model整除，这是因为我们之后要给每个头分配等量的词特征，也就是embedding_dim/head个
        assert d_model % h == 0
        # 得到每个头获得的分割词向量维度d_k
        self.d_k = d_model // h
        # 传入头数h
        self.h = h

        # 创建Linear层，通过nn的Linear实例化，它的内部变换矩阵是embedding_dim * embedding_dim.
        # 为什么是四个呢？这是因为在多头注意力中，Q/K/V各需要一个，最后拼接的矩阵还需要一个，因此一共是四个
        self.linears = clones(nn.Linear(d_model, d_model), 4)
        # self.attn为None，它代表最后得到的注意力张量，现在还没有结果所以为None
        self.attn = None
        self.dropout = nn.Dropout(p=dropout)

    def forward(self, query, key, value, mask=None):
        # 前向逻辑函数，它输入参数有四个，前三个就是注意力机制需要的Q，K，V。最后一个是注意力机制中可能需要的mask掩码张量，默认是None
        if mask is not None:
            # Same mask applied to all h heads.使用unsqueeze扩展维度，代表多头中的第n头
            mask = mask.unsqueeze(1)

        # 接着获得一个batch_size的变量，它是query尺寸的第1个数字，代表有多少条样本
        nbatches = query.size(0)

        # 1) Do all the linear projections in batch for d_model => h * d_k
        # 首先利用zip将输入QKV与三个线性层组到一起，
        # 然后利用for循环将输入QKV分别传到线性层中
        # 接下来为每个头分割输入，这里使用view方法对线性变换的结构进行维度重塑，多加了一个维度h代表头，这意味着每个头可以获得一部分词特征组成的句子
        # 最后对第二维和第三维进行转置操作，为了让代表句子长度维度和词向量维度能够相邻
        query, key, value = [l(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2) for l, x in zip(self.linears, (query, key, value))]

        # 2> Apply attention on all the projected vaectors in batch
        # 得到每个头的输入后，接下来就是将他们传入到attention中，这里直接调用我们之前实现的attention函数，同时也将mask和dropout传入其中
        x, self.attn = attention(query, key, value, mask=mask, dropout=self.dropout)

        # 3) "concat" using a view and apply a final linear
        # 通过多头注意力计算后，我们就得到了每个头计算结果组成的4维张量，我们需要将其转换为输入的形状以便后续的计算
        x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.h * self.d_k)

        # 最后使用线性层列表中的最后一个线性变换得到最终的多头注意力结构的输出
        return self.linears[-1](x)

class PositionwiseFeedForward(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        """
        FFN前馈全连接层，我们希望输入通过前馈全连接层后输入和输出的维度不变
        """
        super(PositionwiseFeedForward, self).__init__()
        self.w_1 = nn.Linear(d_model, d_ff)
        self.w_2 = nn.Linear(d_ff, d_model)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        return self.w_2(self.dropout(F.relu(self.w_1(x))))

class LayerNorm(nn.Module):
    # 规范层网络，类似于nn.BatchNorm
    def __init__(self, feature_size, eps=1e-6):
        """
        :param feature_size: 词嵌入的维度
        :param eps: 它是一个足够小的数，在规范化公式的分母中出现，防止分母为0，默认是1e-6
        """
        super(LayerNorm, self).__init__()
        self.a_2 = nn.Parameter(torch.ones(feature_size))
        self.b_2 = nn.Parameter(torch.zeros(feature_size))
        self.eps = eps

    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.a_2 * (x - mean) / (std + self.eps) + self.b_2

def subsequent_mask(size):
    # 生成向后遮掩的掩码张量，参数size是掩码张量最后两个维度的大小，它最后两维形成一个方阵

    attn_shape = (1, size, size)
    # 然后使用np.ones方法向这个形状中添加1元素，形成上三角阵
    subsequent_mask = np.triu(np.ones(attn_shape), k=1).astype('uint8')
    return torch.from_numpy(subsequent_mask) == 0


class Decoder(nn.Module):
    # 根据编码器的结果以及上一次预测的结果，输出序列的下一个结果
    def __init__(self, layer, N):
        super(Decoder, self).__init__()
        self.layers = clones(layer, N)
        self.norm = LayerNorm(layer.size)

    def forward(self, x, memory, src_mask, tgt_mask):
        """
        :param x: 目标数据的嵌入表示
        :param memory: 编码器层的输出
        :param src_mask: 源数据的掩码张量
        :param tgt_mask: 目标数据的掩码张量
        :return:
        """
        for layer in self.layers:
            x = layer(x, memory, src_mask, tgt_mask)
        return self.norm(x)

# 使用DecoderLayer的类实现解码器层
class DecoderLayer(nn.Module):
    def __init__(self, size, self_attn, src_attn, feed_forward, dropout):
        """
        :param size: 词嵌入的维度大小，也代表解码器的尺寸
        :param self_attn: 多头自注意力对象，要求Q=K=V
        :param src_attn: 多头注意力对象，要求Q!=K=V
        :param feed_forward: 前馈全连接层对象
        :param dropout:
        """
        super(DecoderLayer, self).__init__()
        self.size  = size
        self.self_attn = self_attn
        self.src_attn = src_attn
        self.feed_forward = feed_forward
        # 根据结构图使用clones函数克隆三个子层连接对象
        self.sublayer = clones(SublayerConnection(size, dropout), 3)

    def forward(self, x, memory, src_mask, tgt_mask):
        """
        :param x: 上一层的输入x
        :param memory: 编码器语音存储变量memory
        :param src_mask:
        :param tgt_mask:
        :return:
        """
        m = memory
        # 将x输入第一个子层结构，第一个子层结构的输入分别是x和self_attn函数，因为是自注意力机制，所以Q,K,V都是x，
        # 最后一个参数时目标数据掩码张量，这时要对目标数据进行遮掩，因为此时模型可能还没有生成任何目标数据
        # 比如在解码器准备生成一个字符或词汇时，我们其实已经传入了第一个字符以便计算损失，但是我们不希望在生成第一个字符时模型能利用这个信息，因此我们会将其遮掩
        # 同样生成第二个字符或词汇时，模型只能使用第一个字符或词汇信息，第二个字符以及之后的信息都不允许被模型使用
        x = self.sublayer[0](x, lambda x: self.self_attn(x, x, x, tgt_mask))
        # 接着进入第二个子层，这个子层中常规的注意力机制，q是输入x; k,v是编码器层输出memory，同样也传入source_mask，
        # 但是进行源数据遮掩并非是抑制信息泄露，而是遮掩对结果没有意义的padding
        x = self.sublayer[1](x, lambda x: self.src_attn(x, m, m, src_mask))

        # 最后一个子层就是前馈连接子层，经过它的处理后就可以返回结果，这就是我们的解码器结构
        return self.sublayer[2](x, self.feed_forward)

# 将线性层和softmax计算层一起实现，因为二者的共同目标是生成最后的结构，因此把类的名字叫做Generator生成器类
class Generator(nn.Module):
    def __init__(self, d_model, vocab):
        """
        :param d_model: 词嵌入维度
        :param vocab: 词表大小
        """
        super(Generator, self).__init__()
        self.proj = nn.Linear(d_model, vocab)

    def forward(self, x):
        return F.log_softmax(self.proj(x), dim=-1)

# 使用EncoderDecoder类实现编码器-解码器结构
class EncoderDecoder(nn.Module):
    def __init__(self, encoder, decoder, src_embed, tgt_embed, generator):
        """
        :param encoder:  编码器对象
        :param decoder:  解码器对象
        :param src_embed: 源数据嵌入函数
        :param tgt_embed: 目标数据嵌入函数
        :param generator: 输出部分的类别生成器对象
        """
        super(EncoderDecoder, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.src_embed = src_embed
        self.tgt_embed = tgt_embed
        self.generator = generator

    def encode(self, src, src_mask):
        src_embedds = self.src_embed(src)
        return self.encoder(src_embedds, src_mask)

    def decode(self, memory, src_mask, tgt, tgt_mask):
        target_embedds = self.tgt_embed(tgt)
        return self.decoder(target_embedds, memory, src_mask, tgt_mask)

    def forward(self, src, tgt, src_mask, tgt_mask):
        memory = self.encode(src, src_mask)
        res = self.decode(memory, src_mask, tgt, tgt_mask)
        return res

# full model
def make_model(src_vocab, tgt_vocab, N=6, d_model=512, d_ff=2048, h=8, dropout=0.1):
    """
    :param src_vocab:
    :param tgt_vocab:
    :param N: 编码器和解码器堆叠基础模块的个数
    :param d_model: 模型中embedding的size，512
    :param d_ff: FeedForward Layer层中embedding的size，2048
    :param h: MultiHeadAttention中多头的个数，必须被d_model整除
    :param dropout:
    :return:
    """
    c = copy.deepcopy
    attn = MultiHeadedAttention(h, d_model)
    ff = PositionwiseFeedForward(d_model, d_ff, dropout)
    position = PositionalEncoding(d_model, dropout)
    model = EncoderDecoder(
        Encoder(EncoderLayer(d_model, c(attn), c(ff), dropout), N),
        Decoder(DecoderLayer(d_model, c(attn), c(attn), c(ff), dropout), N),
        nn.Sequential(Embeddings(d_model, src_vocab), c(position)),
        nn.Sequential(Embeddings(d_model, tgt_vocab), c(position)),
        Generator(d_model, tgt_vocab))

    for p in model.parameters():
        if p.dim() > 1:
            nn.init.xavier_uniform_(p)

    return model

if __name__ == '__main__':
    print("\n------------------------")
    print("test subsequect_mask")
    temp_mask = subsequent_mask(4)
    print(temp_mask)

    print("\n------------------------")
    print("test build model")
    tmp_model = make_model(10, 10, 2)
    print(tmp_model)

3.2 train_demo.py实现训练和推理

import time
import numpy as np
import torch
import torch.nn as nn
from torch.autograd import Variable
from transformer import make_model, subsequent_mask

class Batch:
    "Object for holding a batch of data with mask during training"
    def __init__(self, src, trg=None, pad=0):
        self.src = src
        self.src_mask = (src != pad).unsqueeze(-2)
        if trg is not None:
            self.trg = trg[:, :-1]  # decoder的输入（即期望输出除了最后一个token以外的部分）
            self.trg_y = trg[:, 1:]  # decoder的期望输出（trg基础上再删去句子起始符）
            self.trg_mask = self.make_std_mask(self.trg, pad)
            self.ntokens = (self.trg_y != pad).data.sum()

    @staticmethod
    def make_std_mask(tgt, pad):
        """
        create a mask to hide padding and future words.
        padd 和 future words 均在mask中用0表示
        """
        tgt_mask = (tgt != pad).unsqueeze(-2)
        tgt_mask = tgt_mask & Variable(subsequent_mask(tgt.size(-1)).type_as(tgt_mask.data))
        return tgt_mask

def data_gen(V, slen, batch, nbatches, device):
    """
    generate random data for a src-tgt copy task
    :param V: 词典数量，取值范围[0, V-1], 约定0作为特殊符号使用代表padding
    :param slen: 生成的序列数据的长度
    :param batch:  batch_size
    :param nbatches: number of batches to generate
    :param device:
    :return:
    """
    for i in range(nbatches):
        data = torch.from_numpy(np.random.randint(2, V, size=(batch, slen))).long()
        # 约定输出为输入除去序列第一个元素，即向后平移一位进行输出，同时输出数据要在第一个时间步添加一个起始符
        tgt_data = data.clone()
        tgt_data[:, 0] = 1 # 将序列的第一个时间步置为1（即约定的起始符），即可完成GT数据的构造
        src = Variable(data, requires_grad=False)
        tgt = Variable(tgt_data, requires_grad=False)
        if device == "cuda":
            src = src.cuda()
            tgt = tgt.cuda()
        yield Batch(src, tgt, 0)

def run_epoch(data_iter, model, loss_compute, device=None):
    start = time.time()
    total_tokens = 0
    total_loss = 0
    tokens = 0
    model = model.to(device)

    for i, batch in enumerate(data_iter):
        out = model.forward(batch.src, batch.trg, batch.src_mask, batch.trg_mask)
        loss = loss_compute(out, batch.trg_y, batch.ntokens)
        total_loss += loss
        total_tokens += batch.ntokens
        tokens += batch.ntokens
        if i % 50 == 1:
            elapsed = time.time() - start
            print("Epoch Step: %d Loss: %f Tokens per Sec: %f" % (i, loss / batch.ntokens, tokens / elapsed))
            start = time.time()
            tokens = 0

    return total_loss / total_tokens

class LabelSmoothing(nn.Module):
    def __init__(self, size, padding_idx, smoothing=0.0):
        super(LabelSmoothing, self).__init__()
        self.criterion = nn.KLDivLoss(size_average=False)
        self.padding_idx = padding_idx
        self.confidence = 1.0 - smoothing
        self.smoothing = smoothing
        self.size = size
        self.true_dist = None

    def forward(self, x, target):
        assert x.size(1) == self.size
        true_dist = x.data.clone()
        true_dist.fill_(self.smoothing / (self.size - 2))
        true_dist.scatter_(1, target.data.unsqueeze(1), self.confidence)
        true_dist[:, self.padding_idx] = 0
        mask = torch.nonzero(target.data == self.padding_idx)
        if mask.dim() > 0:
            true_dist.index_fill_(0, mask.squeeze(), 0.0)
        self.true_dist = true_dist
        return self.criterion(x, Variable(true_dist, requires_grad=False))

class SimpleLossCompute:
    "A simple loss compute and train function."
    def __init__(self, generator, criterion, opt=None):
        self.generator = generator
        self.criterion = criterion
        self.opt = opt

    def __call__(self, x, y, norm):
        """
        :param norm: loss的归一化系数，用batch中所有有效token数即可
        :return:
        """
        x = self.generator(x)
        x_ = x.contiguous().view(-1, x.size(-1))
        y_ = y.contiguous().view(-1)
        loss = self.criterion(x_, y_)
        loss /= norm
        loss.backward()
        if self.opt is not None:
            self.opt.step()
            self.opt.zero_grad()
        return loss.item() * norm

# -----------------------------------
# A Easy Example
# -----------------------------------
device = "cuda"
nrof_epochs = 40
batch_size = 32
V = 11 # 词典的数量
sequence_len = 15 # 生成的序列数据的长度
nrof_batch_train_epoch = 30 # 训练时每个epoch多少个batch
nrof_batch_valid_epoch = 10 # 验证时每个epoch多少个batch
criterion = LabelSmoothing(size=V, padding_idx=0, smoothing=0.0)
model = make_model(V, V, N=2)
optimizer = torch.optim.SGD(model.parameters(), lr=0.005, momentum=0.9)
if device == "cuda":
    model.cuda()

for epoch in range(nrof_epochs):
    print("traing...{%d}" % (epoch + 1 ))
    model.train()
    data_iter = data_gen(V, sequence_len, batch_size, nrof_batch_train_epoch, device)
    loss_compute = SimpleLossCompute(model.generator, criterion, optimizer)
    train_mean_loss = run_epoch(data_iter, model, loss_compute, device)
    print("valid...")
    model.eval()
    valid_data_iter = data_gen(V, sequence_len, batch_size, nrof_batch_valid_epoch, device)
    valid_loss_compute = SimpleLossCompute(model.generator, criterion, None)
    valid_mean_loss = run_epoch(valid_data_iter, model, valid_loss_compute, device)
    print(f"valid loss: {valid_mean_loss}")

# greedy decode
def greedy_decode(model, src, src_mask, max_len, start_symbol):
    memory = model.encode(src, src_mask)
    # ys代表目前已生成的序列，最初为仅包含一个起始符的序列，不断将预测结果追加到序列最后
    ys = torch.ones(1, 1).fill_(start_symbol).type_as(src.data)
    for i in range(max_len -1):
        out = model.decode(memory, src_mask, Variable(ys), Variable(subsequent_mask(ys.size(1)).type_as(src.data)))
        prob = model.generator(out[:, -1])
        _, next_word = torch.max(prob, dim=1)
        next_word = next_word.data[0]
        ys = torch.cat([ys, torch.ones(1, 1).type_as(src.data).fill_(next_word)], dim=1)
    return ys

print('greedy decode')
model.eval()
src = Variable(torch.LongTensor([[1,2,3,4,5,6,7,8,9,10]])).cuda()
src_mask = Variable(torch.ones(1, 1, 10)).cuda()
pred_result = greedy_decode(model, src, src_mask, max_len=10, start_symbol=1)
print(pred_result[:, 1:])

你可能感兴趣的:(神经网络,transformer,算法,深度学习)

交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
pythonsvm模型优化_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39878698 pythonsvm模型优化
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。(用遗传算法也可以，下面会给出效果比较)首先简单回顾一下Python高性能实用型遗传和进化算
差分进化算法_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39747075 差分进化算法
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。（用遗传算法也可以，下面会给出效果比较）首先简单回顾一下Python高性能实用型遗传和进化算
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔” ningaiiii 机器学习与深度学习神经网络 php 人工智能
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔”1.引言径向基函数网络（RadialBasisFunctionNetwork,RBF）是一种特殊的前馈神经网络，它的核心思想是通过“灯塔”来照亮数据的分布。RBF网络使用径向基函数（如高斯函数）作为隐层神经元的激活函数，能够快速学习数据的局部特征，特别适合分类和函数逼近问题。2.算法原理2.1网络结构RBF网络的基本组成包括：输入层：接收原
差分进化算法DE DroidMind 智能算法与机器学习差分进化算法
差分进化算法DE属于进化算法，这里算法还包括依次遗传算法、进化策略、进化规划。差分进化算法包括三个基本的操作：变异操作、交叉（重组）操作和选择操作。一、算法建模：1、假设我们希望得到函数f(x)的最优解，这个函数有D个解。2、为函数f(x)设置一个解的组数N，N至少为4。3、这样我们就得到了N组并且每组解的个数为D的集合，它可以使用N个D维参数向量来表示。因为它类似于遗传算法进化一样，是一代一代的
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
差分进化算法(Differential evolution,DE)(附详细注释的Python代码) XijueJa 算法 python 开发语言
概念与基本原理差分进化算法（DifferentialEvolution，简称DE）是一种基于种群的随机优化算法，由Storm和Price在1995年提出。它主要应用于解决非线性、非凸、连续和离散的优化问题。DE算法以其简单性、鲁棒性和高效性而受到广泛关注。差分进化算法的基本思想是通过模拟自然进化过程中的遗传和变异机制来寻找问题的最优解，类似于遗传算法。通过变异、交叉与选择，使得初始化的种群不断朝最
“AI 自动化效能评估系统：开启企业高效发展新征程上海拔俗网络 java 团队开发
在当今数字化飞速发展的时代，企业面临着日益激烈的市场竞争，如何提升效率、降低成本成为了企业生存与发展的关键。AI自动化效能评估系统应运而生，它如同一把智能钥匙，为企业开启了高效发展的新征程。AI自动化效能评估系统，简单来说，就是利用人工智能技术对企业的各项业务流程、生产环节以及员工工作表现等进行全方位、自动化的评估。它能够快速收集海量的数据，并通过先进的算法模型对这些数据进行深度分析，从而精准地判
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
力扣刷题之——旋转矩阵 say-input 矩阵 leetcode 算法
给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]作者：力扣(LeetCode)链接：https://leetcode.cn/leetbook/read/array-an
大模型系列-GPT算法樨潮人工智能
https://blog.csdn.net/None_Pan/article/details/106392965
LeetCode 1426 题：数元素解题全解析 MasterNeverDown leetcode 算法职场和发展
LeetCode1426题：数元素解题全解析在算法的世界里，每一道题目都是一次挑战与探索。今天，我们来深入剖析LeetCode上的一道有趣题目——1426.数元素。一、题目剖析给定一个整数数组arr，这里有着独特的计数规则：对于元素x，唯有当x+1也在数组arr中时，这个x才能被记为1个数。特别要注意的是，若数组arr中有重复的数，每个重复的数都要单独依据此规则进行计算。比如，示例1中输入arr=
2807. 在链表中插入最大公约数不玩return的马可乐链表数据结构 leetcode 算法职场和发展 c++
在本篇博客文章中，我们将探讨如何实现一个算法，该算法可以在链表中相邻节点之间插入一个新的节点，新节点的值为相邻两个节点值的最大公约数（GCD）。这个问题是LeetCode上的一个中等难度问题，涉及到链表操作和最大公约数的计算。问题描述解题思路理解问题首先，我们需要理解问题的核心：在链表的相邻节点之间插入新节点，新节点的值为相邻节点值的最大公约数。计算最大公约数我们需要一个函数来计算两个数的最大公约
leetcode 215.数组中的第K个最大元素嘤国大力士 LeetCode leetcode 算法数据结构
LeetCode第215题“数组中的第K个最大元素”要求找到未排序数组中第k个最大的元素。通常有几种常见的解决方案，包括使用排序、使用最小堆或快速选择算法。以下是这三种方法的详细C++实现：方法一：使用排序这种方法最为直观，先对数组进行排序，然后返回第k个最大的元素。#include#include#includeusingnamespacestd;classSolution{public:int
一文看懂llama2（原理&模型&训练） Qpeterqiufengyi llama
自从Transformer架构问世以来，大型语言模型（LargeLanguageModels,LLMs）以及AIGC技术的发展速度惊人，它们不仅在技术层面取得了重大突破，还在商业应用、社会影响等多个层面展现出巨大潜力。随着ChatGPT的推出，这一技术日益走进大众视野，这也预示着一个由生成式AI塑造的未来正在加速到来。与此同时，MetaAIMetaAI在2023年推出了LLama（LargeLan
提升YOLOv8性能：用Swin Transformer替换Backbone的详细实现与分析【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLOv8 YOLO 目标跟踪
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录YOLOv8改进|主干篇|SwinTransformer替换Backbone（附代码+详细修改步骤+
matlab实现一个雷达信号处理的程序，涉及到对原始图像的模拟、加权、加噪以及通过迭代算法对图像进行恢复和优化处理 max500600 MATLAB 算法算法 matlab 信号处理
clcclearcloseallloadscene3.mat%加载原始图像，自己设计设计为一个300*400的矩阵300是距离向长度，400是方位向长度Map_ori=scene3;[M,N_K]=size(Map_ori);figureimagesc(scene3)v=100;%机载速度，单位m/sbandwidth=30*1e6;%信号带宽，决定距离分辨率，单位Hzc=3*1e8;%光速R_R
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
如何使用Java爬虫获取阿里巴巴热卖商品推荐：代码示例与实践指南小爬虫程序猿 Java java 爬虫 python
在电商领域，获取热卖商品推荐对于商家和开发者来说至关重要。阿里巴巴提供了热卖商品推荐API接口，能够根据消费者的购买历史、浏览行为、搜索习惯等数据，自动推荐符合其需求的商品。以下将详细介绍如何使用Java爬虫获取阿里巴巴热卖商品推荐，并提供相关的代码示例。一、阿里巴巴热卖商品推荐API接口简介阿里巴巴热卖商品推荐API接口是一种基于人工智能算法的推荐系统，能够根据消费者的购买历史、浏览行为、搜索习
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
【强化学习】PyTorch-RL框架大雨淅淅人工智能 pytorch 人工智能 python 深度学习机器学习
目录一、框架简介二、核心功能三、学习环境配置四、学习资源五、实践与应用六、常见问题与解决方案七、深入理解强化学习概念八、构建自己的强化学习环境九、调试与优化十、参与社区与持续学习一、框架简介PyTorch-RL是一个基于PyTorch框架的深度强化学习项目。它充分利用了PyTorch的强大功能，提供了易于使用且高效的深度强化学习算法实现。该项目的主要编程语言是Python，旨在帮助开发者快速实现和
蓝桥杯备赛笔记（九）动态规划（一）小魏´•ﻌ•` 蓝桥杯C++蓝桥杯笔记动态规划
1.动态规划基础(1)线性DP1）什么是DP（动态规划）DP（动态规划）全称DynamicProgramming，是运筹学的一个分支，是一种将复杂问题分解成很多重叠的子问题，并通过子问题的解得到整个问题的解的算法。在动态规划中有一些概念：状态：就是形如dp[i][j]=val的取值，其中i，j为下标，也是用于描述、确定状态所需的变量，val为状态值。状态转移：状态与状态之间的转移关系，一般可以表示
两万字探讨时间轮算法 Damon_0411 算法 java spring
1.引言1.1背景介绍随着分布式系统、微服务架构的流行以及高并发场景的广泛应用，系统中处理延时任务的需求变得愈发重要。延时任务的常见场景包括：任务调度：某些任务需要按照预定时间执行，比如每天的定时数据备份。超时控制：网络连接的超时检测、数据库锁的释放延迟等。缓存管理：缓存数据的过期清理策略。事件驱动场景：如日志系统中，只有当所有日志接收完毕并经过一定延迟后才能触发归档。延时任务的本质是系统需要管理
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
人工智能伦理：技术发展背后的思考 m0_72547478 人工智能
近年来，人工智能技术呈爆发式发展，在医疗、交通、金融等诸多领域取得惊人成果，但与此同时，人工智能伦理问题日益凸显，引发广泛关注。数据隐私与安全首当其冲。AI系统依赖海量数据训练，这些数据包含个人信息、医疗记录等敏感内容。若数据保护不当，极易引发数据泄露风险，侵犯个人隐私。例如，某些智能健康APP，若未能加密传输用户健康数据，一旦遭受黑客攻击，用户的隐私将暴露无遗。算法偏见也是一大痛点。AI算法基于
基于区块链的云上数据访问控制模型研究 XLYcmy 论文阅读阅读笔记网络安全论文阅读论文笔记区块链访问控制云数据
论⽂选择理由:汉语论⽂,对于新⼿⼊⼿阅读相对容易之前,进⾏过区块链⽅⾯的研究，有⼀定基础⽅便理解论⽂通读情况:①基本掌握论⽂所提出背景和要解决的问题②⼤致理解论⽂所提出的⽅案和优势收获:⼤致梳理出⼀篇做的架构:(我的理解)背景→现有⽅案不⾜→预备免识→提出⽅案→⽅案核⼼设计与算法→与其他⽅案对比→设计实验环境与实验指标进⾏⽅案验证→总结与展望
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h