 盖世英雄

Attention is all you need源码学习3

先用structure看一下code的整体架构阿整体架构，如下图所示：

我理解的这部分框架是酱的，也有可能不对辣，尽力去理解了，有问题请指出，下图所示：

接下来就看看代码吧~

Models.py

Transformer

搭建transformer模型，文章的模型如图所示：

搭建的代码继承了pytorch的nn.model，写法固定，分为两部分：1.__init__定义网络中的参数和模型框架；2.forword定义传输数据的连接，即网络或模型中的线。最简单的神经网络如下所示。

class XXX(torch.nn.Module):     # 继承 torch 的 Module
    def __init__(self, n_feature, n_hidden, n_output):
        super(XXX, self).__init__()     # 继承 __init__ 功能
        self.hidden = torch.nn.Linear(n_feature, n_hidden)   # 隐藏层线性输出
        self.out = torch.nn.Linear(n_hidden, n_output)       # 输出层线性输出

    def forward(self, x):
        # 正向传播输入值, 神经网络分析出输出值
        x = F.relu(self.hidden(x))      # 激励函数(隐藏层的线性值)
        x = self.out(x)                 # 输出值, 但是这个不是预测值, 预测值还需要再另外计算
        return x

再回到本文代码，Transformer的模型代码如下：

class Transformer(nn.Module): #Transformer模型继承pytorch的nn.model，搭建网络的固定写法
    ''' A sequence to sequence model with attention mechanism. '''

    def __init__(  #init传入参数
            self,
            n_src_vocab, n_tgt_vocab, len_max_seq,#词表的大小、句子序列的最大长度
            d_word_vec=512, d_model=512, d_inner=2048,#可选参数：词表维度，模型维度，内部层维度
            n_layers=6, n_head=8, d_k=64, d_v=64, dropout=0.1,#层数，attention的头数为8
            tgt_emb_prj_weight_sharing=True,
            emb_src_tgt_weight_sharing=True):

        super().__init__()

        # 初始化encoder模型，用于组成encoder-decoder的组件
        self.encoder = Encoder(
            n_src_vocab=n_src_vocab, len_max_seq=len_max_seq,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            dropout=dropout)

        # 初始化dncoder模型，用于组成encoder-decoder的组件
        self.decoder = Decoder(
            n_tgt_vocab=n_tgt_vocab, len_max_seq=len_max_seq,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            dropout=dropout)

        self.tgt_word_prj = nn.Linear(d_model, n_tgt_vocab, bias=False)  #线性层y = Ax+0b，输入时model，输出是n_tgt_vocab，b=0
        nn.init.xavier_normal_(self.tgt_word_prj.weight)  #权值初始化，服从正态分布

        assert d_model == d_word_vec, \
        'To facilitate the residual connections, \
         the dimensions of all module outputs shall be the same.'

        if tgt_emb_prj_weight_sharing:
            # Share the weight matrix between target word embedding & the final logit dense layer
            #共享权重矩阵
            self.tgt_word_prj.weight = self.decoder.tgt_word_emb.weight
            self.x_logit_scale = (d_model ** -0.5)  #点积的缩放因子
        else:
            self.x_logit_scale = 1.

        if emb_src_tgt_weight_sharing:
            # Share the weight matrix between source & target word embeddings
            assert n_src_vocab == n_tgt_vocab, \
            "To share word embedding table, the vocabulary size of src/tgt shall be the same."
            self.encoder.src_word_emb.weight = self.decoder.tgt_word_emb.weight

    def forward(self, src_seq, src_pos, tgt_seq, tgt_pos):

        tgt_seq, tgt_pos = tgt_seq[:, :-1], tgt_pos[:, :-1]  #除去每行最后一个全要 为啥子。。存疑？？干哈去除？？

        # 将训练集的data传入encoder模型，得到encoder的output
        enc_output, *_ = self.encoder(src_seq, src_pos)
        #将训练集的target、data以及encoder得到的output传入decoder，得到decoder的output
        dec_output, *_ = self.decoder(tgt_seq, tgt_pos, src_seq, enc_output)
        #将decoder的输出结果进行一个线性变化再进行缩放
        seq_logit = self.tgt_word_prj(dec_output) * self.x_logit_scale

        return seq_logit.view(-1, seq_logit.size(2))

其中：

self.tgt_word_prj = nn.Linear(d_model, n_tgt_vocab, bias=False) 线性函数解释如下：

参考网址：https://pytorch.org/docs/master/nn.html#linear-layers
nn.init.xavier_normal_()权重初始化参考网址：https://blog.csdn.net/dss_dssssd/article/details/83959474
tgt_seq[:, :-1]是numpy里的切片操作，对比或理解可用如下程序实验，总之它去除了每行数据最后一个数据，但不知道为啥子。。

import numpy as np
data_list=[[1,2,3],[1,2,1],[3,4,5],[4,5,6],[5,6,7],[6,7,8],[6,7,9],[0,4,7],[4,6,0],[2,9,1],[5,8,7],[9,7,8],[3,7,9]]
a=np.array(data_list)
print(a) 
print("------取最后一个元素-------")
print(a[-1]) ###取最后一个元素
print("------除了最后一个取全部------")
print(a[:-1])  ### 除了最后一个取全部 
print("------除了每行最后一个取全部------")
print(a[:,:-1])  ### 除了每行最后一个取全部
print("------取从后向前（相反）的元素-----")
print(a[::-1]) ### 取从后向前（相反）的元素 
print("------取从下标为2的元素翻转读取------")
print(a[2::-1]) ### 取从下标为2的元素翻转读取

整个Transformer.py所搭建的如下模型，其中没展现参数，init决定了模型框架，forward里决定了数据传输，也就是下图的箭头。

4个函数

下面就将搭建Encoder和Decoder的模型，在介绍这两个模型之前，先铺垫好几个函数。
一个是关于mask的函数：mask就是掩码，在我们这里的意思大概就是对某些值进行掩盖，使其不产生效果。Transformer模型里面涉及两种mask。分别是 padding mask (如1.)和 sequence mask (如2.)。其中， padding mask 在所有的scaled dot-product attention里面都需要用到，而 sequence mask 只有在decoder的self-attention里面用到。
另一个是关于位置嵌入的函数
1. padding mask
我们的每个批次输入序列长度是不一样的！也就是说，我们要对输入序列进行对齐！具体来说，就是给在较短的序列后面填充 0 。因为这些填充的位置，其实是没什么意义的，所以我们的attention机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。
具体的做法是，把这些位置的值加上一个非常大的负数(可以是负无穷)，这样的话，经过softmax，这些位置的概率就会接近0 ！
而我们的padding mask实际上是一个张量，每个值都是一个 Boolen ，值为 False 的地方就是我们要进行处理的地方。
代码如下：

def get_attn_key_pad_mask(seq_k, seq_q):
    ''' For masking out the padding part of key sequence. '''

    # Expand to fit the shape of key query attention matrix.
    len_q = seq_q.size(1)
    padding_mask = seq_k.eq(Constants.PAD)
    padding_mask = padding_mask.unsqueeze(1).expand(-1, len_q, -1)  # b x lq x lk

    return padding_mask

2. Sequence mask
sequence mask是为了使得decoder不能看见未来的信息。也就是对于一个序列，在time_step为t的时刻，我们的解码输出应该只能依赖于t时刻之前的输出，而不能依赖t之后的输出。因此我们需要想一个办法，把t之后的信息给隐藏起来。
方法：产生一个上三角矩阵，上三角的值全为1，下三角的值权威0，对角线也是0 。把这个矩阵作用在每一个序列上，就可以达到我们的目的啦。
代码如下：

def get_subsequent_mask(seq):
    ''' For masking out the subsequent info. '''

    sz_b, len_s = seq.size()
    subsequent_mask = torch.triu(  #输入序列都是批量的，所以把原本二维的矩阵扩张成3维的张量
        torch.ones((len_s, len_s), device=seq.device, dtype=torch.uint8), diagonal=1)
    subsequent_mask = subsequent_mask.unsqueeze(0).expand(sz_b, -1, -1)  # b x ls x ls

    return subsequent_mask

3. get_sinusoid_encoding_table
Positional encoding：对序列中的词语出现的位置进行编码，使用正余弦函数：

这个编码公式的意思就是：给定词语的位置，我们可以把它编码成维的向量！在偶数位置，使用正弦编码，在奇数位置，使用余弦编码。
代码如下：

def get_sinusoid_encoding_table(n_position, d_hid, padding_idx=None):
    ''' Sinusoid position encoding table '''

    def cal_angle(position, hid_idx):
        return position / np.power(10000, 2 * (hid_idx // 2) / d_hid)

    def get_posi_angle_vec(position):
        return [cal_angle(position, hid_j) for hid_j in range(d_hid)]

    sinusoid_table = np.array([get_posi_angle_vec(pos_i) for pos_i in range(n_position)])

    sinusoid_table[:, 0::2] = np.sin(sinusoid_table[:, 0::2])  # dim 2i
    sinusoid_table[:, 1::2] = np.cos(sinusoid_table[:, 1::2])  # dim 2i+1

    if padding_idx is not None:
        # zero vector for padding dimension
        sinusoid_table[padding_idx] = 0.

    return torch.FloatTensor(sinusoid_table)

4. get_non_pad_mask

def get_non_pad_mask(seq):
    assert seq.dim() == 2
    return seq.ne(Constants.PAD).type(torch.float).unsqueeze(-1)

Encoder与Decoder

接下来就是Encoder和Decoder模型嘞~

Encoder

class Encoder(nn.Module):
    ''' A encoder model with self attention mechanism. '''

    def __init__(  #初始化，参数继承Transformer中的参数
            self,
            n_src_vocab, len_max_seq, d_word_vec,
            n_layers, n_head, d_k, d_v,
            d_model, d_inner, dropout=0.1):

        super().__init__()

        n_position = len_max_seq + 1  #位置信息=最长+1 防止溢出

        self.src_word_emb = nn.Embedding(  #词嵌入
            n_src_vocab, d_word_vec, padding_idx=Constants.PAD)

        self.position_enc = nn.Embedding.from_pretrained(  #存疑？？没查到 但好像是positional encoding
            get_sinusoid_encoding_table(n_position, d_word_vec, padding_idx=0),
            freeze=True)

        self.layer_stack = nn.ModuleList([  #6个EncoderLayer层
            EncoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)])#此步是复制n个一模一样的EncoderLayer层

    def forward(self, src_seq, src_pos, return_attns=False):  #这里的return_attns不懂鸭！！在哪里改变他的值呢？代表什么呢？

        enc_slf_attn_list = []

        # -- Prepare masks
        #调用函数对其进行mask
        slf_attn_mask = get_attn_key_pad_mask(seq_k=src_seq, seq_q=src_seq)
        non_pad_mask = get_non_pad_mask(src_seq)

        # -- Forward
        #词嵌入+位置嵌入作为输出enc_output
        enc_output = self.src_word_emb(src_seq) + self.position_enc(src_pos)

        for enc_layer in self.layer_stack:
            #mask后的作为enc_output和enc_slf_attn
            enc_output, enc_slf_attn = enc_layer(
                enc_output,
                non_pad_mask=non_pad_mask,
                slf_attn_mask=slf_attn_mask)
            if return_attns:
                enc_slf_attn_list += [enc_slf_attn]  #将enc_slf_attn存入list

        if return_attns:
            return enc_output, enc_slf_attn_list
        return enc_output,

其中nn.Embedding()是一个保存了固定字典和大小的简单查找表。这个模块常用来保存词嵌入和用下标检索它们。模块的输入是一个下标的列表，输出是对应的词嵌入。

class torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2, scale_grad_by_freq=False, sparse=False)

参数：

num_embeddings (int) - 嵌入字典的大小
embedding_dim (int) - 每个嵌入向量的大小
padding_idx (int, optional) - 如果提供的话，输出遇到此下标时用零填充
max_norm (float,optional) - 如果提供的话，会重新归一化词嵌入，使它们的范数小于提供的值
norm_type (float, optional)
对于max_norm选项计算p范数时的p
scale_grad_by_freq (boolean, optional) - 如果提供的话，会根据字典中单词频率缩放梯度
参考官方文档torch.nn中Sparse layers的部分：https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-nn/#sparse-layers

Decoder
与Encoder相似，但其多了一个Masked Multi-Head Attention层，这一层主要用到了4个函数中第3个函数Sequence mask(),代码如下：

class Decoder(nn.Module):
    ''' A decoder model with self attention mechanism. '''

    def __init__(
            self,
            n_tgt_vocab, len_max_seq, d_word_vec,
            n_layers, n_head, d_k, d_v,
            d_model, d_inner, dropout=0.1):

        super().__init__()
        n_position = len_max_seq + 1

        self.tgt_word_emb = nn.Embedding(
            n_tgt_vocab, d_word_vec, padding_idx=Constants.PAD)

        self.position_enc = nn.Embedding.from_pretrained(
            get_sinusoid_encoding_table(n_position, d_word_vec, padding_idx=0),
            freeze=True)

        self.layer_stack = nn.ModuleList([
            DecoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)])

    def forward(self, tgt_seq, tgt_pos, src_seq, enc_output, return_attns=False):

        dec_slf_attn_list, dec_enc_attn_list = [], []

        # -- Prepare masks
        non_pad_mask = get_non_pad_mask(tgt_seq)

        slf_attn_mask_subseq = get_subsequent_mask(tgt_seq)
        slf_attn_mask_keypad = get_attn_key_pad_mask(seq_k=tgt_seq, seq_q=tgt_seq)
        slf_attn_mask = (slf_attn_mask_keypad + slf_attn_mask_subseq).gt(0)

        dec_enc_attn_mask = get_attn_key_pad_mask(seq_k=src_seq, seq_q=tgt_seq)

        # -- Forward
        dec_output = self.tgt_word_emb(tgt_seq) + self.position_enc(tgt_pos)

        for dec_layer in self.layer_stack:
            dec_output, dec_slf_attn, dec_enc_attn = dec_layer(
                dec_output, enc_output,
                non_pad_mask=non_pad_mask,
                slf_attn_mask=slf_attn_mask,
                dec_enc_attn_mask=dec_enc_attn_mask)

            if return_attns:
                dec_slf_attn_list += [dec_slf_attn]
                dec_enc_attn_list += [dec_enc_attn]

        if return_attns:
            return dec_output, dec_slf_attn_list, dec_enc_attn_list
        return dec_output,

其中Encoder里用到了EncoderLayer，Decoder里用到了DecoderLayer，下面就介绍Layers.py中的内容。
**

Layers.py

**
这里都是一层，决定几层（重复几遍）是在上面的代码做到的。

EncoderLayer

encoder由6层相同的层组成，每一层分别由两部分组成：
第一部分是一个 multi-head self-attention mechanism
第二部分是一个 position-wise feed-forward network ，是一个全连接层
两个部分，都有一个残差连接(residual connection) ，然后接着一个 Layer Normalization 。

class EncoderLayer(nn.Module):
    ''' Compose with two layers '''

    def __init__(self, d_model, d_inner, n_head, d_k, d_v, dropout=0.1):
        super(EncoderLayer, self).__init__()
        # 多头注意力模型
        self.slf_attn = MultiHeadAttention(
            n_head, d_model, d_k, d_v, dropout=dropout)
        # 前馈层
        self.pos_ffn = PositionwiseFeedForward(d_model, d_inner, dropout=dropout)

    def forward(self, enc_input, non_pad_mask=None, slf_attn_mask=None):
        enc_output, enc_slf_attn = self.slf_attn(  #使用多头注意力模型进行训练结果传给enc_output, enc_slf_attn
            enc_input, enc_input, enc_input, mask=slf_attn_mask)
        enc_output *= non_pad_mask  #non_pad_mask存疑，按照论文应该是Add&Norm那一步，但是不懂

        enc_output = self.pos_ffn(enc_output)  #总之就是残差并正则化的多头注意力模型作为FFN的输入
        enc_output *= non_pad_mask

        return enc_output, enc_slf_attn

DecoderLayer

和encoder类似，decoder由6个相同的层组成，每一个层包括以下3个部分：
第一个部分是 masked multi-head attention
第二部分是 multi-head self-attention mechanism
第三部分是一个 position-wise feed-forward network
还是和encoder类似，上面三个部分的每一个部分，都有一个残差连接，后接一个 Layer Normalization 。

class DecoderLayer(nn.Module):
    ''' Compose with three layers '''

    def __init__(self, d_model, d_inner, n_head, d_k, d_v, dropout=0.1):
        super(DecoderLayer, self).__init__()
        self.slf_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        #多的那一层也是用的多头注意力模型，只不过！mask用到的是get_subsequent_mask
        self.enc_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        self.pos_ffn = PositionwiseFeedForward(d_model, d_inner, dropout=dropout)

    def forward(self, dec_input, enc_output, non_pad_mask=None, slf_attn_mask=None, dec_enc_attn_mask=None):
        dec_output, dec_slf_attn = self.slf_attn(
            dec_input, dec_input, dec_input, mask=slf_attn_mask)
        dec_output *= non_pad_mask

        #这里可以看到两个都用到多头注意力模型，但是mask的值不一样
        dec_output, dec_enc_attn = self.enc_attn(
            dec_output, enc_output, enc_output, mask=dec_enc_attn_mask)
        dec_output *= non_pad_mask

        dec_output = self.pos_ffn(dec_output)
        dec_output *= non_pad_mask

        return dec_output, dec_slf_attn, dec_enc_attn

接下来就看一下 SubLayers.py 里构造的MultiHeadAttention和PositionwiseFeedForward。
**

SubLayers.py

MultiHeadAttention

多头注意力模型：将query、key和value分别用不同的、学到的线性映射h倍到dk、dk和dv维。基于每个映射版本的query、key和value，我们并行执行attention函数，产生dv 维输出值。将它们连接并再次映射，产生最终值。

公式如下：

文中参数采用：h = 8个并行attention层或head。对每个head，使用d_k=d_v=d_model ∕ h = 64。由于每个head的大小减小，总的计算成本与具有全部维度的单个head attention相似。
代码如下：

class MultiHeadAttention(nn.Module):
    ''' Multi-Head Attention module '''
    # 构造多头注意力模型
    def __init__(self, n_head, d_model, d_k, d_v, dropout=0.1):
        super().__init__()

        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v

        self.w_qs = nn.Linear(d_model, n_head * d_k)  # Query
        self.w_ks = nn.Linear(d_model, n_head * d_k)  # Key
        self.w_vs = nn.Linear(d_model, n_head * d_v)  # Value
        nn.init.normal_(self.w_qs.weight, mean=0, std=np.sqrt(2.0 / (d_model + d_k)))  # 初始化权重，服从正态分布mean为下限，std为上限
        nn.init.normal_(self.w_ks.weight, mean=0, std=np.sqrt(2.0 / (d_model + d_k)))
        nn.init.normal_(self.w_vs.weight, mean=0, std=np.sqrt(2.0 / (d_model + d_v)))

        # 缩放的点积注意力模型
        self.attention = ScaledDotProductAttention(temperature=np.power(d_k, 0.5))
        self.layer_norm = nn.LayerNorm(d_model)  # 归一化

        self.fc = nn.Linear(n_head * d_v, d_model)  # 用headi=Attention(,,,)的公式算完的维度n_head * d_v作为输入，输出维度是d_model
        nn.init.xavier_normal_(self.fc.weight)

        self.dropout = nn.Dropout(dropout)


    def forward(self, q, k, v, mask=None):

        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head

        sz_b, len_q, _ = q.size()
        sz_b, len_k, _ = k.size()
        sz_b, len_v, _ = v.size()

        residual = q  # 用于残差连接

        q = self.w_qs(q).view(sz_b, len_q, n_head, d_k)
        k = self.w_ks(k).view(sz_b, len_k, n_head, d_k)
        v = self.w_vs(v).view(sz_b, len_v, n_head, d_v)

        q = q.permute(2, 0, 1, 3).contiguous().view(-1, len_q, d_k)  # (n*b) x lq x dk->(n_head * sz_b, len_q, d_k)
        k = k.permute(2, 0, 1, 3).contiguous().view(-1, len_k, d_k)  # (n*b) x lk x dk
        v = v.permute(2, 0, 1, 3).contiguous().view(-1, len_v, d_v)  # (n*b) x lv x dv

        # 此代码的意思是不是对每个头进行缩放的点积注意力模型？？
        mask = mask.repeat(n_head, 1, 1)  # (n*b) x .. x ..
        output, attn = self.attention(q, k, v, mask=mask)  # 缩放的点积注意力模型

        output = output.view(n_head, sz_b, len_q, d_v)
        output = output.permute(1, 2, 0, 3).contiguous().view(sz_b, len_q, -1)  # b x lq x (n*dv)->(sz_b, len_q, n_head * d_v)

        output = self.dropout(self.fc(output))
        output = self.layer_norm(output + residual)  # Add & Norm层

        return output, attn

权重初始化参考上文给出的网址
LayerNorm：channel方向做归一化，算CHW的均值，主要对RNN作用明显，参考网址：https://blog.csdn.net/shanglianlm/article/details/85075706
q.permute(2, 0, 1, 3).contiguous().view(-1, len_q, d_k)，permute(2, 0, 1, 3)是维度置换，将源数据第2列移到第0列，第0列->第1列，第1列->第2列，第3列不变；view只能用在contiguous的variable上，如果在view之前用了transpose, permute等，需要用contiguous()来返回一个contiguous copy。一种可能的解释是：有些tensor并不是占用一整块内存，而是由不同的数据块组成，而tensor的view()操作依赖于内存是整块的，这时只需要执行contiguous()这个函数，把tensor变成在内存中连续分布的形式。
代码中对多头那里的操作还是不太懂。。。这个意思是把h作为矩阵维度做索引吗？相当于分成了h块，每一个h拥有相同维度的Q、K、V，使用 mask = mask.repeat(n_head, 1, 1)重复对每一个h做缩放的点乘注意力？

PositionwiseFeedForward

这里是讲到Feed Forward，论文中的公式如下：

代码如下：

class PositionwiseFeedForward(nn.Module):
    ''' A two-feed-forward-layer module '''

    def __init__(self, d_in, d_hid, dropout=0.1):
        super().__init__()
        self.w_1 = nn.Conv1d(d_in, d_hid, 1)  # position-wise
        self.w_2 = nn.Conv1d(d_hid, d_in, 1)  # position-wise
        self.layer_norm = nn.LayerNorm(d_in)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        residual = x
        output = x.transpose(1, 2)  # 转置
        output = self.w_2(F.relu(self.w_1(output)))  # 论文中公式FFN(x)
        output = output.transpose(1, 2)  # 呃呃？又转置嘞
        output = self.dropout(output)
        output = self.layer_norm(output + residual)  # Add & Norm
        return output

最后说一下前面提到多次的缩放的点乘注意力机制

Modules.py

ScaledDotProductAttention模型，它其实就是刚刚MultiHeadAttention中紫色的那一部分的内容，结构如下图所示：

代码如下所示，与上图对应的：

class ScaledDotProductAttention(nn.Module):
    ''' Scaled Dot-Product Attention '''

    def __init__(self, temperature, attn_dropout=0.1):
        super().__init__()
        self.temperature = temperature
        self.dropout = nn.Dropout(attn_dropout)
        self.softmax = nn.Softmax(dim=2)

    def forward(self, q, k, v, mask=None):

        attn = torch.bmm(q, k.transpose(1, 2))  # k转置，q点乘k转置
        attn = attn / self.temperature   # 除以放缩因子

        if mask is not None:
            attn = attn.masked_fill(mask, -np.inf)  # mask

        attn = self.softmax(attn)
        attn = self.dropout(attn)
        output = torch.bmm(attn, v)  # 和V点乘

        return output, attn

其中mask_fill(mask, -np.inf)中的mask必须是一个 ByteTensor 而且shape必须和 attn一样并且元素只能是0或者1,将mask中为1的元素所在的索引，在attn中相同的的索引处替换为 value。

Pycharm中import torch报错解决方案（Python+Pycharm+Pytorch cpu版）波波仔86 人工智能 python pycharm pytorch import 解释器配置
pycharm环境搭建完毕后，编写一个py文件demo，importtorch报错，提示没有。设置python解释器：选择conda环境，使用现有环境，conda执行文件找到Anaconda安装路径下Scripts文件夹内的conda.exe，最后选择含有torch软件包的虚拟环境，题主创建名为pytorch。创建完解释器后，下方会显示出该解释器/虚拟环境下的所有软件包，看到有pytorch包即选
【python error】cannot import name ‘TorchDispatchMode‘ from ‘torch.utils._python_dispatch‘ Eternal-Student Jetson Orin NX Python python 开发语言
报错：cannotimportname‘TorchDispatchMode’from‘torch.utils._python_dispatch’(/home/nvidia/.conda/envs/pytorch/lib/python3.8/site-packages/torch/utils/_python_dispatch.py)File“/media/nvidia/Ubuntu/xxxxx/ev
垃圾回收机制是什么？JVM 核心结构? 胡图蛋. jvm
垃圾回收机制是什么jvm的垃圾回收机制是GC（GarbageCollection），也叫垃圾收集器。GC基本原理：将内存中不再被使用的对象进行回收；GC中用于回收的方法称为收集器，由于GC需要消耗一些资源和时间，Java在对对象的生命周期特征进行分析后，按照新生代、老年代的方式来对对象进行收集，以尽可能的缩短GC对应用造成的暂停。不同的对象引用类型，GC会采用不同的方法进行回收，JVM对象的引用分
Web三要素：HTML之ARIA可访问性(3) 双囍菜菜前端随记前端 html 服务器 ARIA
ARIA：为Web构建数字盲道的技术革命文章目录ARIA：为Web构建数字盲道的技术革命一、屏幕背后的黑暗世界：一个被忽视的用户群体1.1触目惊心的现实案例1.2法律合规的达摩克利斯之剑二、ARIA技术体系的三重维度2.1角色（Roles）：定义元素身份常用角色分类2.2属性（Properties）：描述元素特征关键属性矩阵2.3状态（States）：反映动态变化状态同步机制三、ARIA实战：构建
DeepSeek API 客户端使用文档老大白菜 python 人工智能数据库
1.简介deep.py是一个用于与DeepSeekAPI交互的Python客户端封装。它提供了简单易用的接口，支持对话历史管理、日志记录等功能，使得与DeepSeekAPI的交互更加便捷和可靠。2.功能特点简单的接口设计自动管理对话历史完整的日志记录灵活的配置选项异常处理机制3.安装依赖pipinstallopenai4.配置环境在项目根目录创建.env文件：#WindowssetDEEPSEEK
信息检索系统评估指标的层级分析：从单点精确度到整体性能度量人工智能深度学习llm检索系统
在构建搜索引擎系统时，有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machinelearningtutorialspython"，系统返回结果列表后，如何客观评估这些结果的相关性和有效性？这正是信息检索评估指标的核心价值所在。分析用户与搜索引擎的交互模式，我们可以观察到以下行为特征：用户主要关注结果列表的前几项对顶部结果的关注度显著高于底部结果用户基于多次搜索体验形成对搜索系统整体
基于大模型的单纯性孔源性视网膜脱离预测及治疗方案研究报告 LCG元围术期危险因子预测模型研究人工智能
目录一、引言1.1研究背景与目的1.2国内外研究现状1.3研究方法与创新点二、单纯性孔源性视网膜脱离概述2.1发病机制2.2高危因素2.3临床表现与诊断方法三、大模型在术前预测中的应用3.1模型选择与数据收集3.2术前风险预测指标3.3预测结果分析与验证四、基于预测结果的手术方案制定4.1手术原则与目标4.2不同预测结果下的手术方式选择4.3手术案例分析五、麻醉方案的确定5.1麻醉方式的选择依据5
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力听风吹等浪起 AI 改进系列 transformer 深度学习人工智能
目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前馈神经网络。这两个组件协同工作，处理和转换输入序列。多头注意力机制负责从输入序列中捕
理解 Retrofit 请求头与 GsonConverterFactory 的自动处理机制居然是阿宋 retrofit
在现代Web开发中，特别是在与RESTfulAPI进行交互时，我们经常会遇到JSON格式的数据交换。为了确保请求的正确解析和响应的准确返回，通常需要通过HTTP请求头明确指定请求体的数据类型。而Content-Type:application/json就是用来告诉服务器，当前请求体中的数据格式是JSON。为什么需要明确指定Content-Type:application/json？数据格式的明确性
【MyBatis-Plus 插件】并发控制机制——乐观锁 Yan.love mybatis java 后端
乐观锁是一种非阻塞的并发控制机制，在多线程环境中确保数据一致性。MyBatis-Plus使用@Version注解和乐观锁插件轻松实现这一功能。在正式介绍乐观锁之前，我们先来聊一聊没有乐观锁时会出现的问题，以及它解决的痛点。1.没有乐观锁时的问题在多线程或高并发场景下，如果多个线程同时读取和修改同一条数据，就可能导致数据覆盖问题。问题场景：库存扣减假设一个商品的库存为10，两名用户A和B同时购买1个
【MyBatis-Plus 分页插件】深入分析和实战解析 Yan.love mybatis java 后端
分页是Web应用开发中的高频需求，而在MyBatis的生态中，MyBatis-Plus分页插件PaginationInnerInterceptor和MyBatis的PageHelper是两种常见的实现方案。本文将通过工作机制、使用方法和细节剖析，带你循序渐进地掌握这两种方式，并为你的项目选择提供指导。一、什么是分页？分页的核心目标是减少数据传输量和前端渲染压力。通过限制每次查询的结果数量，分页能够
Redisson 分布式锁全面解析：锁类型(可重入锁、公平锁、联锁、红锁、读写锁)和锁常见方法解读千层冷面 Redis 分布式
Redisson分布式锁全面解析一、Redisson分布式锁原理Redisson分布式锁基于Redis实现，核心机制如下：Lua脚本保证原子性使用Lua脚本在Redis中执行锁的获取和释放操作，确保多个Redis命令的原子性。可重入锁设计同一线程可重复获取锁，通过计数器记录重入次数，避免死锁。看门狗（Watchdog）自动续期后台线程定期检查锁状态，若锁仍被持有且未完成业务逻辑，则自动延长锁的过期
【通缩螺旋的深度解析与科技破局路径】调皮的芋头机器学习神经网络
通缩螺旋的深度解析与科技破局路径一、通缩螺旋的形成机制与恶性循环通缩螺旋（DeflationarySpiral）是经济学中描述价格持续下跌与经济衰退相互强化的动态过程，其核心逻辑可拆解为以下链条：需求端萎缩：居民消费信心不足（如中国2023年消费者信心指数创历史新低），导致商品价格下行压力加剧。企业端收缩：企业收入增速放缓（2023年中国规上工业企业利润同比-2.3%），被迫削减投资/裁员（青年失
【儿童自信的生物学机制】调皮的芋头机器学习数据库
在继续深入探讨儿童自信的生物学机制时，我们需要将视角拓展至神经递质系统、突触动态平衡以及跨脑区网络整合等更深层的神经发育规律。以下从三个新颖维度展开分析：一、神经递质系统的发育失衡现象儿童自信水平随年龄增长呈现U型曲线变化的现象，确实蕴含着复杂的生物进化机制与神经发育规律。从进化生物学视角来看，人类幼态持续特征决定了早期自信的生存价值：新生儿通过哭闹表达需求（平均每天1.5小时发声），这种原始自信
使用Redis实现分布式锁的技术详解智能编织者 redis 分布式数据库
使用Redis实现分布式锁的技术详解一、引言二、分布式锁的基本概念三、Redis实现分布式锁的原理1.SETNX命令2.SET命令的扩展参数3.Lua脚本保证原子性四、Redis实现分布式锁的步骤1.引入Redis依赖2.加锁实现3.释放锁实现4.设置锁过期时间五、代码演示1.引入依赖2.加锁与释放锁的工具类3.使用示例六、注意事项与优化1.死锁问题2.锁竞争与重试机制一、引言在分布式系统中，多个
优化Go错误码管理：构建清晰、优雅的HTTP和gRPC错误码规范 zhuyasen go开发框架sponge golang http rpc
在系统开发过程中，如何优雅地管理错误信息一直是个棘手问题。传统的错误处理方式往往存在不统一、难以维护等缺点。而errcode模块通过对错误码进行规范化管理，为系统级和业务级错误提供了统一的编码标准。本文将带您深入了解errcode的设计原理、错误码结构以及详细的使用示例，帮助您构建高效稳定的错误处理机制。一、errcode模块设计原理解析在一个复杂系统中，错误码不仅用于指示错误类型，更承载着对错误
基于RWA 与 AI-Agent 协同的企业数字化生态构建 leijiwen 人工智能
在当前数字经济高速发展的背景下，企业数字化转型已成为提升竞争力和创新能力的必由之路。以实体零售与文旅行业为代表的传统产业，正通过现实世界资产（RWA）数字化与人工智能代理（AI-Agent）的协同应用，构建全新的数字生态系统。正如“无数据不基础、无token不可信、无AI不产品、无产业不应用”这一理念所强调的，数字化生态的建立必须依托数据、信任机制、智能技术以及产业深度融合，才能实现真正的转型升级
SM3 Sm4加密算法 java皮皮虫 SM3 SM4
一、概述1、SM3是一种分组消息摘要算法，用于生成数据的哈希值（消息摘要），而非直接加密数据。1.1、应用场景数据完整性校验：验证数据在传输或存储过程中是否被篡改。数字签名：与SM2等算法结合使用，在数字签名过程中生成签名数据的哈希值。网络安全：在网络通信中，用于验证消息的完整性和真实性。2、SM4加密与SM2虽然都是SM系列，但是他们的机制却不同，因为他是对称加密算法，意味着他和AES一样不区分
MyBatis-Plus 分页查询接口返回值问题剖析字节熊猫 mybatis tomcat java mybatis-plus
在使用MyBatis-Plus进行分页查询时，很多开发者会遇到一个常见的问题：当分页查询接口返回值定义为Page时，执行查询会抛出异常；而将返回值修改为IPage时，分页查询却能正常工作。本文将从MyBatis-Plus的分页机制入手，详细分析这一问题的根源，并提供相应的解决方案。一、问题现象描述在MyBatis-Plus中，我们通常会定义一个分页查询接口，如下：PageselectComment
CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘) Dream it possible！ CCF CSP认证矩阵 c++算法
CCFCSP第30次（2023.05）（2_矩阵运算_C++）题目背景：题目描述：输入格式：输出格式：样例输入样例输出：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax(Q×KT/√d)×V是Transformer中注意力模块的核心算式，其中Q、K和V均是n行d列的矩阵，KT表示矩阵K的转置，×表
C#实现动态验证码生成器：安全防护与实际应用场景 WangMing_X C#实现各种功能工具集 c#安全开发语言验证码图片
一、核心应用场景用户登录/注册验证：防止恶意程序批量注册表单提交防护：确保关键操作由真人执行API接口限流：抵御自动化脚本攻击敏感操作验证：如支付、信息修改等关键步骤数据防爬机制：保护网站内容不被爬虫抓取二、技术实现方案1.基础架构设计//验证码服务架构+------------------------+|验证码生成模块|←随机字符|(CaptchaGenerator)|+------------
DeepSeek开源：FlashMLA深度解析：Hopper架构上的大模型推理革命花生糖@ AIGC学习资料库 AI·未来 DeepSeek 实用集开源架构 FlashMLA DeepSeek 技术 AI AIGC
2025年2月24日，DeepSeek以「开源周」首日发布的FlashMLA技术，重新定义了Hopper架构GPU在AI推理领域的性能极限。这款专为NVIDIAH800/H100系列优化的MLA（Multi-headLatentAttention）解码内核，通过突破性算法设计与硬件协同优化，在可变长度序列处理场景中实现了3000GB/s内存带宽与580TFLOPS计算吞吐的里程碑式突破。其开源策略
kafka 中的 rebalance 百里自来卷 kafka 数据库分布式
Kafka的Rebalance（重平衡）机制本质上是一个协调过程，用于在消费者组内动态分配分区，以保证消费任务均匀分布。Rebalance主要由KafkaConsumerGroup协议（GroupMembershipProtocol）驱动，涉及多个关键组件和步骤。以下是KafkaRebalance底层的核心实现逻辑：1.触发Rebalance的原因Kafka的Rebalance可能会在以下几种情况
Go channel底层实现原理以及为什么要懂原理 Amber_37 Golang golang
Gochannel底层实现原理Go语言中的channel是一种用于goroutine之间通信和同步的核心机制，其底层实现基于高效的数据结构和调度策略。以下是其底层实现原理的详细分析：1.数据结构：hchanchannel的底层由runtime.hchan结构体表示，包含以下关键字段：buf：指向环形缓冲区的指针，用于存储元素（仅限带缓冲channel）。qcount：当前缓冲区中的元素数量。dat
使用Redis实现分布式锁的技术详解 my1121716951 redis 分布式数据库
使用Redis实现分布式锁的技术详解一、引言二、分布式锁的基本概念三、Redis实现分布式锁的原理1.SETNX命令2.SET命令的扩展参数3.Lua脚本保证原子性四、Redis实现分布式锁的步骤1.引入Redis依赖2.加锁实现3.释放锁实现4.设置锁过期时间五、代码演示1.引入依赖2.加锁与释放锁的工具类3.使用示例六、注意事项与优化1.死锁问题2.锁竞争与重试机制一、引言在分布式系统中，多个
使用Redis实现分布式锁的技术详解 QQ828929QQ redis 分布式数据库
使用Redis实现分布式锁的技术详解一、引言二、分布式锁的基本概念三、Redis实现分布式锁的原理1.SETNX命令2.SET命令的扩展参数3.Lua脚本保证原子性四、Redis实现分布式锁的步骤1.引入Redis依赖2.加锁实现3.释放锁实现4.设置锁过期时间五、代码演示1.引入依赖2.加锁与释放锁的工具类3.使用示例六、注意事项与优化1.死锁问题2.锁竞争与重试机制一、引言在分布式系统中，多个
65.Harmonyos NEXT 图片预览组件之手势处理实现（三） harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyosNEXT图片预览组件之手势处理实现（三）效果预览一、双击缩放手势实现在前两篇文章中，我们介绍了图片预览组件的单指拖动、双指缩放和双指旋转手势实现。本文将继续介绍双击缩放手势的实现细节，以及手势之间的协同工作机制。1.双击缩放手势定义TapGes
(4-4)DeepSeek底层架构技术：混合专家架构技术码农三叔训练 RAG 多模态)架构 transformer 深度学习大模型人工智能 DeepSeek
2.4混合专家架构技术DeepSeek引入了混合专家架构（Mixture-of-Experts，MoE），将模型划分为多个专家子模型，每个子模型专注于处理不同的任务或领域。MoE架构通过动态任务分配和稀疏激活机制，减少了不必要的计算量，提升了模型的效率和灵活性。例如，DeepSeek-V3拥有6710亿参数，但每个输入token仅激活370亿参数。2.4.1混合专家架构介绍混合专家架构（Mixtu
梯度下降法以及随机梯度下降法 HKkuaidou 人工智能深度学习 python pytorch
梯度下降法就是在更新weight的时候，向函数值下降的最快方向进行更新，具体的原理我就不再写了，就是一个求偏导的过程，有高数基础的都能够很快的理解过程。我在我的github里面会一直更新自己学习pytorch的过程，地址为：https://github.com/00paning/Pytorch_Learning这里我直接展示一个简易实现的python代码，我们还是先看一下运行的效果图：相关pyth
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round