zyw2002

代码详解——Transformer

文章目录

整体架构
Modules.py
- ScaledDotProductAttention
SubLayers.py
- MultiHeadAttention
- PositionwiseFeedForward
Layers.py
- EncoderLayer
- DecoderLayer
Models.py
- get_pad_mask
- get_subsequent_mask
- PositionalEncoding
- Encoder
- Decoder
- Transformer

整体架构

源码地址（pytorch）： https://github.com/jadore801120/attention-is-all-you-need-pytorch
论文地址：Attention is All You Need
✨✨✨强烈建议先去看《详解注意力机制和Transformer》理解Transformer的机制后再去理解本篇中的代码。

项目的整体架构如下，其中Transformer 包下的文件是用于主要构建Transfomer模型的代码，包外的其他文件是Transfomer用于完成特定翻译任务的预处理文件和训练测试代码。

本文重点讲解红框内的代码(构建Transformer的核心代码), 即实现了下图所示的Transformer的架构。
因为Transformer经常被用到其他的任务中，所以这部分的核心代码也常被移植到其他的项目代码中。

Modules.py

Models.py文件主要就是定义了一个缩放点积注意力 （下图红框中的部分）

缩放点积的计算公式如下：
$\operatorname{softmax}\left(\frac{\mathbf{Q } \mathbf{K}^{\top}}{\sqrt{d}}\right) \mathbf{V} \in \mathbb{R}^{n \times v} .$

ScaledDotProductAttention

# 缩放点积注意力
class ScaledDotProductAttention(nn.Module):
    ''' Scaled Dot-Product Attention '''

    def __init__(self, temperature, attn_dropout=0.1):
        super().__init__()
        self.temperature = temperature
        self.dropout = nn.Dropout(attn_dropout)

    def forward(self, q, k, v, mask=None):
        # q:  [sz_b,n_head,len,d_q]
        # k:  [sz_b,n_head,len,d_k] ->  transpose 后：[sz_b,n_head,d_k,len]
        # v:  [sz_b,n_head,len,d_v]
        # 一般来说，d_q=d_k=d_v
        attn = torch.matmul(q / self.temperature, k.transpose(2, 3)) # score= qk^T/tempreture
        # attn: [sz_b,n_head,len,len]
        if mask is not None: # 判断是否有mask
            attn = attn.masked_fill(mask == 0, -1e9) # Mask
        attn = self.dropout(F.softmax(attn, dim=-1)) # a=softmax(Score) 然后 dropout
        output = torch.matmul(attn, v) # z=a*v
        # output: [sz_b,n_head,len,d_v]
        return output, attn

相关参数的含义：

q,k, v 分别表示的query,key,value, 对应下图中的Q K V；它们的大小均是[sz_b,n_head,len,d_x] (d_x代表d_q、d_v、d_k)
- sz_b 表示batch size
- n_head 表示多头注意力的head 数量
- len 表示单词的个数，如下图就是2。
- d_x 表示特征的个数，如下图是64。
temperature 就是的 $\sqrt{d_model}$ , $d_model$ 表示的是特征个数的，用作是归一化。如下图中就是 $\sqrt{64}=8$
mask 表示是否传入mask,在Transformer中有两种mask，分别是padding mask和sequence mask

相关代码解读：

attn = torch.matmul(q / self.temperature, k.transpose(2, 3)) : 就是计算注意力得分，并归一化 $score=\frac{\mathbf{Q } \mathbf{K}^{\top}}{\sqrt{d}}$
k.transpose(2, 3) 表示在k的后两个维度(len_q,d_q)进行转置。
根据矩阵乘法的原理，得到的attn的大小为[sz_b,n_head,len_q,len_k]，如下图就是[sz_b,n_head,2,2]
attn = attn.masked_fill(mask == 0, -1e9)然后判断是否传入的mask, 如果有mask (mask参数值不为None)，则把mask为0的位置，将对应位置的attn的值设为无穷小的负数 $e^{9}$
为什么要设置为无穷小呢？如下图展示了softmax函数，当x为无穷小时，softmax的输出趋近于0，attn的值就为0，就相当于是被mask掉了。
attn = self.dropout(F.softmax(attn, dim=-1)) 就是对刚才得到的注意力得分attn在d_q维度上进行softmax操作,把attn转换成一个值分布在[0,1]之间的 α概率分布矩阵

然后softmax后使用dropout操作防止过拟合。
output = torch.matmul(attn, v) 最终得到的输出就把上述的attn和value相乘。最终的输出大小为[sz_b,n_head,len_q,d_v], 如下图就是[sz_b,n_head,2,64] 。可以发现得到的输出和输入的K,Q,V的大小相同。

SubLayers.py

MultiHeadAttention

MultiHeadAttention定义了一个多头注意力和 Add&Norm。（下图中的红框部分）
可以实现如下三种多头注意力:
1）Multi-Head Self-Attention: K、Q、V的来源相同
2）Masked Multi-Head Self-Attention ：传入sequence mask 的mask参数，且K、Q、V的来源相同
3）Multi-Head Cross-Attention ： K、V和Q的来源不同

# 多头注意力
class MultiHeadAttention(nn.Module):
    ''' Multi-Head Attention module '''

    def __init__(self, n_head, d_model, d_k, d_v, dropout=0.1):
        super().__init__()

        self.n_head = n_head # head数量
        self.d_k = d_k # key 的维度
        self.d_v = d_v # v 的维度

        self.w_qs = nn.Linear(d_model, n_head * d_k, bias=False) # [sz_b,len_q,d_model]->[sz_b,len_q,n*d_k]
        self.w_ks = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_vs = nn.Linear(d_model, n_head * d_v, bias=False)
        self.fc = nn.Linear(n_head * d_v, d_model, bias=False)

        self.attention = ScaledDotProductAttention(temperature=d_k ** 0.5) # 缩放点积注意力

        self.dropout = nn.Dropout(dropout)
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)


    def forward(self, q, k, v, mask=None):
        # 原始输入 q/k/v:[sz_d,len,d_model]
        # sz_b: batch_size 
        # len: 单词的个数 (一般来说：len=len_q=len_k=len_v)
        # d_model：单词嵌入的维度 (一般来说：d_model=d_k=d_v)
        # n_head : head的个数
        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
        sz_b, len_q, len_k, len_v = q.size(0), q.size(1), k.size(1), v.size(1)
        residual = q # 残差连接

        q = self.w_qs(q).view(sz_b, len_q, n_head, d_k) 
        # w_qs后  [sz_b,len,d_model]->[sz_b,len,n*d_k]
        # view 后拆分成n_head个 [sz_b,len_q,n_head,d_k]
        k = self.w_ks(k).view(sz_b, len_k, n_head, d_k)
        v = self.w_vs(v).view(sz_b, len_v, n_head, d_v)

        # Transpose for attention dot product: b x n x lq x dv
        q, k, v = q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2) # [sz_b,n_head,len_q,d_k]

        if mask is not None:
            mask = mask.unsqueeze(1)   # 多添加一个head维度,为了方便广播
			#mask: [sz_b,len_q,len_k]-> [sz_b,1,len_q,len_k]
        q, attn = self.attention(q, k, v, mask=mask) # 缩放点积注意力
        # q: [sz_b,n_head,len_q,d_v]
        # attn: [sz_b, n_head, len_q, len_k]
        q = q.transpose(1, 2).contiguous().view(sz_b, len_q, -1)
        # [sz_b,len_q,n_head,d_v]-> [sz_b,len_q,n_head*d_v]
        q = self.dropout(self.fc(q)) # [sz_b,len_q,n_head*d_v]-> [sz_b,len_q,d_model]
        q += residual # 参差连接
        q = self.layer_norm(q) # 层归一化
        return q, attn # q: [sz_b,len_q,d_model] attn: [sz_b, n_head, len_q, len_k]

相关参数的含义：

forward函数中初始传入的q,k,v , 注意这里并不是下图中的Q,K,V , 而是下图中的绿框内容（用于生成Q,K,V的原始输入） ,大小为[sz_d,len_q,d_model]
- sz_d : batch_size
- len_x : 单词的个数。 (len_x代表len_q、len_v、len_k) 如下图是2
- d_model : 单词嵌入的维度。如下图是512
- d_x : 特征的维度。 (d_x代表d_q、d_v、d_k) 如下图是 64

相关代码解读：

q = self.w_qs(q).view(sz_b, len_q, n_head, d_k) 和k = self.w_ks(k).view(sz_b, len_k, n_head, d_k) 和 v = self.w_vs(v).view(sz_b, len_v, n_head, d_v) 是从原始的输入中得到n_head 组Q,K,V。
w_qs 是一个Linear层，输出大小从 [sz_b,len,d_model]变为[sz_b,len,n*d_k]
然后通过view函数，输出大小变为[sz_b,len_q,n_head,d_k]
q, k, v = q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2) 就是把n_head维度放在第二个维度上，输出大小变为[sz_b,n_head,len_q,d_k]
前两步就是完成了如下图所示的箭头内容，从原始输入，得到了n_head组 $K, Q, V$

mask = mask.unsqueeze(1) 如果mask不为None, 我们为Mask添加一个head上的维度（为了方便后续的广播）。 mask的大小从[sz_b,len_q,len_k]变为[sz_b,1,len_q,len_k]
q, attn = self.attention(q, k, v, mask=mask) 通过缩放点积注意力，输出得到的q的大小是[sz_b,n_head,len_q,d_v],attn的大小是[sz_b,n_head,len_q,len_k]
输出的q其实就是下图中的 $Z_0,Z_1..Z_7$
q = q.transpose(1, 2).contiguous().view(sz_b, len_q, -1) transpose后，大小变为[sz_b,len_q,n_head,d_v], 再通过view后，大小变为 [sz_b,len_q,n_head*d_v] 。
这个操作相当于沿着下图蓝线的方向，把 $Z_0,...Z_7$ 个输出连接起来得到 $Z^{'}$ 。
q = self.dropout(self.fc(q)) 先通过一个fc层,大小从[sz_b,len_q,n_head*d_v]-> [sz_b,len_q,d_model]。
这一步相当于把刚才得到的 $Z^{'}$ 和 $W^O$ 相乘得到 $Z$
然后再通过一个dropout。
q += residual 表示残差连接
q = self.layer_norm(q) 表示层归一化

PositionwiseFeedForward

PositionwiseFeedForward 定义了一个Feed Forwad 和 Add &Norm 模块。（如下图中的红框）

class PositionwiseFeedForward(nn.Module):
    ''' A two-feed-forward-layer module '''

    def __init__(self, d_in, d_hid, dropout=0.1):
        super().__init__()
        self.w_1 = nn.Linear(d_in, d_hid) # position-wise
        self.w_2 = nn.Linear(d_hid, d_in) # position-wise
        self.layer_norm = nn.LayerNorm(d_in, eps=1e-6)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x): # x: [sz_b,len_q,d_model]
        residual = x # 残差
        x = self.w_2(F.relu(self.w_1(x)))
        # w_1: [sz_b,len_q,d_hid]  w_2: [sz_b,len_q,d_model]
        x = self.dropout(x)
        x += residual # 残差连接
        x = self.layer_norm(x) # 层归一化

        return x # [sz_b,len_q,d_model]

相关参数的含义：

forward输入的x 的大小是[sz_b,len_q,d_model]
- sz_b: batch size
- len_q: 单词的长度
- d_model:单词嵌入的维度
h_in: 全连接层的输入特征维度
h_hid: 全连接层的输出特征维度

相关代码解读：

x = self.w_2(F.relu(self.w_1(x))) 就是实现了feed forward层，如下是feed forward的计算公式。
$\operatorname{FFN}(\mathrm{x})=\max \left(0, \mathrm{xW}_1+\mathrm{b}_1\right) \mathrm{W}_2+\mathrm{b}_2$
feed forward 一个两层的神经网络，x先通过w_1线性变换, 大小变为[sz_b,len_q,d_hid] ; 然后ReLU非线性激活函数; 再通过w_2线性变换，大小变为[sz_b,len_q,d_model]。
q += residual 表示残差连接
q = self.layer_norm(q) 表示层归一化

Layers.py

EncoderLayer

EncoderLayer 定义了一个Encoder Block 模块。（如下图中的红框）

# Encoder Block
class EncoderLayer(nn.Module):
    ''' Compose with two layers '''

    def __init__(self, d_model, d_inner, n_head, d_k, d_v, dropout=0.1):
        super(EncoderLayer, self).__init__()
        self.slf_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        self.pos_ffn = PositionwiseFeedForward(d_model, d_inner, dropout=dropout)

    def forward(self, enc_input, slf_attn_mask=None): # 输入的k,q,v都是 enc_input
        enc_output, enc_slf_attn = self.slf_attn(
            enc_input, enc_input, enc_input, mask=slf_attn_mask)  # 多头注意力机制
        enc_output = self.pos_ffn(enc_output) # 前馈层
        return enc_output, enc_slf_attn
        # enc_output: [sz_b,len_q,d_model]
        # enc_slf_attn: [sz_b, n_head, len_q, len_k]

相关参数的含义：

enc_input 编码后的输入（就是对单词进行单词嵌入和位置编码后相加的结果）大小为[sz_b,len_q,d_model]
- d_model:单词嵌入的维度
- len_q : 单词的个数
- sz_b : batch_size
d_x : 特征的维度。 (d_x代表d_q、d_v、d_k)
slf_attn_mask : 掩码mask

相关代码解读：

enc_output, enc_slf_attn = self.slf_attn(enc_input, enc_input, enc_input, mask=slf_attn_mask)
先通过SubLayers.py文件中定义的MultiHeadAttention得到输出的大小不变，仍为[sz_b,len_q,d_model]
enc_output = self.pos_ffn(enc_output) ,然后再把MultiHeadAttention的输出，送入到SubLayers.py文件中定义的PositionwiseFeedForward 中，得到输出的大小不变，仍为[sz_b,len_q,d_model]

DecoderLayer

DecoderLayer 定义了一个Decoder Block 模块。（如下图中的红框）

# Decoder Block
class DecoderLayer(nn.Module):
    ''' Compose with three layers '''

    def __init__(self, d_model, d_inner, n_head, d_k, d_v, dropout=0.1):
        super(DecoderLayer, self).__init__()
        self.slf_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        self.enc_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        self.pos_ffn = PositionwiseFeedForward(d_model, d_inner, dropout=dropout)

    def forward(
            self, dec_input, enc_output,
            slf_attn_mask=None, dec_enc_attn_mask=None):
        # dec_input: [sz_d,len_q,d_model]
        dec_output, dec_slf_attn = self.slf_attn(
            dec_input, dec_input, dec_input, mask=slf_attn_mask) # 第一个多头注意力： Self attention
        # 输入的q,k,v 均是dec_input
        # dec_output: [sz_b,len_q,d_model]
        # dec_slf_attn: [sz_b, n_head, len_q, len_k]

        dec_output, dec_enc_attn = self.enc_attn(
            dec_output, enc_output, enc_output, mask=dec_enc_attn_mask) # 第二个多头注意力: Cross Attention
        # 输入的q是上一个Decoder中多头注意力的输出, k,v是Encoder的输出
        dec_output = self.pos_ffn(dec_output) # 前馈网络
        return dec_output, dec_slf_attn, dec_enc_attn
        # dec_output: 最终编码器的输出 [sz_b,len_q,d_model]
        # dec_slf_attn: 第一个多头注意力的attention score  [sz_b, n_head, len_q, len_k]
        # dec_enc_attn: 第二个多头注意力的attention score  [sz_b, n_head, len_q, len_k]

相关参数的含义：

dec_input ：解码器的输入，大小为[sz_b,len_q,d_model]
enc_output : 编码器的输入,[sz_b,len_q,d_model]
slf_attn_mask : self-attention的掩码
dec_enc_attn_mask : cross-attention 的掩码

相关代码解读：

dec_output, dec_slf_attn = self.slf_attn(dec_input, dec_input, dec_input, mask=slf_attn_mask) 这里实现的是解码器中第一个Masked Multi-Head Self-Attentiion 和Add&Norm层 (如蓝色框所示）。
q,k,v的输入都是dec_input (如下图红圈所示)。输出得到的dec_output大小为 [sz_b,len_q,d_model]
dec_output, dec_enc_attn = self.enc_attn(dec_output, enc_output, enc_output, mask=dec_enc_attn_mask) 实现的是解码器中第二个Multi-Head Cross-Attention 和Add&Norm层。（如下图蓝色框所示）
q的输入来自于decoder_output （解码器上一个self-Attention 的输出,下图中的绿色圈）； k,v的输入来自于enc_output（编码器的输出，下图中的红色圈）。因为q和k,v的来源不同，所以这个多头注意力也叫做Cross-Attention。而当q,k,v的来源相同是，多头注意力就叫做Self-Attention。
输出得到的dec_output大小仍为 [sz_b,len_q,d_model]

dec_output = self.pos_ffn(dec_output) 就是通过Sublayers.py文件中定义的PositionwiseFeedForward 得到解码器的最终的输出，大小仍为 [sz_b,len_q,d_model]

Models.py

get_pad_mask

get_pad_mask实现了padding mask，因为每个批次输入序列长度是不一样的也就是说，我们要对输入序列进行对齐。

# padding mask
def get_pad_mask(seq, pad_idx): # seq: [sz_b,len_q]   pad_idx[sz_b,len_q]
    return (seq != pad_idx).unsqueeze(-2) # [sz_b,1,len_q]

相关参数的含义：

seq : 输入的单词序列,
pad_idx : 当单词索引所以为pad_idx时，单词嵌入用0填充。例如pad_idx=3

相关代码解读：

(seq != pad_idx).unsqueeze(-2) 用来生成padding mask
假设现在有个字典,包含三个单词{0: ‘a’,1:‘b’,2:‘c’}，且pad_idx=3
对于一个batch而言，输入的句子序列是“abc”对应的索引是[0,1,2] ，假设要求句子长度是5，则该序列被填充为[0,1,2,3,3]
seq!=pad_idx 的输出[True,True,True,False,False]。其中为False的位置就是被mask掉的地方。
回到ScaledDotProductAttention，mask被调用的代码：attn = attn.masked_fill(mask == 0, -1e9) 其中attn的大小为[sz_b, n_head, len_q, len_k]
因此对于多个batch而言，unsqueeze(-2) 是为了生成head维度，输出的大小为[sz_b,1,len_q]。其中len_k的维度可以进行广播。
当mask的值为False的地方就被填充为负无穷小，softmax后就趋近于0，该区域的attn的值就被mask掉了。

get_subsequent_mask

get_subsequent_mask 用来生成sequence mask。
sequence mask 是为了使得 decoder 不能看见未来的信息。对于一个序列，在 time_step 为 t 的时刻，我们的解码输出应该只能依赖于 t 时刻之前的输出，而不能依赖 t 之后的输出。因此我们需要想一个办法，把 t 之后的信息给隐藏起来。这在训练的时候有效，因为训练的时候每次我们是将target数据完整输入进decoder中地，预测时不需要，预测的时候我们只能得到前一时刻预测出的输出。

# sequence mask
def get_subsequent_mask(seq):
    sz_b, len_s = seq.size()
    # sz_b: batch size l
    # len_s: 句子中单词的个数
    subsequent_mask = (1 - torch.triu(
        torch.ones((1, len_s, len_s), device=seq.device), diagonal=1)).bool()
    ''''
    x= torch.ones (1, len_s, len_s) : 生成大小为[1,len_s,len_s] 全为1的矩阵
    y= torch.triu(x,diagonal=1)后,y 的形状类似于：
    011
    001
    000
    1-y后：
    100
    110
    111
    然后再转换成bool值
    '''
    return subsequent_mask

相关参数的含义：

sz_b : batch_size
len_s: 输入序列中单词的个数

相关代码解读：

x=torch.ones((1, len_s, len_s) 用来生成大小为[1,len_s,len_s] 全为1的矩阵。
假设len_s为3，那么生成的x矩阵为
1 1 1
1 1 1
1 1 1
y= torch.triu(x,diagonal=1) 后，y的形状变成一个上三角矩阵
0 1 1
0 0 1
0 0 0
1-y后，变成了一个下三角矩阵，这个矩阵就是sequence mask
1 0 0
1 1 0
1 1 1
再结合ScaledDotProductAttention 中的mask的讲解，其中mask中为0的数值，attn的内容被赋值为负无穷小，softmax后趋近于0。因此为0的内容就相当于mask掉了。

举个例子：

上图中的黄色矩形就相当于填充了0，绿色矩形相当于填充了1。
当 Decoder 的输入矩阵和 Mask 矩阵输入矩阵包含 “ I have a cat” (0, 1, 2, 3, 4) 五个单词的表示向量，Mask 是一个 5×5 的矩阵。在 Mask 可以发现单词 0 只能使用单词 0 的信息，而单词 1 可以使用单词 0, 1 的信息，即只能使用之前的信息。

PositionalEncoding

PositionalEncoding 就是对编码器和解码器输入的单词嵌入添加上位置编码。（如下图中的红框所示）
Transformer使用的是正余弦位置编码。位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，位置向量维度必须和词向量的维度一致。

# 位置编码
class PositionalEncoding(nn.Module):

    def __init__(self, d_hid, n_position=200):
        super(PositionalEncoding, self).__init__()

        # Not a parameter
        self.register_buffer('pos_table', self._get_sinusoid_encoding_table(n_position, d_hid))

    def _get_sinusoid_encoding_table(self, n_position, d_hid):
        ''' Sinusoid position encoding table '''
        # TODO: make it with torch instead of numpy

        def get_position_angle_vec(position):
            return [position / np.power(10000, 2 * (hid_j // 2) / d_hid) for hid_j in range(d_hid)]

        sinusoid_table = np.array([get_position_angle_vec(pos_i) for pos_i in range(n_position)])
        sinusoid_table[:, 0::2] = np.sin(sinusoid_table[:, 0::2])  # dim 2j
        sinusoid_table[:, 1::2] = np.cos(sinusoid_table[:, 1::2])  # dim 2j+1

        return torch.FloatTensor(sinusoid_table).unsqueeze(0)

    def forward(self, x):
        # x: 单词embedding  [sz_b,len_q,d_model]
        # pos_table: 位置encoding
        return x + self.pos_table[:, :x.size(1)].clone().detach()

相关参数的含义：

x: 输入的单词嵌入(input embedding) ,大小为 [sz_b,len_q,d_model]
- sz_b : batch_size
- len_q : 单词的个数
- d_model : 单词嵌入的维度
pos_table : 生成的位置编码

相关代码解读：

_get_sinusoid_encoding_table 函数就是用来生成位置编码的table
假设输入表示 $\mathbf{X} \in \mathbb{R}^{n \times d}$ 包含一个序列中n个词元的 d 维嵌入表示。位置编码使用相同形状的位置嵌入矩阵 $\mathbf{P} \in \mathbb{R}^{n \times d}$ 输出 $\mathbf{X}+\mathbf{P}$ ，第 $i$ 行、第 $2 j$ 列和 $2 j + 1$ 列上的元素为:

$\begin{aligned} p_{i, 2 j} & =\sin \left(\frac{i}{10000^{2 j / d}}\right) \\ p_{i, 2 j+1} & =\cos \left(\frac{i}{10000^{2 j / d}}\right) . \end{aligned}$
其中 $i$ 表示单词在句子中的绝对位置， $i = 0 ， 1 ， 2 \dots$ 例如：Jerry在"Tom chase Jerry"中的 $i = 2$ ； $d_{model}$ 表示词向量的维度，在这里 $d_{model}=512$ ； $2 j$ 和 $2 j + 1$ 表示奇偶性， $j$ 表示词向量中的第几维，例如这里 $d_{model}=512$ ，故 $j = 0 ， 1 ， 2 \dots 255$ 。

Encoder

Encoder实现了如下图红框的部分。

# 编码器
class Encoder(nn.Module):
    ''' A encoder model with self attention mechanism. '''
    def __init__(
            self, n_src_vocab, d_word_vec, n_layers, n_head, d_k, d_v,
            d_model, d_inner, pad_idx, dropout=0.1, n_position=200, scale_emb=False):

        super().__init__()

        self.src_word_emb = nn.Embedding(n_src_vocab, d_word_vec, padding_idx=pad_idx)  # 词嵌入
        self.position_enc = PositionalEncoding(d_word_vec, n_position=n_position) # 位置编码
        self.dropout = nn.Dropout(p=dropout)
        self.layer_stack = nn.ModuleList([
            EncoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)]) # n_layers个encoder block
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        self.scale_emb = scale_emb
        self.d_model = d_model

    def forward(self, src_seq, src_mask, return_attns=False):

        enc_slf_attn_list = []

        # -- Forward
        enc_output = self.src_word_emb(src_seq) # 词嵌入[sz_b,len_q]-> [sz_b,len_q,d_model]
        if self.scale_emb:
            enc_output *= self.d_model ** 0.5 # 归一化
        enc_output = self.dropout(self.position_enc(enc_output)) # 位置编码
        enc_output = self.layer_norm(enc_output) # 层归一化

        for enc_layer in self.layer_stack: # N 个Encoder Block
            enc_output, enc_slf_attn = enc_layer(enc_output, slf_attn_mask=src_mask)
            enc_slf_attn_list += [enc_slf_attn] if return_attns else []
        # enc_output: [sz_b,len_q,d_model]
        # enc_slf_attn: [sz_b, n_head, len_q, len_k]
        # enc_slf_attn_list 是n个encoder block产生的enc_slf_attn 构成的列表
        if return_attns:
            return enc_output, enc_slf_attn_list
        return enc_output,

相关参数的含义：

src_seq 编码器输入的原始单词序列
scale_emb 控制是否进行缩放单词嵌入
layer_stack 是一个由 n_layers个encoder block 组成的ModelList
n_src_vocab : nn.Embedding层定义的单词表中单词的总个数
d_word_vec ：nn.Embedding层输出的单词嵌入的特征维度, 相当于d_model
padding_idx : 当单词表中的单词索引为padding_idx,输出的单词嵌入用0填充。

相关代码解读：

enc_output = self.src_word_emb(src_seq) 通过单词嵌入得到的Input Embedding, 大小为[sz_b,len_q,d_model]
enc_output *= self.d_model ** 0.5 如果需要进行归一化，则对单词嵌入乘以 $\sqrt{d_{model}}$
enc_output = self.dropout(self.position_enc(enc_output)) 先进行位置编码，然后和单词嵌入相加，再通过一个dropout
enc_output = self.layer_norm(enc_output) 通过一个层归一化
enc_output, enc_slf_attn = enc_layer(enc_output, slf_attn_mask=src_mask)然后遍历layer_stack这个ModelList,每次都把上一个EncoderBlock的输出输入到下一个EncoderBlock中，共串联经过n_layers个Encoder Block。最终输出的enc_output的大小为[sz_b,len_q,d_model]

Decoder

Decoder实现了下图中红框的部分。

# 解码器
class Decoder(nn.Module):
    ''' A decoder model with self attention mechanism. '''

    def __init__(
            self, n_trg_vocab, d_word_vec, n_layers, n_head, d_k, d_v,
            d_model, d_inner, pad_idx, n_position=200, dropout=0.1, scale_emb=False):

        super().__init__()

        self.trg_word_emb = nn.Embedding(n_trg_vocab, d_word_vec, padding_idx=pad_idx) # 单词嵌入
        self.position_enc = PositionalEncoding(d_word_vec, n_position=n_position) # 位置编码
        self.dropout = nn.Dropout(p=dropout)
        self.layer_stack = nn.ModuleList([
            DecoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)])
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        self.scale_emb = scale_emb
        self.d_model = d_model

    def forward(self, trg_seq, trg_mask, enc_output, src_mask, return_attns=False):

        dec_slf_attn_list, dec_enc_attn_list = [], []

        # -- Forward
        dec_output = self.trg_word_emb(trg_seq) # 单词嵌入 [sz_b,len_q,d_model]
        if self.scale_emb:
            dec_output *= self.d_model ** 0.5
        dec_output = self.dropout(self.position_enc(dec_output)) # 位置编码
        dec_output = self.layer_norm(dec_output) #层归一化

        for dec_layer in self.layer_stack: # N个decoder block
            dec_output, dec_slf_attn, dec_enc_attn = dec_layer(
                dec_output, enc_output, slf_attn_mask=trg_mask, dec_enc_attn_mask=src_mask)
            dec_slf_attn_list += [dec_slf_attn] if return_attns else []
            dec_enc_attn_list += [dec_enc_attn] if return_attns else []
        # dec_output: [sz_b,len_q,d_model]
        # dec_slf_attn: self-attention的attn[sz_b, n_head, len_q, len_k]
        # dec_enc_attn: cross-attention的attn[sz_b, n_head, len_q, len_k]
        # dec_slf_attn_list 是n个decoder block产生的enc_slf_attn 构成的列表
        # dec_enc_attn_list 是n个decoder block产生的enc_enc_attn 构成的列表
        if return_attns:
            return dec_output, dec_slf_attn_list, dec_enc_attn_list
        return dec_output,

相关参数的含义：

tar_seq 解码器输入的原始单词序列
scale_emb 控制是否进行缩放单词嵌入
layer_stack 是一个由 n_layers个decoder block 组成的ModelList

相关代码解读：

dec_output = self.trg_word_emb(trg_seq) 先对输入的单词序列进行单词嵌入，得到Input Embedding,大小为[sz_b,len_q,d_model]
dec_output *= self.d_model ** 0.5 如果需要进行归一化，则对单词嵌入乘以 $\sqrt{d_{model}}$
dec_output = self.dropout(self.position_enc(dec_output)) 将单词嵌入添加上位置编码，并进行droupout
dec_output = self.layer_norm(dec_output) 通过层归一化
dec_output, dec_slf_attn, dec_enc_attn = dec_layer(dec_output, enc_output, slf_attn_mask=trg_mask, dec_enc_attn_mask=src_mask) 通过 n_layers个串联的decoder block, 最终得到的输出dec_output的大小为[sz_b,len_q,d_model]

Transformer

Transformer实现的就是整体的架构。（如下图红框中的内容）

# Transformer
class Transformer(nn.Module):
    ''' A sequence to sequence model with attention mechanism. '''

    def __init__(
            self, n_src_vocab, n_trg_vocab, src_pad_idx, trg_pad_idx,
            d_word_vec=512, d_model=512, d_inner=2048,
            n_layers=6, n_head=8, d_k=64, d_v=64, dropout=0.1, n_position=200,
            trg_emb_prj_weight_sharing=True, emb_src_trg_weight_sharing=True,
            scale_emb_or_prj='prj'):

        super().__init__()

        self.src_pad_idx, self.trg_pad_idx = src_pad_idx, trg_pad_idx

        # In section 3.4 of paper "Attention Is All You Need", there is such detail:
        # "In our model, we share the same weight matrix between the two
        # embedding layers and the pre-softmax linear transformation...
        # In the embedding layers, we multiply those weights by \sqrt{d_model}".
        #
        # Options here:
        #   'emb': multiply \sqrt{d_model} to embedding output
        #   'prj': multiply (\sqrt{d_model} ^ -1) to linear projection output
        #   'none': no multiplication

        assert scale_emb_or_prj in ['emb', 'prj', 'none']
        scale_emb = (scale_emb_or_prj == 'emb') if trg_emb_prj_weight_sharing else False
        self.scale_prj = (scale_emb_or_prj == 'prj') if trg_emb_prj_weight_sharing else False
        self.d_model = d_model

        self.encoder = Encoder(
            n_src_vocab=n_src_vocab, n_position=n_position,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            pad_idx=src_pad_idx, dropout=dropout, scale_emb=scale_emb)

        self.decoder = Decoder(
            n_trg_vocab=n_trg_vocab, n_position=n_position,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            pad_idx=trg_pad_idx, dropout=dropout, scale_emb=scale_emb)

        self.trg_word_prj = nn.Linear(d_model, n_trg_vocab, bias=False)

        for p in self.parameters():
            if p.dim() > 1:
                nn.init.xavier_uniform_(p) 

        assert d_model == d_word_vec, \
        'To facilitate the residual connections, \
         the dimensions of all module outputs shall be the same.'

        if trg_emb_prj_weight_sharing:
            # Share the weight between target word embedding & last dense layer
            self.trg_word_prj.weight = self.decoder.trg_word_emb.weight

        if emb_src_trg_weight_sharing:
            self.encoder.src_word_emb.weight = self.decoder.trg_word_emb.weight


    def forward(self, src_seq, trg_seq): 
		# src_seq (b_sz,len_q)
        src_mask = get_pad_mask(src_seq, self.src_pad_idx) # 对于输入，padding mask
        trg_mask = get_pad_mask(trg_seq, self.trg_pad_idx) & get_subsequent_mask(trg_seq) # 对于输出：padding mask+ sequence mask

        enc_output, *_ = self.encoder(src_seq, src_mask) # Encoder
        dec_output, *_ = self.decoder(trg_seq, trg_mask, enc_output, src_mask) # Decoder
        # enc_output: (b_sz,len_q,d_model)
        # dec_output: (b_sz,len_q,d_model)
        seq_logit = self.trg_word_prj(dec_output)
        #seq_logit: (b_sz,len_q,n_trg_vocab) 
        if self.scale_prj:
            seq_logit *= self.d_model ** -0.5

        return seq_logit.view(-1, seq_logit.size(2)) # (b_sz*len_q,n_trg_vocab)

相关参数的含义：

src_seq 编码器输入的原始单词序列
trg_seq 解码器输入的原始单词序列
n_trg_vocab 目标词汇表的长度

相关代码解读：

src_mask = get_pad_mask(src_seq, self.src_pad_idx) 对于编码器的输入，需要进行padding mask, 为统一单词序列的长度
trg_mask = get_pad_mask(trg_seq, self.trg_pad_idx) & get_subsequent_mask(trg_seq) 对于解码器的输入，不仅需要padding mask 统一单词序列的长度, 还需要sequence mask，使得预测的时候我们只能得到前一时刻预测出的输出，而看不到后面的单词。
enc_output, *_ = self.encoder(src_seq, src_mask) 首先先通过编码器
dec_output, *_ = self.decoder(trg_seq, trg_mask, enc_output, src_mask) 然后再通过解码器
seq_logit = self.trg_word_prj(dec_output) 通过一个线性层，把单词嵌入的维度映射到词汇表的维度，大小从(b_sz,len_q,d_model) 变为(b_sz,len_q,n_trg_vocab) 如下图红框所示
seq_logit *= self.d_model ** -0.5 如果scale_prj为真，则对输出的seq_logic 乘以 $\sqrt{d_{model}}$
seq_logit.view(-1, seq_logit.size(2)) 把seq_logit的前两个维度合并到一起，大小变成 (b_sz*len_q,n_trg_vocab)

你可能感兴趣的:(深度学习基础,transformer,深度学习,人工智能)

python模块triton安装教程 2401_85863780 1024程序员节 triton whl
Triton是一个用于高性能计算的开源库，特别适用于深度学习和科学计算。通过预编译的whl文件安装Triton可以简化安装过程，尤其是在编译时可能会遇到依赖问题的情况下。以下是详细的安装步骤：安装前准备：Python环境：确保已经安装了Python，并且Python版本与whl文件兼容。pip：确保已经安装了pip，这是Python的包管理器，用来安装外部库。下载whl文件：从可靠的来源下载适用于
【prompt示例】智能客服+智能质检业务模版姚瑞南 prompt实战应用案例 prompt 前端
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）整体结构说明：序号结构说明备注1prompt主体提示词主体主要包含定义角色+背景描述+目标+输出内容2变量变量主要提取知识库文档流程里涉及的⼀些判断项，需要接口的部分3注意事项常规注
【机器学习】逻辑回归(LogisticRegression)原理与实战 GentleCP 机器学习(深度学习)逻辑回归 logistic regression 原理与实战机器学习
文章目录前言一、什么是逻辑回归1.1逻辑回归基础概念1.2逻辑回归核心概念二、逻辑回归Demo2.1数据准备2.2创建逻辑回归分类器2.3分类器预测三、逻辑回归实战3.1数据准备3.2数据划分与模型创建3.3预测数据评估模型四、参数选择五、总结六、参考资料本文属于我的机器学习/深度学习系列文章，点此查看系列文章目录前言本文主要通过文字和代码样例讲述逻辑回归的原理（包含逻辑回归的基础概念与推导）和实
Transformer AI专题精讲深度学习 transformer 深度学习自然语言处理
1.TransformerTransformer是一种新的、基于attention机制来实现的特征提取器，可用于代替CNN和RNN来提取序列的特征。Transformer首次由论文《AttentionIsAllYouNeed》提出，在该论文中Transformer用于encoder-decoder架构。事实上Transformer可以单独应用于encoder或者单独应用于decoder。Trans
《深度Q网络优化：突破高维连续状态空间的束缚》人工智能深度学习
在人工智能的发展历程中，深度Q网络（DQN）作为强化学习与深度学习融合的关键成果，为解决复杂决策问题开辟了新路径。但当面对高维连续状态空间时，DQN会出现训练不稳定、收敛速度慢等问题，严重限制了其应用范围。如何优化DQN以适应高维连续状态空间，成为当下研究的热点。深度Q网络基础回顾深度Q网络结合了深度学习强大的特征提取能力与Q学习的决策优化思想。在传统强化学习中，Q学习通过Q表记录每个状态-动作对
智享AI直播三代系统，开启「机器人比人更会带货」时代！缘分开始t621238 人工智能机器人
智享AI直播三代系统，开启「机器人比人更会带货」时代！在当今数字化浪潮汹涌的时代，直播行业作为电商领域的重要驱动力，正经历着前所未有的变革。近日，智享AI直播三代系统的横空出世，宛如一颗重磅炸弹，在直播行业掀起了惊涛骇浪，正式开启了「机器人比人更会带货」的全新时代。一、技术革新，颠覆传统直播模式智享AI直播三代系统的诞生，标志着直播行业进入了智能化的新纪元。它融合了先进的人工智能技术，包括深度学习
Transformer以及BERT阅读参考博文 mumukehao 文本属性图文本属性图
Transformer以及BERT阅读参考博文Transformer学习：已有博主的讲解特别好了：李沐：Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili知乎：Transformer模型详解（图解最完整版）-知乎个人杂想：QKT∗VQK^{T}*VQKT∗V中，QKTQK^TQKT其实可以理解为相似性矩阵S，那么S∗VS*VS∗V其实就相当于相似性矩阵对原始的嵌入加权求和。
ZCC6507: A Superior Isolated Power Solution Outperforming SN6507 zhichengwei 其他
Inthefieldofisolatedpowerdesign,engineersareconstantlyseekingmoreefficient,flexible,andcost-effectivesolutions.TheZCC6507,ahigh-performancepush-pulltransformerdriver,standsoutwithitsuniquedesignandsig
自学黑客（网络安全），一般人我劝你还是算了吧网安周星星 web安全安全 windows 网络网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包文章讲述了自学网络安全时常见的误区，如先学编程、过度追求深度学习以及收集过多资料，并提供了前期学习的硬件、软件选择建议，强调了基础编程知识和英文能力的重要性。文中给出了详细的学习路线，包括基础操作入门、实战操作以及参加CTF和HVV等竞赛来提升技能，并推荐了一系列相关书籍和学习资源。一、自学网络安全学习的误区和陷阱1.不要试图先成为一
DQN的原理和代码实现 SmallerFL NLP&机器学习 DQN 强化学习深度学习
文章目录1.概述2.DQN的训练步骤2.1初始化2.2训练循环2.3终止条件2.4评估3.代码示例1.概述深度Q网络（DeepQ-Network,DQN）是强化学习中的一种重要算法，由GoogleDeepMind于2013年提出。DQN结合了Q学习和深度学习，通过使用神经网络来近似Q值函数，解决了传统Q学习在高维状态空间中的问题。2.DQN的训练步骤2.1初始化环境：定义环境（例如，Atari游戏
深度学习基础知识 namelijink 深度学习人工智能
cuda简介：CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的一种并行计算平台和应用程序编程接口（API）。它允许开发人员利用NVIDIA的GPU（图形处理器）来加速各种计算任务，包括科学计算、机器学习、深度学习、数据分析等。NVIDIA是一个全球领先的计算技术公司，专注于设计和制造高性能计算设备。除了生产强大的GPU，NVIDIA还提供与其GPU
【python语言应用】最新全流程Python编程、机器学习与深度学习实践技术应用（帮助你快速了解和入门 Python）赵钰老师 python 机器学习深度学习 python 机器学习深度学习数据分析人工智能
近年来，人工智能领域的飞速发展极大地改变了各个行业的面貌。当前最新的技术动态，如大型语言模型和深度学习技术的发展，展示了深度学习和机器学习技术的强大潜力，成为推动创新和提升竞争力的关键。特别是PyTorch，凭借其灵活性和高效性，成为科研人员和工程师的首选工具。理解和掌握深度学习的基础知识，深入了解其与经典机器学习算法的区别与联系，并系统掌握包括迁移学习、循环神经网络（RNN）、长短时记忆网络（L
【Python深入浅出㊸】解锁Python3中的TensorFlow：开启深度学习之旅奔跑吧邓邓子 Python深入浅出 python 深度学习 tensorflow
目录一、TensorFlow简介1.1定义与背景1.2特点二、Python3与TensorFlow的关系2.1版本对应2.2为何选择Python3三、安装TensorFlow3.1安装步骤3.2验证安装四、TensorFlow基本概念与使用方法4.1计算图（Graph）4.2会话（Session）4.3张量（Tensor）4.4变量（Variable）4.5占位符（Placeholder）五、Te
人工智能爆火下，关于软件技术专业的发展思考 yzx991013 人工智能
软件技术专业作为信息技术领域的核心学科，其发展方向始终与技术进步和社会需求紧密相关。以下是软件技术专业未来发展的关键方向及学习建议：一、技术方向与前沿领域1.云原生与分布式架构方向：云原生技术（Kubernetes、Docker、Serverless）、微服务架构、分布式系统设计。原因：企业全面上云已成趋势，需要高效、弹性的云原生解决方案。学习建议：掌握AWS/Azure/GCP等云平台，学习服务
数字化转型三大核心要素：数据、技术、人才千千标寻大数据云计算人工智能 ai
数字化转型的三大核心要素——数据、技术和人才，是推动企业在数字经济时代取得成功的关键。数据数据是数字化转型的基础。高质量的数据能够为企业提供深刻的市场洞察和客户行为分析，帮助做出更明智的决策。通过有效管理和利用数据，企业可以优化运营流程，提升产品和服务质量，从而实现更高的效率和客户满意度。技术先进的技术支持是实现数字化转型的关键驱动力。无论是云计算、人工智能、大数据分析还是物联网，这些前沿技术的应
【Java】已解决：java.util.concurrent.ExecutionException 屿小夏 java 开发语言 android
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
数字人技术在短视频中的应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
数字人、短视频、人工智能、计算机视觉、自然语言处理、虚拟主播、内容创作1.背景介绍短视频作为一种新兴的传播媒介，其内容形式丰富、传播速度快、用户粘性强，已成为当今互联网领域最热门的应用之一。随着技术的不断发展，数字人技术逐渐成熟，并开始在短视频领域得到广泛应用。数字人是指利用计算机技术模拟真实人类形象和行为的虚拟角色，其具备逼真的外形、流畅的肢体动作和自然的语言表达能力。数字人技术在短视频领域的应
强化学习在机器人控制中的应用：从理论到实践 Echo_Wish 前沿技术人工智能机器人
强化学习在机器人控制中的应用：从理论到实践大家好，我是你们熟悉的人工智能与Python领域自媒体创作者Echo_Wish。今天我们来聊聊一个炙手可热的话题——强化学习在机器人控制中的应用。近年来，随着人工智能技术的飞速发展，机器人在各个领域的应用越来越广泛。而强化学习作为一种重要的机器学习方法，为机器人控制提供了强有力的技术支持。接下来，让我们一起探讨强化学习在机器人控制中的原理和实践，并通过具体
探索工业物联网平台：智能制造的未来 Echo_Wish Python进阶物联网制造
探索工业物联网平台：智能制造的未来大家好，我是你们熟悉的人工智能与Python领域自媒体创作者Echo_Wish。今天我们来聊聊一个热门话题：工业物联网平台（IndustrialInternetofThings,IIoT）。工业物联网平台在智能制造中的应用正日益广泛，帮助企业实现数据驱动的生产、优化运营效率，并推动工业4.0的发展。那么，工业物联网平台到底是什么，又该如何实现呢？今天就让我们一探究
c++加载TensorRT调用深度学习模型方法 feibaoqq 深度学习深度学习 YOLO
使用TensorRT来调用训练好的模型并输出结果是一个高效的推理过程，特别是在需要低延迟和高吞吐量的应用场景中。以下是一个基本的步骤指南，展示了如何在C++中使用TensorRT进行推理。步骤1：准备环境安装TensorRT：确保你已经安装了NVIDIATensorRT库。准备模型：确保你的训练好的模型已经转换为TensorRT支持的格式，通常是一个.engine文件。你可以使用onnx-tens
本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比 MaxCode-1 搭建本地gpt Deepseek
本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比在当今人工智能快速发展的时代，大语言模型（LargeLanguageModel,LLM）的应用场景日益广泛。无论是企业级应用还是个人开发，本地部署大语言模型已经成为一种趋势。DeepSeek-R1-32B和DeepSeek-R1-7B作为DeepSeek系列中的两个重要版本，分别代表了不同规模和性能的模型。本文将从多
Apache Iceberg 与 Apache Hudi：数据湖领域的双雄对决夜里慢慢行456 大数据大数据
在数据存储和处理不断发展的领域中，数据湖仓的概念已经崭露头角，成为了一种变革性的力量。数据湖仓结合了数据仓库和数据湖的最佳元素，提供了一个统一的平台，支持数据科学、商业智能、人工智能/机器学习以及临时报告等多种关键功能。这种创新的方法不仅促进了实时分析，还显著降低了平台成本，增强了数据治理，并加速了用例的实现。数据存储和处理的演变催生了被称为数据湖仓的现代分析平台。这些平台旨在解决传统架构的局限性
23. AI-大语言模型真上帝的左手 23.AI 人工智能语言模型自然语言处理
文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、Transformer架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四、再谈DeepSeek前言AI‌一、LLMLLM（LargeLanguageModel，大语言模型）‌1.简介 LLM（LargeLanguageModel，大语言模型）‌是指使用大量文本
点云从入门到精通技术详解100篇-基于 CBCT 与口内扫描数据的牙齿点云配准格图素书深度学习计算机视觉数学建模人工智能
目录前言国内外研究现状传统牙齿配准点云配准2牙齿数据的深度学习点云配准基础2.1牙齿数据获取方法2.1.1口腔印模2.1.2辐射成像2.1.3口内扫描2.2深度学习网络2.2.1全连接神经网络2.2.2卷积神经网络2.2.3孪生神经网络2.3点云数据配准基础2.3.1点云数据格式2.3.2点云旋转表达2.3.3传统点云配准方法3基于PCRNet的PCR-SA牙齿点云配准3.1CBCT-IOS牙齿配
deep seek m0_69576880 前端 ai
1.介绍:DeepSeek是一款由国内人工智能公司研发的大型语言模型，拥有强大的自然语言处理能力，能够理解并回答问题，还能辅助写代码、整理资料和解决复杂的数学问题。免费开源，媲美ChatGPT最近最火爆的AI对话程序。www.deepseek.com这是deepseek官网2.这是deepseek注册页面3.国产语言对话ai，大家有兴趣的可以去试试。不过chatgpt也进行了改变，大家也可以免费使
RWKV Runner：让RNN-LLM模型触手可及步子哥 rnn 人工智能深度学习
在这个信息爆炸的时代，人工智能（AI）已经成为我们生活中不可或缺的一部分，尤其是大语言模型（LLM）在自然语言处理中的广泛应用。然而，尽管这些技术的潜力巨大，许多用户仍然面临着使用门槛高、配置复杂等问题。为了解决这一困境，RWKVRunner应运而生。它不仅提供了一个简便的接口，还让用户能够轻松地使用大语言模型。本文将深入探讨RWKVRunner的功能、安装步骤以及如何利用它来实现各种应用。RWK
标贝科技参编国内首个AIGC大模型功能测试标准标贝科技科技 AIGC 功能测试
近日，由山东省人工智能协会、青岛市人工智能产业协会携手发布了国内首个针对生成式人工智能（AIGC）大模型测试的团体标准——《生成式人工智能（AIGC）大模型功能测试指标体系》。标贝科技作为行业领先的AI技术创新及大模型应用企业受邀参与了标准的编制。该标准的发布对于规范大模型的研发和应用具有重要意义，为人工智能产业的健康、快速发展注入了新的活力。AIGC大模型作为人工智能从专业智能走向通用智能的关键
Python深度学习代做目标检测NLP计算机视觉强化学习 matlabgoodboy 计算机视觉 python 深度学习
了解您的需求，您似乎在寻找关于Python深度学习领域的代做服务，特别是在目标检测、自然语言处理（NLP）、计算机视觉以及强化学习方面。以下是一些关于这些领域的概述以及寻找相关服务的建议。1.Python深度学习代做概述目标检测：目标检测是计算机视觉中的一个重要任务，旨在识别图像或视频中的特定对象，并确定它们的位置。Python中的深度学习框架（如TensorFlow、PyTorch）和计算机视觉
基于深度学习YOLOv5的活体人脸检测系统（Python+PySide6界面+训练代码）深度学习&目标检测实战项目深度学习 YOLO python 人工智能目标跟踪计算机视觉开发语言
一、前言随着人工智能技术的快速发展，计算机视觉（ComputerVision）已广泛应用于各种实际场景中，特别是在安全、金融、医疗等领域。人脸识别作为计算机视觉的一个重要应用，已经成为很多身份验证、安防监控、智能门禁等系统的核心技术。近年来，随着深度学习的突破，YOLO（YouOnlyLookOnce）系列算法因其高效、准确、实时的特点，广泛应用于物体检测任务。在实际的人脸识别应用中，活体人脸检测
2025年人工智能，自动化与机械工程国际学术会议（AIAME2025）研发家科研服务平台人工智能自动化运维材料工程
早鸟通道开启：2025年人工智能，自动化与机械工程国际学术会议（AIAME2025）2025InternationalConferenceonArtificialIntelligence,Automation,andMechanicalEngineering【重要日期】早鸟征稿截止日期：2024年12月11日报名截止日期：2025年2月21日会议时间：2025年2月21日至23日会议地点：中国·成
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <bookjovi@gmail.com> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少