Iareges

重新审视MHA与Transformer

本文将基于PyTorch源码重新审视MultiheadAttention与Transformer。事实上，早在一年前博主就已经分别介绍了两者：各种注意力机制的PyTorch实现、从零开始手写一个Transformer，但当时的实现大部分是基于d2l教程的，这次将基于PyTorch源码重新实现一遍。

1. MultiheadAttention

1.1 思路

回顾多头注意力，其公式如下：

$\text{MHA}(Q,K,V)=\text{Concat}(\text{head}_1,\cdots,\text{head}_h)W^O \\ \text{head}_i=\text{Attn}(QW_i^Q,KW_i^K,VW_i^V)$

其中 $W_i^Q\in \mathbb{R}^{d_{model}\times d_k}$ ， $W_i^K\in \mathbb{R}^{d_{model}\times d_k}$ ， $W_i^V\in \mathbb{R}^{d_{model}\times d_v}$ ， $W^O\in \mathbb{R}^{hd_v\times d_{model}}$ ，且 $d_k=d_v=d_{model}/h$ 。

如果记 $d_{head}=d_{model}/h$ ，则 $W_i^Q,W_i^K,W_i^V$ 的形状均为 $d_{model},d_{head})$ ， $W^O$ 的形状为 $d_{model},d_{model})$ 。

先不考虑batch和mask的情形，在只有一个头的情况下（ $h = 1$ ），MHA的计算方式为

class MHA(nn.Module):
    def __init__(self, d_model):
        super().__init__()
        self.w_q = nn.Parameter(torch.empty(d_model, d_model))
        self.w_k = nn.Parameter(torch.empty(d_model, d_model))
        self.w_v = nn.Parameter(torch.empty(d_model, d_model))
        self.w_o = nn.Parameter(torch.empty(d_model, d_model))

        self._reset_parameters()

    def _reset_parameters(self):
        for p in self.parameters():
            if p.dim() > 1:
                nn.init.xavier_uniform_(p)

    def forward(self, query, key, value):
        """
        Args:
            query: (n, d_model)，n是query的个数，m是key-value的个数
            key: (m, d_model)
            value: (m, d_model)
        """
        q = query @ self.w_q
        k = key @ self.w_k
        v = value @ self.w_v

        attn_logits = q @ k.transpose(0, 1) / math.sqrt(q.size(1))  # attn_logits: (n, m)
        attn_probs = F.softmax(attn_logits, dim=-1)
        attn_output = attn_probs @ v  # attn_output: (n, d_model)
        return attn_output, attn_probs

现在考虑 $h = 2$ 的情形，此时一共需要 $3\cdot2+1=7$ 个参数矩阵

class MHA(nn.Module):
    def __init__(self, d_model):
        super().__init__()
        self.w_q_1 = nn.Parameter(torch.empty(d_model, d_model // 2))
        self.w_k_1 = nn.Parameter(torch.empty(d_model, d_model // 2))
        self.w_v_1 = nn.Parameter(torch.empty(d_model, d_model // 2))

        self.w_q_2 = nn.Parameter(torch.empty(d_model, d_model // 2))
        self.w_k_2 = nn.Parameter(torch.empty(d_model, d_model // 2))
        self.w_v_2 = nn.Parameter(torch.empty(d_model, d_model // 2))

        self.w_o = nn.Parameter(torch.empty(d_model, d_model))

        self._reset_parameters()

    def _reset_parameters(self):
        for p in self.parameters():
            if p.dim() > 1:
                nn.init.xavier_uniform_(p)

    def forward(self, query, key, value):
        """
        Args:
            query: (n, d_model)，n是query的个数，m是key-value的个数
            key: (m, d_model)
            value: (m, d_model)
        """
        q_1 = query @ self.w_q_1
        k_1 = key @ self.w_k_1
        v_1 = value @ self.w_v_1

        q_2 = query @ self.w_q_2
        k_2 = key @ self.w_k_2
        v_2 = value @ self.w_v_2

        attn_logits_1 = q_1 @ k_1.transpose(0, 1) / math.sqrt(q_1.size(1))
        attn_probs_1 = F.softmax(attn_logits_1, dim=-1)
        attn_output_1 = attn_probs_1 @ v_1

        attn_logits_2 = q_2 @ k_2.transpose(0, 1) / math.sqrt(q_2.size(1))
        attn_probs_2 = F.softmax(attn_logits_2, dim=-1)
        attn_output_2 = attn_probs_2 @ v_2

        attn_output = torch.cat([attn_output_1, attn_output_2], dim=-1) @ self.w_o  # attn_output: (n, d_model)
        attn_probs = torch.stack([attn_probs_1, attn_probs_2], dim=0)  # attn_probs: (2, n, m)，其中2是头数

        return attn_output, attn_probs

可以看到代码量已经增加了不少，如果扩展到 $h$ 个头的情形，则需要 $3 h + 1$ 个参数矩阵。手动去一个个声明显然不现实，因为 $h$ 是动态变化的，而用for循环创建又略显笨拙，有没有更简便的方法呢？

在上面的代码中，我们用小写 $q$ 来代表查询 $Q$ 经过投影后的结果（ $k, v$ 同理），即

$q_i=QW_i^Q,\quad i =1,2,\cdots,h$

其中 $Q$ 的形状为 $n,d_{model})$ ， $q_i$ 的形状为 $n,d_{head})$ ，且有

$head_i=\text{softmax}\left(\frac{q_ik_i^{T}}{\sqrt{d_{head}}}\right)v_i$

注意到

$[q_1,q_2,\cdots,q_h]=Q[W_1^Q,W_2^Q,\cdots,W_h^Q]\tag{1}$

如果记 $q\triangleq [q_1,q_2,\cdots,q_h]$ ， $W^Q\triangleq [W_1^Q,W_2^Q,\cdots,W_h^Q]$ ，则 $W^Q$ 的形状为 $d_{model},d_{model})$ ，与 $h$ 无关， $q$ 的形状为 $n,d_{model})$ 。这样一来，我们就不需要一个个声明 $W_i^Q$ 了，并且可以一次性存储所有的 $q_i$ 。

要计算 $head_1$ ，我们需要能够从 $q$ 中取出 $q_1$ （ $k, v$ 同理），所以我们期望 $q$ 的形状是 $h,n,d_{head})$ ，从而 $q [1]$ 就是 $q_1$ （这里下标从 $1$ 开始）。

当然也可以是 $n,h,d_{head})$ 等形状，但必须要确保形状里含且只含这三个数字。之所以把 $h$ 放在第一个维度是为了方便索引和后续计算。

同理可知 $k, v$ 的形状均为 $h,m,d_{head})$ 。我们可以视 $h$ 所在的维度为批量维，从而可以执行批量乘法 torch.bmm 来一次性算出 $h$ 个头的结果。

q = torch.randn(h, n, d_head)
k = torch.randn(h, m, d_head)
v = torch.randn(h, m, d_head)

# @和torch.bmm的效果相同，但写法更简洁
attn_logits = q @ k.transpose(1, 2) / math.sqrt(q.size(2))
attn_probs = F.softmax(attn_logits, dim=-1)
attn_output = attn_probs @ v  # attn_output: (h, n, d_head)

$h$ 个头的结果存储在形状为 $h,n,d_{head})$ 的张量中，那我们如何把这 $h$ 个结果concat在一起呢？注意到我们实际上是将 $h$ 个形状为 $n,d_{head})$ 的张量横向concat为一个形状为 $n,d_{model})$ 的张量，因此只需执行如下的形状变换：

$(h,n,d_{head})\to(n,h,d_{head})\to(n,h\cdot d_{head})=(n,d_{model}) \tag{2}$

n = attn_output.size(1)
attn_output = attn_output.transpose(0, 1).reshape(n, -1)

⚠️ 注意，切勿直接将 $h,n,d_{head})$ reshape成 $n,d_{model})$ 。

之前我们只讨论了 $q$ 的形状应当是 $h,n,d_{head})$ ，但并没有讨论它是如何变换得来的。这是因为， $Q$ 在经过投影后得到的 $q$ 只具有 $n,d_{model})$ 的形状，要进行形状变换，一种做法是对 $q$ 沿纵向切 $h$ 刀再堆叠起来，这样从直观上来看也比较符合公式 $(1)$

q = torch.randn(n, d_model)
q = torch.stack(torch.split(q, d_head, dim=-1), dim=0)

但由于 $W^Q$ 初始时是随机的，所以我们不需要严格按照公式 $(1)$ 那样操作，直接执行 $(2)$ 的逆变换即可

$(n,d_{model})=(n,h\cdot d_{head})\to(n,h,d_{head})\to(h,n,d_{head})$

现考虑有batch的情形，设批量大小为 $b$ ，则 $Q$ 的形状为 $b,n,d_{model})$ 或 $n,b,d_{model})$ ，具体是哪一个要看 batch_first 是否为 True。接下来均假设 batch_first = False。

在以上的假设下， $q$ 的形状也为 $n,b,d_{model})$ ，我们将 $b$ 和 $h$ 看成同一维度（都是批量维），从而 $(2)$ 式改写为

$(n,b,d_{model})\to(n,b,h,d_{head})\to(n,b\cdot h,d_{head})\to(b\cdot h,n,d_{head})$

关于 key_padding_mask 和 attn_mask 这里不再介绍，如有需要可阅读博主之前的文章，这里主要讲解如何合并两种mask。

前者的形状为 $(b, m)$ ，用来mask掉key中的 [PAD]，防止query注意到它。而后者的形状可以是 $(n, m)$ 也可以是 $(b\cdot h,n,m)$ 。在实际合并两种mask的时候，我们均需要按照 $(b\cdot h,n,m)$ 这个形状去计算。也就是说，如果是 key_padding_mask，我们需要进行形状变换 $(b,m)\to(b,1,1,m)\to(b,h,1,m)\to(b\cdot h,1,m)$ ；如果是 attn_mask，我们需要进行形状变换 $(n,m)\to(1,n,m)$ 。

1.2 源码

本节将遵循以下记号：

记号	说明
$b$	batch size
$h$	num heads
$d$	head dim
$n$	num queries
$m$	num key-value pairs

首先实现一个MHA的基类：

class MultiheadAttentionBase_(nn.Module):
    def __init__(self, embed_dim, num_heads, dropout=0., bias=True):
        super().__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.dropout = dropout
        self.head_dim = embed_dim // num_heads
        assert self.head_dim * num_heads == embed_dim

        self.in_proj_weight = nn.Parameter(torch.empty(3 * embed_dim, embed_dim))
        if bias:
            self.in_proj_bias = nn.Parameter(torch.empty(3 * embed_dim))
        else:
            self.register_parameter('in_proj_bias', None)
        self.out_proj = nn.Linear(embed_dim, embed_dim, bias=bias)

        self._reset_parameters()

    def _reset_parameters(self):
        nn.init.xavier_uniform_(self.in_proj_weight)
        if self.in_proj_bias is not None:
            nn.init.constant_(self.in_proj_bias, 0.)
            nn.init.constant_(self.out_proj.bias, 0.)

    def forward(
        self,
        query,
        key,
        value,
        key_padding_mask,
        attn_mask,
        need_weights=True,
    ):
        """
        Args:
            query: (n, b, h * d)
            key: (m, b, h * d)
            value: (m, b, h * d)
            key_padding_mask: (b, m), bool type
            attn_mask: (n, m) or (b * h, n, m), bool type

        Returns:
            attn_output: (n, b, h * d)
            attn_weights: (b, h, n, m)
        """
        w_q, w_k, w_v = self.in_proj_weight.chunk(3)
        if self.in_proj_bias is not None:
            b_q, b_k, b_v = self.in_proj_bias.chunk(3)
        else:
            b_q = b_k = b_v = None

        q = F.linear(query, w_q, b_q)
        k = F.linear(key, w_k, b_k)
        v = F.linear(value, w_v, b_v)

        b, h, d = q.size(1), self.num_heads, self.head_dim
        q, k, v = map(lambda x: x.reshape(-1, b, h, d), [q, k, v])

        attn_mask = self.merge_masks(key_padding_mask, attn_mask, q)

        attn_output, attn_weights = self.attention(q, k, v, attn_mask, out_proj=self.out_proj, dropout=self.dropout, training=self.training)

        if not need_weights:
            attn_weights = None

        return attn_output, attn_weights

    def merge_masks(self, key_padding_mask, attn_mask, q):
        """
        Args:
            key_padding_mask: (b, m), bool type
            attn_mask: (n, m) or (b * h, n, m), bool type
            q: only used to confirm the dtype of attn_mask

        Returns:
            attn_mask: (b * h, n, m), float type
        """
        assert key_padding_mask is not None and key_padding_mask.dtype == torch.bool
        b, m = key_padding_mask.size()
        key_padding_mask = key_padding_mask.view(b, 1, 1, m).expand(-1, self.num_heads, -1, -1).reshape(b * self.num_heads, 1, m)

        if attn_mask is not None:
            assert attn_mask.dtype == torch.bool
            if attn_mask.dim() == 2:
                attn_mask = attn_mask.unsqueeze(0)
            attn_mask = attn_mask.logical_or(key_padding_mask)
        else:
            attn_mask = key_padding_mask

        attn_mask = torch.zeros_like(attn_mask, dtype=q.dtype).masked_fill_(attn_mask, -1e28)

        return attn_mask

    def attention(self, q, k, v, attn_mask, out_proj, dropout, training):
        """
        Args:
            q: (n, b, h, d)
            k: (m, b, h, d)
            v: (m, b, h, d)
            attn_mask: (b * h, n, m), float type
            out_proj: nn.Linear(h * d, h * d)

        Returns:
            attn_output: (n, b, h * d), is the result of concating h heads.
            attn_weights: (b, h, n, m)
        """
        raise NotImplementedError

接下来，只需要重写 attention 方法就可以实现普通版的MHA了

class MultiheadAttention(MultiheadAttentionBase_):
    def attention(self, q, k, v, attn_mask, out_proj, dropout, training):
        if not training:
            dropout = 0
        n, b, h, d = q.size()
        q, k, v = map(lambda x: x.reshape(-1, b * h, d).transpose(0, 1), [q, k, v])
        attn_logits = q @ k.transpose(-2, -1) / math.sqrt(d) + attn_mask
        attn_probs = F.softmax(attn_logits, dim=-1)
        attn_weights = F.dropout(attn_probs, p=dropout)
        attn_output = attn_weights @ v
        attn_output = attn_output.transpose(0, 1).reshape(n, b, h * d)
        attn_output = out_proj(attn_output)
        return attn_output, attn_weights

1.3 极简版MHA（面试用）

不少面试会让现场手写MHA，这里提供了一份模版，略去了很多细节。

相比原版，极简版做了如下改动：

略去了参数初始化。
去掉了mask

class MultiheadAttention(nn.Module):
    def __init__(self, embed_dim, num_heads, dropout=0., bias=True):
        super().__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.dropout = nn.Dropout(dropout)
        self.head_dim = embed_dim // num_heads
        assert self.head_dim * num_heads == embed_dim

        self.in_proj_weight = nn.Parameter(torch.empty(3 * embed_dim, embed_dim))
        if bias:
            self.in_proj_bias = nn.Parameter(torch.empty(3 * embed_dim))
        else:
            self.register_parameter('in_proj_bias', None)
        self.out_proj = nn.Linear(embed_dim, embed_dim, bias=bias)

    def forward(self, query, key, value):
        """
        Args:
            query: (n, b, h * d)
            key: (m, b, h * d)
            value: (m, b, h * d)
        """
        w_q, w_k, w_v = self.in_proj_weight.chunk(3)
        if self.in_proj_bias is not None:
            b_q, b_k, b_v = self.in_proj_bias.chunk(3)
        else:
            b_q = b_k = b_v = None

        q, k, v = F.linear(query, w_q, b_q), F.linear(key, w_k, b_k), F.linear(value, w_v, b_v)

        b, h, d = q.size(1), self.num_heads, self.head_dim
        q, k, v = map(lambda x: x.reshape(-1, b * h, d).transpose(0, 1), [q, k, v])

        attn_logits = q @ k.transpose(-2, -1) / math.sqrt(d)
        attn_probs = F.softmax(attn_logits, dim=-1)
        attn_weights = self.dropout(attn_probs)

        attn_output = attn_weights @ v
        attn_output = attn_output.transpose(0, 1).reshape(-1, b, h * d)
        attn_output = self.out_proj(attn_output)

        return attn_output, attn_weights

注意，如果尝试直接输出的话，会得到一堆 nan，这是因为没有xavier初始化，需要 _reset_parameters() 一下。

具体需要哪种mask可根据面试官的要求去实现。

2. Transformer

接下来基于PyTorch官方的MHA来实现Transformer。

首先需要实现一个基础函数，它可以用来复制一个 Module N次。

def _get_clones(module, n):
    return nn.ModuleList([copy.deepcopy(module) for _ in range(n)])

EncoderLayer的实现

class TransformerEncoderLayer(nn.Module):
    def __init__(
        self,
        d_model,
        n_head,
        d_ffn,
        dropout=0.1,
        activation=F.relu,
        norm_first=False,
    ):
    	super().__init__()
        self.self_attn = nn.MultiheadAttention(embed_dim=d_model, num_heads=n_head, dropout=dropout)
        self.dropout1 = nn.Dropout(dropout)

        self.linear1 = nn.Linear(d_model, d_ffn)
        self.activation = activation
        self.dropout2 = nn.Dropout(dropout)
        self.linear2 = nn.Linear(d_ffn, d_model)
        self.dropout3 = nn.Dropout(dropout)

        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.norm_first = norm_first

    def forward(self, src, src_mask, src_key_padding_mask):
        x = src
        if self.norm_first:
            x = x + self._sa_block(self.norm1(x), src_mask, src_key_padding_mask)
            x = x + self._ff_block(self.norm2(x))
        else:
            x = self.norm1(x + self._sa_block(x, src_mask, src_key_padding_mask))
            x = self.norm2(x + self._ff_block(x))
        return x

    def _sa_block(self, x, attn_mask, key_padding_mask):
        x = self.self_attn(x, x, x, attn_mask=attn_mask, key_padding_mask=key_padding_mask, need_weights=False)[0]
        return self.dropout1(x)

    def _ff_block(self, x):
        x = self.linear2(self.dropout2(self.activation(self.linear1(x))))
        return self.dropout3(x)

这里的 norm_first 用来决定是Pre-LN还是Post-LN，如下图所示

DecoderLayer的实现

class TransformerDecoderLayer(nn.Module):
    def __init__(
        self,
        d_model,
        n_head,
        d_ffn,
        dropout=0.1,
        activation=F.relu,
        norm_first=False,
    ):
    	super().__init__()
        self.self_attn = nn.MultiheadAttention(embed_dim=d_model, num_heads=n_head, dropout=dropout)
        self.dropout1 = nn.Dropout(dropout)

        self.cross_attn = nn.MultiheadAttention(embed_dim=d_model, num_heads=n_head, dropout=dropout)
        self.dropout2 = nn.Dropout(dropout)

        self.linear1 = nn.Linear(d_model, d_ffn)
        self.activation = activation
        self.dropout3 = nn.Dropout(dropout)
        self.linear2 = nn.Linear(d_ffn, d_model)
        self.dropout4 = nn.Dropout(dropout)

        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.norm3 = nn.LayerNorm(d_model)
        self.norm_first = norm_first

    def forward(self, tgt, memory, tgt_mask, memory_mask, tgt_key_padding_mask, memory_key_padding_mask):
        x = tgt
        if self.norm_first:
            x = x + self._sa_block(self.norm1(x), tgt_mask, tgt_key_padding_mask)
            x = x + self._ca_block(self.norm2(x), memory, memory_mask, memory_key_padding_mask)
            x = x + self._ff_block(self.norm3(x))
        else:
            x = self.norm1(x + self._sa_block(x, tgt_mask, tgt_key_padding_mask))
            x = self.norm2(x + self._ca_block(x, memory, memory_mask, memory_key_padding_mask))
            x = self.norm3(x + self._ff_block(x))
        return x

    def _sa_block(self, x, attn_mask, key_padding_mask):
        x = self.self_attn(x, x, x, attn_mask=attn_mask, key_padding_mask=key_padding_mask, need_weights=False)[0]
        return self.dropout1(x)

    def _ca_block(self, x, mem, attn_mask, key_padding_mask):
        x = self.cross_attn(x, mem, mem, attn_mask=attn_mask, key_padding_mask=key_padding_mask, need_weights=False)[0]
        return self.dropout2(x)

    def _ff_block(self, x):
        x = self.linear2(self.dropout3(self.activation(self.linear1(x))))
        return self.dropout4(x)

根据EncoderLayer搭建Encoder。需要注意的是，PyTorch源码中还提供了 encoder_norm 这一参数，即决定是否在Encoder最后放一个LN。

class TransformerEncoder(nn.Module):
    def __init__(self, encoder_layer, num_layers, encoder_norm=None):
    	super().__init__()
        self.layers = _get_clones(encoder_layer, num_layers)
        self.num_layers = num_layers
        self.encoder_norm = encoder_norm

    def forward(self, src, src_mask, src_key_padding_mask):
        output = src
        for mod in self.layers:
            output = mod(output, src_mask, src_key_padding_mask)
        if self.encoder_norm is not None:
            output = self.encoder_norm(output)
        return output

DecoderLayer同理

class TransformerDecoder(nn.Module):
    def __init__(self, decoder_layer, num_layers, decoder_norm=None):
    	super().__init__()
        self.layers = _get_clones(decoder_layer, num_layers)
        self.num_layers = num_layers
        self.decoder_norm = decoder_norm

    def forward(self, tgt, memory, tgt_mask, memory_mask, tgt_key_padding_mask, memory_key_padding_mask):
        output = tgt
        for mod in self.layers:
            output = mod(output, memory, tgt_mask, memory_mask, tgt_key_padding_mask, memory_key_padding_mask)
        if self.decoder_norm is not None:
            output = self.decoder_norm(output)
        return output

PyTorch官方的Transformer默认添加 encoder_norm 和 decoder_norm，然而这对于Post-LN的情形，无疑是多余的，所以这里我们做个简单修改，即如果是Post-LN情形，就不在最后添加LN了。

class Transformer(nn.Module):
    def __init__(
        self,
        d_model=512,
        n_head=8,
        num_encoder_layers=6,
        num_decoder_layers=6,
        d_ffn=2048,
        dropout=0.1,
        activation=F.relu,
        norm_first=False,
    ):
        super().__init__()
        if norm_first:
            encoder_norm, decoder_norm = nn.LayerNorm(d_model), nn.LayerNorm(d_model)
        else:
            encoder_norm = decoder_norm = None

        encoder_layer = TransformerEncoderLayer(d_model, n_head, d_ffn, dropout, activation, norm_first)
        self.encoder = TransformerEncoder(encoder_layer, num_encoder_layers, encoder_norm)

        decoder_layer = TransformerDecoderLayer(d_model, n_head, d_ffn, dropout, activation, norm_first)
        self.decoder = TransformerDecoder(decoder_layer, num_decoder_layers, decoder_norm)

        self._reset_parameters()

    def _reset_parameters(self):
        for p in self.parameters():
            if p.dim() > 1:
                nn.init.xavier_uniform_(p)

    def forward(
        self,
        src,
        tgt,
        src_mask=None,
        tgt_mask=None,
        memory_mask=None,
        src_key_padding_mask=None,
        tgt_key_padding_mask=None,
        memory_key_padding_mask=None,
    ):
        memory = self.encoder(src, src_mask, src_key_padding_mask)
        output = self.decoder(tgt, memory, tgt_mask, memory_mask, tgt_key_padding_mask, memory_key_padding_mask)

        return output

截止到目前，我们实现的Transfomer并不是完整的，还缺少embedding层和Decoder后面的Linear层，这里只介绍前者，因为后者仅仅是简单的 nn.Linear(d_model, tgt_vocab_size)。

Transformer的embedding层分为token embedding和Positional Encoding，前者是可学习的 nn.Embedding，后者是固定的Sinusoidal编码。

PE的公式为

$P[i,2j]=\sin\left(\frac{i}{10000^{2j/d_{model}}}\right)\\ P[i,2j+1]=\cos\left(\frac{i}{10000^{2j/d_{model}}}\right) \\ 0\leq i < max\_len,\;0\leq jP[i,2j]=sin(100002j/dmodeli)P[i,2j+1]=cos(100002j/dmodeli)0≤i<max_len,0≤j<dmodel$

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout=0.1, max_len=5000):
        super().__init__()
        self.dropout = nn.Dropout(dropout)

        position = torch.arange(max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) * (-math.log(10000.0) / d_model))
        pe = torch.zeros(max_len, 1, d_model)  # 1是batch size维度
        pe[:, 0, 0::2] = torch.sin(position * div_term)
        pe[:, 0, 1::2] = torch.cos(position * div_term)

        self.register_buffer('pe', pe)

    def forward(self, x):
        x = x + self.pe[:x.size(0)]
        return self.dropout(x)

3. Q&A

1. MHA的参数量？FLOPs？时间复杂度？

只考虑自注意力情形。为简便起见，令 $h\triangleq d_{model}$ 。

MHA模块一共包含四个参数矩阵： $W^Q,W^K,W^V,W^O$ ，形状均为 $(h, h)$ ，因此weight部分的参数量是 $4\cdot h^2$ 。每个参数矩阵都会带有一个长度为 $h$ 的bias，因此总共的参数量为 $4h^2+4h$ 。

注意FLOPs和FLOPS的含义不同。前者是floating point operations，指浮点运算数，可以理解为计算量，用来衡量模型/算法的复杂度；后者是floating point operations per second，指每秒浮点运算次数，可以理解为计算速度，用来衡量衡量硬件的性能。

在计算形状为 $(m, n)$ 和 $(n, k)$ 矩阵的乘积时，每计算一次内积都要执行 $n$ 次乘法和 $n$ 次加法，而最终输出矩阵的形状为 $(m, k)$ ，所以总共的浮点运算次数为 $(n+n)\cdot m\cdot k=2mnk$ 。

回到MHA，只考虑矩阵乘法：

首先会对形状为 $(l, b, h)$ 的embedding进行投影，执行的矩阵乘法为 $(l,b,h)\times (h, h)\to(l,b,h)$ ，这一步的计算量为 $2lbh^2$ 。由于会分别投影到 $Q, K, V$ 三个矩阵，因此这一步的总计算量为 $6lbh^2$ 。
接下来是 $QK^T$ 相乘，执行的矩阵乘法为 $(b\cdot nh,l,hd)\times(b\cdot nh,hd,l)\to(b\cdot nh,l,l)$ ，其中 $nh$ 代表 num_heads， $h d$ 代表 head_dim。计算量为 $2l^2bh$ 。
然后是对 $V$ 进行加权，执行的矩阵乘法为 $(b\cdot nh,l,l)\times(b\cdot nh,l,hd)\to(b\cdot nh,l,hd)$ ，计算量为 $2l^2bh$ 。
最后的投影中，执行的矩阵乘法为 $(l,b,h)\times(h,h)\to(l,b,h)$ ，计算量为 $2lbh^2$ 。

由上述步骤可知，MHA的FLOPs约为 $6lbh^2+2l^2bh+2l^2bh+2lbh^2=4lbh(2h+l)$ 。

再来看MHA的复杂度，依然只考虑矩阵乘法。在计算形状为 $(m, n)$ 和 $(n, k)$ 矩阵的乘积时，计算内积的时间复杂度为 $O (n)$ ，而输出矩阵的形状为 $(m, k)$ ，填满这个矩阵所需要的时间为 $O (mk)$ ，所以总时间复杂度为 $O (mnk)$ 。

可以发现一个不严谨的等式（仅针对矩阵乘法场景）：

$时间复杂度=O\left(\frac{\text{FLOPs}}{2}\right)$

由此可得到MHA的时间复杂度为 $O(2lbh(2h+l))=O(lbh^2+l^2bh)$ 。特别地，当 $b = 1$ 时，MHA的时间复杂度退化为 $O(lh^2+l^2h)$ 。

注意，MHA和SA（Self-Attention）的时间复杂度不同，SA的复杂度为 $O(l^2h)$ 。对于Restricted SA，注意力矩阵的每一行仅有 $r$ 个元素需要计算，因此总共需要 $r l$ 个元素需要计算，而计算每个元素的时间为 $O (h)$ ，所以总时间为 $O (r l h)$ 。

2. Transformer的总参数量？模型占用显存？

此前已经计算出MHA部分的参数量为 $4h^2+4h$ ，接下来看FFN部分。FFN有两个参数矩阵，形状分别为 $(h, 4 h)$ 和 $(4 h, h)$ ，伴随它们的是两个bias，分别为 $(4 h,)$ 和 $(h,)$ ，因此FFN部分的总参数量为 $8h^2+5h$ 。

事实上，LayerNorm模块也有参数量，LN含有两个参数 $\gamma$ 和 $\beta$ ，这两个参数均以形状为 $(h,)$ 的张量进行存储，所以LN总共的参数为 $2 h$ 。

截至目前，我们可以做一个小总结：

模块	参数量
MHA	$4h^2+4h$
FFN	$8h^2+5h$
LN	$2 h$

下面假设 num_encoder_layers 和 num_decoder_layers 均为 $n$ 。

一个EncoderLayer包含一个MHA，一个FFN和两个LN，所以一个EncoderLayer的参数量为 $4h^2+4h+8h^2+5h+2h\cdot 2=12h^2+13h$ ，整个Encoder的参数量为 $n(12h^2+13h)$ 。

一个DecoderLayer包含两个MHA，一个FFN和三个LN，所以一个DecoderLayer的参数量为 $8h^2+8h+8h^2+5h+6h=16h^2+19h$ ，整个Decoder的参数量为 $n(16h^2+19h)$ 。

由于PyTorch官方实现的Transformer还会默认增加 encoder_norm 和 decoder_norm，所以算上这两个LN，我们可以得到Transformer核心架构的参数量为 $n(12h^2+13h)+n(16h^2+19h)+2h\cdot 2=n(28h^2+32h)+4h$ 。将 $n = 6, h = 512$ 代入可得 $6(28\cdot 512^2+32\cdot 512)+512\cdot 4=44140544$ ，该结果与下述代码的输出相同，这也验证了我们计算的正确性。

model = torch.nn.Transformer()
print(sum([p.numel() for p in model.parameters()]))

需要注意，上面提到了核心架构四个字，这是因为截至目前我们并没有计算出完整的Transformer的参数量。完整的Transformer除了核心架构外还应当包含Token Embedding和Decoder最后的线性层（即应当包含所有可学习的参数）。

假设Encoder和Decoder共用一个词表，且词表大小为 $V$ ，那么完整的Transformer的总参数量应当为

$\underbrace{n(28h^2+32h)+4h}_{核心架构}+\underbrace{V\cdot h}_{词嵌入矩阵}+\underbrace{h\cdot V}_{输出层}=n(28h^2+32h)+(4+2V)h$

由于 $V$ 要根据具体的数据集来确定，所以接下来我们只关心核心架构占用的显存。

PyTorch的Transformer的参数均以float32进行存储，一个浮点数占 $4$ 个字节，那么核心架构总共占 $44140544\cdot4/1024^2\approx168$ MB。由此可以看出，占用显存的大头其实还是数据，模型本身并不会占用太多。

3. Transformer的FLOPs？

此前已经得出MHA的FLOPs为 $4 l bh (2 h + l)$ ，接下来看FFN部分，我们依然只关心矩阵乘法。

显而易见，FFN部分会经历两次矩阵乘法：

第一次： $(l,b,h)\times(h,4h)\to(l,b,4h)$ ，这一步的计算量为 $8lbh^2$ ；
第二次： $(l,b,4h)\times(4h,h)\to(l,b,h)$ ，这一步的计算量为 $8lbh^2$ ；

LN部分不涉及矩阵乘法，Embedding部分仅仅是查表，也不涉及矩阵乘法，最后的输出层（计算logits）会涉及，即 $(l,b,h)\times(h,V)\to(l,b,V)$ ，计算量 $2 l bhV$ 。

截至目前，我们可以做一个小总结：

模块	FLOPs
MHA	$4 l bh (2 h + l)$
FFN	$16lbh^2$
Output	$2 l bhV$

由此可知，Encoder部分的FLOPs为 $n(4lbh(2h+l)+16lbh^2)=4nlbh(6h+l)$ ，Decoder部分的FLOPs为 $n(8lbh(2h+l)+16lbh^2)=8nlbh(4h+l)$ ，所以整个Transformer的FLOPs为

$4 n l bh (6 h + l) + 8 n l bh (4 h + l) + 2 l bhV = 4 n l bh (14 h + 3 l) + 2 l bhV$

需要注意的是，虽然Embedding部分没有FLOPs，但仍可以计算它的时间复杂度。初始时，数据的形状为 $(b, l)$ ，其中的每个元素都对应了token在vocab中的索引，通过该索引查表的时间复杂度为 $O (1)$ ，因此嵌入过程 $(b,l)\to(b,l,h)$ 的时间复杂度为 $O (l b)$ 。

同理可计算LN的时间复杂度。在对形状为 $(l, b, h)$ 的张量进行LN时，LN会首先计算最后一个维度上的均值和方差，再对最后一个维度进行归一化处理，下面是一个简易版的LN

def layer_norm(x):
    """
    Args:
        x: (l, b, h)
    """
    x_mean = torch.mean(x, dim=-1, keepdim=True)
    x_std = torch.std(x, dim=-1, unbiased=False, keepdim=True)  # 这里要使用有偏标准差
    return (x - x_mean) / x_std

显然LN的时间复杂度为 $O (l bh)$ 。

4. 参数量、FLOPs、时间复杂度汇总

模块	参数量	FLOPs（只考虑矩阵乘法）	时间复杂度（不考虑批量）
MHA	$4h^2+4h$	$4 l bh (2 h + l)$	$O(lh^2+l^2h)$
FFN	$8h^2+5h$	$16lbh^2$	$O(lh^2)$
LN	$2 h$	——	$O (l h)$
Encoder	$n(12h^2+13h)$	$4 n l bh (6 h + l)$	$O(n(lh^2+l^2h))$
Decoder	$n(16h^2+19h)$	$8 n l bh (4 h + l)$	$O(n(lh^2+l^2h))$
Transformer-Core	$n(28h^2+32h)+4h$	$4 n l bh (14 h + 3 l)$	$O(n(lh^2+l^2h))$
Embedding	$Vh$	——	$O (l)$
Output	$Vh$	$2 l bhV$	$O (l hV)$
Transformer-Complete	$n(28h^2+32h)+(4+2V)h$	$4 n l bh (14 h + 3 l) + 2 l bhV$	$O(n(lh^2+l^2h)+lhV)$

据此，可以总结出：

参数量方面： FFN > MHA > LN，且单个FFN的参数量约为单个MHA的两倍。Decoder参数量略大于Encoder的参数量。在整个Transformer中，FFN占 $57.1\%$ ，MHA占 $42.8\%$ ，LN占 $0.1\%$ 。
耗时方面： MHA > FFN > LN，Transformer的计算主要都花在了MHA上。
计算量方面： 在整个Transformer的FLOPs中，当 $h<\frac{3}{2}l$ 时，MHA的占比超过FFN，否则相反。

‍ 如有错误欢迎在评论区指出！

Ref

[1] https://zhuanlan.zhihu.com/p/264749298
[2] https://zhuanlan.zhihu.com/p/624740065

你可能感兴趣的:(#,PyTorch,深度学习,#,自然语言处理,transformer,深度学习,人工智能)

Progressive learning yore0531 深度学习人工智能计算机视觉
learnfromRestormer.Restormer:EfficientTransformerforHigh-ResolutionImageRestoration|IEEEConferencePublication|IEEEXploreProgressivelearning在小的croppatches上训练Transformer模型可能无法对全局图像统计进行编码，从而在测试时对全分辨率图像的效
【自然语言处理（NLP）】jieba分词的使用（分词模式、关键词提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍jieba分词的使用1.安装2.jieba分词模式2.1精确模式2.2全模式2.3搜索引擎模式2.4词性标注2.5加载自己的分词文件3.查看词频4.关键词提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言处理（NaturalLanguageProcessing，NLP）**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。
【深度学习|变化检测孪生网络】基于共享权重的双流 U-Net 变化检测网络架构，附代码（一）努力学习的大大深度学习基础深度学习网络架构人工智能 python
【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）文章目录【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）基于共享权重的双流U-Net变化检测网络架构1.双流网络（SiameseNetwork）概述2.双流网络的应用——变化检测3.U
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPC Loss）如何计算？以及Wasserstein距离和CPC Loss结合的对抗训练示例，附代码（二）努力学习的大大深度学习基础深度学习迁移学习人工智能 python
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）文章目录【深度学习|迁移学习】Wassers
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统 yolov8来训练无人机数据集并检测无人机 QQ_767172261 无人及视角 YOLO 无人机深度学习
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统yolov8来训练无人机数据集并检测无人机无人机数据集，yolo格式种类为uav，一共近5w张图片，如何用yolov8代码训练无人机检测数据集文章目录以下文章及内容仅供参考。1.环境部署2.数据预处理数据集准备划分数据集3.模型定义4.训练模型5.评估模型6.结果分析与可视化7.集成与部署PyQt6GUI(`
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
ChatGPT是强人工智能吗? 呵呵爱吃菜 chatgpt 人工智能
ChatGPT是强人工智能吗?本文从人工智能发展的三个阶段的角度,分析当前强大的AI大模型所处的阶段,并通过对比各阶段的定义,明确各阶段的特点和未来发展方向;NarrowAI（弱人工智能）、AGI（人工通用智能）和ASI（人工超级智能）代表了人工智能发展的三个不同阶段，它们在智能水平、任务范围和应用场景上存在显著差异。以下是它们的总结与对比：1.定义与特点类型NarrowAI（弱人工智能）AGI（
Python 装饰器详解：@staticmethod 与 @classmethod 的区别与用法：中英双语阿正的梦工坊 Python python 开发语言
缘由：今天在看Huggingface的源码的时候，https://github.com/huggingface/transformers/blob/v4.47.1/src/transformers/models/auto/configuration_auto.py#L897对几个装饰器有所疑问，学习一下。Python装饰器详解：@staticmethod与@classmethod的区别与用法在Py
AlphaFold2的思路总结（十五） xiaofengzihhh 蛋白质结构预测深度学习人工智能神经网络
2021SC@SDUSC这学期的代码分析工作接近尾声了，我想简单总结一下AlphaFold2的总体思路具体来看，AlphaFold2主要利用多序列比对（MSA），把蛋白质的结构和生物信息整合到了深度学习算法中。它主要包括两个部分：神经网络EvoFormer和结构模块（Structuremodule）。一、EvoFormer 在EvoFormer中，主要是将图网络（Graphnetworks）
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
情感分析常见算法与模型及实现步骤计算机软件程序设计知识科普算法情感分析机器学习
【1】常见算法与模型情感分析（SentimentAnalysis）是一种自然语言处理（NLP）技术，用于识别和提取文本中的主观信息，如情绪、态度和意见。常见的算法和模型包括以下几种：传统机器学习方法朴素贝叶斯（NaiveBayes）基于贝叶斯定理，假设特征之间相互独立。计算简单，适用于大规模数据集。常用于文本分类任务。支持向量机（SVM）通过寻找最优超平面来划分不同的类别。在高维空间中表现良好，适
基于深度学习的舆论分析与检测系统应用与研究计算机软件程序设计机器学习深度学习人工智能舆论检测
【1】系统介绍研究背景随着互联网技术的迅猛发展和社会媒体平台的普及，信息传播的速度和范围达到了前所未有的水平。这一变化不仅极大地丰富了人们的社交生活，也为社会科学研究提供了新的视角和工具。舆论分析作为社会科学研究的一个重要分支，其目的是通过收集和分析网络上的公众意见和情感倾向，来了解人们对特定事件或话题的看法和态度。近年来，基于深度学习的自然语言处理技术取得了显著进步，这为提高舆论分析的准确性和效
自然语言处理（NLP）-总览图学习汤姆和佩琦 NLP 自然语言处理学习人工智能
文章目录自然语言处理（NLP）-总览图学习1.一张总览图的学习1.语音学（Phonology）2.形态学（Morphology）3.句法学（Syntax）4.语义学（Semantics）5.推理（Reasoning）小结自然语言处理（NLP）-总览图学习转自《Python自然语言处理第二版》1.一张总览图的学习这张图片展示了一个自然语言处理的流程模型，涵盖了从语音分析到应用推理和执行的多个阶段，每
深度学习利用数据加载、预处理和增强数据提高模型的性能 weixin_30777913 人工智能深度学习
深度学习数据预处理是一个关键步骤，旨在提高模型的性能和准确性。通过数据加载、预处理和增强，可以显著提高深度学习模型的性能和准确性。在实际应用中，需要根据具体的数据和任务来选择合适的预处理和增强技术。以下将详细论述并举例说明如何加载、预处理和增强数据。一、数据加载在深度学习中，数据加载是第一步。这通常涉及到从各种数据源（如CSV文件、数据库、图像文件夹等）中读取数据。以DeepLearning4J（
基于Python的自然语言处理系列（2）：Word2Vec（负采样）会飞的Anthony 自然语言处理人工智能信息系统自然语言处理 word2vec 人工智能
在本系列的第二篇文章中，我们将继续探讨Word2Vec模型，这次重点介绍负采样（NegativeSampling）技术。负采样是一种优化Skip-gram模型训练效率的技术，它能在大规模语料库中显著减少计算复杂度。接下来，我们将通过详细的代码实现和理论讲解，帮助你理解负采样的工作原理及其在Word2Vec中的应用。1.Word2Vec（负采样）原理1.1负采样的背景在Word2Vec的Skip-g
【深度学习】搭建PyTorch神经网络进行气温预测睡不着还睡不醒深度学习深度学习 pytorch 神经网络
第一步数据加载与观察①导包importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimporttorchimporttorch.optimasoptimimportwarningswarnings.filterwarnings("ignore")%matplotlibinline②加载数据features=pd.read_csv("te
GPT-4、GPT-4O 和 GPT-4O-mini 的区别与联系 surfirst LLM ai 语言模型 chatgpt
简介近年来，人工智能技术飞速发展，特别是在自然语言处理领域。GPT-4是OpenAI推出的新一代大模型，而GPT-4O和GPT-4O-mini是其优化版本，专门为不同应用场景和计算资源需求进行调整。在这篇文章中，我们将详细比较GPT-4、GPT-4O和GPT-4O-mini的区别与联系，帮助开发者更好地选择适合的模型。GPT-4是OpenAI发布的第四代通用预训练模型，具备强大的生成和理解能力，适
讯飞绘镜（ai生成视频）技术浅析（一）爱研究的小牛 AIGC—视频 AIGC—技术综述人工智能 AIGC 深度学习
讯飞绘镜（也称为星火绘镜）是科大讯飞推出的一款基于人工智能技术的短视频创作平台，旨在通过先进的AI技术简化视频创作流程，让用户能够轻松将创意转化为高质量的视频内容。以下是对讯飞绘镜相关技术、工作原理及具体实现的详细介绍：一、核心技术讯飞绘镜的核心技术主要依托于科大讯飞的星火大模型，并结合了多种先进的AI技术，包括：1.大模型技术：基于讯飞星火大模型，为脚本生成、分镜生成等提供基础能力支持。该模型能
第72期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.从孤立指令到互动鼓
PointNet++改进策略：模块改进 | OA-CNNs | ，全自适应3D稀疏卷积神经网络（OA-CNNs），超越基于Transformer的模型，同时显著降低计算和内存成本我是瓦力 PointNet++改进策略 3d transformer 深度学习计算机视觉人工智能神经网络
目录介绍核心思想及其实现引入空间自适应感受野自适应关系卷积（ARConv）网络整体架构设计训练和验证实验与评估如何改进PointNet++引入空间自适应感受野引入自适应关系学习利用自适应聚合器论文题目：OA-CNNs:Omni-AdaptiveSparseCNNsfor3DSemanticSegmentation发布期刊：CVPR2024作者地址：1香港中文大学2香港大学3香港中文大学，深圳4HI
PointNet++改进策略：模块改进 | PointCAT，使用交叉注意力机制来提升3D点云任务中提升模型精度我是瓦力 PointNet++改进策略 3d 深度学习人工智能计算机视觉 transformer
论文题目：PointCAT:Cross-AttentionTransformerforPointCloud通讯地址：南京理工大学代码地址：https://github.com/xincheng-yang/PointCAT.PointCAT架构：PointCAT提出了一种基于交叉注意力机制的Transformer网络，专门用于点云表示。它通过两个不同的多尺度特征分支，利用交叉注意力机制来交换信息。通
开发基于WebRTC和OpenAI实时API的AI语音助手框架：技术解析与最佳实践花生糖@ AIGC学习资料库 webrtc 人工智能
随着人工智能（AI）和实时通信技术的发展，构建一个能够提供即时响应、多语言支持以及个性化用户体验的AI语音助手变得越来越重要。本文将深入探讨如何使用现代Web技术和先进的AI工具开发这样一个语音助手框架，具体来说，我们将基于Next.js、WebRTC和OpenAIAPI创建一个高效且用户友好的解决方案。技术架构主框架-Next.js选择Next.js作为主框架不仅因为它提供的服务端渲染（SSR）
深度学习-97-大语言模型LLM之基于langchain的实体记忆和知识图谱记忆皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1内存记忆Memory1.1记忆系统支持的操作1.2记忆的存储1.3记忆的查询2记忆的应用2.1设置环境变量2.2ConversationEntityMemory实体记忆2.3ConversationKGMemory知识图谱记忆2.3.1创建ConversationKGMemory2.3.2创建ConversationChain2.4ConversationBufferWindowMemo
国外各领域专家学者的一些谏言：如何使AI代理架构变得成功强哥之神人工智能语言模型 AI代理智能体大模型 Agent
最近在研究AI代理架构为什么比较难落地，看到有一篇文章是关于各领域专家学者对AI代理架构的一些看法，值得关注。我将其整理成了中文，大家可一起细品各家观点，全文如下。代理型人工智能被寄予厚望，其潜力在于能够独立完成复杂任务。然而，目前该领域的炒作热潮远超实际成功案例，背后原因复杂多样。“2024年，AI代理已成为众多供应商的营销热词。但对于用户组织而言，代理技术还处于早期探索阶段，充满好奇心与实验性
PyTorch 实战教程：从模型搭建到训练的每一步 AI_小站 pytorch 人工智能 python transformer 深度学习大模型 LLM
用深度学习搞事情，模型搭建和训练是绕不开的两步。而PyTorch，作为一个“又灵活又好用”的深度学习框架，简直就是写代码的快乐源泉。今天我们就从0到1，实战PyTorch的模型搭建和训练流程。说白了，看完你就能自己搭个神经网络，喂点数据进去，再让它干点活。安装PyTorch要用PyTorch，得先装上它。PyTorch的安装稍微有点讲究，主要是要根据你的硬件选择CPU版本还是GPU版本。基本安装命
计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理