[论文笔记] Deepseek技术报告解读: MLA&MTP

[论文笔记] Deepseek技术报告解读: MLA&MTP_第1张图片

1. RMSNorm 归一化层

class RMSNorm(nn.Module):
    def __init__(self, dim: int, eps: float = 1e-8):
        super().__init__()
        self.eps = eps
        self.weight = nn.Parameter(torch.ones(dim))  # 可学习的缩放参数

    def _norm(self, x: torch.Tensor):
        return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)

    def forward(self, x: torch.Tensor):
        return self.weight * self._norm(x.float()).type_as(x)
通俗解释

这个部分相当于 数据清理工序,它的作用是 对数据进行归一化(标准化),确保数据的数值分布合理,

你可能感兴趣的:(论文笔记,论文阅读)