银晗

InterLM代码解析

interLM的Transformer架构，重要模块的实现解析

Decoder架构


class InternLMDecoderLayer(nn.Module):
    def __init__(self, config: InternLMXComposerConfig):
        super().__init__()
        self.hidden_size = config.hidden_size
        if hasattr(config,
                   'intern_converted_llm') and config.intern_converted_llm:
            self.self_attn = InternConvertedInternLMAttention(config=config)
        else:
            self.self_attn = InternLMAttention(config=config)
        self.mlp = InternLMMLP(
            hidden_size=self.hidden_size,
            intermediate_size=config.intermediate_size,
            hidden_act=config.hidden_act,
            config=config,
        )
        self.input_layernorm = InternLMRMSNorm(config.hidden_size,
                                               eps=config.rms_norm_eps)
        self.post_attention_layernorm = InternLMRMSNorm(
            config.hidden_size, eps=config.rms_norm_eps)

    def forward(
        self,
        hidden_states: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        position_ids: Optional[torch.LongTensor] = None,
        past_key_value: Optional[Tuple[torch.Tensor]] = None,
        output_attentions: Optional[bool] = False,
        use_cache: Optional[bool] = False,
    ) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor,
                                                 torch.FloatTensor]]]:
        """
        Args:
            hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
            attention_mask (`torch.FloatTensor`, *optional*): attention mask of size
                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
                returned tensors for more detail.
            use_cache (`bool`, *optional*):
                If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
                (see `past_key_values`).
            past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
        """

        residual = hidden_states

        hidden_states = self.input_layernorm(hidden_states)

        # Self Attention
        hidden_states, self_attn_weights, present_key_value = self.self_attn(
            hidden_states=hidden_states,
            attention_mask=attention_mask,
            position_ids=position_ids,
            past_key_value=past_key_value,
            output_attentions=output_attentions,
            use_cache=use_cache,
        )
        hidden_states = residual + hidden_states

        # Fully Connected
        residual = hidden_states
        hidden_states = self.post_attention_layernorm(hidden_states)
        hidden_states = self.mlp(hidden_states)
        hidden_states = residual + hidden_states

        outputs = (hidden_states, )

        if output_attentions:
            outputs += (self_attn_weights, )

        if use_cache:
            outputs += (present_key_value, )

        return outputs

MLP

两个MLP层+一个门控激活函数

class InternLMMLP(nn.Module):
    def __init__(self, hidden_size: int, intermediate_size: int,
                 hidden_act: str, config: InternLMXComposerConfig):
        super().__init__()
        self.gate_proj = nn.Linear(hidden_size, intermediate_size, bias=False)
        if config.lora_cfg is not None and 'ffn' in config.lora_cfg[
                'learn_param']:
            lora_cfg = config.lora_cfg
            self.down_proj = LoRALinear(intermediate_size,
                                        hidden_size,
                                        bias=False,
                                        **lora_cfg)
            self.up_proj = LoRALinear(hidden_size,
                                      intermediate_size,
                                      bias=False,
                                      **lora_cfg)
        else:
            self.down_proj = nn.Linear(intermediate_size,
                                       hidden_size,
                                       bias=False)
            self.up_proj = nn.Linear(hidden_size,
                                     intermediate_size,
                                     bias=False)
        self.act_fn = ACT2FN[hidden_act]

    def forward(self, x):
        return self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))

CausalAttention Mask

# Copied from transformers.models.bart.modeling_bart._make_causal_mask
def _make_causal_mask(input_ids_shape: torch.Size,
                      dtype: torch.dtype,
                      device: torch.device,
                      past_key_values_length: int = 0):
    """
    Make causal mask used for bi-directional self-attention.
    """
    # 获取输入的形状，包括批量大小和目标长度
    bsz, tgt_len = input_ids_shape
    # 初始化一个形状为（目标长度， 目标长度）的tensor，用极小值填充. 即mask矩阵
    mask = torch.full((tgt_len, tgt_len),
                      torch.tensor(torch.finfo(dtype).min, device=device),
                      device=device)
    # 创建一个mask_cond张量，其范围是[0, tgt_len-1]
    mask_cond = torch.arange(mask.size(-1), device=device)
    # 根据条件进行填充，下三角为0，上三角为1
    mask.masked_fill_(mask_cond < (mask_cond + 1).view(mask.size(-1), 1), 0)
    # 转换mask的数据类型为dtype
    mask = mask.to(dtype)

    # 如果过去键值的长度大于0，则将其拼接到mask的前面
    if past_key_values_length > 0:
        mask = torch.cat([
            torch.zeros(
                tgt_len, past_key_values_length, dtype=dtype, device=device),
            mask
        ],
                         dim=-1)
    # 返回形状为[bsz, 1, tgt_len, tgt_len + past_key_values_length]的mask
    return mask[None, None, :, :].expand(bsz, 1, tgt_len,
                                         tgt_len + past_key_values_length)

past_key_values_length

在Transformer中，past_key_values_length是指用于存储前一次计算的注意力键值对（key-value pairs）的长度。Transformer模型在处理较长的序列时，为了提高效率会使用存储，以避免重复计算。

当输入序列长度增加时，前一次的键值对会被缓存以供后续的注意力计算使用。这样可以节省计算时间，特别是在生成式任务中，如机器翻译或文本生成。
为什么用zeros？
如果past_key_values_length大于0，即存在过去的键值对需要存储，我们需要将这些过去的键值对所对应的掩码（mask）拼接到当前的掩码中。

在这里，我们首先创建了一个与当前mask形状相同的全零张量，用于表示过去的掩码。然后，通过使用torch.cat函数将这个全零张量和当前的mask进行拼接，以便将过去的信息与当前的信息合并在一起，形成一个更大的掩码张量。

详细解释一下如何创建CasualMask矩阵

当调用masked_fill_函数时，我们传入了一个条件（mask_cond < (mask_cond + 1).view(mask.size(-1), 1)）和一个填充值（0）。

这个条件 mask_cond < (mask_cond + 1).view(mask.size(-1), 1) 创建了一个下三角为True，上三角为False的条件掩码。

当我们执行 (mask_cond + 1).view(mask.size(-1), 1) 时，我们将 mask_cond 中的每个元素增加 1，并且重新塑造成一个列向量。假设 mask_cond 最初是一个长度为 4 的向量 [0, 1, 2, 3]，那么在执行 +1 和 view 操作后得到的列向量就是：

[1]
[2]
[3]
[4]

现在，我们比较 mask_cond 和 (mask_cond+1).view(mask.size(-1), 1)。我们发现，如果 mask_cond 中的元素小于列向量中对应位置的元素，这意味着该位置处于下三角区域。例如，在这个例子中，当我们比较原始向量和列向量时：

[0, 1, 2, 3]   <   [1]
[1, 2, 3, 4]   <   [2]
[2, 3, 4, 5]   <   [3]
[3, 4, 5, 6]   <   [4]

这将生成一个下三角为 True，上三角为 False 的布尔掩码，可以用于创建Mask。

masked_fill_函数用条件掩码来填充张量。在这里，如果条件为True，对应位置将被填充为0。这样就实现了对角线以下的元素被填充为0，对角线以上的元素保持不变。

Attention Mask

def _expand_mask(mask: torch.Tensor,
                 dtype: torch.dtype,
                 tgt_len: Optional[int] = None):
    """
    Expands attention_mask from `[bsz, seq_len]` to `[bsz, 1, tgt_seq_len, src_seq_len]`.
    """
    bsz, src_len = mask.size()
    # 如果未提供目标序列长度，默认使用源序列的长度
    tgt_len = tgt_len if tgt_len is not None else src_len

    # 对输入的掩码进行扩展
    expanded_mask = mask[:, None, None, :].expand(bsz, 1, tgt_len, src_len).to(dtype)

    # 创建一个反转的掩码
    inverted_mask = 1.0 - expanded_mask

    # 使用反转的掩码来填充掩码张量中的元素
    return inverted_mask.masked_fill(inverted_mask.to(torch.bool), torch.finfo(dtype).min)

使用反转的掩码来填充掩码张量中的元素的目的是将掩码中原本为0的位置填充为负无穷小。

在注意力计算中，当掩码中某个位置的元素为负无穷小时，经过softmax计算后，该位置对应的注意力权重会趋近于0，即忽略该位置的信息。这样做的目的是，在计算注意力时，我们希望掩码的位置能够有效地抑制相关位置的注意力权重，从而确保模型在处理序列时不会受到未来信息的影响，比如在解码阶段不会看到未来时刻的标记。因此，使用反转的掩码来填充掩码张量中的元素是为了在注意力计算中实现对未来信息的屏蔽。

RoPE

class InternLMRotaryEmbedding(torch.nn.Module):
    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):
        super().__init__()
        # 计算频率，根据RoPE公式 1.0 / (base **(2 * (i // 2) / dim))
        inv_freq = 1.0 / (base ** (torch.arange(0, dim, 2).float().to(device) / dim))
        self.register_buffer("inv_freq", inv_freq)  # 将频率注册为缓冲张量

        # 构建sin和cos缓存
        self.max_seq_len_cached = max_position_embeddings
        # t是位置索引
        t = torch.arange(self.max_seq_len_cached, device=self.inv_freq.device, dtype=self.inv_freq.dtype)
        freqs = torch.einsum("i,j->ij", t, self.inv_freq)  # 通过张量乘法计算频率
        emb = torch.cat((freqs, freqs), dim=-1)  # 按照最后一个维度拼接sin和cos
        self.register_buffer("cos_cached", emb.cos()[None, None, :, :], persistent=False)  # 将cos缓存注册为缓冲张量
        self.register_buffer("sin_cached", emb.sin()[None, None, :, :], persistent=False)  # 将sin缓存注册为缓冲张量

    def forward(self, x, seq_len=None):
        # x: [bs, num_attention_heads, seq_len, head_size]
        # 这个if块不太可能在构建sin/cos后运行。保持逻辑在这里以防万一。
        if seq_len > self.max_seq_len_cached:
            self.max_seq_len_cached = seq_len
            t = torch.arange(self.max_seq_len_cached, device=x.device, dtype=self.inv_freq.dtype)
            freqs = torch.einsum("i,j->ij", t, self.inv_freq)  # 通过张量乘法计算频率
            emb = torch.cat((freqs, freqs), dim=-1).to(x.device)  # 按照最后一个维度拼接sin和cos
            self.register_buffer("cos_cached", emb.cos()[None, None, :, :], persistent=False)  # 更新注册cos缓存
            self.register_buffer("sin_cached", emb.sin()[None, None, :, :], persistent=False)  # 更新注册sin缓存
        # 返回缓存中的sin和cos张量，截取到指定的序列长度
        return (self.cos_cached[:, :, :seq_len, ...].to(dtype=x.dtype), self.sin_cached[:, :, :seq_len, ...].to(dtype=x.dtype))

def rotate_half(x):
    """Rotates half the hidden dims of the input."""
    # 将输入张量沿最后一个维度分成两部分，执行旋转操作
    x1 = x[..., :x.shape[-1] // 2]
    x2 = x[..., x.shape[-1] // 2:]
    # 拼接结果返回
    return torch.cat((-x2, x1), dim=-1)


def apply_rotary_pos_emb(q, k, cos, sin, position_ids):
    """
    Applies rotary positional embeddings to input queries and keys.

    Args:
    q: 输入的查询张量
    k: 输入的键张量
    cos: cos缓存张量
    sin: sin缓存张量
    position_ids: 位置编码张量

    Returns:
    q_embed: 应用了旋转位置嵌入后的查询张量
    k_embed: 应用了旋转位置嵌入后的键张量
    """
    # 根据position_ids创建索引张量
    gather_indices = position_ids[:, None, :, None]  # [bs, 1, seq_len, 1]
    gather_indices = gather_indices.repeat(1, cos.shape[1], 1, cos.shape[3])
    # 通过gather_indices选择对应的cos和sin张量
    cos = torch.gather(cos.repeat(gather_indices.shape[0], 1, 1, 1), 2, gather_indices)
    sin = torch.gather(sin.repeat(gather_indices.shape[0], 1, 1, 1), 2, gather_indices)
    # 应用旋转位置嵌入公式得到新的查询张量和键张量
    q_embed = (q * cos) + (rotate_half(q) * sin)
    k_embed = (k * cos) + (rotate_half(k) * sin)
    return q_embed, k_embed

torch.gather函数的参数包括：

input：这是输入张量，从这个张量中收集值。
dim：这是一个整数值，表示在input张量中收集数据的维度。
index：这是包含了索引的张量。根据这些索引，函数将从input张量中收集对应的值。

基本语法为：torch.gather(input, dim, index)。

cos = torch.gather(cos.repeat(gather_indices.shape[0], 1, 1, 1), 2, gather_indices)

可以分解为以下几个步骤：

cos.repeat(gather_indices.shape[0], 1, 1, 1): 这一步是将cos张量沿着每个维度进行复制以匹配gather_indices的形状。repeat函数会根据指定的次数沿着各个维度对原始张量进行复制。在这里，它会根据gather_indices.shape[0]的值在第一个维度上进行复制，而不在其他维度进行复制。
torch.gather(repeated_cos, 2, gather_indices): 紧接着，我们使用torch.gather函数根据gather_indices中指定的索引从repeated_cos中收集对应的值。对于序列中的每个位置，gather_indices指定了从repeated_cos张量中选择哪个值。

torch.gather操作主要用于根据索引张量从源张量中收集对应的值。通过上述操作，我们能够根据gather_indices为序列中的每个位置选择正确的cos值，并将其应用于后续的计算中。这是PyTorch中的常见技术，用于根据索引张量从张量中提取值。

LoRA

有意思的是，对LoRA做了改动
有点残差连接和RoPE的思想糅合到一起的操作
- x += res
- 中间断开，奇偶分开


class ConvertedLoRALinear(nn.Linear):
    def __init__(self,
                 in_features: int,
                 out_features: int,
                 bias: bool = True,
                 device=None,
                 dtype=None,
                 lora_r=8,
                 lora_alpha=16,
                 lora_dropout=0.05,
                 **kwargs) -> None:
        super().__init__(in_features, out_features, bias, device, dtype)
        self.lora_r = lora_r
        self.lora_alpha = lora_alpha
        if lora_dropout > 0.:
            self.lora_dropout = nn.Dropout(p=lora_dropout)
        else:
            self.lora_dropout = lambda x: x
        self.lora_scaling = self.lora_alpha / self.lora_r

        self.lora_A = nn.Linear(in_features,
                                self.lora_r,
                                bias=False,
                                device=device,
                                dtype=dtype)
        self.lora_B = nn.Linear(self.lora_r,
                                out_features,
                                bias=False,
                                device=device,
                                dtype=dtype)

        self.reset_parameters()

    def reset_parameters(self):
        if hasattr(self, 'lora_A'):
            # initialize A the same way as the default for nn.Linear and B to zero
            nn.init.kaiming_uniform_(self.lora_A.weight, a=math.sqrt(5))
            nn.init.zeros_(self.lora_B.weight)
            # print ("lora weight init {} {}".format(torch.mean(self.lora_A.weight), torch.mean(self.lora_B.weight)))

    def forward(self, x):
        orig_type = x.dtype
        res = super().forward(x)

        dim = int(res.shape[-1] // 2)

        r1 = res[..., :dim]
        r2 = res[..., dim:]

        r1 = r1.float()
        r2 = r2.float()
        x_ = x.float()

        tmp = self.lora_B(self.lora_A(
            self.lora_dropout(x_))) * self.lora_scaling
        tmp1 = tmp[..., ::2]
        tmp2 = tmp[..., 1::2]

        r1 += tmp1
        r2 += tmp2

        r1 = r1.to(orig_type)
        r2 = r2.to(orig_type)

        res = torch.cat([r1, r2], -1)

        # res += self.lora_B(self.lora_A(
        #     self.lora_dropout(x))) * self.lora_scaling
        return res

关于生成是模型的Loss计算

outputs = self.model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            position_ids=position_ids,
            past_key_values=past_key_values,
            inputs_embeds=inputs_embeds,
            query_embeds=query_embeds,
            use_cache=use_cache,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
            return_dict=return_dict,
        )

        hidden_states = outputs[0]
        logits = self.lm_head(hidden_states)

        loss = None
        if labels is not None:
            # Shift so that tokens < n predict n
            shift_logits = logits[..., :-1, :].contiguous()
            shift_labels = labels[..., 1:].contiguous()
            # Flatten the tokens

            loss_fct = CrossEntropyLoss(reduce=False)
            loss_reduce = CrossEntropyLoss()
            shift_logits = shift_logits.view(-1, self.config.vocab_size)
            shift_labels = shift_labels.view(-1)
            shift_labels = shift_labels.to(shift_logits.device)
            ###
            if self.sp_id >= 0:
                ori_mask = (shift_labels != self.sp_id).float()
                ori_mask = ori_mask * (shift_labels >= 0).float()
                local_mask = (shift_labels == self.sp_id).float()
            else:
                ori_mask = (shift_labels <
                            self.config.vocab_size - self.ex_size).float()
                ori_mask = ori_mask * (shift_labels >= 0).float()
                local_mask = (shift_labels >=
                              self.config.vocab_size - self.ex_size).float()

            # Enable model parallelism

            loss = loss_reduce(shift_logits, shift_labels)

            loss_all = loss_fct(shift_logits, shift_labels)
            loss_o = (loss_all * ori_mask).sum() / ori_mask.sum()
            if torch.sum(local_mask) == 0:
                loss_l = loss_o * 0
            else:
                loss_l = (loss_all * local_mask).sum() / local_mask.sum()

代码中loss计算的逐步解释：

1. 首先检查是否有标签（labels），如果有则继续计算loss，否则将loss保持为None。

2. 在标签存在的情况下，对logits进行了一个向左的位移，这是因为模型中的输入数据和输出标签之间需要进行一定的位移。即把logits中的每个位置的预测，对应到相应位置期待的标签。

3. 之后对logits和labels进行view操作，将其形状改变为2D的张量，以便进行交叉熵损失的计算。

4. 根据self.sp_id的不同取值，计算了ori_mask和local_mask。ori_mask为了确保不计算特殊token(sp_id)的loss，local_mask则是用于计算特殊token(sp_id)的loss。

5. 调用`CrossEntropyLoss`设置了两个不同的loss，loss_reduce用于在整个批次上计算损失，loss_fct则是用于对每个位置的损失值进行计算。

6. 最后，计算了不同的部分的损失。loss_o计算了非特殊token的损失，而loss_l计算了特殊token的损失。如果local_mask全为0，则loss_l为0.

总结：该段代码进行了交叉熵损失的计算，但根据输入token是否为特殊token（sp_id），它分别计算了不同的loss值，即ori_mask用于过滤掉特殊token本身的loss，local_mask用于计算特殊token的loss。

这个loss的计算实际上是基于给定的vocabulary的多分类交叉熵损失。

在语言模型中，通常需要将模型的输出与词汇表中的token进行比较，以根据模型的预测计算损失。因此，将模型输出的logits与标签进行比较，并计算交叉熵损失，这通常用于语言模型中的训练过程。

人工智能与深度学习的应用案例：从技术原理到实践创新 accurater 人工智能深度学习科技
第一章引言人工智能（AI）作为21世纪最具变革性的技术之一，正通过深度学习（DeepLearning）等核心技术推动各行业的智能化进程。从计算机视觉到自然语言处理，从医疗诊断到工业制造，深度学习通过模拟人脑神经网络的层次化学习机制，实现了对复杂数据的高效分析与决策。本文结合前沿技术框架与行业应用案例，探讨深度学习的核心原理及其在多个领域的实践路径，并附代码实例以增强技术理解。第二章深度学习的技术基
深度学习模型：原理、应用与代码实践 accurater c++算法笔记人工智能深度学习
引言深度学习作为人工智能的核心技术，已在图像识别、自然语言处理、代码生成等领域取得突破性进展。其核心在于通过多层神经网络自动提取数据特征，解决复杂任务。本文将从基础理论、模型架构、优化策略、应用场景及挑战等多个维度展开，结合代码示例，系统解析深度学习模型的技术脉络与实践方法。一、深度学习基础理论神经网络基本原理神经网络由输入层、隐藏层和输出层构成，通过反向传播算法调整权重。以全连接网络为例，前向传
用于网络安全的生成式 AI：利用 AI 增强威胁检测和响应云上笛暮 AI for Security 人工智能
一、引言技术的进步彻底改变了我们的生活、工作和交流方式。然而，随着这些技术的进步，保护它们免受网络威胁的挑战也随之而来。网络安全已成为任何组织的重要组成部分，随着网络攻击越来越复杂，传统的威胁检测和响应方法已不再足够。这导致了生成人工智能等新技术的发展，这些技术在增强网络安全方面显示出巨大潜力。在这篇博客中，我们将探讨生成式人工智能的概念、它在网络安全中的重要性，以及它如何用于增强威胁检测和响应。
【TVM 教程】使用元组输入（Tuple Inputs）进行计算和归约编译器编程后端人工智能深度学习
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：ZihengJiang若要在单个循环中计算具有相同shape的多个输出，或执行多个值的归约，例如argmax。这些问题可以通过元组输入来解决。本教程介绍了TVM中元组输入的用法。from__future__importabsolut
深度解构：DeepSeek大模型架构与前沿应用的未来探秘威哥说编程架构 ai
随着人工智能（AI）领域的快速发展，深度学习模型逐渐向着更加复杂和强大的方向演进。在这一波技术浪潮中，DeepSeek大模型作为一个重要代表，凭借其卓越的表现和广泛的应用，正在重新定义我们对AI的认知和期待。本篇文章将从架构到应用，全面解析DeepSeek大模型的技术特点，探索其在未来可能带来的创新与变革。1.DeepSeek大模型的架构设计DeepSeek大模型采用的是基于Transformer
T41LQ专为人工智能物联网（AIoT）应用设计，适用于智能安防、智能家居、机器视觉等领域软硬件资料+样品测试 li15817260414 君正人工智能物联网智能家居
君正（Ingenic）T系列芯片涵盖多个型号，每个型号根据不同应用需求提供了多个版本。以下是各型号及其主要版本：1.T23系列：T23N：标准版，适用于移动摄像机、安全监控、视频通话和视频分析等应用。T23ZN：佐罗标准版，功能与T23N类似，针对特定市场需求进行了优化。2.T31系列：T31L：简化版，适用于对成本和功耗有严格要求的应用场景。T31N：标准版，适用于广泛的智能视频应用。T31X：
人工智能生成内容（AIGC）对程序员的影响 AmHardy AIGC 人工智能 AIGC 程序员 chatgpt kimi
人工智能生成内容（AIGC）对程序员的影响引言AIGC技术正在深刻影响软件开发行业，给程序员带来诸多机遇和挑战。程序员不仅需要适应这些新兴技术，还要有效利用它们来提升自己的工作效率和创新能力。AIGC技术的优势效率提升代码生成:AI工具如GitHubCopilot可以预测代码片段、自动完成代码和生成文档，从而显著提升编程效率。自动化测试:AI可以自动生成测试用例和检测代码中的潜在问题，减少了手动测
【路径规划】基于A算法和Dijkstra算法的路径规划附Python代码天天Matlab科研工作室无人机matlab仿真电子资源算法 python 开发语言
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍路径规划作为人工智能和机器人技术领域的核心问题之一，在导航、交通运输、游戏开发等领域有着广泛的应用。解决路径规划问题，旨在找到一条从起始点到目标点，并满足特定约束条件（如最短
【AI】如何理解与应对AI中的敏感话题：详细分析与实用指南丶2136 AI 人工智能 AI 敏感话题
引言随着人工智能（AI）技术的不断发展，我们在与AI交互时，可能会遇到敏感话题的讨论限制。在许多情况下，AI系统为了避免触及社会、政治或文化敏感点，会对用户输入进行一定的筛选和过滤。那么，这些敏感话题是如何定义的，AI如何识别并避免这些话题，以及作为开发者和用户，我们该如何应对这一问题？本文将详细探讨这些问题，并通过表格、图示等方式帮助大家更好地理解。目录引言一、AI中的敏感话题分类与处理策略1.
智能算法安全优化与关键技术实践智能计算研究中心其他
内容概要智能算法的安全优化与关键技术实践已成为人工智能发展的核心命题。在医疗影像分析、金融风控、自动驾驶等场景中，联邦学习的分布式协作机制有效解决了数据孤岛问题，而生成对抗网络通过对抗训练增强数据生成能力，为小样本场景提供技术支撑。与此同时，可解释性算法通过特征重要性分析与决策路径可视化，显著提升模型透明度，降低黑箱风险。在技术实现层面，特征工程的自动化筛选与超参数动态调整策略优化了模型性能，结合
深度学习系列71：表格检测和识别 IE06 深度学习系列深度学习人工智能
1.pdf处理如果是可编辑的pdf格式，那么可以直接用pdfplumber进行处理：importpdfplumberimportpandasaspdwithpdfplumber.open("中新科技：2015年年度报告摘要.PDF")aspdf:page=pdf.pages[1]#第一页的信息text=page.extract_text()print(text)table=page.extract
【实战项目】Python 手撕一个基于最新端到端大模型的语音聊天系统 kakaZhui 解码前沿多模态大模型：认知分析和工业级实战 python 开发语言 AIGC 人工智能 chatgpt
写在前面：为什么需要端到端语音交互近年来，随着深度学习技术的飞速发展，语音交互技术取得了显著的进步。从智能音箱到虚拟助手，语音交互已经渗透到我们生活的方方面面。然而，传统的语音交互系统往往采用“语音识别（ASR）-自然语言理解（NLU）-对话管理（DM）-自然语言生成（NLG）-语音合成（TTS）”的级联式架构，这种架构存在着诸多弊端，如：错误累积：每个模块的错误都会传递到下一个模块，导致最终结果
体育数据分析：竞技表现优化与商业价值挖掘的技术范式 Tina0898 数据分析数据挖掘
体育数据分析作为一门交叉学科，正在重塑现代体育产业的发展轨迹。通过多源数据采集、机器学习建模和商业智能分析，体育数据分析已经形成了完整的技术体系和应用生态。本文将深入探讨体育数据分析的技术架构、应用场景和商业价值。一、数据采集与处理技术架构现代体育数据采集系统采用分布式架构，集成了计算机视觉、惯性测量单元(IMU)和生物电传感器等多模态数据源。计算机视觉系统通过高速摄像机和深度学习算法，可实现运动
PyTorch 深度学习快速入门教程有人给我介绍对象吗 AI论文写作深度学习 pytorch 人工智能
PyTorch深度学习快速入门教程PyTorch是一个灵活且易用的深度学习框架，支持动态图计算，广泛用于学术研究和工业应用。本教程将带你快速掌握PyTorch的基本用法，涵盖张量（Tensor）操作、自动求导（Autograd）、构建神经网络以及模型训练。1.安装PyTorch在终端或命令行中运行以下命令安装PyTorch：pipinstalltorchtorchvisiontorchaudio安
开源跨平台大模型工具Ollama的安全隐患 X.Cristiano AI新闻 Ollama 漏洞大模型
源跨平台大模型工具Ollama的安全隐患及应对策略在当今数字化飞速发展的时代，人工智能技术尤其是大模型的应用已经渗透到我们生活的方方面面。从智能家居到医疗健康，从金融风控到教育娱乐，大模型为各个领域带来了前所未有的便利和创新。然而，随着技术的进步，安全问题也日益凸显。近期，清华大学网络空间测绘联合研究中心发布了一则关于开源跨平台大模型工具Ollama的安全通报，揭示了其默认配置中存在的严重安全隐患
第0节机器学习与深度学习介绍汉堡go 李哥深度学习专栏人工智能机器学习神经网络
人工智能：能够感知、推理、行动和适应的程序机器学习：能够随着数据量的增加而不断改进性能的算法（数学上的可解释性但准确率不是百分百，灵活度不高）深度学习：机器学习的一个子集：利用多层神经网络从大量数据中进行学习（设计一个很深的网络架构让机器自己学）（深度学习就是找一个函数f）机器学习算法简介（狭义）一般是基于数学，或者统计学的方法，具有很强的可解释性经典传统机器学习算法：KNN、决策树、朴素贝叶斯一
Python常见的第三方库：requests、numpy、pandas 大数据张老师 python numpy pandas
常见的第三方库：requests、numpy、pandasPython拥有丰富的第三方库，涵盖了数据分析、网络爬取、人工智能、科学计算等多个领域。其中，requests、numpy和pandas是最常用的三个库，分别用于网络请求、数值计算和数据处理。本节将详细介绍它们的基本功能，并通过示例代码帮助理解它们的使用方法。requests：处理网络请求的库requests是Python中用于处理HTTP
基于YOLOv5深度学习的田间杂草检测系统：UI界面 + YOLOv5 + 数据集详细教程深度学习&目标检测实战项目 YOLO 深度学习 ui YOLOv5 人工智能计算机视觉
引言随着农业科技的进步，智能化农业越来越受到重视，尤其是通过计算机视觉技术对作物进行监测和管理。在农业生产中，杂草的生长对作物的生长产生了负面影响，因此准确地检测和识别田间杂草至关重要。本文将详细介绍如何构建一个基于深度学习的田间杂草检测系统，使用YOLOv5模型进行目标检测，并提供一个用户友好的界面。我们将分步骤进行，包括环境配置、数据集准备、模型训练、实时杂草检测系统的实现等内容。目录引言目录
人工智能与深度学习的应用案例解析及代码实现 accurater 人工智能深度学习科技机器人
引言人工智能（AI）与深度学习（DeepLearning）作为21世纪最具变革性的技术之一，已渗透到医疗、金融、交通、制造等各个领域。深度学习通过多层神经网络模拟人类认知过程，显著提升了复杂任务的自动化水平。本文将从技术原理、核心应用案例及代码实现三个维度，系统解析其实际应用，并探讨未来挑战与发展方向。一、深度学习技术概述1.1核心技术框架深度学习基于深度神经网络（DNN），其核心在于通过多层非线
深度学习笔记——基础部分肆—— 深度学习深度学习笔记人工智能 python pytorch
深度学习是一种机器学习的方式，通过模仿人脑吃力信息的方式，使用多层神经网络来学习数据的复杂模式和特征。深度学习和机器学习的区别：在机器学习中，特征提取通常需要人工设计和选择，依赖于领域专家的知识来确定哪些特征对模型最为重要;而在深度学习中，特征提取是自动进行的，通过多层神经网络结构直接从原始数据(也可能需要初步处理)中学习复杂特征，减少了对人工干预的依赖，使得模型能够处理更加复杂的数据和任务。计算
机器学习基础（4） yyc_audio 深度学习 python 机器学习神经网络人工智能
超越基于常识的基准除了不同的评估方法，还应该利用基于常识的基准。训练深度学习模型就好比在平行世界里按下发射火箭的按钮，你听不到也看不到。你无法观察流形学习过程，它发生在数千维空间中，即使投影到三维空间中，你也无法解释它。唯一的反馈信号就是验证指标，就像隐形火箭的高度计。特别重要的是，我们需要知道火箭是否离开了地面。发射地点的海拔高度是多少？模型似乎有15%的精度——这算是很好吗？在开始处理一个数据
人工智能之数学基础：对线性代数中逆矩阵的思考？每天五分钟玩转人工智能机器学习深度学习之数学基础线性代数人工智能矩阵机器学习逆矩阵向量
本文重点逆矩阵是线性代数中的一个重要概念，它在线性方程组、矩阵方程、动态系统、密码学、经济学和金融学以及计算机图形学等领域都有广泛的应用。通过了解逆矩阵的定义、性质、计算方法和应用，我们可以更好地理解和应用线性代数知识，解决各种实际问题。关于逆矩阵的思考现在我们有一个计算过程如上所示，我们知道矩阵的作用就是函数，向量a先经过矩阵1进行函数作用，然后再经过矩阵2函数作用最后可以得到输出向量c，这个过
上线DeepSeek大模型，黄山“大位”智算中心正式点亮人工智能
2月28日，智启黄山，算领未来——黄山“大位”智算中心点亮仪式在黄山市大位人工智能计算中心举行，标志着黄山“大位”智算中心正式投入运营。同日，DeepSeek-R1大模型在黄山“大位”正式上线，通过“顶尖大模型+普惠算力底座”的深度融合，构建黄山市人工智能创新生态。黄山市委常委、副市长王恒来出席并致辞。他表示，黄山“大位”智算中心的点亮，是黄山市贯彻落实习近平总书记关于"人工智能是引领这一轮科技革
00计算机视觉学习内容依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉（ComputerVision）开发需要掌握数学基础、编程语言、图像处理、机器学习、深度学习等多个方面的知识。以下是一个系统的学习路线：1️⃣数学基础（核心理论支撑）计算机视觉涉及很多数学概念，以下是必备数学知识：✅线性代数（矩阵运算是计算机视觉的核心）向量、矩阵运算（加减、乘法、转置）特征值与特征向量SVD（奇异值分解），用于图像压缩、降维齐次坐标变换（用于3D计算机视觉）✅概率统计（
DeepSeek大模型如何提升论文与代码效率智能计算研究中心其他
内容概要DeepSeek大模型作为人工智能领域的前沿成果，通过670亿参数的混合专家架构（Mixture-of-Experts,MoE），在多模态任务处理与专业场景应用中展现了显著优势。其核心技术突破体现在多语言处理能力、视觉语言理解模块以及深度优化的自然语言处理算法上，能够覆盖学术研究、代码开发、内容创作等多元场景。例如，在论文写作领域，模型通过智能选题推荐、文献综述生成及SEO关键词拓展功能，
Manus学习手册合集【建议收藏】周师姐学习 pdf 人工智能
这两天，一款通用AI智能体Manus还没发布就火了，因为还在内测中，用户需要邀请码才能够体验，这就导致原本免费的邀请码在二手平台最高被炒到8万8。相比于之前爆火的DeepSeek和ChatGPT这类AI对话工具，Manus是全球首款真正意义上的通用人工智能！没错，就是科幻电影里面能够独立思考，自主运行的人工智能！！manus学习资料：https://pan.xunlei.com/s/VOKk8Cq
10个热门AI API（2024年2月）程序员后端
人工智能（AI）在当今数字时代发挥着重要的作用，为企业带来了全新的机遇和变革。AI不再是一种陌生的科技概念，而是已经渗透到各行各业，成为推动创新和提升效率的关键引擎。其核心优势在于能够处理大规模的数据、执行复杂的任务、模拟人类思维过程，并以前所未有的方式改善业务流程。AIAPI作为连接企业和强大AI技术的桥梁，扮演着至关重要的角色。通过使用AIAPI，企业能够快速、轻松地将先进的人工智能功能集成到
人工智能学习大纲互联网搬砖老肖 AI 原力计划工具使用人工智能学习
前言人工智能正以惊人的速度发展，其潜力既令人兴奋，也引人深思。它既可能为解决全球性问题带来希望，也可能带来前所未有的挑战。人工智能时代的到来已是不可逆转的趋势，科幻电影中的某些场景或许将成为现实。我对人工智能的研究越深入，就越能感受到它的强大力量。我所担忧的不仅仅是它对就业市场的冲击，更是它可能对人类社会结构带来的深远影响。未来，对人工智能的理解可能像今天对电脑操作的掌握一样重要。掌握人工智能技术
01计算机视觉学习计划依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉系统学习计划（3-6个月）本计划按照数学→编程→图像处理→机器学习→深度学习→3D视觉→项目实战的顺序，确保从基础到高级，结合理论和实践。第一阶段（第1-2个月）：基础夯实✅目标：掌握数学基础、Python/C++编程、基本图像处理1️⃣数学基础（2周）每日2小时线性代数：矩阵运算、特征值分解（推荐《线性代数及其应用》）概率统计：高斯分布、贝叶斯定理微积分：偏导数、梯度下降傅里叶变换：图
特斯拉FSD系统：自动驾驶的未来百态老人人工智能笔记
FSD系统概述FSD（FullSelf-Driving）系统是特斯拉研发的一套高级自动驾驶技术，旨在实现车辆在各种道路和驾驶场景下的完全自动驾驶。FSD系统通过集成先进的计算机视觉、深度学习、传感器融合等技术，利用车辆上安装的多种传感器和先进的计算机视觉技术，实现对周围环境的感知和理解。特斯拉通过不断收集和分析实际道路数据，持续优化其自动驾驶算法，使得FSD技术的安全性和可靠性得到了大幅提升.FS
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt