机器学习社区

从头开始实现LoRA以及一些实用技巧

LoRA是Low-Rank Adaptation或Low-Rank Adaptors的缩写，它提供了一种用于对预先存在的语言模型进行微调的高效且轻量级的方法。

LoRA的主要优点之一是它的效率。通过使用更少的参数，lora显著降低了计算复杂度和内存使用。这使我们能够在消费级gpu上训练大型模型，并将我们的lora(以兆字节计)分发给其他人。

lora可以提高泛化性能。通过限制模型的复杂性，它们有助于防止过拟合，特别是在训练数据有限的情况下。这就产生了更有弹性的模型，这些模型在处理新的、看不见的数据时表现出色，或者至少保留了它们最初训练任务中的知识。

LoRA可以无缝集成到现有的神经网络架构中。这种集成允许以最小的额外训练成本对预训练模型进行微调和适应，使它们非常适合迁移学习应用。

本文将首先深入研究LoRA，然后以RoBERTa模型例从头开发一个LoRA，然后使用GLUE和SQuAD基准测试对实现进行基准测试，并讨论一些技巧和改进。

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

建了技术交流群&星球！想要资料、进交流群的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司，即可。然后就可以拉你进群了。

方式①、添加微信号：mlc2060，备注：大模型资料 or 技术交流
方式②、微信搜索公众号：机器学习社区，后台回复：大模型资料 or 技术交流

LoRA是如何工作的

LoRA的基本思想是将预训练的矩阵(即原始模型的参数)冻结(即处于固定状态)，只在原始矩阵上添加一个小的delta，其参数比原始矩阵少。

例如矩阵W，它可以是全链接层的参数，也可以是transformer注意力机制的矩阵之一:

如果w-orig的维度是n×m，我们只是初始化一个新的具有相同维度的矩阵来微调则会把参数翻倍。

所以我们通过从低维矩阵B和A进行矩阵乘法来构建ΔW，使其比原始矩阵“维度”更少。

其中，我们首先定义秩r，并且小于基本矩阵的维数r≪n, r≪m。那么矩阵B是n×r矩阵A是r×m。将它们相乘得到一个与W具有相同维数的矩阵，但是参数更少。

我们希望在训练开始的时候像原始模型一样，所以B通常初始化为全零，而A初始化为随机(通常为正态分布)值。

假设我们的基本维数是1024，我们选择了一个LoRA秩r为4，那么:

W有1024 * 1024≈100万个参数；A和B各有r * 1024 = 4 * 1024≈4k参数，共8k

也就是说只需要训练0.8%的参数就可以用LoRA更新我们的矩阵。在LoRA论文中，他们用alpha参数衡量delta矩阵:

如果你只是将α设置为r并微调学习率，可已得到与论文近似的结果。我们在下面的实现中忽略这个细节，但它是许多其他LoRA库(例如hugs Face的PEFT)中的一个常见特性。

手写LoRA

我们在这里的实现将在PyTorch中完成，虽然我们希望严格遵循原始的LoRA论文，但是我们稍微简化了代码，这样它应该更容易阅读，同时仍然显示了基本元素。

我们这里使用RoBERTa模型。使用Huggingface的实现RobertaSelfAttention作为基类创建新类LoraRobertaSelfAttention，这里将初始化LoRA矩阵。所有B矩阵初始化为零，所有A矩阵初始化为正态分布中的随机数。

 class LoraRobertaSelfAttention(RobertaSelfAttention):
    """
    Extends RobertaSelfAttention with LoRA (Low-Rank Adaptation) matrices.
    LoRA enhances efficiency by only updating the query and value matrices.
    This class adds LoRA matrices and applies LoRA logic in the forward method.
 
    Parameters:
    - r (int): Rank for LoRA matrices.
    - config: Configuration of the Roberta Model.
    """
    def __init__(self, r=8, *args, **kwargs):
        super().__init__(*args, **kwargs)
        d = self.all_head_size
 
        # Initialize LoRA matrices for query and value
        self.lora_query_matrix_B = nn.Parameter(torch.zeros(d, r))
        self.lora_query_matrix_A = nn.Parameter(torch.randn(r, d))
        self.lora_value_matrix_B = nn.Parameter(torch.zeros(d, r))
        self.lora_value_matrix_A = nn.Parameter(torch.randn(r, d))

给定这些矩阵，需要定义新的类方法lora_query和lora_value。这些计算ΔW矩阵，即BA，并将其添加到原始矩阵中，我们从原始方法query和value中调用原始矩阵。

 class LoraRobertaSelfAttention(RobertaSelfAttention):
    # ...
 
    def lora_query(self, x):
        """
        Applies LoRA to the query component. Computes a modified query output by adding
        the LoRA adaptation to the standard query output. Requires the regular linear layer
        to be frozen before training.
        """
        lora_query_weights = torch.matmul(self.lora_query_matrix_B, self.lora_query_matrix_A)
        return self.query(x) + F.linear(x, lora_query_weights)
 
    def lora_value(self, x):
        """
        Applies LoRA to the value component. Computes a modified value output by adding
        the LoRA adaptation to the standard value output. Requires the regular linear layer
        to be frozen before training.
        """
        lora_value_weights = torch.matmul(self.lora_value_matrix_B, self.lora_value_matrix_A)
        return self.value(x) + F.linear(x, lora_value_weights)

要使用这些方法，我们必须重写RobertaSelfAttention的原始转发函数。虽然这有点硬编码(后面有改进的讨论)，但它非常简单。首先，我们从modeling_roberta.py复制原始的转发代码。然后将每次对query的调用替换为lora_query，并将每次对value的调用替换为lora_value。然后函数看起来像这样:

 class LoraRobertaSelfAttention(RobertaSelfAttention):
    # ...
    def forward(self, hidden_states, *args, **kwargs):
        """Copied from
 https://github.com/huggingface/transformers/blob/main/src/transformers/models/roberta/modeling_roberta.py
        but replaced the query and value calls with calls to the
        lora_query and lora_value functions.
        We will just sketch of how to adjust this here.
        Change every call to self.value and self.query in the actual version.
        """
        # original code for query:
        ## mixed_query_layer = self.query(hidden_states)
        # updated query for LoRA:
        mixed_query_layer = self.lora_query(hidden_states)
 
        # The key has no LoRA, thus leave these calls unchanged
        key_layer = self.transpose_for_scores(self.key(hidden_states))
 
        # original code for value:
        ## value_layer = self.transpose_for_scores(self.value(hidden_states))
        # updated value for LoRA:
        value_layer = self.transpose_for_scores(self.lora_value(hidden_states))
         
        # ... (rest of the forward code, unchanged)

这样我们就在注意力层添加了lora部分。剩下任务就是替换掉原来RoBERTa模型中的注意力模块。

这里我们需要遍历RoBERTa模型的每个命名组件，检查它是否属于RobertaSelfAttention类，如果是，则将其替换为LoraRobertaSelfAttention，同时保留原始权重矩阵。

 class LoraWrapperRoberta(nn.Module):
    def __init__(self, task_type, num_classes=None, dropout_rate=0.1, model_id="roberta-large",
                  lora_rank=8, train_biases=True, train_embedding=False, train_layer_norms=True):
        """
        A wrapper for RoBERTa with Low-Rank Adaptation (LoRA) for various NLP tasks.
        - task_type: Type of NLP task ('glue', 'squad_v1', 'squad_v2').
        - num_classes: Number of classes for classification (varies with task).
        - dropout_rate: Dropout rate in the model.
        - model_id: Pre-trained RoBERTa model ID.
        - lora_rank: Rank for LoRA adaptation.
        - train_biases, train_embedding, train_layer_norms:
            Flags whether to keep certain parameters trainable
            after initializing LoRA.
         
        Example:
            model = LoraWrapperRoberta(task_type='glue')
        """
        super().__init__()
        # 1. Initialize the base model with parameters
        self.model_id = model_id
        self.tokenizer = RobertaTokenizer.from_pretrained(model_id)
        self.model = RobertaModel.from_pretrained(model_id)
        self.model_config = self.model.config
 
        # 2. Add the layer for the benchmark tasks
        d_model = self.model_config.hidden_size
        self.finetune_head_norm = nn.LayerNorm(d_model)
        self.finetune_head_dropout = nn.Dropout(dropout_rate)
        self.finetune_head_classifier = nn.Linear(d_model, num_classes)
 
        # 3. Set up the LoRA model for training
        self.replace_multihead_attention()
        self.freeze_parameters_except_lora_and_bias()

self.replace_multihead_attention:用我们之前写的LoraRobertaSelfAttention替换了所有神经网络的注意力层

self.freeze_parameters_except_lora_and_bias:这将冻结训练的所有主要参数，这样梯度和优化器步骤仅应用于LoRA参数以及我们希望可训练的其他例如归一化层等参数。

 class LoraWrapperRoberta(nn.Module):
    # ...
 
    def replace_multihead_attention_recursion(self, model):
        """
        Replaces RobertaSelfAttention with LoraRobertaSelfAttention in the model.
        This method applies the replacement recursively to all sub-components.
 
        Parameters
        ----------
        model : nn.Module
            The PyTorch module or model to be modified.
        """
        for name, module in model.named_children():
            if isinstance(module, RobertaSelfAttention):
                # Replace RobertaSelfAttention with LoraRobertaSelfAttention
                new_layer = LoraRobertaSelfAttention(r=self.lora_rank, config=self.model_config)
                new_layer.load_state_dict(module.state_dict(), strict=False)
                setattr(model, name, new_layer)
            else:
                # Recursive call for child modules
                self.replace_multihead_attention_recursion(module)

然后就是递归地遍历所有模型部分，冻结所有不想再训练的参数:

 class LoraWrapperRoberta(nn.Module):
    # ...
 
    def freeze_parameters_except_lora_and_bias(self):
        """
        Freezes all model parameters except for specific layers and types based on the configuration.
        Parameters in LoRA layers, the finetune head, bias parameters, embeddings, and layer norms
        can be set as trainable based on class settings.
        """
        for name, param in self.model.named_parameters():
            is_trainable = (
                "lora_" in name or
                "finetune_head_" in name or
                (self.train_biases and "bias" in name) or
                (self.train_embeddings and "embeddings" in name) or
                (self.train_layer_norms and "LayerNorm" in name)
            )
            param.requires_grad = is_trainable

以上就是我们最简单的一个LORA的实现，下面我们看看效果

用GLUE和SQuAD进行基准测试

我们使用GLUE(通用语言理解评估)和SQuAD(斯坦福问答数据集)基准进行评估。

GLUE基准是一套由8个不同的NLP任务组成的测试，它包括情感分析、文本蕴涵和句子相似性等挑战，为模型的语言适应性和熟练程度提供了一个强有力的衡量标准。

SQuAD专注于评估问答模型。它包括从维基百科的段落中提取答案，模型在其中识别相关的文本跨度。SQuAD v2是一个更高级的版本，引入了无法回答的问题，增加了复杂性，并反映了现实生活中的情况，在这种情况下，模型必须识别文本缺乏答案。

对于下面的基准测试，没有调优任何超参数，没有进行多个runes(特别是较小的GLUE数据集容易出现随机噪声)，没有进行任何早停，也没有从之前的GLUE任务开始微调(通常这样做是为了减少小数据集噪声的可变性并防止过拟合)。

从刚初始化的rank为8的LoRA注入到RoBERTa-base模型开始，每个任务的训练精确地进行了6次训练。在前2个epoch中，学习率线性放大到最大值，然后在剩余的4个epoch中线性衰减到零。所有任务的最大学习率为5e-4。所有任务的批处理大小为16

基于roberta的模型有1.246亿个参数。有了LoRA我们只有42万个参数需要训练。这意味着我们实际上只使用0.34%的原始参数进行训练。LoRA为这些特定任务引入的参数数量非常少，实际磁盘大小仅为1.7 MB。

训练后重新加载LoRA参数，在每个任务的验证集上测试性能。结果如下:

它清楚地证明了我们的LoRA实现是有效的，并且注入的低秩矩阵正在学习。

改进思路

我们上面很多的代码都是硬编码，有人可能会想:“除了重新编码自关注类并执行复杂的替换之外，还有更有效、更通用(即可转移到其他网络体系结构)的方法吗?”

其实我们可以简单地实现nn.Linear的包装器，也就是说我们想用它替换哪些层，通过检查它们的名字直接进行替换就可以了。

 class LoraLinear(nn.Linear):
    """
    Extends a PyTorch linear layer with Low-Rank Adaptation (LoRA).
    LoRA adds two matrices to the layer, allowing for efficient training of large models.
    """
    def __init__(self, in_features, out_features, r=8, *args, **kwargs):
        super().__init__(in_features, out_features, *args, **kwargs)
 
        # Initialize LoRA matrices
        self.lora_matrix_B = nn.Parameter(torch.zeros(out_features, r))
        self.lora_matrix_A = nn.Parameter(torch.randn(r, in_features))
         
        # Freeze the original weight matrix
        self.weight.requires_grad = False
 
    def forward(self, x: Tensor) -> Tensor:
        # Compute LoRA weight adjustment
        lora_weights = torch.matmul(self.lora_matrix_B, self.lora_matrix_A)
        # Apply the original and LoRA-adjusted linear transformations
        return super().forward(x) + F.linear(x, lora_weights)

只将LoRA注入所有线性层也成为一种相当普遍的做法。因为保持偏差和归一化已经很小了，所以你不需要再去精简它们。

另外，上面的代码实际上是(接近)huggingface PEFT库实现LoRA的方式。虽然我们的实现是可用的，但是还是强烈建议您使用PEFT，因为我们不是为了学习原理，而不是新造一个轮子。所以下面我们还是要介绍一下如何使用PEFT

PEFT使用指南

我们以量化的方式加载模型。由于bitsandbytes与transformers 库(于2023年5月推出)的集成，这是一件轻而易举的事情。

 import bitsandbytes as bnb
 from transformers import AutoModel, AutoModelForSequenceClassification, BitsAndBytesConfig
 
 # Configuration to load a quantized model
 bnb_config = BitsAndBytesConfig(
    load_in_4bit=True, # Enable 4-bit loading
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    llm_int8_skip_modules=['classifier', 'qa_outputs'], # Skip these for quantization
 )
 
 # Load the model from Huggingface with quantization
 model = AutoModelForSequenceClassification.from_pretrained('roberta-base',
          torch_dtype="auto", quantization_config=bnb_config)

我们这里使用4位的量化加载，速度会慢一些，我们也可以可以通过检查模型的模块和参数数据类型来验证4位加载:

 # Verify 4-bit loading
 print("Verifying 4-bit elements (Linear4bit) in the attention layer:")
 print(model.roberta.encoder.layer[4].attention)
 
 print("Checking for uint8 data type:")
 print(model.roberta.encoder.layer[4].attention.self.query.weight.dtype)

现在用PEFT注入LoRA参数。PEFT库通过模块的名称定位要替换的模块;因此要看一下模型model.named_parameters()。这是非量子化roberta基模型的样子。

 Module                                                       Parameters
 ---------------------------------------------------------- ------------
 roberta.embeddings.word_embeddings.weight                     38_603_520
 roberta.embeddings.position_embeddings.weight                   394_752
 roberta.embeddings.token_type_embeddings.weight                     768
 roberta.embeddings.LayerNorm.weight                                 768
 roberta.embeddings.LayerNorm.bias                                   768
 roberta.encoder.layer.0.attention.self.query.weight             589_824
 roberta.encoder.layer.0.attention.self.query.bias                   768
 roberta.encoder.layer.0.attention.self.key.weight               589_824
 roberta.encoder.layer.0.attention.self.key.bias                     768
 roberta.encoder.layer.0.attention.self.value.weight             589_824
 roberta.encoder.layer.0.attention.self.value.bias                   768
 roberta.encoder.layer.0.attention.output.dense.weight           589_824
 roberta.encoder.layer.0.attention.output.dense.bias                 768
 roberta.encoder.layer.0.attention.output.LayerNorm.weight           768
 roberta.encoder.layer.0.attention.output.LayerNorm.bias             768
 roberta.encoder.layer.0.intermediate.dense.weight             2_359_296
 roberta.encoder.layer.0.intermediate.dense.bias                   3_072
 roberta.encoder.layer.0.output.dense.weight                   2_359_296
 roberta.encoder.layer.0.output.dense.bias                           768
 roberta.encoder.layer.0.output.LayerNorm.weight                     768
 roberta.encoder.layer.0.output.LayerNorm.bias                       768
 roberta.encoder.layer.1.attention.self.query.weight             589_824
 ...
 roberta.encoder.layer.11.output.LayerNorm.bias                       768
 classifier.dense.weight                                         589_824
 classifier.dense.bias                                               768
 classifier.out_proj.weight                                         1_536
 classifier.out_proj.bias                                               2
 ---------------------------------------------------------- ------------
 TOTAL                                                       124_647_170

然后我们可以指定要为那些层进行LoRA微调。。所有未注入LoRA参数的层将自动冻结。如果我们想以原始形式训练层，可以通过将列表传递给Lora-Config的modules_to_save参数来指定它们。在我们的例子中，

下面的示例注入rank为2的LoRA。我们用上面的8来指定alpha参数，因为这是我们第一次尝试的秩，应该可以让我们使用上面例子中的学习率。

 import peft
 
 # Config for the LoRA Injection via PEFT
 peft_config = peft.LoraConfig(
    r=2, # rank dimension of the LoRA injected matrices
    lora_alpha=8, # parameter for scaling, use 8 here to make it comparable with our own implementation
    target_modules=['query', 'key', 'value', 'intermediate.dense', 'output.dense'], # be precise about dense because classifier has dense too
    modules_to_save=["LayerNorm", "classifier", "qa_outputs"], # Retrain the layer norm; classifier is the fine-tune head; qa_outputs is for SQuAD
    lora_dropout=0.1, # dropout probability for layers
    bias="all", # none, all, or lora_only
 )
 
 model = peft.get_peft_model(model, peft_config)

为LoRA注入指定更多模块可能会增加VRAM需求。如果遇到VRAM限制，请考虑减少目标模块的数量或降低LoRA等级。

对于训练，特别是QLoRA，选择与量化矩阵兼容的优化器。将标准优化器替换为bitsandbytes变体，如下所示:

 import torch
 import bitsandbytes as bnb
 
 # replace this
 optimizer = torch.optim.AdamW(args here)
 # with this
 optimizer = bnb.optim.AdamW8bit(same args here)

这样就可以像以前一样训练这个模型了，训练完成后，保存和重新加载模型的过程很简单。使用模型。Save_pretrained保存模型，指定所需的文件名。PEFT库将在此位置自动创建一个目录，在其中存储模型权重和配置文件。该文件包括基本模型和LoRA配置参数等基本细节。

用peft.AutoPeftModel.from_pretrained，将目录路径作为参数可以重新加载模型。要记住的关键一点是，LoRA配置目前没有保留初始化automodelforsequencecclassification的类的数量。当使用from_pretrained时，需要手动输入这个作为附加参数。

重新加载的模型将包含应用了LoRA的原始基本模型。如果您决定将LoRA永久地集成到基本模型矩阵中，只需执行model.merge_and_unload()。

总结

我们从简单的(尽管是硬编码的)LoRA实现，深入了解了LoRA、它们的实际实现和基准测试。并且介绍了另一种更有效的实现策略，并深入研究了用于LoRA集成的PEFT等现有库的优点。

完整的代码可以在这里找到：
https://github.com/Montinger/Transformer-Workbench/tree/main/LoRA-from-scratch
作者：Martin Dittgen

AI：188-利用Python进行自然语言生成和文本摘要一键难忘 python 开发语言人工智能自然语言处理
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~一.利用Python进行自然语言生成和文本摘要近年来，人工智
零基础Python快速入门：核心概念+基础语法详解中意可口可乐 python 开发语言
一、为什么选择Python？1.语言优势简洁易读：接近自然语言的语法结构#其他语言实现循环for(inti=0;i=3)#返回True#逻辑运算符print((5>3)and(2=90:grade='A'elifscore>=80:grade='B'#这里将执行该分支else:grade='C'循环结构#while循环count=0whilecount<3:print(f"第{count+1}次循
react-native中使用axios_React Native 三端同构实践 weixin_39874795
ReactNative三端同构实践来源：ibm.com/cnReactNative三端(Web、iOS、Android)同构是指在不改动原ReactNative的代码下，让其在浏览器中运行出和在ReactNative环境下一样的页面。对于使用ReactNative开发的页面，如果又单独为Web平台重复写一份代码代价是极其大的，而ReactNative三端同构能以零花费快速做到一份代码三端复用。Re
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
redis十大应用数据类型具体使用及其应用布拉多多 redis 哈希算法数据库
Redis提供了多种数据类型，每种数据类型都有其特定的应用场景。下面是Redis十大应用数据类型的具体使用及其应用场景：1.字符串(String)描述：Redis中最基本的数据类型，用于存储简单的字符串数据。字符串可以是文本、数字，甚至是二进制数据（如图片、文件）。常用命令：SETkeyvalue:设置一个字符串类型的键值对。GETkey:获取字符串类型的键值。INCRkey:增加一个数值键的值。
人工智能专业毕业设计选题清单：热点课题推荐 HaiLang_IT 人工智能算法 python
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
通过查看Windbg中变量的值，快速定位因内存不足引发bad alloc异常（C++ EH exception - code e06d7363）导致程序崩溃的问题 dvlinker C/C++实战专栏 C++软件调试 code e06d7363 Windbg 内存不足 bad alloc 内存申请失败
目录1、概述2、C++EHexception-codee06d7363与标准C++异常2.1、C++EHexception-codee06d7363说明2.2、C++标准库与C++异常2.2.1、C++抛出异常与捕获异常2.2.2、C++异常类3、查看函数调用堆栈，发现抛出了badalloc内存分配失败的异常4、在调用堆栈中看到CreateBmp创建位图的接口，怀疑可能是使用了异常大的宽高值，导致
C语言的软件工程苏墨瀚包罗万象 golang 开发语言后端
C语言的软件工程引言C语言作为一种历史悠久、功能强大的编程语言，在软件工程领域有着广泛的应用。自1972年由DennisRitchie开发以来，C语言凭借其高效性能、灵活性以及可移植性，成为了操作系统、嵌入式系统及高性能应用程序开发的首选语言之一。在软件工程的过程中，成熟的软件开发模型、工具及方法论是保障软件质量的关键因素。本文将从软件工程的基本概念入手，探讨C语言在软件工程中的应用与实践，包括软
C#入门：从变量与数据类型开始你的游戏开发之旅吴师兄大模型 C#编程从入门到进阶 c#开发语言变量与数据类型游戏开发 Unity基础 C#变量数据类型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源 yxx122345 算法
计算理论过程见：transformer中多头注意力机制的参数量是多少？1.模型参数量的计算7B参数模型的总参数量是70亿（7billion）。这些参数主要分布在以下几个部分：Transformer层：多头注意力机制（Multi-HeadAttention）前馈神经网络（Feed-ForwardNetwork）嵌入层（EmbeddingLayer）：词嵌入（TokenEmbeddings）位置编码（
程序员必看！DeepSeek全栈开发实战指南：从代码生成到性能优化 AI创享派后端
一、DeepSeek技术新突破：程序员效率革命（开篇结合最新技术动态）2025年2月25日，DeepSeek接连放出两大技术王牌：全球首个面向MoE模型的全栈通信库DeepEP开源，以及深度思考R1模型的全面升级。这两项技术突破对程序员群体意义重大：通信效率飞跃：DeepEP通过NVLink优化实现GPU间158GB/s传输速度，后端开发者训练大模型时可节省60%集群资源推理性能突破：R1模型在H
Ultralytics包引起的编码报错问题 Xylokrysen 深度学习深度学习 YOLO
安装完Ultralytics包后，加载YOLO相关模型，执行报错：UnicodeEncodeError:'gbk'codeccan'tencodecharacter'\u0467'inposition3:illegalmultibytesequence这个错误是由于文件编码问题引起的，Ultralytics在初始化时会尝试创建或更新配置文件settings.yaml，而Windows系统默认使用G
MM-RAIT：多模态检索增强生成（RAG）的认知革命花生糖@ AIGC学习资料库人工智能深度学习机器学习 RAG AI知识库
多模态检索增强生成（RAG）领域迎来了一项里程碑式的突破——MM-RAIT框架通过“评估-训练”双轮驱动，显著提升了主流视觉语言模型的RAG性能，增幅达27%至34%。这项技术不仅解决了多模态AI的认知断层问题，还首次赋予机器类似人类的知识处理能力，即“查资料-思逻辑-答精准”的能力。技术双引擎：从能力测绘到认知进化M2RAG：多模态能力的CT扫描仪M2RAG引入了首创的四维评估体系，覆盖图像描述
【Django】【vue】设计一个评论模块患得患失949 后端系统功能面试考题专栏（前后端）django知识 django vue.js 数据库
Django评论模块（前后端分离+点赞+收藏+评论计数）一、功能概述基于Django+DRF设计的评论模块，包含以下功能：基本评论功能（用户可以对文章进行评论，并支持多级回复）评论点赞（支持点赞/取消点赞）评论收藏（支持收藏/取消收藏）评论计数（统计文章的评论数量）嵌套评论（支持多级评论显示）二、后端设计（一）数据库模型（Models）fromdjango.dbimportmodelsfromdj
RAG问答系统：检索增强生成框架 ZhangJiQun&MXP 2021 论文教学大模型语言模型
目录RAG（Retrieval-AugmentedGeneration）框架一、RAG框架的定义二、RAG框架的工作原理三、RAG框架的举例说明四、RAG框架的优势RAG问答系统二、工作流程三、优势四、应用场景RAG（Retrieval-AugmentedGeneration）框架即检索增强生成框架，是一种结合了信息检索技术与语言生成模型的人工智能技术。以下是对RAG框架的详细解释及举例说明：一、
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
【后端】【django】抛弃 Django 自带用户管理后，能否使用 `simple-jwt`？患得患失949 django知识 django sqlite 数据库
抛弃Django自带用户管理后，能否使用simple-jwt？一、结论是的，即使抛弃了Django自带的用户管理（AbstractUser或AbstractBaseUser），仍然可以使用django-rest-framework-simplejwt（简称simple-jwt）来进行JWT认证。但需要进行额外配置，确保simple-jwt能识别和处理你的自定义用户模型。二、Django用户管理的作
5大陷阱+实战：C#日志分析，从‘日志迷宫’到‘监控神殿’的逆袭全攻略！墨瑾轩 C#乐园 c#网络开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣你的日志还在‘打哑谜’吗？“错误日志像‘天书’读不懂？监控告警像‘哑巴’不发声？”——别慌！今天用C#日志分析，让你的系统像“福尔摩斯”一样精准破案，从实时监控到根因定位，从此告别“黑盒运维”！权威背书：日志分析≠‘抄作业’！“90%的故障因‘日志解析缺失’导
五、AIGC大模型_05模型的vLLM部署与LangChain调用学不会lostfound AI 人工智能 langchain openai vLLM AIGC
0、概述要搭建一个大模型应用服务，通常需要包含以下五层结构，即：基础环境、模型层、推理层、对外接口、外挂应用在了解了模型的微调训练之后，本文将以vLLM、OpenAI、LangChain为例，介绍大模型的推理部署以及对外接口开放调用1、vLLM1.1定义vLLM（VirtualLargeLanguageModel）是一个开源的大语言模型高速推理框架，由加州大学伯克利分校的LMSYS组织开发，它旨在
全网测评：2025年最值得中小企业入局的AI无人直播软件花落谁家？ V_13135861102 人工智能
全网测评：2025年最值得中小企业入局的AI无人直播软件花落谁家？在数字化时代，人工智能技术的快速发展为各行各业带来了深刻的变革。直播电商领域也迎来了前所未有的机遇，AI无人直播软件应运而生，逐步改变着传统电商和直播行业的运营模式。对于预算有限、希望实现高效营销的中小企业而言，选择一款合适的AI无人直播软件显得尤为重要。本文将测评几款热门的AI无人直播软件，帮助中小企业找到最适合自己的入局之选。一
Android Zygote的进程机制王景程 android zygote github 模块测试
目录✅AndroidZygote进程机制详解一、Zygote的作用⚙️二、Zygote启动流程✅1.init进程启动Zygote✅2.Zygote初始化虚拟机与核心类库✅3.Zygote监听Socket✅4.Zygotefork创建应用进程三、Zygote与应用进程之间的关系四、Zygote多进程模型️五、Zygote性能优化机制✅六、Zygote的安全性总结✅AndroidZygote进程机制详
自建 DeepSeek 时代已来，联网搜索如何高效实现云原生
作者：张添翼（澄潭）开源LLM的新纪元：DeepSeek带来的技术平权随着DeepSeek等高质量开源大模型的涌现，企业自建智能问答系统的成本已降低90%以上。基于7B/13B参数量的模型在常规GPU服务器上即可获得商业级响应效果，配合Higress开源AI网关的增强能力，开发者可快速构建具备实时联网搜索能力的智能问答系统。Higress：零代码增强LLM的瑞士军刀Higress作为云原生API网
模型上新！体验文心大模型4.5卓越性能，文心快码邀您探索前端后端java人工智能程序员
3月16日，文心大模型4.5和文心大模型X1正式发布！当天，文心快码BaiduComate也发布了文心大模型4.5支持的新版本，为用户带来更加强大的智能交互体验。即日起，用户可以在文心快码BaiduComate的【Chat】功能中，选择切换至ERNIE-4.5-8K-Preview，体验这一新一代原生多模态大模型的卓越性能。文心大模型4.5原生多模态基础大模型文心大模型4.5是百度自主研发的新一代
电磁兼容（EMC）：LVDS接口电路EMC设计详解硬件修炼塔电磁兼容设计单片机嵌入式硬件物联网硬件工程人工智能
目录1LVDS接口简介2LVDS接口工作原理3LVDS接口EMC优点4PCB设计要点1LVDS接口简介LVDS接口，即LowVoltageDifferentialSignaling，是一种低压差分信号技术接口。它又称为RS-644总线接口，是美国NS公司（美国国家半导体公司）为克服以TTL电平方式传输宽带高码率数据时功耗大、EMI电磁干扰大等缺点而研制的一种数字视频信号传输方式。LVDS接口目前不
大模型转型之路：必要性与未来前景，迎接智能时代的浪潮_转行大模型大模型入门学习人工智能语言模型 AI 大模型 AI大模型程序员转行
随着人工智能（AI）技术的迅猛发展，特别是大型语言模型（LLM,LargeLanguageModels）的崛起，各行各业正迎来一场前所未有的技术革命。对于普通程序员而言，转行进入大模型领域不仅是对个人职业发展的战略性投资，也是顺应时代潮流、把握未来机遇的重要选择。本文将探讨转行大模型的必然性和该领域的未来发展前景。一、转行大模型的必然性技术普及化与学习资源丰富互联网的发展极大地降低了知识获取的成本
《AI大模型趣味实战》 No3：快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色/博客/聊天室/AI管家(下) 带娃的IT创业者 AI大模型趣味实战人工智能 xcode macos
《AI大模型趣味实战》No3：快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色/博客/聊天室/AI管家(下)摘要本文介绍了家庭网站V1.3版本的更新内容，主要聚焦于AI管家功能的优化与完善。V1.3版本对AI管家模块进行了全面升级，包括使用更快速的GLM-4-Flash模型、优化语音交互体验、改进用户界面以及增强系统稳定性。本文详细解析了这些改进的技术实现，包括语音识别与合成
3分钟看懂MCP协议：AI领域的“万能插头“革命东锋17 人工智能人工智能 github
3分钟看懂MCP协议：AI领域的"万能插头"革命一、MCP简介模型上下文协议（ModelContextProtocol，MCP）是由Anthropic公司于2024年11月推出的开放标准，旨在解决AI模型与外部数据源、工具之间的通信壁垒。它像AI领域的"USB-C接口"，通过统一协议实现大型语言模型（LLM）与本地文件、数据库、API等资源的无缝连接，打破数据孤岛限制，让AI应用真正具备"连接万物
注意力机制：GPT等大模型的基石人工智能
1啥是注意力？人类观察事物，能快速判断一种事物，是因为大脑能很快把注意力放在事物最具辨识度的部分从而作出判断，而非从头到尾一览无遗观察一遍才能有判断。基于这样的观察实践，产生了注意力机制（AttentionMechanism）。想象你在人群中找一个穿红衣服的人。你不会一一检查每个人的鞋子、裤子、头发，而是直接把目光锁定在衣服颜色，因为那是“最有辨识度的特征”。大脑就是这么高效工作的。注意力机制是模
网络基础，IOS七层模型架构与TCP/IP协议 bob_gem 网络架构
目录网络基础什么是网络网络的形成及规模常见的网络设备OSI七层与TCP/IP协议OSI参考模型7.应用层6.表示层5.会话层4.传输层3.网络层2.数据链路层：1.物理层TCP/IP协议数据封装理想的网络设计网络基础什么是网络网络：计算机网络是一组计算机或网络设备通过有形的线缆或无形的媒介如无线，连接起来，按照一定的规则，进行通信的集合。通信：是指人与人，人与物，物与物之间通过每种媒介和行为进行的
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep