知来者逆

大语言模型常用微调与基于SFT微调DeepSeek R1指南

概述

大型语言模型（LLM，Large Language Model）的微调（Fine-tuning）是指在一个预训练模型的基础上，使用特定领域或任务的数据对模型进行进一步训练，以使其在该领域或任务上表现更好。微调是迁移学习的一种常见方法，能够显著提升模型在特定任务上的性能。在大型语言模型（LLM）的微调中，有几种常见的方法，包括 SFT（监督微调）、LoRA（低秩适应）、P-tuning v2 和 **Freeze

1.大语言模型微调

1.1 微调的工作原理

微调（Fine-tuning）是指在预训练模型的基础上，使用特定任务的标注数据对模型进行进一步训练，使其在该任务上表现更好。微调的核心思想是利用预训练模型已经学习到的通用语言表示，通过少量任务数据调整模型参数，使其适应特定任务。

微调的关键组件

输入 (X)：
- 提供给模型的文本数据（例如，电影评论、问题、对话等）。
- 对于文本生成任务，输入可能是一个问题或提示。
目标 (Y)：
- 基于标注数据的预期输出（例如，情绪标签、聊天机器人响应、摘要文本等）。
- 对于分类任务，目标可能是类别标签（如“积极”或“消极”）。
- 对于生成任务，目标可能是完整的文本响应。
损失函数：
- 衡量模型的预测与目标之间的差异。
- 通过优化损失函数，模型逐渐调整参数以更好地拟合任务数据。

示例：IMDB 情绪分类

输入 (X)：电影评论，例如“这部电影的视觉效果很棒，但情节很弱。”
目标 (Y)：情绪标签，例如“积极”或“消极”。
模型任务：根据输入文本预测正确的情绪标签。

示例：文本生成

输入 (X)：问题，例如“什么是人工智能？”
目标 (Y)：生成的响应，例如“人工智能是模拟人类智能的技术。”
模型任务：根据输入问题生成正确的文本响应。

1.2 使用的损失函数：交叉熵损失

在语言模型的微调中，交叉熵损失（Cross-Entropy Loss） 是最常用的损失函数。它用于衡量模型预测的概率分布与真实目标分布之间的差异。

交叉熵损失的公式

对于语言模型，交叉熵损失的公式为：
$\text{Cross-Entropy Loss} = -\sum_{i=1}^{N} y_i \log(p_i)$

其中：

$y_i$ ：目标分布（真实标签的 one-hot 编码）。
$p_i$ ：模型预测的概率分布。
$N$ ：词汇表的大小（对于分类任务，( N ) 是类别数）。

交叉熵损失的作用

衡量预测与目标的差异：
- 当模型预测的概率分布与目标分布越接近时，交叉熵损失越小。
- 当模型预测的概率分布与目标分布差异较大时，交叉熵损失越大。
优化目标：
- 在训练过程中，通过反向传播和梯度下降，模型不断调整参数以最小化交叉熵损失。

示例：文本生成中的交叉熵损失

假设模型生成一个句子，每个词的概率分布如下：

目标词：["I", "love", "AI"]
模型预测的概率分布：
- I: 0.9
- love: 0.8
- AI: 0.7

交叉熵损失计算如下：
$text{Loss} = -(\log(0.9) + \log(0.8) + \log(0.7))$

通过最小化损失，模型逐渐学会生成更准确的文本。

1.3 SFT（监督微调，Supervised Fine-Tuning）

SFT 是最常见的微调方法，通过在特定任务的标注数据上对预训练模型进行全参数微调。

特点

全参数微调：更新模型的所有参数。
适合场景：任务数据量较大，计算资源充足。
优点：模型可以完全适应任务。
缺点：计算成本高，显存占用大。

实现代码

from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset

# 加载预训练模型和分词器
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

# 加载数据集
dataset = load_dataset("imdb")

# 数据预处理
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)

tokenized_datasets = dataset.map(preprocess_function, batched=True)

# 设置训练参数
training_args = TrainingArguments(
    output_dir="./sft_results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    save_strategy="epoch",
    logging_dir="./logs",
)

# 定义 Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
    tokenizer=tokenizer,
)

# 开始微调
trainer.train()

# 保存模型
model.save_pretrained("./sft-fine-tuned-model")
tokenizer.save_pretrained("./sft-fine-tuned-model")

1.4 LoRA（低秩适应，Low-Rank Adaptation)

LoRA 是一种高效的微调方法，通过低秩分解的方式微调模型参数，减少计算量和显存占用。

特点

低秩分解：只微调模型的一部分参数（低秩矩阵）。
适合场景：资源有限，但仍需高效微调。
优点：参数效率高，显存占用低。
缺点：需要额外的实现支持。

实现代码

使用 peft 库实现 LoRA：

pip install peft

from transformers import AutoTokenizer, AutoModelForSequenceClassification
from peft import get_peft_model, LoraConfig, TaskType
from datasets import load_dataset

# 加载预训练模型和分词器
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

# 配置 LoRA
lora_config = LoraConfig(
    task_type=TaskType.SEQ_CLS,  # 任务类型
    r=8,  # 低秩矩阵的秩
    lora_alpha=32,  # 缩放因子
    lora_dropout=0.1,  # Dropout 概率
)

# 应用 LoRA
model = get_peft_model(model, lora_config)

# 加载数据集
dataset = load_dataset("imdb")

# 数据预处理
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)

tokenized_datasets = dataset.map(preprocess_function, batched=True)

# 设置训练参数
training_args = TrainingArguments(
    output_dir="./lora_results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    save_strategy="epoch",
    logging_dir="./logs",
)

# 定义 Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
    tokenizer=tokenizer,
)

# 开始微调
trainer.train()

# 保存模型
model.save_pretrained("./lora-fine-tuned-model")

1.5 P-tuning v2

P-tuning v2 是一种提示微调方法，通过优化提示（Prompt）来引导模型完成任务，而不改变模型参数。

特点

提示优化：通过可学习的提示向量引导模型。
适合场景：少样本学习，资源有限。
优点：无需修改模型参数，显存占用低。
缺点：需要设计提示模板。

实现代码

使用 openprompt 库实现 P-tuning v2：

pip install openprompt

from openprompt import PromptDataLoader, PromptForClassification
from openprompt.plms import load_plm
from openprompt.prompts import ManualTemplate
from openprompt.prompts import ManualVerbalizer
from datasets import load_dataset

# 加载预训练模型
plm, tokenizer, model_config, WrapperClass = load_plm("bert", "bert-base-uncased")

# 加载数据集
dataset = load_dataset("imdb")

# 定义提示模板
template = ManualTemplate(
    text='{"placeholder":"text_a"} It was {"mask"}',
    tokenizer=tokenizer,
)

# 定义标签词映射
verbalizer = ManualVerbalizer(
    classes=["negative", "positive"],
    label_words={
        "negative": ["bad"],
        "positive": ["good"],
    },
    tokenizer=tokenizer,
)

# 定义 Prompt 模型
prompt_model = PromptForClassification(
    plm=plm,
    template=template,
    verbalizer=verbalizer,
)

# 数据加载器
dataloader = PromptDataLoader(
    dataset=dataset["train"],
    tokenizer=tokenizer,
    template=template,
    max_seq_length=512,
)

# 训练（伪代码，需补充优化器和训练循环）
for batch in dataloader:
    logits = prompt_model(batch)
    # 计算损失并更新模型

1.6 Freeze 微调

Freeze 微调是指冻结模型的大部分参数，只微调部分层（如分类头）。

特点

参数冻结：只微调模型的最后几层。
适合场景：资源有限，任务数据量较小。
优点：计算成本低，显存占用少。
缺点：模型适应能力有限。

实现代码

from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset

# 加载预训练模型和分词器
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

# 冻结模型的大部分参数
for param in model.bert.parameters():
    param.requires_grad = False

# 加载数据集
dataset = load_dataset("imdb")

# 数据预处理
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)

tokenized_datasets = dataset.map(preprocess_function, batched=True)

# 设置训练参数
training_args = TrainingArguments(
    output_dir="./freeze_results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    save_strategy="epoch",
    logging_dir="./logs",
)

# 定义 Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
    tokenizer=tokenizer,
)

# 开始微调
trainer.train()

# 保存模型
model.save_pretrained("./freeze-fine-tuned-model")
tokenizer.save_pretrained("./freeze-fine-tuned-model")

1.7 总结

方法	特点	适用场景	优点	缺点
SFT	全参数微调	数据量大，资源充足	完全适应任务	计算成本高
LoRA	低秩分解，部分参数微调	资源有限	参数效率高，显存占用低	需要额外实现
P-tuning	提示优化，不修改模型参数	少样本学习	显存占用低	需要设计提示模板
Freeze	冻结大部分参数，微调部分层	资源有限，数据量小	计算成本低	模型适应能力有限

2.DeepSeek微调

DeepSeek LLM 是一个强大的开源语言模型，但为了最大限度地发挥其在特定应用中的潜力，微调是必不可少的。

2.1 使用数据子集

在资源有限的硬件上微调像 DeepSeek LLM 这样的大型语言模型时，在完整数据集（例如，具有 25,000 个样本的 IMDB）上进行训练可能会导致过多的训练时间和 GPU 内存问题。

选择一个子集：500 个样本用于训练，100 个样本用于评估。
保持代表性：该子集保留了足够的多样性以实现合理的性能。

使用较小的数据集可以加快实验速度，同时有效地展示微调概念。对于生产级微调，应在更强大的基础设施上使用更大的数据集。

2.2 安装所需的库

首先，安装必要的依赖项：

pip install -U torch transformers datasets accelerate peft bitsandbytes

2.3 使用 4 位量化加载模型

使用 4 位量化使大型模型与有限的 GPU 内存兼容：

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model

model_name = "deepseek-ai/deepseek-llm-7b-base"
# Configure 4-bit quantization
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16  # Use float16 for faster computation
)
# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    quantization_config=bnb_config, 
    device_map="auto"
)
# Apply LoRA for memory-efficient fine-tuning
lora_config = LoraConfig(
    r=8,  # Low-rank adaptation size
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],  # Apply LoRA to attention layers
    lora_dropout=0.05,
    bias="none"
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
print(" DeepSeek LLM Loaded with LoRA and 4-bit Precision!")

2.4 使用 Hugging Face 数据集进行训练

为了进行微调，需要一个高质量的数据集。 Hugging Face 提供对各种数据集的访问：

选择数据集

对于此示例，让我们使用 IMDB 数据集对 DeepSeek LLM 进行情绪分类微调：

from datasets import load_dataset

# Load dataset
dataset = load_dataset("imdb")

预处理数据集

将文本转换为模型的标记化输入：

def tokenize_function(examples):
    inputs = tokenizer(
        examples["text"], 
        truncation=True, 
        padding="max_length", 
        max_length=512
    )
    inputs["labels"] = inputs["input_ids"].copy()
    return inputs

tokenized_datasets = dataset.map(tokenize_function, batched=True)
# Subset the dataset for faster experimentation
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(500))
small_test_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(100))
# Print a sample tokenized entry
print("Tokenized Sample:")
print(small_train_dataset[0])

3.LoRA（低秩自适应）

LoRA（低秩自适应）是一种旨在通过以下方式使 DeepSeek LLM 等大型模型的微调更加节省内存的技术：

冻结模型的大部分权重。
在关键层（例如注意层）中引入低秩可训练矩阵。

这大大减少了可训练参数的数量，同时保持了模型的性能。LoRA 可以在资源受限的硬件（例如 Colab GPU）上微调大型语言模型。

#4.代码演练：微调 DeepSeek LLM

首先设置训练参数：

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=3e-4,  # Lower learning rate for LoRA fine-tuning
    per_device_train_batch_size=1,  # Reduce batch size for memory efficiency
    gradient_accumulation_steps=8,  # Simulate larger batch size
    num_train_epochs=0.5,
    weight_decay=0.01,
    save_strategy="epoch",
    logging_dir="./logs",
    logging_steps=50,
    fp16=True,  # Mixed precision training
)

初始化训练器：

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_test_dataset,
)
print(" Trainer Initialized!")

开始微调：

print(" Starting Fine-Tuning...")
trainer.train()

保存微调模型：

trainer.save_model("./fine_tuned_deepseek")
tokenizer.save_pretrained("./fine_tuned_deepseek")
print("Fine-Tuned Model Saved Successfully!")

人脸识别接口&sdk，两张人脸相似度比对
人工智能时代，人脸识别技术正在被广泛应用于金融支付、安防监控、身份验证等多个领域，基于深度学习算法于海量样本训练，人脸识别接口以高精度、低延迟的特性出现在大众视野，成为开发者和企业用户集成人脸识别功能的首要选择之一。人脸识别接口技术服务原理：格式转换：支持BMP、JPG、PNG、TIF等多种常见图像格式；尺寸调整与压缩：建议图像大小控制在200KB左右，确保传输效率与识别质量；图像增强：自动旋转、
家用充电桩远程监控安全管理系统解决方案蓝蜂物联网物联网远程监控边缘计算物联网
家用充电桩远程监控安全管理系统解决方案在当今电动汽车日益普及的背景下，家用充电桩的安全管理成为了广大车主关注的重点问题。为了实现对充电桩的高效、精准、远程监控，一套完善的家用充电桩远程监控安全管理系统解决方案应运而生。本方案旨在通过先进的物联网技术、云计算、大数据分析以及人工智能等科技手段，构建一个集实时监测、异常预警、故障诊断、数据统计、远程控制于一体的智能化平台，确保充电桩的安全运行及用户充电
为什么 Python 是 AI 的首选语言？
文章目录一、简洁优雅，易于上手二、丰富的库和框架1.数据处理与分析2.数据可视化3.机器学习与深度学习框架三、强大的社区支持四、跨平台性和可移植性五、与其他语言的互操作性文章配套代码已上传，点击查看：https://download.csdn.net/download/2501_92578370/91180848在人工智能（AI）技术飞速发展的今天，编程语言的选择对AI开发者来说至关重要。当你翻开
【Python基础】13 知识拓展：CPU、GPU与NPU的区别和联系智算菩萨 python 开发语言人工智能
引言：处理器大战背后的技术革命在人工智能蓬勃发展的今天，我们经常听到CPU、GPU、NPU这些术语，但你是否真正理解它们之间的区别和联系？作为Python开发者，我们更关心的是：在什么场景下选择哪种处理器？如何在Python中充分发挥它们的性能优势？这篇文章将从技术原理出发，结合Python实战代码，深入解析这三种处理器的特点、应用场景和发展趋势，帮助你在面对不同计算任务时做出最优选择。第一章：C
BAAI/BGE-VL多模态模型部署、原理、代码详解（实现图像文本混合检索），包含BEG-VL多模态模型的本地部署详细步骤及代码原理解析令令小宁 python 语言模型自然语言处理 nlp 人工智能
本文包含BGE-VL多模态模型的本地部署详细步骤及代码原理解析文章目录前言一、模型下载二、计算流程解析1.BGE-VL-base/Large2.BGE-VL-MLLM-s1/s2三、总结前言提示：这里可以添加本文要记录的大概内容：包含四个模型及数据集，数据集未开源，四个模型可以分别下载：其中，BGE-VL-base/Large是基于CLIP训练的模型，BGE-VL-MLLM-S1/S2是基于LLM
强人工智能是否会诞生于现在的AI之中一花·一叶人工智能语言模型
为什么我认为当前AI方法无法实现真正的人工智能？随着大模型的发展日新月异，越来越多的人开始相信我们正在接近通用人工智能（AGI）。然而，作为一名人工智能领域的算法工程师，我反而越来越确信：现有的技术路径——以Transformer为核心的深度神经网络，可能已经达到了它的能力上限。我们或许正站在一个新时代的门槛上：真正的强人工智能将不会诞生于现有的范式中，而需要一条全新的算法路径。Transform
昇腾NPU节点软件版本检查与升级方法
一、问题背景当我们需要在节点部署DeepSeek大模型时，需要检查昇腾云配套的版本驱动和固件版本，如果发现节点版本不配套建议升级到配套版本。检查方法：npu-smiinfo-tboard-i1|egrep-i"software|firmware"二、升级方法需要注意的是，一定要先升级固件，再升级驱动；如果需要降级版本，流程与升级一样。一般而言，固件包是带有firmware关键字，驱动包带有dirv
【Agent实战】用“前置编码器+LLM”复刻ChatGPT附件功能 kakaZhui 大模型Agent入门与代码实战 chatgpt 人工智能 LLM Agent AIGC DeepSeek
1.引言：多模态LLM解耦原生多模态LLM将多种模态的处理能力“内化”于一个庞大的模型中，是技术的前沿。而我们这里讨论的“前置编码器+LLM”方案，则是一种解耦的设计哲学：LLM专注于语言：让强大的文本LLM继续做它最擅长的事情——理解和生成高质量的文本、进行逻辑推理和遵循复杂指令。前置编码器专注于转换：为每种文件类型构建或调用专门的、最优的工具（模型或库）来将其转换为高质量的文本表示。这种方案的
解密GPT工作原理：Transformer架构详解与自注意力机制剖析 AI智能应用 gpt transformer 架构 ai
解密GPT工作原理：Transformer架构详解与自注意力机制剖析关键词：GPT、Transformer、自注意力机制、神经网络、语言模型、深度学习、人工智能摘要：本文将深入浅出地解析GPT模型的核心架构——Transformer，重点剖析其革命性的自注意力机制。我们将从基本概念出发，通过生活化的比喻解释复杂的技术原理，并用Python代码示例展示实现细节，最后探讨这一技术的应用场景和未来发展方
ChatGPT、DeepSeek等大语言模型技术教程
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
AI大模型的2种模型能力Function call 和ReAct DeepSeek-大模型系统教程人工智能 react.js 前端 git ai 语言模型
近年来，随着AI大模型的快速发展，如何让这些模型更好地与现实世界交互成为了一个重要课题。FunctionCall和ReAct作为两种重要的模型能力，为大模型提供了更强大的工具调用和任务执行能力。我们将深入探讨这两种能力的背景、原理、应用场景以及它们之间的对比。帮助你深入了解他们的价值。01背景介绍AI大模型（如GPT-4、PaLM等）在自然语言处理、文本生成等任务中表现出色，但它们的能力往往局限于
【openAI库】Python语言openAI库详解：从入门到精通（从0到1手把手教程） Java八股文 python 人工智能开发语言
在人工智能（AI）领域，OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALL·E等创新技术，正在深刻改变各行各业。作为Python开发者，我们该如何快速上手并高效利用OpenAI的API，成为了提升个人竞争力的关键。本文将带你从零开始，深入解析Python语言中的openAI库，助你掌握AI开发的核心工具，成为AI领域的专家。一、什么是openAI库？它能为开发者带来什么？1
LLM大模型命名规则与部署硬件实践手册
文章目录一、理论基础：从信息编码到系统设计1.1命名系统的信息论基础1.2硬件架构与模型运行的关系1.3量化技术的数学原理二、国际主流模型命名规则深度解析2.1OpenAI：极简主义与功能导向2.2AnthropicClaude：诗意命名的技术内涵2.3GoogleGemini：统一品牌下的分层架构2.4MetaLlama：开源社区的透明化命名三、国内主流模型命名规则与文化内涵3.1百度文心：知识
世界人工智能大会在即，中国AI布局展现多重深意未来智慧谷人工智能世界人工智能大会（WAIC）
2025年世界人工智能大会（WAIC）将于7月26日至28日在上海举行。本次大会以“智能时代同球共济”为主题，展览面积首次突破7万平方米，汇聚了来自30余个国家和地区的1200余位嘉宾，其中包括12位图灵奖、诺贝尔奖得主及80余位中外院士。这一全球性平台的搭建，揭示了中国在人工智能领域深化发展的战略路径。技术展示：从模型开源到终端落地本届大会将呈现3000余项前沿展品，涵盖40余款大模型、60余款
全面学习 OpenAI API：从 Python 教程到 API Key 使用详解，快速上手调用和部署我的学校你进不来学习 python 开发语言人工智能语言模型深度学习
说在前面我们正身处在人工智能迅猛发展的时代，OpenAIAPI无疑是其中的翘楚，它提供了强大的工具，让开发者能够创建智能应用程序。然而，对于许多刚接触这个领域的开发者来说，如何开始使用OpenAIAPI可能是一个不小的挑战。这篇文章旨在全面介绍如何从零开始学习和使用OpenAIAPI，从申请APIKey到在Python中调用和部署，助力你快速上手并实现在项目中的应用。在接下来的内容中，我们将详细阐
基于Rust编写数独、deepseek调用、Mis系统 KENYCHEN奉孝 Rust rust 开发语言后端
Rust是开发人员最流行的语言之一，因为它具有开源、快速、可靠和高性能的特点。在Rust中构建新的API时，重要的是要考虑Web框架对前端和后端开发的优缺点。在本文中，我们将讨论什么是Web框架，并探索Rust生态系统中用于前端和后端开发的各种Web框架，排名不分先后。让我们开始吧。Rust编写Web版本得数独游戏开发环境配置确保安装Rust工具链和Cargo包管理器，推荐使用rustup安装最新
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Rust实现FasterR-CNN目标检测全流程 KENYCHEN奉孝 rust Polars
使用Rust和FasterR-CNN进行目标检测FasterR-CNN是目标检测领域广泛使用的深度学习模型。Rust生态中可以通过tch-rs（Torch绑定）调用预训练的PyTorch模型实现。以下为完整实现步骤：环境准备安装Rust和必要的依赖：cargoaddtchcargoaddanyhow#错误处理下载预训练的FasterR-CNN模型（需PyTorch格式.pt文件），或使用Torch
Hamiltonian Transformer理论：融合哈密顿力学与Transformer架构的新范式墨顿 transformer 架构深度学习
HamiltonianTransformer理论是一种将经典哈密顿力学原理与现代Transformer架构相结合的新型神经网络范式。这一理论框架试图解决当前深度学习模型在效率、动态系统建模和长期依赖处理等方面的核心挑战。本文将系统梳理HamiltonianTransformer的理论基础、关键创新点、实现方法以及应用前景，并分析其相对于传统Transformer架构的优势与潜在限制。哈密顿力学与T
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
LoRA微调详解：如何为AIGC模型节省90%显存 SuperAGI2025 AI大模型应用开发宝典 AIGC ai
LoRA微调详解：如何为AIGC模型节省90%显存关键词：LoRA、低秩适应、AIGC模型、参数高效微调、显存优化摘要：在AIGC（人工智能生成内容）领域，大模型（如GPT-3、LLaMA、StableDiffusion）的微调需要消耗海量显存，普通用户或企业难以负担。本文将深入解析LoRA（Low-RankAdaptation，低秩适应）这一参数高效微调技术，通过生活类比、数学原理、代码实战和应
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
借助 KubeMQ 简化多 LLM 集成强哥之神智能路由器 transformer 深度学习语言模型架构 deepseek
将多个大语言模型（LLM），如OpenAI和Anthropic的Claude集成到应用程序中是一项具有挑战性的任务。处理不同API和通信协议的复杂性，以及确保请求高效路由，都会带来诸多难题。然而，使用消息代理和路由器可以成为解决这些问题的优雅方案，能处理这些痛点并提供多项关键优势。在本文中，我们将探讨如何实现这一点，并提供代码示例，指导大家如何使用KubeMQ构建一个与OpenAI和Anthrop
科普语音交互所需开源技术方案
以下是ASR（自动语音识别）、LLM（大语言模型）和TTS（文本转语音）三者结合的应用场景及开源方案：一、应用场景智能语音助手如百聆（Bailing），支持语音输入、意图理解、任务管理及语音输出，端到端延迟仅800ms，支持打断和记忆功能。车载语音交互系统（如蔚来、小鹏），结合ASR识别指令、LLM处理复杂查询（如"找有充电桩的高评分餐厅"）和TTS提供语音反馈。语音到语音翻译（S2ST）阿里Fu
结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践大模型之路 RAG rag
一、引言：混合RAG技术的发展与挑战在人工智能领域，检索增强生成（RAG）技术正成为构建智能问答系统的核心方案。传统RAG通过向量数据库存储文档嵌入并检索相关内容，结合大语言模型（LLM）生成回答，有效缓解了LLM的“幻觉”问题。然而，单一的稠密向量检索（如基于Transformer的嵌入模型）在处理关键词匹配和多义词歧义时存在局限性，而稀疏向量检索（如BM25）虽擅长精确关键词匹配，却缺乏语义理
DeepSeek 大模型：工单系统优化与企业提效关键合力亿捷-小亿人工智能
随着信息化时代的到来，企业对运营效率的需求日益增强，工单系统作为重要的运营管理工具，其优化程度直接影响到企业的响应速度与服务质量。DeepSeek大模型通过强大的数据处理能力，为工单系统提供了多维度的优化方案，从分类、派发到内容填充、优先级排序，再到知识管理，全面提升了工单处理的智能化与自动化水平，帮助企业在提升客户满意度的同时，也实现了自身运营效率的跃升。一、工单分类与派发1.精准分类工单分类是
军事，本身就是智能人机与认知实验室人工智能大数据
军事智能后面两个字不重要，军事本身就是智能。军事活动中的许多决策和操作本质上都离不开“智能”，不论是指人类的智慧，还是现代技术和人工智能的应用。军事行动本质上是一种复杂的决策过程，涉及到战略、战术、资源配置、情报分析等多个方面。每一个决策都需要充分的智慧和智能的支持，考虑的因素包括敌我态势、地理环境、气候、技术优势等。人类指挥官的战略智慧和经验在军事行动中至关重要，但随着现代技术的发展，智能化技术
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

大语言模型常用微调与基于SFT微调DeepSeek R1指南

概述

1.大语言模型微调

1.1 微调的工作原理

微调的关键组件

示例：IMDB 情绪分类

示例：文本生成

1.2 使用的损失函数：交叉熵损失

交叉熵损失的公式

交叉熵损失的作用

示例：文本生成中的交叉熵损失

1.3 SFT（监督微调，Supervised Fine-Tuning）

特点

实现代码

1.4 LoRA（低秩适应，Low-Rank Adaptation)

特点

实现代码

1.5 P-tuning v2

特点

实现代码

1.6 Freeze 微调

特点

实现代码

1.7 总结

2.DeepSeek微调

2.1 使用数据子集

2.2 安装所需的库

2.3 使用 4 位量化加载模型

2.4 使用 Hugging Face 数据集进行训练

选择数据集

预处理数据集

3.LoRA（低秩自适应）

你可能感兴趣的:(LLM,深度学习,人工智能,自然语言处理,DeepSeek,SFT,微调)