增量微调第4页

云上玩转DeepSeek系列之三：PAI-RAG集成联网搜索，构建企业级智能助手

2025年2月以来，阿里云人工智能平台PAI持续推出围绕DeepSeek系列模型的最佳实践，包含快速部署、应用搭建、蒸馏、微调等各个环节，让企业和个人开发者可以在云上高效、灵活地部署和探索DeepSeek-R1

阿里云大数据AI技术·2025-02-21 14:52

利用LangSmith Chat数据集微调模型的完整指南

在这篇文章中，我们将详细探讨如何加载LangSmithChat数据集，并利用这些数据对模型进行微调。通过这种方式，您可以大大提升模型在特定应用场景中的表现。

shuoac·2025-02-21 04:06

第26篇：pFedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA使用lora微调的模型异构个性化联邦学习

第一部分：解决的问题联邦学习（FederatedLearning,FL）是一种分布式机器学习方法，允许客户端在本地数据上训练模型，同时通过中心服务器共享学习成果。传统FL框架假设客户端使用相同的模型结构（模型同构），但在实际中可能面对：统计异质性：客户端的数据分布不均（non-IID）。资源异质性：客户端硬件资源有限。模型异质性：客户端可能拥有不同的模型结构。模型异构的个性化联邦学习（MHPFL）

还不秃顶的计科生·2025-02-20 20:10

GPT (Generative Pre-trained Transformer)

GPT模型通过大规模无监督预训练，使用大量的文本数据进行学习，然后再进行微调（fine-tuning）来适应具体的下游任务。

彬彬侠·2025-02-20 19:07

本地搭建小型 DeepSeek 并进行微调

本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。

非著名架构师·2025-02-20 15:55

DeepSeek原理介绍以及对网络安全行业的影响

大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。

AI拉呱·2025-02-20 13:08

知识图谱：【知识图谱基础理论（八）】——知识更新

更新的两种方式：数据驱动下的全面更新增量更新

J_Xiong0117·2025-02-20 11:15

scoped作用原理及样式穿透的应用

scoped作用原理及样式穿透的应用(1)scoped作用原理(2)对第三条的详细解释(3)场景----微调第三方库样式(4)样式穿透(5)补充(1)scoped作用原理scoped是Vue样式作用域的一个特性

太阳与星辰·2025-02-20 10:09

Python中LLM的知识图谱构建：动态更新与推理

知识图谱的构建流程2.利用LLM进行知识抽取2.1实体识别2.2关系抽取2.3属性抽取3.知识融合3.1实体对齐3.2冲突消解4.知识存储5.知识推理5.1规则推理5.2基于LLM的推理6.动态更新6.1增量更新

二进制独立开发·2025-02-20 09:35

使用Yuan 2.0与LangChain构建智能聊天应用：完整指南

相比之前的Yuan1.0，Yuan2.0使用了更广泛的高质量预训练数据，并通过指令微调数据集增强了模型的语义理解、数学推理、编程知识等能力。

scaFHIO·2025-02-20 05:33

ColD Fusion，分布式多任务微调的协同 “密码”

ColDFusion，分布式多任务微调的协同“密码”发布时间：2025-02-19近日热文：1.全网最全的神经网络数学原理（代码和公式）直观解释2.大模型进化史：从Transformer到DeepSeek-R1

·2025-02-19 20:46

一种轻量分表方案-MyBatis拦截器分表实践

作者：京东零售张均杰背景部门内有一些亿级别核心业务表增速非常快，增量日均100W，但线上业务只依赖近一周的数据。随着数据量的迅速增长，慢SQL频发，数据库性能下降，系统稳定性受到严重影响。

·2025-02-19 20:15

Spring生态圈的概要说明

《SpringCloud与Docker微服务架构实战》大多数Spring项目都是以“主版本号·次版本号·增量版本号·里程碑版本号”的形式命名版本号的。

志大洋·2025-02-19 13:16

HIVE- SPARK

spark-sql分区表和非分区表兼容问题，不能关联可以建临时表把分区数据导入，用完数据将表删除；count有数据，select没数据可能是压缩格式所导致；优化合全量任务，之前是row_number()函数先插入当天增量

流川枫_·2025-02-19 13:14

DeepSeek R1 模型详解与微调

目录引言DeepSeekR1模型概述DeepSeekR1模型架构3.1输入层3.2编码器层3.3解码器层3.4输出层DeepSeekR1核心原理

zhangjiaofa·2025-02-19 11:59

微调alpaca-lora遇到的一些问题

目录一、环境简介二、混合精度训练Tensor相互计算会报错三、推理加载lora报错：SafetensorError:Errorwhiledeserializingheader:InvalidHeaderDeserialization四、peft(版本0.9.0)save_pretrained不保存adapter_model.bin五、一些代码注释六、问题问答6.1、model已经使用了load_i

自学AI的鲨鱼儿·2025-02-19 05:42

LLaMA系列大模型调研与整理-llama-alpaca-lora

.Chinese-LLaMA-Alpaca6.BELLE大模型综述ASurveyofLargeLanguageModels关键词：大模型，LLaMA，Alpaca，Lora，Belle，模型训练，模型微调

AI大模型-大飞·2025-02-19 02:17

Go算法之希尔排序

在Go语言中实现希尔排序，可以按照以下步骤进行：选择增量序列：增量序列决定了元素之间的间隔。常见的增量序列有希尔增量（初始增量为数组长度的一半，之后每次减半，直到增量

思远久安·2025-02-18 23:15

商汤绝影端到端自动驾驶的迭代优化

自动驾驶,端到端,迭代优化,深度学习,感知,规划,控制,模型训练,数据增强,模型微调1.背景介绍随着人工智能和计算机视觉技术的飞速发展，自动驾驶汽车从科幻走进了现实。

AGI大模型与大数据研究院·2025-02-18 22:33

【大模型】数据集构造方式

1.Alpaca数据格式Alpaca数据格式最早由StanfordAlpaca项目提出，目的是用来微调大语言模型（LLM），特别是用于InstructionTuning（指令微调）。

油泼辣子多加·2025-02-18 22:02

从HuggingFace下载千问模型、数据、微调并运行

视频链接（1）3.从HuggingFace下载千问模型、数据、微调并运行（上）_哔哩哔哩_bilibili在本课程中，我们将带你下载并本地运行一个大模型，进行模型的微调训练等,视频播放量525、弹幕量0

ApiChain·2025-02-18 20:45

Janino 不思进取了？Java 动态编译的新神器 Liquor v1.3.10 发布

源码地址：https://gitee.com/noear/liquor基础编译特性：可以单个类编译可以多个类同时编译可以增量编译增值特性：java表达式引擎java脚本引擎（支持java8到java23

组合缺一·2025-02-18 19:31

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）

钟小宇·2025-02-18 18:11

LLM 参数解析：使用 OpenAI API 在 Python 中的实用指南（含示例）

幸运的是，你可以通过调整特定的参数来控制LLM的行为，就像微调收音机的旋钮来调整到想要的电台一样。理解这些参数可以帮助你更好地定制LLM的输出，使其更具可预测性或创造性，具体取决于你的需求。

真智AI·2025-02-18 14:09

deepseek本地部署后做微调训练实现智能对话的一些建议

在本地部署大模型后，进行微调和训练以实现智能对话，通常需要按照以下步骤操作。以下是详细的指导内容：1.准备数据集在微调大模型之前，需要准备适合的训练数据集。

慧香一格·2025-02-18 14:34

在linux 中搭建deepseek 做微调，硬件配置要求说明

搭建可参考使用deepseek-CSDN博客官方网站：DeepSeekDeepSeek是一个基于深度学习的开源项目，旨在通过深度学习技术来提升搜索引擎的准确性和效率。如果你想在Linux系统上搭建DeepSeek，你可以遵循以下步骤。这里我将提供一个基本的指导，帮助你从零开始搭建一个基础的DeepSeek环境。1.安装依赖首先，确保你的Linux系统上安装了Python和pip。DeepSeek主

慧香一格·2025-02-18 14:04

基于AWS云平台的法律AI应用系统开发方案

技术栈规划层级技术组件说明存储层AWSS3AmazonOpenSearch(向量数据库)存储原始PDF文件支持向量检索的法律知识库AI服务层OpenAIGPT-4APIAmazonSageMaker(LLM微调

weixin_30777913·2025-02-18 03:04

2025游戏行业的趋势预测

一、市场现状从总产值的角度来看，游戏总产值的增长率已经放缓，由增量市场转化为存量市场，整体的竞争强度将会加大，技术水平不强（开发技术弱、产品品质低、开发效率低）的公司将会面临更大的生存的困难。

疯子的游戏梦·2025-02-18 00:30

如何避免redis长期运行持久化AOF文件过大的问题：AOF重写

混合持久化支持（若启用aof-use-rdb-preambleyes）：生成RDB头部+增量AOF命令。数据一致性：确保AOF文件仅包含有效数据集的完整操作记录。

学会了没·2025-02-17 01:43

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

如果你也经历过——看着API调用账单瑟瑟发抖，微调一次模型吃掉半月算力预算️盯着OOM报错抓狂，为了

蚝油菜花·2025-02-17 00:32

简化版奇异值分解（SVD）方法详解

本文将详细介绍几种简化版SVD方法，包括经济型SVD、随机化SVD、增量SVD、分块SVD和偏最小二乘法（PLS），并

DuHz·2025-02-16 21:36

一、大模型微调的前沿技术与应用

大模型微调的前沿技术与应用随着大规模预训练模型（如GPT、BERT、T5等）的广泛应用，大模型微调（Fine-Tuning,FT）成为了提升模型在特定任务中性能的关键技术。

伯牙碎琴·2025-02-16 20:31

根据deepseek模型微调训练自动驾驶模型及数据集的思路

以下是使用DeepSeek模型微调训练自动驾驶模型的详细步骤和代码示例。本流程假设你已有自动驾驶领域的数据集（如驾驶指令、传感器数据等），并基于PyTorch框架实现。

ywfwyht·2025-02-16 19:28

大语言模型常用微调与基于SFT微调DeepSeek R1指南

概述大型语言模型（LLM，LargeLanguageModel）的微调（Fine-tuning）是指在一个预训练模型的基础上，使用特定领域或任务的数据对模型进行进一步训练，以使其在该领域或任务上表现更好

知来者逆·2025-02-16 16:08

（15-3）DeepSeek混合专家模型初探：模型微调

3.4模型微调在本项目中，微调脚本文件finetune.py提供了一套全面的工具，用于对DeepSeek-MoE预训练语言模型进行微调。

码农三叔·2025-02-16 16:35

本地DeepSeek模型GGUF文件转换为PyTorch格式

，我们在本地Windows系统上，基于GGUF文件部署了DeepSeek模型（DeepSeek-R1-Distill-Qwen-1.5B.gguf版本），但是GGUF是已经量化的版本，我们除了对其进行微调之外

搏博·2025-02-16 14:48

SQLMesh 系列教程4- 详解模型特点及模型类型

SQLMesh作为一款强大的数据建模工具，以其灵活的模型设计和高效的增量处理能力脱颖而出。本文将详细介绍SQLMesh模型的特点和类型，帮助读者快速了解其强大功能。

梦想画家·2025-02-16 12:36

面向对象设计（大三上）--往年试卷题+答案

extend）(2)类图中的聚合、组合关系（aggragation&composition）1.5图对象以及职责划分boundary/entity/controlobjects2.开发模型与方法2.1迭代开发&增量开发

给bug两拳·2025-02-16 11:01

滴滴开源新项目Unify：聚焦Flutter与原生通信难题，助力跨端应用落地

在大规模Flutter跨端场景下，存量的原生业务与增量Flutter业务间的双向通信成为痛点问题。为此，

滴滴技术·2025-02-16 05:10

大模型参数高效微调（PEFT）技术解析及微调加速实践

2023年，大模型如雨后春笋般爆发，58同城TEG-AILab作为AI平台部门，紧跟大语言模型技术发展步伐，打造了大语言模型平台，支持大语言模型训练和推理部署，并基于大语言模型平台构建了58同城生活服务领域（房产、招聘、汽车、黄页）垂类大模型灵犀大语言模型（ChatLing），支撑了业务方大模型应用的探索落地。灵犀大语言模型在公开评测集和实际应用场景下，效果均优于开源通用大语言模型以及商用通用大语

AI产品经理·2025-02-16 03:53

LangChain开发【NL2SQL】应用（few-shot优化）

这篇文章来讲一下优化什么是few-shot使用这些少量的、调整后的样本对预训练模型进行微调其实就是给LLM少量示例关于few-shot的研究：https://medium.com/ubiai-nlp/step

向羿燃·2025-02-15 22:48

大模型prompt实例：知识库信息质量校验模块

写代码的中青年·2025-02-15 22:45

1.5 企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径

企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径一、技术演进金字塔：四阶技术如何构建AI新范式▲预训练│（万亿参数基建）├─大模型微调│（领域知识注入）├─AI智能体

少林码僧·2025-02-15 21:08

20250124 Flink 增量聚合 vs 全量聚合

1.增量聚合vs全量聚合(1)增量聚合（ReduceFunction/AggregateFunction）工作方式：逐步计算：每一条数据到达窗口时，立即与当前聚合结果结合，生成新的中间结果。

靈臺清明·2025-02-15 07:18

DBA面试总结(Oracle篇)

RMAN备份具有以下优点：支持增量备份，可以节省备份时间和空间。自动管理备份文件，无需手动指定文件名或位置，自动化备份和恢复，无需手动执

浮萍哥·2025-02-15 02:07

DeepSeek与Python语言关系深度探索

文章目录一、技术整合逻辑二、案例分析**案例1：调用DeepSeekAPI实现智能问答系统****案例2：使用Python微调DeepSeek垂直领域模型****案例3：基于DeepSeek与Python

学堂在线·2025-02-14 18:08

LLM大模型中文开源数据集集锦（三）

文章目录1ChatGLM-Med:基于中文医学知识的ChatGLM模型微调1.1数据集1.2ChatGLM+P-tuningV2微调1.3Llama+Alpaca的Lora微调版本2LawGPT_zh：

悟乙己·2025-02-14 13:01

ADF动态内容的使用：基于文件名过滤和增量加载

在使用AzureDataFactory(ADF)进行数据处理时，经常会遇到需要根据文件名中的日期进行过滤和增量加载的情况。本文将通过一个具体的例子，详细讲解如何在ADF中实现这一需求。

t0_54coder·2025-02-14 04:18

AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战

大模型微调实战：精通、指令微调、开源大模型微调、对齐与垂直领域应用29套AI全栈大模型项目实战，人工智能视频课程-多模态大模型，微调技术训练营，大模型多场景实战，AI图像处理，AI量化投资，OPenCV

AI知识分享官·2025-02-14 00:41

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

核心突破：通过海量文本预训练+任务微调，GPT展示了强大的泛化能力。GPT-

Ash Butterfield·2025-02-14 00:08

推荐频道

增量微调