LLM训练第17页

写给大模型新人的经验：刷到少走三年弯路！

今天这篇文章，我不打算讲那些泛泛而谈的大模型原理，我就站在一个“老转行人+老程序员+老训练营主理人”的角度，跟你聊聊：

AI劳模·2025-06-23 16:10

DAY 39 图像数据与显存

blog.csdn.net/weixin_45655710知识点回顾图像数据的格式：灰度和彩色数据模型的定义显存占用的4种地方模型参数+梯度参数优化器参数数据批量所占显存神经元输出中间状态batchisize和训练的关系作业

·2025-06-23 14:31

蓝桥杯历届真题 # 训练士兵(JAVA,C++)

文章目录题目解读[蓝桥杯2024省A]训练士兵题目描述输入格式输出格式样例#1样例输入#1样例输出#1提示思路完整代码参考题目解读原题链接[蓝桥杯2024省A]训练士兵题目描述在蓝桥王国中，有nnn名士兵

旧物有情·2025-06-23 14:30

NL2SQL实践系列(1)：深入解析Prompt工程在text2sql中的应用技巧

NL2SQL实践系列(1)：深入解析Prompt工程在text2sql中的应用技巧NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL

汀、人工智能·2025-06-23 13:20

2025-微调 Qwen3 实战教程

一、概述unsloth微调Qwen3模型提供显著优势：训练速度提高2倍，VRAM使用减少70%，支持8倍长的上下文。Qwen3–30B-A3B仅需17.5GBVRAM即可运行。

·2025-06-23 12:17

【读代码】深入解析Ragas：RAG应用效果评估最好的工具

一、基本介绍Ragas是由ExplodingGradients团队开发的专业LLM应用评估框架，通过自动化测试和量化指标帮助开发者构建可靠的AI系统。

kakaZhui·2025-06-23 12:45

【RAG优化】深度解析开源项目MinerU：从PDF解析到多模态理解的工业级解决方案

项目始于大模型预训练数据清洗需求，现已成为支持多模态文档理解的工业级解决方案。

kakaZhui·2025-06-23 11:43

二、【LLaMA-Factory实战】数据工程全流程：从格式规范到高质量数据集构建

二、数据工程核心架构图原始数据数据格式规范Alpaca格式多模态格式自定义格式规范数据清洗增强相似度去重噪声过滤合成数据生成优质数据注册验证数据集注册格式校验质量评估训练

陈奕昆·2025-06-23 11:40

LLaMA-Factory多模态训练：从文本到图像的综合应用

摘要本文深入探讨了LLaMA-Factory框架中的多模态训练技术。从基础的文本-图像对齐到复杂的多模态理解，全面介绍了如何利用LLaMA-Factory进行多模态模型的训练和优化。

CarlowZJ·2025-06-23 11:40

【LLaMA-Factory 实战系列】一、数据准备篇 - 从文本到多模态的完整流程

从文本到多模态的完整流程1.引言2.LLaMA-Factory数据格式概述2.1Alpaca格式2.2ShareGPT格式3.文本数据准备3.1Alpaca格式示例3.2ShareGPT格式示例3.3预训练数据格式

Zhijun.li@Studio·2025-06-23 11:08

Predic‘ng Early-Onset Colorectal Cancer with Large Language Models

研究旨在利用电子健康记录（EHR）数据，通过机器学习（ML）和大型语言模型（LLM）预测EoCRC，以实现早期干预。

UnknownBody·2025-06-23 10:35

AI人工智能领域神经网络的云计算集成应用

AI人工智能领域神经网络的云计算集成应用关键词：神经网络、云计算、AI集成、分布式训练、模型部署、弹性计算、深度学习摘要：本文深入探讨了神经网络在云计算环境中的集成应用，从基础概念到实际部署，全面分析了云计算如何赋能

AI大模型应用实战·2025-06-23 10:32

【人工智能-练习】三个案例搞明白机器学习中的三大任务：分类、回归、聚类

文章目录一、分类任务结果代码解释导入必要的库配置字体生成模拟数据集拆分数据集数据标准化逻辑回归分类器预测并计算准确率绘制分类效果定义决策边界绘制函数绘制训练集和测试集的分类效果二、回归结果代码解释1.导入库

若北辰·2025-06-23 09:29

BERT模型微调全攻略：从数据准备到模型部署

BERT模型微调全攻略：从数据准备到模型部署关键词：BERT模型、模型微调、数据准备、模型训练、模型部署摘要：本文全面介绍了BERT模型微调的整个流程，从数据准备开始，逐步讲解了数据预处理、模型训练以及最终的模型部署等关键步骤

AI智能探索者·2025-06-23 09:28

基于沙猫群算法优化的正则化极限学习机(RELM)的回归预测

的回归预测文章目录基于沙猫群算法优化的正则化极限学习机(RELM)的回归预测1.RELM原理2.预测问题求解3.基于沙猫群算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快

智能算法研学社（Jack旭）·2025-06-23 09:27

基于战争策略算法优化的正则化极限学习机(RELM)的回归预测

的回归预测文章目录基于战争策略算法优化的正则化极限学习机(RELM)的回归预测1.RELM原理2.预测问题求解3.基于战争策略算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快

·2025-06-23 09:27

DeepSeek已经落后？客观评价与深度解读爆火的DeepSeek V3大模型的性能与参数。

它似乎在训练效率和成本上具有优势，训练成本仅为600万美元，远低于GPT-4的1亿美元。一个意想不到的细节是，尽管模型参数高达6710亿，但通过MoE架构，每token只激活

AI老李·2025-06-23 09:55

TensorFlow 安装与 GPU 驱动兼容（h800）

特殊注意事项PyCharm和终端环境变量设置方法测试GPU是否可用的Python脚本#使用TensorFlow2.13在NVIDIAH800上启用GPU加速完整指南在使用TensorFlow进行深度学习训练时

weixin_44719529·2025-06-23 07:17

利用ms-swift微调LLaVA-OneVision

利用ms-swift微调LLaVA-OneVision资料合集环境安装目录详情训练模型下载模型准备训练(train)数据和验证集(validation)数据提前改一些小bug脚本Merged-LoRA脚本

moTcream·2025-06-23 07:16

动手学强化学习第10章-Actor-Critic 算法训练代码

基于Hands-on-RL/第10章-Actor-Critic算法.ipynbatmain·boyu-ai/Hands-on-RL·GitHub理论Actor-Critic算法修改了警告和报错运行环境DebianGNU/Linux12Python3.9.19torch2.0.1gym0.26.2运行代码Actor-Critic.py#!/usr/bin/envpythonimportgymimpo

zhqh100·2025-06-23 06:08

【动手学深度学习】4.2~4.3 多层感知机的实现

目录4.2.多层感知机的从零开始实现1）初始化模型参数2）激活函数3）模型4）损失函数5）训练4.3.多层感知机的简洁实现1）模型2）小结.4.2.多层感知机的从零开始实现现在让我们实现一个多层感知机。

XiaoJ1234567·2025-06-23 06:08

IntelliJ IDEA + Continue + DeepSeek API: 打造你的专属 AI 编程助手

Continue(continue.dev)是一款强大的开源IDE插件，可以让你连接各种大语言模型（LLM）API。DeepSeek(deepseek.com)则提供了性能优异的编码大模型。

weixin_43835210·2025-06-23 06:08

对话即服务：Spring Boot整合MCP让你的CRUD系统秒变AI助手

引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。

·2025-06-23 06:37

【AI大模型学习路线】第二阶段之RAG基础与架构——第十一章（【项目实战】基于RAG的新闻推荐）传统推荐算法与基于LLM的推荐算法？

【AI大模型学习路线】第二阶段之RAG基础与架构——第十一章（【项目实战】基于RAG的新闻推荐）传统推荐算法与基于LLM的推荐算法？

985小水博一枚呀·2025-06-23 05:03

Python str.format() 函数在 LLM prompt 生成中的使用（微调、刷库等）

在LLM中批量生成prompt的简单示例：template="我现在有一个用户问题和系统的答案,帮我把答案中和用户问题最直接的关键词提取出来。

ctrl A_ctrl C_ctrl V·2025-06-23 05:29

Java全栈AI平台实战：从模型训练到部署的革命性突破——Spring AI+Deeplearning4j+TensorFlow Java API深度解析

某医疗影像公司面临以下挑战：多语言开发混乱：Python训练模型，C++部署推理，Java调用服务，导致维护成本高昂部署效率低下：PyTorch模型需手动转换ONNX格式，TensorRT优化耗时2小时

墨夶·2025-06-23 04:28

DB-GPT-HUB Text-to-SQL微调

DB-GPT-Hub是一个利用LLMs实现Text-to-SQL解析的实验项目，主要包含数据集收集、数据预处理、模型选择与构建和微调权重等步骤，通过这一系列的处理可以在提高Text-to-SQL能力的同时降低模型训练成本

__如风__·2025-06-23 04:56

点云从入门到精通技术详解100篇-基于参数平面拉伸的点云流形攻击(续)

目录3.3.4重构分析3.3.5消融实验4基于参数平面拉伸的点云流形攻击4.1点云流形攻击算法设计4.2点云流形攻击网络4.2.1基于TPS的参数平面拉伸4.2.2点云流形攻击对抗样本生成4.2.3训练损失

格图素书·2025-06-23 03:14

[AI] 解密人工智能：深度分析与未来趋势的全景探索

目录[AI]解密人工智能：深度分析与未来趋势的全景探索1.人工智能的核心技术演进1.1从机器学习到深度学习1.2生成式AI的崛起2.人工智能的最新发展趋势2.1超大规模预训练模型的突破2.2自监督学习的崛起

代码行者123·2025-06-23 01:28

《A DECODER-ONLY FOUNDATION MODEL FOR TIME-SERIES FORECASTING》阅读总结

介绍了一个名为TimeFM的新型时间序列预测基础模型，该模型受启发于自然语言处理领域的大语言模型，通过再大规模真实世界和合成时间序列数据集上的预训练，能够在多种不同的公共数据集上实现接近最先进监督模型的零样本预测性能

胡萝拔贝贝·2025-06-23 00:58

测试工程师实战：用 LangChain+deepseek构建多轮对话测试辅助聊天机器人

LangChain作为主流LLM应用开发框架，为多轮对话智能助手的研发提供了极大便利。

Python测试之道·2025-06-23 00:54

单机环境下基于 LLM-Agent 框架的数据查询智能体训练教程

单机环境下基于LLM-Agent框架的数据查询智能体训练教程以下教程介绍如何在单机环境（CPU或1~2张GPU）上，使用LLM-Agent框架搭建并训练一个混合数据源查询智能体。

·2025-06-23 00:53

Yolo算法训练MPII人体姿势关键点检测数据集的yolo格式数据集建立基于YOLOv8的人体姿势关键点检测系统姿态识别数据集的训练

基于YOLOv8的人体姿势关键点检测系统，并使用PyQt6编写GUI界面支持图片、视频和摄像头实时检测文章目录1.数据准备和格式转换1.1将MPII数据集转换为YOLO格式2.训练YOLO模型2.1创建数据配置文件

·2025-06-23 00:21

CoR-GS：仅需3张图片即可训练Gaussian场景！

点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达来源：3D视觉工坊添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫

3Ｄ视觉工坊·2025-06-22 22:39

智能客服系统数据库设计

数据库设计目标本项目数据库设计的目标包括以下几方面：保证智能客服系统中各类数据的结构清晰、访问高效；支持多渠道用户接入，能追踪对话上下文；为AI模型提供可供训练与推理的数据支撑；保证历史消息

大数据张老师·2025-06-22 21:08

faster rcnn预训练模型_Faster-RCNN+TensorFlow 详细训练过程（附github源码）

图片来源于网络图片来源于网络1、训练平台：R53600、RTX2060Super，16G运行内存。

weixin_39958631·2025-06-22 21:07

AI系统持续交付原理与代码实战案例讲解

然而,AI系统的开发和部署过程通常比传统软件系统更加复杂,需要处理大量的数据、训练模型、调整超参数等步骤。为了确保AI系统的高质量和可靠性,需要建立一个高效的持续交付流程。

AI天才研究院·2025-06-22 21:37

day43python打卡

作业：kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：并拆分成多个文件importosimporttorchimporttorch.optimasoptimimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvisionimporttorchvision.transformsastransform

qq_58459892·2025-06-22 21:37

小型图像数据集效果优化：使用预训练的CNN

面对解决小型图像数据集，一种常用且非常高效的方法是使用预训练网络。那么什么是预训练网络呢？

幸运六叶草·2025-06-22 21:05

【AI大模型入门指南】提示词Prompt工程详解

（AI大模型，即LLM是“LargeLanguageModel”的缩写，中文通常译为大型语言模型，是一种

GeorgeGcs·2025-06-22 21:03

KNN算法数字识别实战：训练集、测试集与代码实现

本文通过构建数字识别任务的训练集和测试集，并提供完整的代码实现，向读者展示如何使用KNN算法进行数字识别。

Aurora曙光·2025-06-22 20:28

攻克AI安全难题：推动人工智能健康前行

本文将用“给小学生讲故事”的方式，拆解AI安全的五大核心威胁（对抗攻击、数据投毒、模型窃取、隐私泄露、算法偏见），结合生活案例、代码实验和真实场景，带你理解AI安全的底层逻辑，并揭示科学家们如何用“对抗训练

AI智能探索者·2025-06-22 19:49

ChatMusician：用大模型理解并创造音乐

ChatMusician由SkyworkAIPTE.LTD.和香港科技大学的研究团队共同开发，它基于持续预训练和微调的LLaMA2模型，并通过一种文本兼容的音乐表示法——ABC符号，将音乐作为第二语言来处理

人工智能大模型讲师培训咨询叶梓·2025-06-22 19:19

基于大模型预测十二指肠球部穿孔的多维度研究报告

目录一、引言1.1研究背景与意义1.2研究目的与创新点1.3国内外研究现状二、大模型技术原理与应用基础2.1大模型介绍2.2数据收集与预处理2.3模型训练与优化三、术前预测与准备3.1术前风险预测指标与模型构建

LCG元·2025-06-22 18:17

基于大模型预测肾囊肿的技术方案大纲

目录一、引言二、技术方案概述（一）数据收集与整理（二）大模型构建与训练（三）术前预测与方案制定（四）术中决策支持（五）术后管理与预测（六）并发症风险预测与防控（七）健康教育与指导三、技术方案流程图四、统计分析与技术验证方法