LLM训练第13页

AI 问答系统实战：用 Python + Flask + LLM 打造你的智能对话机器人！

随着大语言模型（LLM）的快速发展，打造一个智能问答系统已经成为可能！

Leaton Lee·2025-03-11 20:57

入坑 Python 全能实战小白训练营，470 集干货 12.9G 大揭秘！

家人们，我最近挖到了一个Python学习的宝藏——Python全能实战小白训练营。整整470集，内容超丰富，资源包有12.9G，完全就是为咱们这些想系统学习Python的小白量身定制的。

七七知享·2025-03-11 19:54

深度学习训练中GPU内存管理

文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或

@Mr_LiuYang·2025-03-11 19:24

一学就会的深度学习基础指令及操作步骤（5）使用预训练模型

文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16

小圆圆666·2025-03-11 19:53

Manus联创澄清：我们并未使用MCP技术

公司明确表示并未使用Anthropic的MCP（模型上下文协议）技术，并强调MCP是一个旨在标准化应用程序与大型语言模型（LLM）之间上下文交互的开放标准。

耶耶Norsea·2025-03-11 17:10

【LLM】预训练的具体流程

分词器训练预训练模型：就像你已经学会了一些基础知识的“大脑”，我们可以在这个基础上继续学习新东西。比如，有些模型已经学会了英语，但中文学得不够好。

FOUR_A·2025-03-11 17:05

YOLO训练指南（以V3为例）

YOLO训练指南（以V3为例）前言了解yolo3https://cloud.tencent.com/developer/news/76803https://www.bilibili.com/video/

niuTaylor·2025-03-11 16:28

深度学习：偏差和方差

高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的

壹十壹·2025-03-11 16:25

从零开始构建大模型(LLM)应用

大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。

和老莫一起学AI·2025-03-11 15:22

《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》

走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空

空云风语·2025-03-11 15:51

【LLM】从零开始实现 LLaMA3

分词器在这里，我们不会实现一个BPE分词器（但AndrejKarpathy有一个非常简洁的实现）。BPE（BytePairEncoding，字节对编码）是一种数据压缩算法，也被用于自然语言处理中的分词方法。它通过逐步将常见的字符或子词组合成更长的词元（tokens），从而有效地表示文本中的词汇。在自然语言处理中的BPE分词器的工作原理如下：初始化：首先，将所有词汇表中的单词分解为单个字符或符号。例

FOUR_A·2025-03-11 15:21

基于transformer实现机器翻译(日译中)

文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三

小白_laughter·2025-03-11 15:46

大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！

Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。

AGI学习社·2025-03-11 14:08

SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language

本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。

UnknownBody·2025-03-11 12:29

【每日一题 | 2025】3.3 ~ 3.9

个人主页：Guiat归属专栏：每日一题文章目录1.【3.3】10387[蓝桥杯2024省A]训练士兵2.【3.4】P8601[蓝桥杯2013省A]剪格子3.【3.5】P9241[蓝桥杯2023省B]飞机降落

Guiat·2025-03-11 12:58

【Hugging Face】transformers 库中 model 的常用方法和属性

HuggingFacetransformers库中model的常用方法和属性在transformers库中，model代表预训练的Transformer模型，可用于文本分类、问答、文本生成等任务。

彬彬侠·2025-03-11 11:53

知识蒸馏论文精选——《Graph-Free Knowledge Distillation for Graph Neural Networks 》

Graph-FreeKnowledgeDistillationforGraphNeuralNetworks》2021作者是XiangDeng和ZhongfeiZhang，来自纽约州立大学宾汉姆顿分校论文地址见文末摘要知识蒸馏（KnowledgeDistillation,KD）通过强制学生网络模仿在训练数据上预训练老师网络的输出

宇直不会放弃·2025-03-11 11:20

HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发

通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。

·2025-03-11 11:52

成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？

在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A

Altair澳汰尔·2025-03-11 11:45

关于两次项目的学习感悟

经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。

罗婕斯特·2025-03-11 10:43

QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营

主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成

程之编·2025-03-11 09:39

“大语言模型微调”（Fine-tuning）与“大语言模型应用”（LLM Applications）之间的区别

1.概念与定义大语言模型微调微调指的是在一个经过大规模预训练的通用语言模型基础上，利用针对性较强的小规模数据集对模型进行进一步训练，从而使模型在特定领域或任务上表现得更优秀。

AI Echoes·2025-03-11 09:06

Python第十六课：深度学习入门 | 神经网络解密

本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和

程之编·2025-03-11 09:03

【大模型开发】Megatron-LM 深度解析：原理、应用与代码实现

所有内容基于Megatron-LM官方实现（GitHub:NVIDIA/Megatron-LM），并结合大规模模型训练的关键理念进行介绍。

云博士的AI课堂·2025-03-11 08:27

【大模型开发】深入解析 DeepSpeed：原理、核心技术与示例代码

深入解析DeepSpeed：原理、核心技术与示例代码DeepSpeed是由微软开源的高性能深度学习训练优化引擎，专注于帮助研究人员和工程团队在分布式环境中高效地训练超大规模模型。

云博士的AI课堂·2025-03-11 08:57

【大模型开发】大模型背后的基础组件与生态概览

支撑大模型开发与部署的关键组件与生态系统当今大模型（LLM,LargeLanguageModel）在工业与学术界的应用日益广泛，从ChatGPT、BERT到DeepSeek等新兴模型，背后离不开一整套成熟的技术生态和工具链支持

云博士的AI课堂·2025-03-11 08:56

LangChain 发布政策详解

技术背景介绍LangChain是一个用于构建和部署大型语言模型（LLM）应用的生态系统。

VYSAHF·2025-03-11 08:25

一学就会的深度学习基础指令及操作步骤（6）迁移学习

文章目录迁移学习模型准备数据增强模型训练模型微调和预测检查预测结果迁移学习迁移学习是将一个任务中学到的知识应用到另一个相关任务上，以提高新任务的学习效率和性能。

小圆圆666·2025-03-11 07:49

领域大模型之微调技术和最佳实践

BERT和GPT-3等语言模型针对语言任务进行了预训练。微调使它们适应特定领域，如营销、医疗保健、金融。在本指南中，您将了解LLM架构、微调过程以及如何为NLP任务微调自己的预训练模型。

程序员莫玛·2025-03-11 07:17

LangChain大模型应用开发指南-大模型Memory不止于对话

【一一AGI大模型学习所有资源获取处一一】①人工智能/大模型学习路线②AI产品经理资源合集③200本大模型PDF书籍④超详细海量大模型实战项目⑤LLM大模型系统学习

喝不喝奶茶丫·2025-03-11 06:45

学睿德毅育贤才，AI 剪辑绽华彩

“小白AI短视频训练营”,恰似一把钥匙,为零基础学员开启AI短视频创作的大门。在这里,学员能够借助AI技术,探索记录生活的全新视角,以独特的剪辑手法展现生活的精彩

互联网之声·2025-03-11 06:13

AI 技术引入 RTK（实时动态定位）系统，可以实现智能化管理和自动化运行

通过历史数据训练模型，实现快速解算。实例：某无人机公司使用A

小赖同学啊·2025-03-11 06:39

如何对大模型进行微调？从原理到实战全解析

随着大语言模型（LLM）的快速发展，微调（Fine-tuning）已成为将通用模型转化为垂直领域专家的核心技术。

挣扎与觉醒中的技术人·2025-03-11 05:32

在LangChain中运行Replicate模型的实用指南

##技术背景介绍Replicate是一个平台，可以轻松调用各种预训练的AI模型。与传统的模型托管和调用相比，Replicate提供了简单的API接口，使开发者能够快速集成和使用强大的AI模型。

fgayif·2025-03-11 04:50

【RAG 论文】Program-of-Thoughts（PoT）提示：让 LLM 生成 Python 代码来解决复杂的数字计算问题

论文：ProgramofThoughtsPrompting:DisentanglingComputationfromReasoningforNumericalReasoningTasks⭐⭐⭐⭐TMLR2023Code：Program-of-Thoughts|GitHub论文速读文章提出了PoTPrompting方法，PoT可以看作是CoT（Chain-of-Thoughts）的改进，该方法通过生

yubinCloud·2025-03-11 03:12

LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning

Arxiv日期：2024.5.16机构：IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头

Zhouqi_Hua·2025-03-11 03:10

《ChatGPT Prompt Engineering for Developers》课程-提示词原则

编写Prompt的原则本章的主要内容为编写Prompt的原则，在本章中，我们将给出两个编写Prompt的原则与一些相关的策略，你将练习基于这两个原则来编写有效的Prompt，从而便捷而有效地使用LLM。

evil-tomato·2025-03-11 02:09

如何添加示例到提示中进行查询分析

在我们的查询分析变得越来越复杂时，LLM（大型语言模型）可能难以理解在某些场景下到底应该如何响应。为了提升性能，我们可以在提示中添加示例来指导LLM。

dgay_hua·2025-03-11 02:39

LLM Weekly（2025.02.17-02.23）

本文是LLM系列文章，主要是针对2025.02.17-02.23这一周的LLM相关新闻与文章、GitHub资源分享。网络新闻Grok3Beta——推理代理的时代。

UnknownBody·2025-03-11 01:59

3.10 项目总结

今天的项目是一个使用PyTorch框架构建和训练神经网络的实例，旨在实现手写数字识别。以下是项目的总结、内容分析以及优化建议：项目总结1.目标：使用神经网络对MNIST数据集中的手写数字进行分类。

不要不开心了·2025-03-11 01:58

点云语义分割：PointNet++在S3DIS数据集上的训练

点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。

完美代码·2025-03-11 00:25

windows11家庭版安装ubuntu子系统训练深度模型

文章目录环境准备前提条件安装环境安装Hyper-V安装Linux分发版升级WSL内核启用虚拟机功能安装ubuntu24.04安装桌面环境安装远程控制软件xrdp从Windows启动桌面版Ubuntu环境准备前提条件windows机器需要支持虚拟化，并且需要在BIOS中开启虚拟化技术，因为WSL2基于hyper-V，查看是否开启虚拟化：按住Windows+R输入cmd打开命令行，输入systemin

吃水果不削皮·2025-03-10 23:16

大语言模型(LLM)入门学习路线图，从零基础到精通，理论与实践结合的最佳路径！

Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。

ai大模型应用开发·2025-03-10 22:39

在Ubuntu系统下部署大语言模型

前言在Ubuntu系统下部署大语言模型，可以使用HuggingFace的Transformers库来加载和使用预训练的模型。

脱泥不tony·2025-03-10 22:39

机器学习算法（2）—— 线性回归算法

82,80],[85,78],[90,90],[86,82],[82,90],[78,80],[92,94]]y=[84.2,80.6,80.1,90,83.2,87.6,79.4,93.4]‘’‘模型训练

疯狂的石头。·2025-03-10 21:35

Compressed Channel Estimation for Intelligent Reflecting Surface-Assisted Millimeter Wave Systems

为了减少训练开销，利用了毫米波信

No_one-_-2022·2025-03-10 20:21

AI产品大模型学习指南：清晰路线，AI产品经理必备知识点一网打尽！_AI产品经理

实际上AI只是一种对传统产品或服务赋能的手段而已，将各种“中间件”（通常是一种训练好的模型，当输入一定数据后自动返回一定的输出值）、传感器等不同形式的软件、硬件融入传统产品或服务的使用或体验流程中。

AGI大模型学习·2025-03-10 18:38

Training-Free Transformer Architecture Search WithZero-Cost Proxy Guided Evolution（预览版本）

为了提高搜索效率，基于无训练代理的方法已在神经架构搜索(NAS)中得到广泛采用。然而，这些代理被发现不足以很好地推广到Transformer搜索空间，这一点已被多项研究和我们自己的实

境心镜·2025-03-10 18:05

用双色球数据集微调后的大模型

最近用Qwen/Qwen1.5-1.8B-Chat大模型来微调训练双色球2003001-2025011的数据集，实验测一下大模型出球的预测情况。

qq_29790801·2025-03-10 17:33

深度学习项目十一：mmdetection训练自己的数据集

mmdetection训练自己的数据集这里写目录标题mmdetection训练自己的数据集一：环境搭建二：数据集格式转换(yolo转coco格式)yolo数据集格式coco数据集格式yolo转coco数据集格式

小啊磊_Vv·2025-03-10 17:02

推荐频道

LLM训练