LLM训练第33页

DDPM（Denoising Diffusion Probabilistic Models）的公式推导

核心推导在于通过变分推断将KL散度转换为噪声预测问题，大幅简化了训练目标。1.前向扩散过程前向过程通过\(T\)步逐渐向数据\(x_0\)添加高斯噪声，最终得到纯噪声\(x_T\)。

AndrewHZ·2025-02-14 00:12

AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战

大模型微调实战：精通、指令微调、开源大模型微调、对齐与垂直领域应用29套AI全栈大模型项目实战，人工智能视频课程-多模态大模型，微调技术训练营，大模型多场景实战，AI图像处理，AI量化投资，OPenCV

AI知识分享官·2025-02-14 00:41

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

GPT（2018）：划时代的起点：GPT（GenerativePre-trainedTransformer）首次将Transformer架构与无监督预训练结合，开启了大规模语言模型的新时代。

Ash Butterfield·2025-02-14 00:08

YOLO各版本原理和优缺点解析

模型结构简单，易于实现和训练。缺点：对小目标检测效果差，容易

Ash Butterfield·2025-02-14 00:08

【AI论文】OmniHuman-1: 重新思考一阶段条件式人体动画模型的扩展升级

在本文中，我们提出了OmniHuman，一个基于扩散变换器的框架，该框架通过将运动相关条件融入训练阶段来扩展数据规模。为此，我们为这些混合条件引入了两种训练原则，以及相应的模型架构和推理策略。

东临碣石82·2025-02-13 23:06

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

简单注意力机制带训练权重的注意力机

Tasfa·2025-02-13 23:33

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑

如果你的预算是3万元人民币，希望训练和微调7B参数规模的人工智能大模型（如LLaMA、Mistral等），你需要一台高性能的深度学习工作站。

岁月的眸·2025-02-13 23:03

多模态大模型（LMMs）与大语言模型（LLMs）的比较

本文将从基础定义、输入数据、应用场景、训练过程这几方面讨论下两者的区别。

大F的智能小课·2025-02-13 23:02

DeepSeek与ChatGPT正在改写学历规则？2025教育革命深度解析

一、颠覆性现状：AI如何解构学历价值1.知识获取民主化随着AI技术的不断进步，知识获取的方式正在发生翻天覆地的变化：DeepSeek-R1通过仅10%的训练成本，实现了与GPT-4o相当的性能，技术文档的生成效率提升了

笑傲江湖2023·2025-02-13 23:01

解码DeepSeek家族系列：大语言模型赛道上的黑马传奇

DeepSeek自成立之初，便专注于开发先进的大语言模型（LLM）及相关技术，致力于通过数据蒸馏技术提取更精炼、有用的数据，以提升模型性能。在发展历程中，DeepSeek

大F的智能小课·2025-02-13 22:52

DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

一、DeepSeek降低训练成本的核心方法1.1创新训练方法DeepSeek通过独特的训练方案显著降低了训练成本。其核心策略包括减少监督微调（SFT）步骤，仅依赖强化学习（RL）技术。

大F的智能小课·2025-02-13 21:51

DeepSeek R1：开启AI推理新时代，强在哪里？

DeepSeekR1：开启AI推理新时代阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎

·2025-02-13 20:19

数据库三级模式

由于大多数数据库系统用户并未受过计算机的专业训练，因此系统开发人员需要通过视图层、逻辑层和物理层三个层次上的抽象来对用户屏蔽系统的复杂性，简化用户与系统的交互。

iamphp·2025-02-13 20:16

DeepSeek使用手册，其中一份是清华大学出品

DeepSeek（深度求索）是一款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能平台，专注于提供高效易用的AI模型训练与推理能力。

cpa007·2025-02-13 20:45

conda 装tensorboardx_【工欲善其事】TensorboardX的使用

“我不喜欢Tensorflow，但这并不妨碍我使用tensorboard”上一篇文章(https://zhuanlan.zhihu.com/p/39849027)，和大家简单地聊了一下关于如何在训练过程中有序地组织

weixin_39719042·2025-02-13 19:08

具身智能训练新思路！将生成视频用于训练机器人

将生成视频用于训练具身智能（EmbodiedAI）确实是近年来备受关注的前沿方向，这一思路通过结合生成式AI（如扩散模型、神经辐射场等）与机器人学习，为解决真实世界数据稀缺、训练成本高等问题提供了新可能

天机️灵韵·2025-02-13 18:02

从零开始大模型开发与微调：Miniconda的下载与安装

从零开始大模型开发与微调：Miniconda的下载与安装1.背景介绍随着人工智能和机器学习技术的快速发展,大型语言模型(LargeLanguageModel,LLM)已经成为当前研究和应用的热点。

AGI大模型与大数据研究院·2025-02-13 18:30

如何避免交叉验证中的数据泄露？

大家好，我是小青在机器学习中，交叉验证（Cross-Validation）是一种常用的模型评估技术，目的是通过将数据集分割为多个子集，反复训练和验证模型，以便更好地估计模型的性能。

奋进小青·2025-02-13 17:25

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 16:39

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM

·2025-02-13 16:07

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

GPT（GenerativePre-trainedTransformer，生成式预训练Transformer）是由OpenAI开发的基于Transformer解码器（Decoder）的自回归（Autoregressive

IT古董·2025-02-13 16:15

DeepSeek与Web3：科技融合的新纪元

作为新一代LLM（大型语言模型），DeepSeek不仅在推理质量和成本上展现出优势，还重新定义了去中心化智能代理（AIAgent）的发展方向。

·2025-02-13 15:02

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 15:31

从零开始构建一个大语言模型-第七章第一节

第七章目录7.1指令微调简介7.2为有监督的指令微调准备数据集7.3将数据整理成训练批次7.4为指令数据集创建数据加载器7.5加载预训练的大语言模型7.6在指令数据上对大语言模型进行微调7.7提取并保存回复

释迦呼呼·2025-02-13 15:07

大语言模型LLM代码：PyTorch库与ChatGLM模型

文章目录通过阅读大语言模型的代码，熟悉并理解PyTorch大语言模型LLM代码：PyTorch库与ChatGLM模型大语言模型中的PyTorchChatGLM3-6B模型代码ChatGLMModel类总览

North_D·2025-02-13 12:48

基于深度学习的半导体检测与预测算法研究(二)

本文详细探讨了深度学习在半导体缺陷检测、工艺参数预测等方面的应用原理和方法，介绍了常见的深度学习模型如卷积神经网络（CNN）、循环神经网络（RNN）及其变体在半导体数据处理中的应用，分析了模型训练与优化的关键技术

埃菲尔铁塔_CV算法·2025-02-13 12:45

基于深度学习的半导体算法原理及应用

埃菲尔铁塔_CV算法·2025-02-13 12:44

模型应用管理的成功之道：策略、工具与团队协作

●训练与验证：使用训练数据训练模型，并通过验证集评估模型性能。●超参数调优：通过交叉验证、网格搜索等方法优化模型超参数。2.模型部署●

·2025-02-13 11:28

LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！

前言·随着人工智能技术的蓬勃发展，尤其是大模型（LargeModel）的强势兴起，越来越多的企业对这一领域愈发重视并加大投入。作为大模型产品经理，需具备一系列跨学科的知识与技能，方能有效地推动产品的开发、优化以及市场化进程。以下是一份详尽的大模型产品经理学习路线，旨在助力你构建所需的知识体系，实现从零基础到精通的蜕变。一、基础知识阶段（一）计算机科学基础数据结构与算法：深入理解基本的数据结构（如数

大模型入门学习·2025-02-13 11:08

使用Neo4j-Cypher-FT与自然语言交互

老铁们，今天我们来聊聊如何通过自然语言与Neo4j图数据库进行互动，利用的是OpenAI的LLM技术。这波操作可以说是相当丝滑，能让你通过自然的提问生成Cypher查询语句，执行后返回语言化的结果。

qq_37836323·2025-02-13 09:50

DeepSeek-V2 论文解读：混合专家架构的新突破

Economical,andEfficientMixture-of-ExpertsLanguageModel目录一、引言二、模型架构（一）多头部潜在注意力（MLA）：重塑推理效率（二）DeepSeekMoE：经济高效的训练架构三

进一步有进一步的欢喜·2025-02-13 09:49

Kivy教程大全之使用 NumPy 和 Kivy 对 Android 设备进行图像分类

知识大胖·2025-02-13 08:48

【人工智能】Python中的深度学习优化器：从SGD到Adam

解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在深度学习模型的训练过程中，优化器起着至关重要的作用，它决定了模型的收敛速度以及最终的性能。

蒙娜丽宁·2025-02-13 08:13

线性回归、逻辑回归及SVM

可以简单的理解为：在给定训练样本点和已知的公式后，对于一个或多个未知参数，机器会自动枚举参数的所有可能取值（对于多个参数要枚举它们的不同组合），直到找到那个最符合样本点分布的参数（或参数组合）。

@迷途小书童·2025-02-13 07:38

【AI】人工智能没那么神秘！

AI系统通常由算法、数据、模型和代码组成，其中代码用于实现算法，数据用于训练模型，最终形成智能决策能力。AI可以嵌入到应用程序中，但其本身是一个复杂的技术体系。AI为什么这么聪明？

仇辉攻防·2025-02-13 07:04

大语言模型的分类及本地部署所需的硬件配置要求

1、大语言模型概念及作用大语言模型：（LargeLanguageModel,LLM）是一种基于深度学习的人工智能模型，它能够理解和生成自然语言[1]。

Kelaru·2025-02-13 07:01

硅基流动多模型工作流应用平台，免费2000万Token来了

硅基流动是一家专注于大规模AI计算的技术公司,提供高性能LLM推理和训练解决方案,助力企业高效部署AI应用。目前注册可获的2000万Token，可以使用将近60种文字对话、语音、图像生成等主流大模型。

yuntianming3906·2025-02-13 05:53

AnyPlace：学习机器人操作的泛化目标放置

为了解决这个问题，AnyPlace，一种完全基于合成数据训练的两阶段方法，能够预测现实世界任务中各种可行的放置姿势。其

硅谷秋水·2025-02-13 04:15

算法训练Day7| LeetCode454. 四数相加II(Map作哈希表）；383.赎金信(数组作哈希表）；15.三数之和(双指针)；18.四数之和(双指针)

目录LeetCode454.四数相加1.思路2.代码实现3.复杂度分析4.思考Leetcode383.赎金信1.思路2.代码实现3.复杂度分析4.思考Leetcode15.三数之和方法一：双指针法1.思路2.代码实现3.复杂度分析4.思考Leetcode18.四数之和1.思路2.代码实现3.复杂度分析4.思考LeetCode454.四数相加链接：454.四数相加II-力扣（LeetCode）1.思

努力学习的牛宁西·2025-02-13 04:45

代码随想录算法训练营Day07 | LeetCode454.四数相加II、LeetCode383.赎金信、LeetCode15.三数之和、LeetCode18.四数之和

LeetCode454.四数相加II题目链接：https://leetcode.cn/problems/4sum-ii/思路：想法是使用哈希表。定义一个哈希表unordered_map，遍历a数组与b数组，key存放a数组与b数组的元素之和，value存放a数组与b数组的元素之和出现的次数；再遍历c数组与d数组，在unordered_map中找0-（c+d），因为此时unordered_map中存

SuperYue37·2025-02-13 04:44

【代码随想录训练营】Day7-哈希表

代码随想录Day7今日任务454.四数相加Ⅱ383.赎金信15.三数之和18.四数之和454.四数相加Ⅱ考点：哈希表链接：https://leetcode.cn/problems/4sum-ii/classSolution{publicintfourSumCount(int[]nums1,int[]nums2,int[]nums3,int[]nums4){HashMaprecord=newHash

Koffer-debug·2025-02-13 04:14

【python 机器学习】sklearn转换器与预估器

通俗介绍：学术解释：3.转换器与预估器的共同点4.转换器与预估器的区别5.使用`sklearn`中的转换器与预估器5.1示例：数据标准化（转换器）5.2示例：模型训练与预测（预估器）6.使用`Pipeline

人才程序员·2025-02-13 03:04

初学者怎么入门大语言模型（LLM）

大语言模型（LLM）作为人工智能（AI）领域的核心技术之一，近年来受到了广泛的关注。对于初学者来说，入门LLM并非难事，但需要从理论学习、数学基础到实践操作逐步深入。

·2025-02-13 02:43

畅游Diffusion数字人(16)：由音乐驱动跳舞视频生成

目录贡献概述背景挑战贡献方法详解第一阶段：外观预训练第二阶段：动态触发视频生成训练细节贡献概述背景<

沉迷单车的追风少年·2025-02-13 02:59

LLM+Embedding构建问答系统的局限性及优化方案

LangChain+LLM方案的局限性：LLM意图识别准确性较低，交互链路长导致时间开销大；Embedding不适合多词条聚合匹配等。

lichunericli·2025-02-13 01:52

深度学习练手小例子——cifar10数据集分类问题

数据集被分为50,000张训练图像和10,000张测试图像。

　☆cwlulu·2025-02-12 23:39

使用云计算开发AI项目，有哪些最佳实践？

使用云计算开发AI项目，可以让企业和开发者更高效地利用算力、存储和AI训练环境，避免高昂的硬件成本和运维压力。但如何高效、经济地利用云计算，打造一个稳定、安全、可扩展的AI项目呢？

云上的阿七·2025-02-12 22:01

学习系列二：常用目标检测的格式转换脚本文件txt,json等

常用目标检测的格式转换脚本文件txt,json等文章目录常用目标检测的格式转换脚本文件txt,json等前言一、json格式转yolo的txt格式二、yolov8的关键点labelme打的标签json格式转可训练的

小啊磊_Vv·2025-02-12 21:23

RAG-Driven Enhancement of Multimodal Electronic Health Records Analysis via Large Language Models

本文是LLM系列文章，针对《REALM:RAG-DrivenEnhancementofMultimodalElectronicHealthRecordsAnalysisviaLargeLanguageModels

UnknownBody·2025-02-12 21:50

使用 Llama.cpp 和 llama-cpp-python 快速部署本地 LLM 模型

它支持多种LLM模型，包括可以从Hu

hgSdaegva·2025-02-12 20:16

推荐频道

LLM训练

DDPM（Denoising Diffusion Probabilistic Models）的公式推导

AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

YOLO各版本原理和优缺点解析

【AI论文】OmniHuman-1: 重新思考一阶段条件式人体动画模型的扩展升级

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑

多模态大模型（LMMs）与大语言模型（LLMs）的比较

DeepSeek与ChatGPT正在改写学历规则？2025教育革命深度解析

解码DeepSeek家族系列：大语言模型赛道上的黑马传奇

DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

DeepSeek R1：开启AI推理新时代，强在哪里？

数据库三级模式

DeepSeek使用手册，其中一份是清华大学出品

conda 装tensorboardx_【工欲善其事】TensorboardX的使用

具身智能训练新思路！将生成视频用于训练机器人

从零开始大模型开发与微调：Miniconda的下载与安装

如何避免交叉验证中的数据泄露？

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

DeepSeek与Web3：科技融合的新纪元

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

从零开始构建一个大语言模型-第七章第一节

大语言模型LLM代码：PyTorch库与ChatGLM模型

基于深度学习的半导体检测与预测算法研究(二)

基于深度学习的半导体算法原理及应用

模型应用管理的成功之道：策略、工具与团队协作

LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！

使用Neo4j-Cypher-FT与自然语言交互

DeepSeek-V2 论文解读：混合专家架构的新突破

Kivy教程大全之 使用 NumPy 和 Kivy 对 Android 设备进行图像分类

【人工智能】Python中的深度学习优化器：从SGD到Adam

线性回归、逻辑回归及SVM

【AI】人工智能没那么神秘！

大语言模型的分类及本地部署所需的硬件配置要求

硅基流动多模型工作流应用平台，免费2000万Token来了

AnyPlace：学习机器人操作的泛化目标放置

算法训练Day7| LeetCode454. 四数相加II(Map作哈希表）；383.赎金信(数组作哈希表）；15.三数之和(双指针)；18.四数之和(双指针)

代码随想录算法训练营Day07 | LeetCode454.四数相加II、LeetCode383.赎金信、LeetCode15.三数之和、LeetCode18.四数之和

【代码随想录训练营】Day7-哈希表

【python 机器学习】sklearn转换器与预估器

初学者怎么入门大语言模型（LLM）

畅游Diffusion数字人(16)：由音乐驱动跳舞视频生成

LLM+Embedding构建问答系统的局限性及优化方案

深度学习练手小例子——cifar10数据集分类问题

使用云计算开发AI项目，有哪些最佳实践？

学习系列二：常用目标检测的格式转换脚本文件txt,json等

RAG-Driven Enhancement of Multimodal Electronic Health Records Analysis via Large Language Models

使用 Llama.cpp 和 llama-cpp-python 快速部署本地 LLM 模型

Kivy教程大全之使用 NumPy 和 Kivy 对 Android 设备进行图像分类