每周靶场训练

LLM-预训练：深入理解 Megatron-LM（2）原理介绍

最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDAMegatron团队公开发布的2篇论文

u013250861·2025-02-01 15:05

机器学习-期末复习题

给人脸打上标签再让模型进行学习训练的方法，属于()强化学习B.半监督学习C.监督学习D.无监督学习在机器学习中，用计算机处理一副图像，维度是：上万维B.二维C.三维D.一维‎以下关于降维的说法不正确的是

泡椒鸡jo·2025-02-01 15:32

pytorch基于GloVe实现的词嵌入

PyTorch实现GloVe（GlobalVectorsforWordRepresentation）的完整代码，使用中文语料进行训练，包括共现矩阵构建、模型定义、训练和测试。

纠结哥_Shrek·2025-02-01 15:31

深度学习-笔记1

：网址：https://gitee.com/paddlepaddle/PaddleNLPpaddle-nlp是一个自然语言处理NLP方面的工具包(代码库)ERNIEERNIE是百度基于BERT改进的预训练大模型

·2025-02-01 12:15

AI 计算的未来：去中心化浪潮与全球竞争格局重塑

引言人工智能（AI）正以前所未有的速度发展，尤其是大模型训练和推理效率的提升，使得AI计算成本迅速下降，呈现出向去中心化演进的趋势。

智识微光Intelligence·2025-02-01 09:16

聊聊AI中的“蒸馏”技术

1.知识蒸馏的过程教师模型（TeacherModel）训练先训练一个大规模基础模型，这个模型能力很强，但计算开销大。生

自由鬼·2025-02-01 09:15

AI协助探索AI新构型的自动化创新概念

训练AI自生成输出模块化代码，生成元代码级别的AI功能单元代码，然后再由AI组织为另一个AI，实现AI开发AI的能力；用AI协助探索迭代新构型AI将会出现，并成为一种新的技术路线潮流。

liron71·2025-02-01 09:15

大模型蒸馏与大模型微调技术有啥差别?

通过训练学生模型模仿教师模型的行为，实现模型压缩和性能保留的目标。蒸

kcarly·2025-02-01 08:37

从 0 到 1，DEEPseek 大模型瞬间 “霸榜” AI 赛道的秘密

deepseek官网传送门：DeepSeek下面就对本文标题来剖析一下：目录一·本篇背景：二.技术实力：突破创新的基石:2.1强大的模型能力:2.1.1高效的训练方法:2.2.2优化的推理速度:三·市场策略

羑悻的小杀马特.·2025-02-01 08:36

基于深度学习的大规模模型训练

基于深度学习的大规模模型训练涉及训练具有数百万甚至数十亿参数的深度神经网络，以处理复杂的任务，如自然语言处理、计算机视觉和语音识别。

SEU-WYL·2025-02-01 07:56

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

多阶段训练：创新的模型架构DeepSeek-R1的训练方式采用了多阶段循环的策略，具体包括基础训练、强化学习（RL）、微调等多个阶段。这

人工智能学家·2025-02-01 06:23

【学习心得】Python好库推荐——PEFT

这种技术主要应用于大型预训练模型的微调过程中，目的是在保持模型性能的同时减少所需的计算资源和时间。通过PEFT，可以有效地调整模型以适应特定任务或数据集，而无需对整个模型的所有参数进行全面微调。

小oo呆·2025-02-01 06:48

深度学习训练模型损失Loss为NaN或者无穷大（INF）原因及解决办法

文章目录一、可能原因==1.学习率过高====2.batchsize过大==3.梯度爆炸4.损失函数不稳定5.数据预处理问题6.数据标签与输入不匹配7.模型初始化问题8.优化器设置问题9.数值问题==10.模型结构设计缺陷==二、调试步骤三、常见预防措施一、可能原因1.学习率过高原因：学习率过高可能导致梯度爆炸，权重更新幅度过大，导致模型参数变为无穷大或NaN。学习率设置过大是常见问题，它会让参数

余弦的倒数·2025-02-01 05:17

AI大模型在智能客服系统中的应用

目录引言1.基于大模型的智能客服系统架构2.对话生成与上下文管理对话生成上下文管理3.提高客服系统响应精度的策略1.使用专门训练的数据集2.引入实体识别和意图分类3.反馈循环和持续优化4.AI大模型在企业中的优化与调优策略

季风泯灭的季节·2025-02-01 04:33

yolov8使用Python训练识别

环境要求:根据《yolov8训练环境搭建》搭建好运行环境参考文献:1、yolo官方文档python版本：https://docs.ultralytics.com/usage/python/2、github

枫林古月·2025-02-01 03:58

对抗训练对模型性能有何影响？

关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富

借雨醉东风·2025-02-01 01:12

（3-5）文生图模型架构：扩散模型

3.5.1扩散模型的基本概念扩散模型是一种基于随机过程的生成模型，通过逐步添加和去除噪声，实现从随机噪声到高质量数据的转化，其独特的训练和生成机制使其在图像生成领域表现出色。1.扩散过程扩

码农三叔·2025-02-01 01:08

机器学习笔记 - 将音频转换为图像进行分类的机器学习模型

4.模型训练：在特征提取完

坐望云起·2025-02-01 00:32

A3C（Asynchronous Advantage Actor-Critic）算法

A3C主要解决了传统深度强化学习中的一些问题，如训练稳定性和数据效率问题。A3C算法的关键点A

C7211BA·2025-01-31 23:25

玄机靶场--第一章应急响应-webshell查杀

文章目录第一章应急响应-webshell查杀1.黑客webshell里面的flagflag{xxxxx-xxxx-xxxx-xxxx-xxxx}2.黑客使用的什么工具的shellgithub地址的md5flag{md5}3.黑客隐藏shell的完整路径的md5flag{md5}注:/xxx/xxx/xxx/xxx/xxx.xxx4.黑客免杀马完整路径md5flag{md5}利用工具查杀第一章应急响

Clockwiseee·2025-01-31 23:24

AI计算的未来：中心化与去中心化的博弈

因此，本文将探讨人工智能训练成本的降低、推

智识微光Intelligence·2025-01-31 23:51

DeepSeek 推出全新推理模型 R1-Lite 预览版

R1系列模型采用强化学习训练，推理过程中包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美o1-preview的推理效果。

三花AI·2025-01-31 22:47

深度学习篇---深度学习框架

简介特点动态计算图易于上手强大的社区支持与Python的集成度高核心组件2.TensorFlow简介特点静态计算图跨平台强大的生态系统Keras集成核心组件3.PaddlePaddle简介特点易于使用高性能工业级应用丰富的预训练模型核心组件第二部分

Ronin-Lotus·2025-01-31 21:05

DeepSeek-V3 技术报告

为了实现高效的推理和经济高效的训练，DeepSeek-V3采用了多头潜在注意力（MLA）和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。

mingo_敏·2025-01-31 20:01

多系统萎缩患者的科学锻炼指南

小知识来科普·2025-01-31 19:17

多系统萎缩锻炼小贴士

建议每周进行3-5次

小知识来科普·2025-01-31 19:17

原创prompt：员工加班助手

本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。

姚瑞南·2025-01-31 19:45

修改训练配置记录

修改影响:调整此值可以显著影响模型的训练速度和最终性能。

positive546·2025-01-31 18:42

特征选择（机器学习）

伪代码示例）：2.3嵌入式（EmbeddedMethods）小示例（Lasso伪代码示例）：3.实践建议4.小结1.为什么需要特征选择在机器学习任务中，经常会遇到以下问题：特征（变量）数量过多，导致计算量大、训练速度

赵孝正·2025-01-31 18:10

YOLO系列之训练环境（GPU）搭建篇

YOLOv8专栏导航：点击此处跳转Pytorch环境配置（Windows）Anaconda安装此处下载安装即可⭐温馨提示：安装路径

w94ghz·2025-01-31 17:01

【大模型入门必看】LLM大语言模型导读

本章将简要梳理大语言模型的技术要点以及构建过程，并且列举了可用于预训练以及微调模型的常用数据集，介绍了目前开发大语言模型常用的代码库、预训练大语言模型的步骤以及涉及的关键技术，包括数据准备阶段、模型

古-月·2025-01-31 16:24

python 使用Whisper模型进行语音翻译

多尺寸预训练模型：官方提供了5个不同大小的模型（tiny,

哦里哦里哦里给·2025-01-31 15:16

python 阴暗图像亮度增强对比度增强去雾

解决时，可以在训练样本中加入类似的图像，或者手动把相关图像进行颜色变化。这里主要介绍手工颜色变化。

weixin_37763484·2025-01-31 14:06

DeepSeek优势方法策略

DeepSeek优势方法策略目录DeepSeek优势方法策略DeepSeek在训练阶段压缩时间空间复杂度的方法DeepSeek和ChatGPT在压缩时间空间复杂度上的不同之处DeepSeek能降低显卡使用的原因

ZhangJiQun&MXP·2025-01-31 14:03

基于YOLOv11无人机视角船舶检测系统：项目概述与技术实现

**实时处理能力**数据准备与模型训练1.**数据集构建**2.**模型训练**系统功能与使用方法1.**实时目标检测**2.**静态图片检测**3.**视频文件处理**4.

qq1309399183·2025-01-31 14:03

Llama大型语言模型原理详解

本文将详细解析Llama模型的原理，包括其结构、训练过程以及工作机制，帮助读者深入理解这一先进的模型。

摆烂大大王·2025-01-31 11:40

Rollup：专注类库和框架打包

文章内容输出来源：拉勾大前端高薪训练营-概述-也是一款ESModules打包器-也可以将项目中的一些散落的细小模块打包为整块代码-rollup与webpack作用类似-rollup更为小巧，仅仅是一款ESM

时解之·2025-01-31 10:06

基于Transformer的多通道肌电信号序列分类

本项目基于Transformer实现对表面肌电信号的分类，数据使用excel进行保存，使用Pytorch架构建立模型并训练，利用基于Paramiko库的SSH连接来实现对NAO机器人的远程控制。

咖啡百怪·2025-01-31 10:04

Pix2PixHD代码小白注释(1)——train.py

关于fp16AMP自动混合精度训练，见下文：AMP自动混合精度训练https://blog.csdn.net/ytusdc/article/details/122152244importtimeimportosimportnumpyasnpimporttorchfromtorch.autogradimportVariablefromcollectionsimportOrderedDictfroms

咖啡百怪·2025-01-31 10:04

PyTorch 快速入门

PyTorch是一个开源的机器学习库，它提供了丰富的工具和库，帮助我们轻松地构建、训练和测试神经网络模型。

無量空所·2025-01-31 10:02

PennyLane: 探索量子计算的新里程

由PennyLaneAI团队开发，该项目提供了一个直观且灵活的方式来设计、训练和优化涉及量子硬件的机器学习模型。其目标是让研究人员和开发者能够轻松地在本地或云端的量子计算机上进行实验。

戴艺音·2025-01-31 09:23

Deepseek两项关键发现：无需人类专家介入SFT、有自己

目前尚未实现AGI，主流AI行业和公众普遍认为通过扩大纯语言模型（LLM）的预训练规模就能实现突破

极道Jdon·2025-01-31 08:13

DeepSeek极端榨取硬件性能被曝光

AI开发者的普遍看法是，大规模GPU集群仍然是训练顶尖AI模型的关键。DeepSeek做了什么？DeepSeek的

极道Jdon·2025-01-31 08:13

GGUF 大模型文件格式

1.基础原理GGUF简介当前的大模型的参数规模较大，数以千亿的参数导致了它们的预训练结果文件都在几十GB甚至是几百GB，这不仅导致其使用成本很高，在不同平台进行交换也非常困难。

香菜烤面包·2025-01-31 07:04

书生浦语第五期

简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。目前大模型部署面临的挑战计算量巨大内

晴斋1216·2025-01-31 06:27

TensorFlow 简介

它提供了一个强大的工具集，用于构建和训练各种机器学习模型。

九月十九·2025-01-31 05:14

自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测

3.训练模型定义损失函数和优化器，然后进行模型训练。4.保存模型训练完成后，我们可以保存模型的状态字典。5.加载模型并进行预测加载保存的模型，并进行预测。

知识鱼丸·2025-01-31 04:12

使用numpy自定义数据集使用tensorflow框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预

在本篇博客中，我们将使用numpy生成一个简单的自定义数据集，并使用TensorFlow框架构建和训练逻辑回归模型。训练完成后，我们会保存模型，并演示如何加载保存的模型进行预测。

辞落山·2025-01-31 04:11

深度学习过程是什么

用差值数据对权重和偏差求偏导，这里的偏导数的值也就是使得损失减小的最佳方向，然后根据偏导数的方向和步长更新权重和偏差，对吗答：您的描述大致正确，但有一些细节需要澄清和修正，以更准确地反映深度学习中模型训练的过程

小松要进步·2025-01-31 01:15

TensorBoard可视化工具支持哪些类型的图表？

TensorBoard支持多种类型的图表，以下是详细介绍：标量图（Scalars）定义与用途：用于展示单个数值随时间（通常是训练步骤或迭代次数）的变化情况。

alankuo·2025-01-31 01:43

推荐频道