MindSpore训练第4页

DeepSeek各模型现有版本对比分析

文章目录一、基础模型系列：V1到V3的演进二、专用模型系列：推理与多模态三、版本选型与商业化趋势DeepSeek作为最近特别火爆的模型，本文将对DeepSeek现有的主要版本进行对比分析,涵盖参数规模、训练数据

墨染夜雨笺·2025-02-26 17:22

正则化技术和模型融合等方法提高模型的泛化能力

正则化技术原理正则化是通过在损失函数中添加一个正则化项，来限制模型的复杂度，防止模型过拟合训练数据，从而提高模型在未见过数据上的泛化能力。

小赖同学啊·2025-02-26 15:36

蓝桥杯备赛-基础训练（三）哈希表 day16

今天一更赎金信题意：给定一个赎金信(ransom)字符串和一个杂志(magazine)字符串，判断第一个字符串ransom能不能由第二个字符串magazines里面的字符构成。如果可以构成，返回true；否则返回false。(题目说明：为了不暴露赎金信字迹，要从杂志上搜索各个需要的字母，组成单词来表达意思。杂志字符串中的每个字符只能在赎金信字符串中使用一次。)注意：你可以假设两个字符串均只含有小写

清墨璃笙·2025-02-26 14:28

全市场大模型分类及对比分析报告

2.大模型分类根据模型架构、训练目标和应用领域，全市场的

早退的程序员·2025-02-26 13:53

零基础学习机器学习分类模型

模型训练和评估：使用经典的分类算法——逻辑回归。代码解释：逐步分析代码实现。拓展内容：如何优化和扩展该项目。1.原理介绍1.1机器学习基本概念机器学习（

可喜~可乐·2025-02-26 12:14

训练神经网络出现nan

在理解和修改QARV的代码时，出现了训练会因为nan而终止的问题，因此学习记录。

崧小果·2025-02-26 11:12

复试英文准备方法

为了高效准备计算机领域的英文文献翻译面试，可以按照以下步骤进行系统训练，重点提升专业术语积累、文献结构理解和即时翻译能力：一、核心能力针对性训练专业术语速记建立术语库：-每天整理《算法导论》《人工智能：

小王Jacky·2025-02-26 11:12

深度求索DeepSeek：AI大模型的全域应用与技术突破

其基于DeepSeek-R1系列大模型的创新架构，以600万美元的超低训练成本（仅为OpenAI同类模型的1/30）3，在自然语言处理、逻辑推理、多模

量子纠缠BUG·2025-02-26 11:11

AI人工智能机器学习之监督线性模型

监督学习是一种机器学习任务，其中模型在已标记的数据集上进行训练。线性模型是一类通过线性组合输入特征来进行预测的模型。线性模型的基本形式可

rockfeng0·2025-02-26 09:57

Yolov8分割训练自己的数据集记录

Yolov8分割训练自己的数据集记录第一章、标签制作一、安装labelmelabelme安装很简单，直接在终端输入：pipinstalllabelme启用labelme在终端输入：labelme接下来就是标注数据了

小俊俊的博客·2025-02-26 08:21

【深度学习】PYTORCH框架中采用训练数据“CIFAR-10”实现RESNET50

一、ResNet网络结构二、基本块三、RESNET50代码实现resnet50.pyimporttorchimporttorch.nnasnnfromtorch.nnimportfunctionalasFclassResNet50BasicBlock(nn.Module):def__init__(self,in_channel,outs,kernerl_size,stride,padding):s

别出BUG求求了·2025-02-26 08:20

详细介绍人工智能学习框架

人工智能学习框架是开发者用于构建、训练和部署机器学习模型的核心工具。

日记成书·2025-02-26 08:16

YOLOv8实例分割训练自己的数据集

转载https://blog.csdn.net/m0_51530640/article/details/1299752571.利用labelme进行数据标注1.1Labelme安装方法首先安装Anaconda，然后运行下列命令：####################forPython2####################condacreate--name=labelmepython=2.7s

NoContours·2025-02-26 08:14

总结yolov8做检测训练时所需要的代码

运行模型训练脚本代码:大家可以先在ultralytics/ultralytics文件夹下新建一个mytrain.py，然后直接复制下面的代码，所有训练有关的超参数都可以在这个文件中调节，不懂超参数可以忽略

小胡学长·2025-02-26 08:13

Qwen2.5 技术报告

与之前的迭代相比，Qwen2.5在预训练和后训练阶段都有显著的改进。在预训练方面，将高质量的预训练数据集从之前的7万亿个token扩展到18万亿个token，为常识、专家知识和推理能力提供坚实的基础。

三谷秋水·2025-02-26 07:11

代码随想录算法训练营Day57 | 拓扑排序精讲、dijkstra（朴素版）精讲

文章目录117.软件构建思路与重点47.参加科学大会思路与重点117.软件构建题目链接：117.软件构建讲解链接：代码随想录状态：一遍AC。思路与重点概括来说，给出一个有向图，把这个有向图转成线性的排序就叫拓扑排序。拓扑排序也是图论中判断有向无环图的常用方法。拓扑排序模板题。#include#include#include#includeusingnamespacestd;intmain(){in

Harryline-lx·2025-02-26 06:01

代码随想录算法训练营第58天|拓扑排序精讲、dijkstra（朴素版）精讲

打卡Day581.拓扑排序精讲2.dijkstra（朴素版）精讲1.拓扑排序精讲题目链接：拓扑排序精讲文档讲解：代码随想录给出一个有向图，把这个有向图转成线性的排序就叫拓扑排序。拓扑排序要检测这个有向图是否有环，即存在循环依赖的情况，因为这种情况是不能做线性排序的。所以拓扑排序是图论中判断有向无环图的常用方法。拓扑排序的过程，有两步，第一步，找到入度为0的节点，加入结果集；第二步，将该节点从图中移

Yinems·2025-02-26 05:57

DeepSeek的开源之路:一文读懂从V1-R1的技术发展,见证从开源新秀到推理革命的领跑者

随着模型规模的不断扩大，算力需求呈指数级增长，训练成本飙升，而性能提升的边际收益却逐渐递减，形成了所谓的“ScalingLaw”瓶颈。

·2025-02-26 05:05

DeepSeek Coder

以下是对该模型的详细分析：模型背景与特点模型规模与训练数据：DeepSeekCoder系列模型从头开始训练，覆盖了超过80种编程语言，总参数量从1B到33B不等，其中包含基础版和指令调优版。

百态老人·2025-02-26 05:24

深度求索：解析DeepSeek R1与V3模型的技术差异

深度求索：解析DeepSeekR1与V3模型的技术差异引言模型定位与核心能力DeepSeekV3应用场景及示例DeepSeekR1应用场景及示例模型架构与训练方法DeepSeekV3的架构特点DeepSeekR1

walkskyer·2025-02-26 05:53

【百问百答系列】-全面了解Transformer（未来发展）

但随着一个一个问题的深入探究，从它的基本概念、原理架构，到如何训练、模型优化，再到其广泛的应用领域以及充满潜力的未来发展，我对它的理解也越来越深刻。

什么都想学的阿超·2025-02-26 04:51

基于深度学习的行人跌倒检测系统：UI 界面 + YOLOv5 + 数据集详解

目录引言系统设计概述数据集准备数据集选择数据预处理data.yaml文件模型选择与训练YOLOv5介绍模型训练步骤用户界

深度学习&目标检测实战项目·2025-02-26 03:45

大模型是如何蒸馏像Qwen-7B，Llama-3 这种小模型的？

2.蒸馏数据的使用与模型归属蒸馏技术的作用：DeepSeek将自研大模型（如DeepSeek-R1）生成的80万条高质量解题数据（称为“蒸馏数据”）用于训练Qwen、Llam

闫哥大数据·2025-02-26 03:12

DeepSeek动态增量学习技术详解与实战指南

一、主题背景1.Why：破解模型持续进化难题传统全量训练模式面临三大困境：金融风控场景中，每周新增百万级欺诈样本时，全量训练耗时从3小时增至8小时（数据量年增长300%）医疗影像诊断模型遇到新病症类型时

燃灯工作室·2025-02-26 02:09

GLake：优化GPU内存管理与IO传输的开源项目

GLake：突破GPU内存和IO瓶颈的利器在人工智能快速发展的今天，大模型训练和推理正面临着严峻的挑战。

2401_87458718·2025-02-26 02:35

DeepSeek技术解析：降本增效的“双刃剑”如何重塑AI产业？

正面影响分析算力需求与成本大幅降低DeepSeek通过算法优化（如稀疏计算、知识蒸馏）和模型压缩技术，将云端训练算力需求降至传统大模型的35%，车端推理芯片需求减少至65%。

爱吃青菜的大力水手·2025-02-26 01:29

DeepSeek：突破闭源封锁，引领大模型新时代

然而，大模型的训练和部署往往面临着硬件依赖性强、成本高昂、效率低下等挑战。DeepSeek的出现，为解决这些问题提供了全新的思路和方案。

fanstinmsl·2025-02-26 01:59

Pytorch:以CIFAR-10分类为例，给出了神经网络的训练流程

下面给出了神经网络的训练流程，包括数据加载与预处理、网络定义、损失函数和优化器定义、网络训练和网络测试。

Xiao_Ya__·2025-02-25 23:49

梯度累加（结合DDP）梯度检查点

梯度累加目的梯度累积是一种训练神经网络的技术，主要用于在内存有限的情况下处理较大的批量大小（batchsize）。

糖葫芦君·2025-02-25 23:16

支持向量机（Support Vector Machine，SVM）

这个间隔被定义为支持向量到超平面的最短距离，而支持向量就是那些恰好位于间隔边缘上的训练样本点。

不易撞的网名·2025-02-25 23:15

Tensorflow2.x框架-神经网络八股扩展-acc曲线与loss曲线

目录摘要一、acc曲线与loss曲线二、完整代码摘要loss/loss可视化，可视化出准确率上升、损失函数下降的过程一、acc曲线与loss曲线history=model.fit(训练集数据,训练集标签

诗雨时·2025-02-25 23:15

DeepSeek强化学习（Reinforcement Learning）基础与实践

引言强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，专注于训练智能体（Agent）在环境中通过试错来学习最优策略。

Evaporator Core·2025-02-25 23:44

第三讲-神经网络八股

一、搭建神经网络六部法tf.keras搭建神经网络六部法1、import相关模块 2、train,test #训练集、测试集3、model=tf.keras.models.Sequential #逐层搭建网络结构

loveysuxin·2025-02-25 22:38

神经网络八股（3）

梯度爆炸是指梯度在方向传播过程中逐渐变大，权重参数更新变化较大，导致损失函数的上下跳动，导致训练不稳定可以使用一些合理的损失函数如relu,leakRelu，归一化处理，batchnorm,确保神经元的输出值在合理的范围内

SylviaW08·2025-02-25 22:37

DeepSeek基础之机器学习

重点理解与思考（一）泛化能力的重要性（二）归纳偏好的影响（三）NFL定理的启示三、应用场景联想（一）电商推荐系统（二）医疗诊断四、机器学习的基本流程（一）问题定义（二）数据收集与预处理（三）模型选择与训练

珠峰日记·2025-02-25 22:07

【PyTorch项目实战】图像分割 —— U-Net：Semantic segmentation with PyTorch

文章目录一、项目介绍二、项目实战2.1、环境搭建2.1.1、下载源码2.1.2、下载预训练模型2.1.3、下载训练集2.2、环境配置2.3、代码优化+架构优化2.4、模型预测：predict.pyU-Net

胖墩会武术·2025-02-25 21:04

YoloV8训练参数篇

这个参数用于标识当前训练任务所属的项目，方便管理和组织多个训练任务。name:实验名称。该参数为当前训练任务指定一个名称，以便于标识和区分不同的实验。exist_ok:是否覆盖现有的实验。

江木27·2025-02-25 21:03

Python微调DeepSeek-R1-Distill-Qwen-1.5B模型：使用Transformers和PyTorch进行训练

前言近年来，基于Transformer架构的预训练语言模型如GPT、BERT等已经取得了显著的成果，广泛应用于自然语言处理（NLP）的各个领域。

煤炭里de黑猫·2025-02-25 21:02

机器学习01

机器学习的基本过程如下：1.数据获取2.数据划分3.特征提取4.模型选择与训练5.模型评估6.模型调优一、特征工程（重点）0.特征工程步骤为：特征提取(如果不是像dataframe那样的数据，要进行特征提取

天行者@·2025-02-25 20:53

机器学习02

HoldOutHoldOutCross-validation（Train-TestSplit）优点1.简单高效操作简便：这种方法的实现非常直接，只需要将原始数据集按照一定比例（常见的如70:30、80:20等）随机划分为训练集和测试集

天行者@·2025-02-25 20:53

细说向量化知识库

大多数LLM依赖其训练数据来回答问题，但它们的知识是静态的，无法实时更新。

CCSBRIDGE·2025-02-25 18:41

AI安全全景解析：从数据到模型的全方位防护

一、AI安全核心风险矩阵风险类型典型场景技术影响数据投毒训练数据被恶意篡改模型准确性下降模型窃取黑盒攻击获取模型参数知识产权泄露对

金外飞176·2025-02-25 18:09

Pytorch实现之混合成员GAN训练自己的数据集

简介简介：提出一种新的MMGAN架构，使用常见生成器分布的混合对每个数据分布进行建模。由于生成器在多个真实数据分布之间共享，高度共享的生成器（通过混合权重反映）捕获分布的公共方面，而非共享的生成器捕获独特方面。论文题目：MIXEDMEMBERSHIPGENERATIVEADVERSARIALNETWORKS（混合成员生成对抗网络）会议：IEEEInternationalConferenceonIm

这张生成的图像能检测吗·2025-02-25 15:18

9、论文阅读：无监督的感知驱动深水下图像增强

Perception-DrivenDeepUnderwaterImageEnhancementWithoutPairedSupervision前言引言相关工作UIE模型基于非物理模型基于物理模型基于深度学习质量度量在图像增强中的应用方法论问题表述PQR模型PDD网络生成器损失函数实验A.数据集B.训练细节

Maker~·2025-02-25 15:18

阅读笔记：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Task

PretrainingTask-AgnosticVisiolinguisticRepresentationsforVision-and-LanguageTasksContribution提出ViLBERT模型（twostreamsmodel），由两个BERT结构分别对text和image进行学习，通过cross-attention进行信息交流，在两个预训练任务

Araloak·2025-02-25 14:44

用于获得一个pb文件的所有节点名称

#-*-coding:utf-8-*-"""CreatedonTueDec1818:31:1320181、model_dir为模型路径文件夹，model_name为模型名称（自定义非如alexnet等训练实际名称

@Mr_LiuYang·2025-02-25 14:40

DeepSeek预测2030年：全球 50% 的白领工作将由 AI Agent 辅助完成，金融、医疗等专业渗透率超 70%

对未来的发展进行多维度预测，涵盖人工智能、搜索行业、全球经济格局等领域：一、人工智能技术的革命性突破低成本高性能模型的普及DeepSeek-R1等国产大模型通过混合专家架构（MoE）和算法优化，以OpenAI1/70的训练成本实现同等性能

未来AI编程·2025-02-25 13:03

高压输电线故障检测数据集 YOLO 格式

数据集介绍高压输电线故障检测数据集是一个专为电力行业AI模型训练设计的高质量数据集，支持YOLO格式的方框标注，适用于目标检测任务。数据集特点图像数量：1912张高质量图像，涵盖多种场景和光照条件。

幽络源小助理·2025-02-25 12:27

YOLOv10（训练完全版更新）

YOLOv10目前还不支持项目上的硬件板使用，等待后续。requirements.txt中已更新（torch版本更新了，提高了些精度）（我新加入了其他库）torch==2.0.1torchvision==0.15.2onnx==1.14.0onnxruntime==1.15.1pycocotools==2.0.7PyYAML==6.0.1scipy==1.13.0onnxsim==0.4.36on

小远披荆斩棘·2025-02-25 07:56

Golang从入门到精通

课程概述Golang从入门到精通，本课程以学习Golang语言开发互联网产品为目标，从基础理论知识入手，详实地讲解Golang语言的开发方法与技巧，并通过大量的线上训练，带领同学们全面掌握服务端高并发、

Wxhzy930120·2025-02-25 06:13

推荐频道

MindSpore训练