detectron训练第2页

集成学习（Ensemble Learning）基础知识1

4、基学习器：“好而不同”5、集成学习的两个基本问题（1）如何训练出具有差异性的多个基学习器？（2）如何将多个基学习器的预测结果集成为最终的强学习器预测结果？

代码骑士·2025-03-20 12:57

实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）

然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—

大富大贵7·2025-03-20 10:10

通过LoRA（Low-Rank Adaptation）低秩矩阵分解来高效微调权重变化

这种方法通过减少微调的参数数量来提高训练效率。

背太阳的牧羊人·2025-03-20 08:53

神经网络之参数初始化

引言：参数初始化是训练深度神经网络的一个关键步骤，目的是给网络中权重（weights）和偏置（biases）赋予初始值。

硬水果糖·2025-03-20 08:21

神经网络基础之正则化

一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫

硬水果糖·2025-03-20 07:45

TDE透明加密技术：免改造实现华为云ECS中数据库和文件加密存储

在数字经济与云计算深度融合的今天，华为云ECS（弹性云服务器）已成为企业数字化转型的核心载体，承载着数据库、文件存储、AI训练等关键业务。

安当加密·2025-03-20 07:43

谈高考真题的使用（数学）

2019独角兽企业重金招聘Python工程师标准>>>在高三数学复习中，大家常说“以本为本，以纲为纲，高考真题当主粮”，就是以教材内容为根本，以“考试大纲”为准绳，以高考真题的训练为主线；抓住了本，把握了纲

weixin_34116110·2025-03-20 06:33

利用 HAI 平台进行 DeepSeek 模型训练的详细指南

摘要本文旨在为非专业用户提供在HAI平台上进行DeepSeek模型训练的详细步骤。从创建项目、上传数据集、配置训练参数到启动训练任务并监控训练过程，本文将逐步指导用户完成整个流程。

·2025-03-20 06:41

Ai时代初期全球不同纬度的层级辐射现象

现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短

龙胥伯·2025-03-20 04:48

1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库

PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发

pythonQA·2025-03-20 01:27

【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）

大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。

·2025-03-20 01:36

数据增强：扩充数据集提升模型泛化能力

一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。

AI天才研究院·2025-03-19 23:06

数据增强：扩充数据集，提升模型的鲁棒性

数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。

AI天才研究院·2025-03-19 23:05

NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题

普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小

Chaos_Wang_·2025-03-19 23:34

vscode连接远程服务器docker里的容器--使用remote ssh

欢仔要学习·2025-03-19 22:28

使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发

安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度

UwoiGit·2025-03-19 22:25

MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注

数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。

·2025-03-19 21:28

深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习

更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单

安意诚Matrix·2025-03-19 20:46

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第9部分——应用

应用尽管预训练为大型语言模型（LLMs）赋予了强大的基础能力，但在部署于专业领域时，LLMs仍经常遇到持续的限制，包括上下文长度受限、容易产生幻觉（hallucination）、推理能力欠佳和固有的偏见

王金-太想进步了·2025-03-19 19:31

Yolov8训练自己的数据集(脱离ultralytics库)

比如在使用v8的时候需要安装ultralytics库，然后再调用YOLO进行训练或者预测，那么就有这几个问题：问题1：安装了ultralytics库后如何使用YOLO呢

爱吃肉的鹏·2025-03-19 17:22

迁移学习基础知识

简介使用迁移学习的优势：1、能够快速的训练出一个理想的结果2、当数据集较小时也能训练出理想的效果。注意：在使用别人预训练的参数模型时，要注意别人的预处理方式。

zhooooooou·2025-03-19 16:44

迁移学习入门

迁移学习1迁移学习的概念预训练模型定义:简单来说别人训练好的模型。

EmbodiedTech·2025-03-19 16:14

Dify知识库构建流程及示例

3.向量化（Embedding）嵌入模型：调用预训练

cqbelt·2025-03-19 14:54

MNIST数据集&手写数字识别

它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。

Zoro｜·2025-03-19 13:18

Codeforces Round 995 (Div. 3)

在这第iii天，如果Monocarp准备训练，那么他将完成aia_iai题，同样的，如果Stereocarp也在这天准备训练，那么他将完成bib_ibi题。

polarours·2025-03-19 13:17

医疗影像联邦学习可解释性算法研究

本研究以跨机构医疗影像协作场景为核心，系统性探讨联邦学习框架下可解释性算法的创新路径，重点解决医疗AI模型在分布式训练中的透明度缺失问题。

智能计算研究中心·2025-03-19 11:36

【Python】测试数据生成工具 --- Faker

Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst

·2025-03-19 11:00

融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践

在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训

·2025-03-19 11:59

深度学习框架PyTorch——从入门到精通（4）数据转换

转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。

Fansv587·2025-03-19 11:01

深度学习框架PyTorch——从入门到精通（5）构建神经网络

构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作

Fansv587·2025-03-19 11:58

大语言模型的训练数据清洗策略

目录大语言模型的训练数据清洗策略1.数据去重与标准化问题解决方案示例代码（Python实现数据去重）：2.过滤有害内容问题解决方案示例代码（基于关键词过滤有害内容）：3.纠正数据不均衡问题解决方案示例代码

gs80140·2025-03-19 10:23

Megatron-LM训练框架和Deepspeed训练框架最主要的异同和优劣是什么

核心异同点并行策略Megatron-LM核心：以张量并行（TensorParallelism）和流水线并行（PipelineParallelism）为主，结合数据并行。张量并行通过切分模型层（如注意力头、MLP块）到不同设备，利用NVLink高速通信提升效率。流水线并行将不同层分配到不同设备，通过P2P通信协调。DeepSpeed核心：ZeRO优化技术（ZeroRedundancyOptimize

强化学习曾小健·2025-03-19 09:15

OctoTools：一个具有复杂推理可扩展工具的智体框架

现有方法使用外部工具增强大语言模型(LLM)，但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的OctoTools，是一个无需训练、用户友好且易于扩展的

三谷秋水·2025-03-19 09:09

深度学习框架PyTorch——从入门到精通（5）自动微分

使用torch.autograd自动微分张量、函数和计算图计算梯度禁用梯度追踪关于计算图的更多信息张量梯度和雅可比乘积在训练神经网络时，最常用的算法是反向传播。

Fansv587·2025-03-19 06:20

标签转换脚本 - VOC格式转COCO格式，即voc2coco，xml2json 附VOC及COCO标签格式详解

专栏目录：YOLO训练/写作脚本目录一览|涉及标签转换、数据扩充、热力图、感受野、精度曲线、数量统计等近百个脚本文件专栏地址：YOLO训练/写作脚本——丰富文章内容，增强实验信服力，助力发文！！！

Limiiiing·2025-03-19 04:57

标签转换脚本 - VOC格式转YOLO格式，即voc2yolo，xml2txt 附VOC及YOLO标签格式详解

专栏目录：YOLO训练/写作脚本目录一览|涉及标签转换、数据扩充、热力图、感受野、精度曲线、数量统计等近百个脚本文件专栏地址：YOLO训练/写作脚本——丰富文章内容，增强实验信服力，助力发文！！！

Limiiiing·2025-03-19 04:26

自建智能算力中心 vs 第三方算力租赁：AI企业的算力博弈与最优解

从ChatGPT到DeepSeek，从自动驾驶到智能医疗，AI模型的训练和推理需求呈现指数级增长。在这场技术革命中，算力已成为企业竞争的“命脉”。

·2025-03-19 03:50

RAG 在多模态数据处理中的应用探索：结合图像与文本生成

目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展

hy098543·2025-03-18 22:40

如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源

计算理论过程见：transformer中多头注意力机制的参数量是多少？1.模型参数量的计算7B参数模型的总参数量是70亿（7billion）。这些参数主要分布在以下几个部分：Transformer层：多头注意力机制（Multi-HeadAttention）前馈神经网络（Feed-ForwardNetwork）嵌入层（EmbeddingLayer）：词嵌入（TokenEmbeddings）位置编码（

yxx122345·2025-03-18 20:59

程序员必看！DeepSeek全栈开发实战指南：从代码生成到性能优化

这两项技术突破对程序员群体意义重大：通信效率飞跃：DeepEP通过NVLink优化实现GPU间158GB/s传输速度，后端开发者训练大模型时可节省60%集群资源推理性能突破：R1模型在H

AI创享派·2025-03-18 20:59

MM-RAIT：多模态检索增强生成（RAG）的认知革命

多模态检索增强生成（RAG）领域迎来了一项里程碑式的突破——MM-RAIT框架通过“评估-训练”双轮驱动，显著提升了主流视觉语言模型的RAG性能，增幅达27%至34%。

花生糖@·2025-03-18 20:58

五、AIGC大模型_05模型的vLLM部署与LangChain调用

0、概述要搭建一个大模型应用服务，通常需要包含以下五层结构，即：基础环境、模型层、推理层、对外接口、外挂应用在了解了模型的微调训练之后，本文将以vLLM、OpenAI、LangChain为例，介绍大模型的推理部署以及对外接口开放调用

学不会lostfound·2025-03-18 19:20

PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练

本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。

进取星辰·2025-03-18 19:17

DeepSeek 3FS 与 JuiceFS：架构与特性比较

在AI业务中，企业需要处理大量的文本、图像、视频等非结构化数据，还需要应对数据量的爆炸式增长，分布式文件系统因此成为AI训练的关键存储技术。

·2025-03-18 18:07

DeepSeek 训练数据模板生成指南

DeepSeek训练数据模板生成指南（一次生成多条高质量数据集）一、核心数据格式规范1.基础结构（JSONL格式）每条数据需包含prompt（输入指令）和completion（期望输出）两个核心字段，采用单行

He.Tech·2025-03-18 18:39

yolov4

V4贡献：亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点两大核心方法，从数据层面和网络设计层面来进行改善消融实验，感觉能做的都让他给做了，这工作量不轻全部实验都是单GPU完成，不用太担心设备了

zzh-·2025-03-18 16:28

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望

wlz249·2025-03-18 16:28

yolov8的第一次实验报告

datasets]数据集大小:[2.68Gb]数据集描述:[数据集主要分两个类别：zdjy_ld,zdjy_gd]注释：占道经营流动，占道经营固定3.模型配置3.1基础配置·模型类型:YOLOv8·预训练模型

算法宇宙·2025-03-18 16:55

李开复：AI 2.0 时代的机遇

然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》

AGI大模型与大数据研究院·2025-03-18 15:52

YOLOv8n-OBB使用C#在windows10进行部署（CPU）

1.训练YOLOv8-OBB模型1.1数据集制作所用标注工具：X-AnyLabeling下载链接：https://github.com/CVHub520/X-AnyLabeling/releases/download

cd_Ww777·2025-03-18 15:21

推荐频道

detectron训练