训练小结

【附源码】基于opencv+pyqt5搭建的人脸识别系统

文章目录前言一、人脸检测二、人脸识别1.训练识别器2.识别人脸三、界面相关1.Qlabel展示图片2.表格跟随内容而增加和减少3.选择图片文件4.警告框四、源码获取总结前言人脸识别技术作为人工智能领域的一颗璀璨明珠

~啥也不会~·2025-03-01 06:12

计算机视觉与机器学习之文档解析与向量化技术加速多模态大模型训练与应用——文件向量化大模型！

目录前言1、TextIn文档解析技术1.1、文档解析技术1.2、目前存在的问题1.2.1、不规则的文档信息示例1.3、合合信息的文档解析1.3.1、合合信息的TextIn文档解析技术架构1.3.2、版面分析关键技术Layout-engine1.3.3、文档树提取关键技术Catalog-engine1.3.4、双栏1.3.5、非对称双栏1.3.6、双栏+表格1.3.7、无线表格1.3.8、合并单元格

知世不是芝士·2025-03-01 04:57

GitHub每日最火火火项目（2.28）

olmocr项目介绍：olmocr是由allenai开发的一款用于将PDF文件线性化，以适配大语言模型（LLM）数据集和训练的工具包。在大语言模型的训练过程中，数据的格式和预处理极为关键。

FutureUniant·2025-03-01 03:50

深入理解PyTorch模型训练所需的数据集

在PyTorch中，模型训练的核心是数据集（Dataset）。数据集是模型训练的基础，它提供了模型训练所需的所有输入数据和对应的标签。理解数据集的结构、加载方式以及如何预处理数据是成功训练模型的关键。

mosquito_lover1·2025-03-01 03:20

YOLOv9与YOLOv8创新点差异概述：

这意味着模型在训练过程中可能更加关注梯度信息的质量和流向，从而更有效地进行参数

奔强的程序·2025-03-01 02:42

DeepSeek 最新发布 DeepEP：一款用于 MoE 模型训练和推理的开源 EP 通信库

采用Mixture-of-Experts（MoE）架构的大型语言模型在没有相应计算量增加的情况下显著提升了模型容量。然而，这种方法也引入了一些挑战，尤其是在GPU之间的通信方面。在MoE模型中，对于任何给定的token，只有一部分专家是活跃的，因此在设备之间高效地交换数据至关重要。传统的全对全（all-to-all）通信方法可能会造成瓶颈，增加延迟，并导致GPU资源利用不足。在对延迟敏感的场景中，

强哥之神·2025-03-01 01:37

使用YOLOv8训练自己的数据集：详细教程

使用YOLOv8训练自己的数据集：详细教程引言YOLOv8是Ultralytics团队开发的新一代目标检测算法，以其高效的性能和简洁的API而闻名。

zru_9602·2025-02-28 22:52

谁说消费级硬件不能玩 DeepSeek - R1 微调？手把手教你进阶AI玩家

微调像DeepSeek-R1这样的大规模人工智能模型可能需要大量资源，但借助正确的工具，在消费级硬件上进行高效训练是可行的。

硅基创想家·2025-02-28 22:51

谈谈DeepSeek-v3在算力约束下的出色工作

在算力约束下的出色工作原创渣Bzartbot2024年12月28日22:52上海寒冷的周末,加完班挤点时间读个论文吧.Deepseek-v3仅用了2048块H800GPU就超越了Llama3405B模型,要知道Meta训练

强化学习曾小健·2025-02-28 22:19

PyTorch 常见的损失函数：从基础到大模型的应用

PyTorch常见的损失函数：从基础到大模型的应用在用PyTorch训练神经网络时，损失函数（LossFunction）是不可或缺的“裁判”。

阿正的梦工坊·2025-02-28 22:19

DeepSeek五天开源5大杀器实测：训练成本砍半+推理速度起飞，算法圈已疯（附删库跑路教程）

算法圈惊呼：训练成本腰斩，AGI进度条拉爆！根本学不完，学不完速删祖传代码，GitHub星链已就位：https://github.com/deepseek-aiDay1：FlashMLA（

AI仙人掌·2025-02-28 22:18

目标检测YOLO实战应用案例100讲-面向无人机图像的小目标检测

目录知识储备YOLOv8无人机拍摄视角小目标检测数据集结构环境部署说明安装依赖模型训练权重和指标可视化展示训练YOLOv8PyQt5GUI开发主窗口代码main_window.py使用说明无人机目标跟踪一

林聪木·2025-02-28 19:00

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

本文目录如下：目录1概述2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献4Python代码、数据、文章1概述文献来源：根据微电网或微能源网是否与主电网相连接，可将其分为并网型和独立型

@橘柑橙柠桔柚·2025-02-28 19:58

基于深度学习的SSD口罩识别项目完整资料版（视频教程+课件+源码+数据）

算法原理回顾.mp403数据集收集.mp404自定义数据集.mp405生成anchors.mp406展示anchors.mp407计算iou值.mp408计算target.mp409定义模型.mp410模型训练

AI方案2025·2025-02-28 18:54

2.8 通过微调提升模型的准确度与效率-大模型ACP模拟题-真题

A.通过低秩矩阵间接影响模型行为B.会直接修改原始模型权重✅C.支持参数回退操作D.训练效率高于全参微调解析：LoRA通过添加额外参数而非修改原权重实现微调当训练过程中出现

admin皮卡·2025-02-28 17:12

基于Python实现的【机器学习】小项目教程案例

以下是一个基于Python实现的【机器学习】小项目教程案例，结合的经典案例与最佳实践，涵盖数据预处理、模型训练与评估全流程，并附详细代码说明与结果分析：案例1：鸢尾花分类（SVM算法）数据集：IrisDataset

xinxiyinhe·2025-02-28 16:03

【AI论文】SongGen：用于文本到歌曲生成的单阶段自回归Transformer模型

现有方法通常采用多阶段生成流程，导致训练和推理过程繁琐。在本文中，我们提出了SongGen，一个完全开源的单阶段自回归Transformer模型，专为可控歌曲生成而设计。

东临碣石82·2025-02-28 15:58

低代码革命：基于DeepSeek微调模型实现前端代码自动生成与私有JS API调用的实战指南

从模型训练、代码生成到API集成，提供全面的实战方法论，结合CodeBLEU评估指标与异步调用优化技巧，确保代码质量与执行效率。

Light60·2025-02-28 15:58

Python深度学习实践：使用TensorFlow构建图像分类器

我们将深入探讨卷积神经网络（CNN）的基本原理，实现一个能够识别MNIST手写数字的数据集模型，并通过实战代码演示整个过程，最终展示模型的训练与评估。

Evaporator Core·2025-02-28 13:42

DeepSeek掘金——DeepSeek R1架构和训练过程图解

DeepSeek掘金——DeepSeekR1架构和训练过程图解为了让一切变得简单，我们将使用手绘流程图和简单的计算来帮助从头开始澄清DeeoSeek-R1的核心概念。

不二人生·2025-02-28 12:09

深度学习进阶：构建多层神经网络

我们还会使用更复杂的分类任务来训练模型，并评估其性能。1.多层神经网络的结构在实际应用中，深度学习模型通常包含多个隐藏层，这种结构被称为深度神经网络（DNN）。多层神经网络能够学习更

孤寂大仙v·2025-02-28 12:37

大模型调优方法：提示工程、RAGs 与微调对比

就算是强大的预训练LLM也可能无法直接满足项目中的特定需求。

AI大模型探索者·2025-02-28 11:03

实现一个 RDMA 用户态驱动程序

实际上，高性能、易维护、易定制的网络基础设施对于提升AI训练、推理的效率是至关重要的一环。

·2025-02-28 11:17

pytorch基础-layernormal 与 batchnormal

nn.LayerNorm（层归一化）和nn.BatchNorm（批量归一化）是深度学习中常用的两种归一化方法，都有助于提高模型的训练效率和稳定性，但它们在归一化维度、应用场景、计算方式等方面存在明显区别

yuweififi·2025-02-28 10:49

通过TensorFlow实现简单深度学习模型（2）

前文我们已经实现了对每批数据的训练，下面继续实现一轮完整的训练。完整的训练循环一轮训练就是对训练数据的每个批量都重复上述训练步骤，而完整的训练循环就是重复多轮训练。

yyc_audio·2025-02-28 10:47

Pytorch使用手册—使用TACOTRON2进行文本到语音转换（专题二十四）

一、概述本教程展示了如何使用torchaudio中的预训练Tacotron2构建文本到语音的管道。文本到语音的管道流程如下：文本预处理首先，输入的文本被编码为一系列符号。

AI专题精讲·2025-02-28 09:43

Transformer 代码剖析2 - 模型训练（pytorch实现）

参数统计函数defcount_parameters(model):returnsum(p.numel()forpinmodel.parameters()ifp.requires_grad)遍历模型参数筛选可训练参数统计参数数量返回总数技术解析

lczdyx·2025-02-28 09:38

Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记

LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练

Im Bug·2025-02-28 07:24

神经网络中的Adagrad

Adagrad（AdaptiveGradient）是一种自适应学习率的优化算法，专门设计用于在训练过程中自动调整每个参数的学习率。

化作星辰·2025-02-28 07:53

DeepSeek R1 简单指南：架构、训练、本地部署和硬件要求

DeepSeek推出的LLM推理新策略DeepSeek最近发表的论文DeepSeek-R1中介绍了一种创新的方法，通过强化学习（RL）提升大型语言模型（LLM）的推理能力。这项研究在如何仅依靠强化学习而不是过分依赖监督式微调的情况下，增强LLM解决复杂问题的能力上，取得了重要进展。DeepSeek-R1技术概述模型架构DeepSeek-R1不是一个单独的模型，而是包括DeepSeek-R1-Zer

爱喝白开水a·2025-02-28 07:52

JavaScript BOM（浏览器对象模型）与 `setTimeout` 函数：控制浏览器行为的利器

`setTimeout`函数：实现延时操作⏳基本语法：示例：基本使用`setTimeout`返回值：定时器ID示例：取消定时器`setTimeout`的实际应用`setTimeout`的注意事项⚠️小结

人才程序员·2025-02-28 06:15

【python 机器学习】sklearn ROC曲线与AUC指标

通俗介绍：学术解释：2.在`sklearn`中绘制ROC曲线与计算AUC2.1导入库和数据2.2加载数据集2.3训练模型2.4预测概率2.5计算FPR、TPR和AUC2.6绘制ROC曲线3.解析ROC曲线和

人才程序员·2025-02-28 06:11

月之暗面改进并开源了 Muon 优化算法，对行业有哪些影响？

互联网各领域资料分享专区(不定期更新)：Sheet正文月之暗面团队改进并开源的Muon优化算法在深度学习和大模型训练领域引发了广泛关注，其核心创新在于显著降低算力需求（相比AdamW减少48%的FLOPs

互联网之路.·2025-02-28 05:11

深度解析：大模型开源的真与假

目录大模型企业开闭源策略各异开源大模型的定义与现状开源内容的局限性通常开放的内容实际未开放的关键内容法律与商业模式的约束开源许可证的重要性大模型的定制许可证及其限制性条款商业公司对开源大模型的策略和目的建立生态系统吸引开发者提升品牌形象保持竞争优势技术创新和改进技术与协助开发的挑战训练和推理过程的资源需求差异微调和衍生模型的技术实现及其局限性开源大模型在协作开发中的局限总结大模型的发展开启了

rs勿忘初心·2025-02-28 05:39

DeepSeek开源周第二弹：DeepEP如何用RDMA+FP8让MoE模型飞起来？

一、引言：MoE模型的通信瓶颈与DeepEP的诞生在混合专家（MoE）模型训练中，专家间的全对全（All-to-All）通信成为性能瓶颈。

曦紫沐·2025-02-28 04:03

利用DSPy优化LangChain RAG系统的实战指南

具体来说，DSPy编译器会在内部追踪你的程序，然后为大型语言模型（LLMs）创建高质量的提示（或为小型LLMs训练自动微调），以教会它们任务的步骤。

scaFHIO·2025-02-28 04:01

使用LangChain与GPT4All模型进行交互

核心原理解析GPT4All是基于大型语言模型（LLMs）的开源项目，通过训练大量干净的数据，能够生成高质量的对话和回答。LangChain是一种用于简化与

bavDHAUO·2025-02-28 04:28

前言：什么是大模型微调

大模型微调（Fine-tuning）是指在预训练模型的基础上，针对特定的任务或数据集进行进一步训练的过程。预训练模型通常在大规模的通用数据上训练，具备广泛的语言理解和生成能力。

伯牙碎琴·2025-02-28 04:26

android——Livedata、StateFlow、ShareFlow和Channel的介绍和使用

目录一、LiveData介绍二、StateFlow介绍三、ShareFlow介绍四、Channel介绍小结一、LiveData介绍LiveData是一种在Android开发中用于观察数据变化的组件。

wy313622821·2025-02-28 04:56

游戏语音趋势解析，社交互动有助于营造沉浸式体验

OpenAI的ChatGPT语音模式将语音转语音技术变成了现实，引入了基于音频和文本信息进行端到端预训练的模型，这些模型除了文本标记外，还能原生理解和生成音频。

网易数智·2025-02-28 03:22

深度学习模型优化与医疗诊断应用突破

当前研究聚焦于迁移学习与模型压缩算法的协同创新，通过复用预训练模型的泛化能力与降低计算负载，有效解决了医疗数据样本稀缺与硬件资源受限的痛点问题。

智能计算研究中心·2025-02-28 02:44

ZeRO分布式训练策略

ZeRO分布式训练策略详解一、核心设计原理ZeRO（ZeroRedundancyOptimizer）是微软提出的分布式训练优化框架，与传统数据并行方法不同，ZeRO通过将模型的参数、梯度和优化器状态分散到多个设备上

AIGC_ZY·2025-02-28 02:13

《揭秘机器学习中的交叉验证：模型评估的基石》

交叉验证的核心意义抵御过拟合风险在机器学习的训练过程中，模型可能会过度适应训练数据的细节和噪声，从而在新数据上表现不佳，这就是过拟合现象。交叉验证通过将数据集划分为多个子集，模型在不同子集上

·2025-02-28 01:03

扩散模型基本概念

1.核心思想从最原始的DDPM来讲，扩散模型是用变分估计训练的马尔可夫链，相当于VAE+流模型。与标准化流相比，扩散模型的正向过程为预先定义的加噪过程，负责将图像x∼p(x)x\sim{p(x)}x∼

AndrewHZ·2025-02-28 00:57

利用GPT开发应用005：Codex、Turbo、ChatGPT、GPT-4

它们是通过截至2021年6月的数据进行训练的，并被描述为比之前版本更强大。到2022年11月底，OpenAI开始将这些模型称为GPT-3.5系列的一部分。 Codex系列模型

翰墨之道·2025-02-28 00:56

ASFF算法

这种不一致性干扰了训练过程中的梯度计算，降低了特征金字塔的有效性。4.这个问题存在的原因：当一个对象在某一层特征图中被赋值并被视为正值时，其他层特征图

神笔馬良·2025-02-28 00:21

最全中文对话数据集（不定期更新）

为了提升对话系统的性能，需要大量的高质量对话数据来训练和优化模型。然而，中文对话数据相对于英文来说较为稀缺，且质量参差不齐，这限制了中文对话系统的发展。

数据猎手小k·2025-02-27 22:06

【保姆级视频教程（二）】YOLOv12训练数据集构建：标签格式转换-划分-YAML 配置避坑指南 | 小白也能轻松玩转目标检测！

【2025全站首发】YOLOv12训练数据集构建：标签格式转换-划分-YAML配置避坑指南|小白也能轻松玩转目标检测！

一只云卷云舒·2025-02-27 21:03

DeepSeek全栈接入指南：从零到生产环境的深度实践

第一章：DeepSeek技术体系全景解析1.1认知DeepSeek技术生态DeepSeek作为新一代人工智能技术平台，构建了覆盖算法开发、模型训练、服务部署的全链路技术栈。

量子纠缠BUG·2025-02-27 21:30

2025，AI变现有哪些机遇与挑战？

与此同时，我国大模型领域仍然存在多方面痛点，例如：云端训练成本高、高端算力存在“卡脖子”风险、优质数据匮乏、人才缺口、AI算法开源生态仍需强化、数据安全和隐私问题等等，仍是市场

Imagination官方博客·2025-02-27 19:41

推荐频道