2022ACM暑假训练第2页

生成对抗网络（GAN）的高级变体及在图像生成领域的创新实践

本文深入探讨了GAN的多种高级变体，如CycleGAN、StyleGAN等，详细分析它们在结构设计、训练机制上的创新之处，阐述其在生成高分辨率、多样化图像时具备的独特优势，并结合丰富的实际案例，展示这些变体在图像生成领域的卓越应用成果

算法探索者·2025-03-23 08:08

一文说清预训练与微调：AI的双重训练法则

什么是预训练？预训练是大型语言模型训练的第一步。它在资金和计算能力的支持下，通过深入分析大量的文本数据，使模型建立起语言的基本构架。

TGITCIC·2025-03-23 07:02

介于YOLOv5的裂缝识别系统

系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。

程序员～小强·2025-03-23 06:49

Python预训练模型实现俄语音频转文字

Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调

啥都鼓捣的小yao·2025-03-23 05:03

蓝桥杯——算法训练——粘木棍

输出格式一行一个整数，表示最小的差距样例输入32102040样例输出10数据规模和约定N,M<=7packagecom.study.蓝桥杯.算法训练;importjava.util.Arrays;importjava.util.Scanner

大柠丶·2025-03-23 05:02

蓝桥杯——算法训练——共线

问题描述给定2维平面上n个整点的坐标，一条直线最多能过几个点？输入格式第一行一个整数n表示点的个数以下n行，每行2个整数分别表示每个点的x,y坐标。输出格式输出一个整数表示答案。样例输入50011220323样例输出3数据规模和约定n<=1500，数据保证不会存在2个相同的点。点坐标在int范围内importjava.util.Scanner;/***@authorsjn*@date2022-2-

大柠丶·2025-03-23 05:32

基于Python编程语言实现“机器学习”，用于车牌识别项目

对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理

我的sun&shine·2025-03-23 04:57

关于forward函数

在训练和验证过程中都会被调用。特点必须实现：在PyTorch中，forward函数是模型的核心部分，必须显式定义。灵活性高：可以根据模型需要，自由定义forward函数的内容，包括各种计算操作。

oioz·2025-03-23 04:52

卷积神经网络Batch Normalization的作用

BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少

arron8899·2025-03-23 03:11

深入了解盘古大模型：技术、应用与未来

随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。

Hardess-god·2025-03-23 02:10

NLP高频面试题（七）——GPT和Bert的mask有什么区别？

GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。

Chaos_Wang_·2025-03-23 02:35

知识图谱中NLP新技术

以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入

魔王阿卡纳兹·2025-03-23 02:34

解析大模型归一化：提升训练稳定性和性能的关键技术

它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。

秋声studio·2025-03-23 00:19

PyTorch数据归一化处理：transforms

torchvision*torchvision.transforms：常用的图像预处理方法*torchvision.datasets：常用的数据集Dataset实现*torchvision.models：常用的CV（预训练

2401_87555420·2025-03-22 23:48

C++基础系列【26】排序和查找算法

游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧

程序喵大人·2025-03-22 23:15

深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践

二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在

古月居GYH·2025-03-22 22:43

CBNet--一种新的目标检测的复合骨干网体系结构

一、Introduction一般来说，在一个典型的基于CNN的目标检测器中，使用主干网络来提取检测对象的基本特征，该网络通常是为图像分类任务而设计的，并在ImageNet上预训练。

weixin_45963617·2025-03-22 22:43

深入探讨盘古大模型的高精度多尺度能力

一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能

Hardess-god·2025-03-22 22:40

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

用上该算法后，Qwen2.5-32B模型只经过RL训练，不引入蒸馏等其他技术，在AIME2024基准上拿下50分，优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen，且

·2025-03-22 22:24

如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测

如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测文章目录1.安装依赖2.数据准备3.配置YOLOv83.1

计算机C9硕士_算法工程师·2025-03-22 22:08

MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导

前文请移步笔者的另一篇博客：大模型训练为什么选择交叉熵损失（Cross-EntropyLoss）：均方误差（MSE）和交叉熵损失的深入对比MSE分类时梯度消失的问题详解我们深入探讨MSE（均方误差）的梯度特性

阿正的梦工坊·2025-03-22 21:34

一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！

前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。

小城哇哇·2025-03-22 20:26

anythingLLM 使用教程

与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。

惟贤箬溪·2025-03-22 19:24

深度解析大模型推理框架：原理、应用与实践

该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析

百度_开发者中心·2025-03-22 19:24

大模型推理框架：从理论到实践的全面解析

然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。

百度_开发者中心·2025-03-22 19:23

回归任务训练--MNIST全连接神经网络（Mnist_NN）

importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname

豆芽819·2025-03-22 18:10

《南京日报》专题报道 | 耘瞳科技“工业之眼”加码“中国智造”

在江宁开发区，机器人已不再是科幻电影里的遥远想象，他们就像人类的“同事”，在工地上忙着贴砖、刷墙、搬运、检测；在体育训练场上帮助运动员矫正姿势；在医院里帮助医生发现帕金森早期征兆，在智慧工厂里与人类分工协作

耘瞳科技·2025-03-22 17:04

双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？

同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名

程序员yt·2025-03-22 16:31

大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB

视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源

爱串门的小马驹·2025-03-22 16:29

MiniMind：完全从 0 训练自己的大模型

其目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型，最低仅需2G显卡即可推理训练！

三花AI·2025-03-22 15:49

MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！

哈罗·沃德·2025-03-22 15:19

minimind2学习：（1）训练

1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6

溯源006·2025-03-22 14:47

Stacking算法：集成学习的终极武器

1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来

civilpy·2025-03-22 14:16

MiniMind

数据集分类：tokenizer训练集：这个数据集用于训练分词器（tokenizer），是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。

亚伯拉罕·黄肯·2025-03-22 14:46

直方图梯度提升：大数据时代的极速决策引擎

但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树

万事可爱^·2025-03-22 14:14

【集成学习】：Stacking原理以及Python代码实现

总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容

Geeksongs·2025-03-22 14:14

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化

一个处女座的程序猿·2025-03-22 14:43

【业务场景实战】数据增量同步

时间过得真快，又是一年求职季，再过几个月我也要找暑假实习了，最近比较忙加上自身状态也不是很好，导致我的博客断更了很长时间。之后我尽量每周一更，好了，今天我们来讲讲关于数据增量同步。

仰望-星空~~·2025-03-22 13:32

DeepSpeed-Chat：Reward Model【奖励模型】

但是，RM和SFT微调之间存在几个关键差异：训练数据差异：对于SFT微调，数据是查询（query）和答案（answer）拼接在一起。

u013250861·2025-03-22 13:31

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践

本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解

蒙娜丽宁·2025-03-22 13:29

从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练

前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。

AI大模型探索者·2025-03-22 12:50

PyTorch基础知识讲解（一）完整训练流程示例

文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型

苏雨流丰·2025-03-22 12:20

yolov8实战第七天——pyqt5-yolov8实现车牌识别系统（参考论文（约7000字）+环境配置+完整部署代码+代码使用说明+训练好的模型）

基于pyqt5-yolov8实现车牌识别系统，包括图片车牌识别，视频车牌识别，视频流车牌识别。效果展示（图片检测，检测到的内容添加到历史记录）：效果展示（视频检测，视频车辆只会添加一条记录，下文更多实际应用中的优化策略）：新增功能：批量图片检测（2024/5/7更新代码）

学术菜鸟小晨·2025-03-22 11:48

TensorFlow和Pytorch在功能上的区别以及优势

优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。PyTorch：使用动态计算图（DynamicGraph）。

Honeysea_70·2025-03-22 10:09

Pytorch使用手册-DCGAN 指南（专题十四）

我们将训练一个生成对抗网络（GAN），在给它展示大量真实名人照片后，它能够生成新的“名人”图片。

AI专题精讲·2025-03-22 08:43

蓝桥杯动态规划实战：从数字三角形到砝码称重

适合人群：蓝桥杯备考生|算法竞赛入门者|DP学习实践者目录一、我的动态规划入门之路1.数字三角形：经典DP首战告捷2.砝码称重：背包问题的变形二、蓝桥杯高频算法考点三、蓝桥杯DP专项训练题四、备考建议一

藍海琴泉·2025-03-22 06:22

【AI大模型应用开发】【RAG评估】0. 综述：一文了解RAG评估方法、工具与指标

微信公众号也可搜【同学小张】本站文章一览：前面我们学习了RAG的基本框架并进行了实践，我们也知道使用它的目的是为了改善大模型在一些方面的不足：如训练数据不全、无垂直领域数据、容易出现幻觉等。

同学小张·2025-03-22 05:43

【论文阅读】PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT

PERSONALIZESEGMENTANYTHINGMODELWITHONESHOT原文摘要研究背景与问题：SAM是一个基于大规模数据预训练的强大提示框架，推动了分割领域的发展。

s1ckrain·2025-03-22 04:42

DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析

DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts

Coderabo·2025-03-22 04:41

代码随想录算法训练营第八天| 344 反转字符串、541 反转字符串II

这两天开的是字符串专题，我准备在做题的时候用C++做一遍，再用C做一遍，因为一直刷leetcode用的都是C++，导致C的基础太薄弱了，之后工作中有可能用到C，相当于再复习复习一、Leetcode344反转字符串题目链接：Leetcode344反转字符串这道题很简单，这才是真正的简单题voidreverseString(char*s,intsSize){intleft=0,right=sSize-

Anjoubecoding·2025-03-22 04:33

推荐频道

2022ACM暑假训练