USACO训练题集

Yuan 2.0-M32 是一个基于 Yuan 2.0 架构的双语混合专家 (MoE) 语言模型，旨在以更少的参数和计算量实现更高的准确率

高效计算：使用MoE架构，40B总参数中仅有3.7B激活参数，训练计算消耗仅为同规模密集模型的9.25%，推理成本与3.7B参数的密集模型相当。

东方佑·2025-02-04 06:01

【分割评价指标-nnUNet V2训练】- AutoDL

目录一、DSC二、IOU三、VOE(VolumeOverlapError)四、RVD(RelativeVolumeDifference)五、Hausdorff95(95thPercentileofHausdorffDistance)六、ASSD(AverageSymmetricSurfaceDistance)七、MSD(MeanSurfaceDistance)八、NSD(NormalizedSur

HUI 别摸鱼了·2025-02-04 05:00

PyTorch 训练一个分类器

文章目录0前言1加载和规范化CIFAR102定义一个卷积网络3定义损失函数和优化器4训练网络5测试网络6在GPU上训练模型参考资料0前言 TRAINGINGACLASSIFIER这篇教程很清楚的描述了如何使用

亚里·2025-02-04 05:59

蓝桥杯——试题集——入门训练

入门训练BEGIN-1A+B问题问题描述输入A、B，输出A+B。输入格式输入的第一行包括两个整数，由空格分隔，分别表示A、B。输出格式输出一行，包括一个整数，表示A+B的值。

唐煜鑫·2025-02-04 04:54

蓝桥杯训练1——缩位求和

缩位求和例如123输出为6n=int(input())lst=list(str(n))sum=0foriinlst:sum+=int(i)whilesum>=10:s=0lst1=list(str(sum))foriteminlst1:s+=int(item)sum=sprint(s)

会编程的小孩·2025-02-04 04:52

python中keras_Python深度学习——keras（一）

大多数深度学习，都是将若干个简单的层给链接起来，实现渐进式的数据过滤，也就是数据蒸馏(过滤到一定程度就等同于蒸馏)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist

weixin_39534321·2025-02-04 04:48

Solidity/Rust 实战 —— Web3 开发者免费训练营（第 21 期）

HackQuest第21期Solidity/Rust共学营即将开营！Solidity/Rust共学营信息清单7月23日-8月1日免费（成功结营的小伙伴还将获得专属周边）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书主办社区:HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前，HackQuest组织的共学营已达20期

·2025-02-04 03:50

Move on Sui 实战 —— Web3 开发者免费训练营「第22期」

HackQuest第22期MoveonSui共学营即将开营！MoveonSui共学营信息清单7月31日-8月8日免费（成功结营的小伙伴还将获得Sui基金会提供的奖金）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书关于HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前我们的产品仍处于内测阶段，我们计划招募小伙伴们一起

·2025-02-04 03:50

机器学习笔记20241017

文章目录torchvisiondataloadernn.module卷积非线性激活模型选择训练误差泛化误差正则化权重衰退的基本概念数学表示权重衰退的效果物理解释数值稳定性（GradientVanishing

tt555555555555·2025-02-04 03:11

Transformer预测模型及其Python和MATLAB实现

这些模型虽然在许多任务中取得了成功，但由于其计算效率低下以及长距离依赖关系处理的不足，导致模型训练时间漫长，并在处理较长文本时效果不佳。

追蜻蜓追累了·2025-02-04 03:10

0仰望星空007·2025-02-04 02:36

MOE模型入门

如何训练、微调MOE模型？基础架构优缺点不同MOE模型实现方式、训练方法二、实现定义：MOE架构MOE:混合专家模型，多个专家共同决策的模型。

云帆@·2025-02-04 01:29

本周AI动态：生成型AI的命运掌握在法院手中

诉讼声称，Udio和Suno在未经音乐公司同意的情况下，使用这些公司的音乐训练生成型AI模型，要求每首涉嫌侵权的作品赔偿15万美元。唱片公司在投诉中表示，“合成音乐输出可能会使市场充斥机器生成的

·2025-02-04 00:15

Solidity/Rust 实战 —— Web3 开发者免费训练营（第17期）

HackQuest第17期Solidity/Rust共学营即将开营！Solidity/Rust共学营信息清单6月18日-6月27日免费（成功结营的小伙伴还将获得专属周边）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书关于HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前我们的产品仍处于内测阶段，我们计划招募小伙伴们

·2025-02-04 00:44

DeepSeek的出现对全球GPT产业产生的冲击

特别是以GPT（GenerativePre-trainedTransformer）系列模型为代表的大规模预训练语言模型，已经在全球范围内引发了广泛关注和应用。

不要em0啦·2025-02-03 23:07

python 图像特征提取_python实现LBP方法提取图像纹理特征实现分类的步骤

题目描述这篇博文是数字图像处理的大作业.题目描述:给定40张不同风格的纹理图片,大小为512*512,要求将每张图片分为大小相同的9块,利用其中的5块作为训练集,剩余的4块作为测试集,构建适当的模型实现图片的分类

weixin_39969060·2025-02-03 22:28

打架检测系统：基于YOLOv5的实时人群打架行为识别

本博客将详细介绍如何使用YOLOv5模型搭建一个打架检测系统，包含数据集准备、YOLOv5训练、UI界面设计以及优化和部署

2025年数学建模美赛·2025-02-03 21:56

A deep multimodal fusion method for personality traits prediction

研究方法模型架构：视觉特征提取：使用预训练模型ViT-B16和VGG16。音频特征提取：使用预训练模型VGGish。文本分析：使用预训练模型GloVe。

m0_59933522·2025-02-03 21:20

Qwen2.5-Max

Qwen2.5-Max是阿里巴巴于2024年1月29日发布的一款旗舰级人工智能模型，基于混合专家（MoE）架构开发，拥有超过20万亿tokens的超大规模预训练数据。

百态老人·2025-02-03 20:18

DeepSeek R1 AI 论文翻译

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。

·2025-02-03 20:09

代码随想录算法训练营Day51 | 101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿

文章目录101.孤岛的总面积思路与重点102.沉没孤岛思路与重点103.水流问题思路与重点104.建造最大岛屿思路与重点101.孤岛的总面积题目链接：101.孤岛的总面积讲解链接：代码随想录状态：直接看题解了。思路与重点nextx或者nexty越界了则说明当前的x或y处于边界处，所以当前的岛不是孤岛，不能记入总面积。#include#includeusingnamespacestd;intdir[

Harryline-lx·2025-02-03 19:43

Ubuntu16.04环境下安装cuda10+pytorch1.2

1、背景环境：Ubuntu16.04&titanx作为新一代的人工智能训练平台的PYTORCH，有其独特的优势，为此，完整的安装这一平台，是开展所有工作的首要条件，一开始，笔者认为应该轻松的完成，但是发现实际上要从零完成这一工作

小楼昨夜，东风·2025-02-03 19:11

【PyTorch】6.张量运算函数：一键开启！PyTorch 张量函数的宝藏工厂

它作为强大的深度学习框架，为构建和训练神经网络提供了高效且灵活的平台。神经网络作为人工智能的核心技术，能够处理复杂的数据模式。

Icomi_·2025-02-03 19:39

机器学习—大语言模型：推动AI新时代的引擎

2.Transformer架构3.模型训练二、大语言模型的应用场景1.文本生成2.问答系统3.编码助手4.多语言翻译三、大语言模型的最新进展1.GPT-42.开源模型四、构建和部署一个简单的大语言模型1

云边有个稻草人·2025-02-03 19:38

4、PyTorch 第一个神经网络，手写神经网络的基本部分组成

以下实例展示了如何使用神经网络完成简单的二分类任务，为更复杂的任务奠定了基础，通过PyTorch的模块化接口，神经网络的构建、训练和可视化都非常直观。

找个栗子·2025-02-03 19:35

DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力

工作原理：主要技术，就是训练出一些专有用途小模型，来帮助大模型训练。主要技术：1.强化学习(RL)核心是强化学习技术，像训练小狗一样，当模型做出正确的推理步骤或得到正确的

davenian·2025-02-03 18:56

Apache Iceberg数据湖技术在海量实时数据处理、实时特征工程和模型训练的应用技术方案和具体实施步骤及代码

ApacheIceberg在处理海量实时数据、支持实时特征工程和模型训练方面的强大能力。Iceberg支持实时特征工程和模型训练，特别适用于需要处理海量实时数据的机器学习工作流。

weixin_30777913·2025-02-03 15:07

线性回归的简单实现

本文是《动手学深度学习》的笔记文章目录线性回归的简单实现生成随机数据集读取数据初始化模型参数定义模型定义损失函数定义优化算法训练模型线性回归的简洁实现生成数据集读取数据定义模型初始化模型参数定义损失函数定义优化算法训练模型线性回归的简单实现用了

SkaWxp·2025-02-03 14:58

初入机器学习

辰尘_星启·2025-02-03 14:54

深度学习：基于MindNLP的RAG应用开发

与传统LLM的区别：传统LLM仅依赖预训练参数中的静态知

Landy_Jay·2025-02-03 13:47

跟李沐学AI：视频生成类论文精读（Movie Gen、HunyuanVideo）

MovieGen：ACastofMediaFoundationModels简介MovieGen是Meta公司提出的一系列内容生成模型，包含了3.2.1预训练数据MovieGen采用大约100M的视频-文本对和

Landy_Jay·2025-02-03 13:16

TensorFlow：tensorflow.keras.Model.fit（）报错： TypeError: Failed to convert elements of xxx

一、问题在使用TensorFlow进行数据训练的时候，报了下面这样的一个错误。

向小凯同学学习·2025-02-03 12:45

拼多多2025届校招开起，无拼不青春，欢迎加入！！！

部门是做硅片对专项练习训练营打卡第一天专项练习训练营打卡第一天实习大家好，我现在是大三暑假，刚刚找到一个实习Linux开发工程师，是第一份实习，现在有必要去吗？

愤怒的小青春·2025-02-03 12:14

Mixture of Experts（MoE）学习笔记

不过在这之后开源社区并没有对MoE架构进行很多的探索，更多的工作还是聚焦在预训练新的大模型，在Llama2或其他模型上做Fine-tune，以及扩展大模型的ContextLength。12月8号

南七小僧·2025-02-03 12:44

使用支持向量机和朴素贝叶斯对文本分类

1.2SVC的用法及参数通过以下方式创建SVC对象并进行训练：fromsklearn.svmimport

SSeaflower·2025-02-03 09:10

Megatron：深度学习中的高性能模型架构

Megatron：深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架，主要针对大规模Transformer架构模型的高效训练与推理。

gs80140·2025-02-03 08:06

tf.Keras (tf-1.15)使用记录4-model.fit方法及其callbacks参数

model.fit()方法是TensorFlowKeras中用于训练模型的核心方法。

普通攻击往后拉·2025-02-03 07:32

Python机器学习实战：人脸识别技术的实现和挑战

Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,

AI天才研究院·2025-02-03 06:19

谷歌Gemini1.5火速上线：MoE架构，100万上下文

Gemini1.5建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合(MoE)架构使Gemini1.5的训练和服务更加高效。

AI生成曾小健·2025-02-03 06:18

代码随想录算法训练营Day38||完全背包问题、leetcode 518. 零钱兑换 II 、 377. 组合总和 Ⅳ 、70. 爬楼梯（进阶）

一、完全背包问题相较于01背包，完全背包的显著特征是每个物品可以用无数次，遍历顺序也不需要为了保证每个物品只去一次而倒序遍历。#include#includeusingnamespacestd;intmain(){intN,V;cin>>N>>V;vectorweight(N+1,0);vectorvalue(N+1,0);for(inti=0;i>weight[i]>>value[i];}vec

jiegongzhu3z·2025-02-03 05:15

【TIMM应用】timm加载模型create_model，使用本地预训练模型

timm加载模型create_model使用本地预训练模型1.常规方式，从https://huggingface.co/上下载1-1.timm库中create_model函数的用法1.最简单的用法2.查看可以直接创建的预训练模型列表

pen-ai·2025-02-03 03:29

AI模型升级版0.02

根据您的需求，我将提供一个升级版的AI对话模型的实现代码，该模型可以在Windows上运行，并支持训练和微调。我们将使用HuggingFace的transformers库和torch库来实现这个目标。

pps-key·2025-02-03 02:51

VARGPT：将视觉理解与生成统一在一个模型中，北大推出支持混合模态输入与输出的多模态统一模型

技术原理：基于自回归框架，采用三阶段训练策略，

蚝油菜花·2025-02-03 02:18

【代码随想录训练营】【Day01】第一章｜数组｜数组理论基础｜704.二分查找｜27.移除元素

数组理论基础数组是在编程中非常常见的数据存储结构，主要有以下几个特点：数组的存储地址是一片连续的空间数组中存储的元素都是相同类型的修改数组中某一元素的值时，只能覆盖（重新赋值）更多有关数组的理论基础可查阅：《代码随想录》数组理论基础704.二分查找题目详细：LeetCode.704注意：二分查找对数据样本有明确的要求，即数组中的元素是有序的，所以在今后遇到类似于“在有序的数据样本中查找某一目标数据

蚝油菜花·2025-02-03 02:48

【代码随想录训练营】【Day03】第二章｜链表｜链表理论基础｜203.移除链表元素｜707.设计链表｜206.反转链表

链表理论基础链表的结构类似于一串珠子，每一颗珠子就相当于链表上的一个节点；每一个节点则由数据域和指针域构成，数据域用于存放数据，指针域用于指向其它一个节点或空节点（链表尾部）。链表与数组的主要区别在于：数组是在内存中是连续分布的，但是链表在内存中不是连续分布的。数组在定义的时候，长度就是固定的，如果想改动数组的长度，就需要重新定义一个新的数组。链表的长度是不固定的，可以进行动态增删，适合数据量不固

蚝油菜花·2025-02-03 02:45

代码随想录训练营Day3|Leetcode 203.移除链表元素 Leetcode 707.设计链表 Leetcode 206.反转链表

编程语言：C#链表定义*publicclassListNode{*publicintval;*publicListNodenext;*publicListNode(intval=0,ListNodenext=null){*this.val=val;*this.next=next;*}*}Leetcode203.移除链表元素题目链接：203.移除链表元素-力扣（LeetCode）题意：删除链表中等于

?��??·2025-02-03 01:44

DeepSeek-V2：强大、经济、高效的专家混合语言模型

//gitcode.com/gh_mirrors/de/DeepSeek-V2项目介绍DeepSeek-V2是一款强大的专家混合（Mixture-of-Experts,MoE）语言模型，以其经济高效的训练和推理能力著称

乌芬维Maisie·2025-02-03 01:12

DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别

目录1.各个模型架构2.训练方式3.模型参数与规模4.应用场景5.性能表现6.发布时间7.价格1.各个模型架构DeepSeek-R1：未明确有特殊架构说明，但属于推理模型，可能在Transformer架构基础上针对推理做了优化

fpga和matlab·2025-02-03 01:12

强化学习中的关键模型与算法：从Actor-Critic到GRPO

在生成对抗网络中，生成器和判别器模型在整个训练过程中相互对抗。

·2025-02-02 22:14

从零开始大模型开发与微调：汉字拼音数据集处理

然而，LLM的训练与微调过程往往需要海量的文本数据，而这些数据通常以自然语言形式存在，难以直接用于模型训练。因此，如何从自然语言数据中提取结构

AGI大模型与大数据研究院·2025-02-02 22:43

推荐频道