神经网络-批处理训练第43页

‌双非硕士的抉择：自学嵌入式硬件开发还是深入Linux C/C++走软开？

粉丝提问：老师好，我是双非硕研一电子信息专业,导师搞的神经网络。但我想找好就业的方向，打算自学嵌入式单片机什么的。之前也咨询过别人建议研究生走Linux方向。

程序员yt·2025-02-08 13:16

图神经网络实战（8）——图注意力网络(Graph Attention Networks, GAT)

图神经网络实战（8）——图注意力网络0.前言1.图注意力层原理1.1线性变换1.2激活函数1.3Softmax归一化1.4多头注意力1.5改进图注意力层2.使用NumPy中实现图注意力层3.使用PyTorchGeometric

盼小辉丶·2025-02-08 12:09

动手学图神经网络（12）：MovieLens上的链接回归

MovieLens上的链接回归在MovieLens数据集上进行评分预测的实践过程，包括数据处理、模型构建、训练以及评估等步骤，预测用户对电影的评分（即边的属性值）。

段智华·2025-02-08 11:07

神经网络压缩实验-Deep-compression

首发于个人博客，结合论文阅读笔记更佳实验准备基础网络搭建为了实现神经网络的deepcompression，首先要训练一个深度神经网络，为了方便实现，这里实现一个两层卷积+两层MLP的神经网络classnet

无用技术研究所·2025-02-08 11:06

大语言模型应用指南：Gemini简介

LLM基于深度学习技术，通过训练海量的文本数据，能够理解和生成自然语言，并在各种任务中展现出惊人的能力，例如：文本生成:写作故事、诗歌、新闻报道等机器翻译:将一种语言翻译成另一种语言问答系统:回答用户提出的问题代码生成

AI天才研究院·2025-02-08 11:03

深度学习的文本生成：从seq2seq到GPT2和GPT3

文章目录1.背景介绍1.1序列到序列（seq2seq）模型1.1.1编码器1.1.2解码器1.1.3训练1.2Transformer模型1.2.1自注意力机制1.2.2位置编码1.2.3多头注意力1.2.4

AI天才研究院·2025-02-08 11:33

AI学习指南HuggingFace篇-项目实战：情感分析系统

本文将通过一个完整的项目案例，从数据收集、模型训练到部署，展示HuggingFace在情感分析中的实战应用。二、项目实战：情感分析系统（一）数据收集情感分析通常需要一个包含文本和对应情感标签的数据集。

俞兆鹏·2025-02-08 10:25

大语言模型多token预测技术

传统的基于下一个token预测的训练方法虽简单有效，但在获取语言、世界知识和推理能力方面效率不高。

deepdata_cn·2025-02-08 09:21

【Python】将不规则凸多边形映射到单位正方形

写在前面在机器学习领域常需要将数据归一化后才能进行训练等操作，一维数据很容易处理，但对于二维的不规则数据，则需要一些手段，本文就是用来解决这个问题此外，有时候希望可以用循环遍历一个不规则的二维平面，显然难以直接实现

辰尘_星启·2025-02-08 09:16

AI编程工具合集

OpenAI)这里是一些知名和广泛使用的AI编程工具及其简要介绍：1.框架和库(FrameworksandLibraries)-TensorFlow:由谷歌开发的开源深度学习框架，支持多种平台，适合构建和训练复杂神经网络

109702008·2025-02-08 09:14

深度学习 - 神经网络的原理

##深度学习-神经网络的原理深度学习是机器学习的一个分支，其核心是模拟人脑神经网络的结构和功能，构建多层的神经网络模型，从数据中学习特征并进行预测或分类。**神经网络的基本原理：**1.

test猿·2025-02-08 09:43

GPT-4.0 新手使用教程（保姆级入门）

一、GPT-4.0简介GPT-4.0是OpenAI推出的最新版本的生成式预训练模型，较之前的版本，它在自然语言理解和生成方面有了显著提升。

玩AI的小胡子·2025-02-08 09:42

大模型的训练与应用 | 二十二、DeepSeek API 申请与使用指南

DeepSeekAPI，一个兼容OpenAIAPI格式的强大工具，为开发者提供了丰富的自然语言处理能力。本文将为您展示如何申请和使用DeepSeekAPI，让您能够轻松集成智能对话补全功能。一、DeepSeekAPI概览DeepSeekAPI基于先进的MoE模型，支持对话生成和补全，适用于聊天机器人、虚拟助手等应用场景。二、申请APIKey1）注册DeepSeek平台账号访问DeepSeek平台，

西琴小竹·2025-02-08 06:50

【AI原理解析】— Gemini模型

目录1.模型概述定义特点2.模型基础与架构模型架构模型尺寸3.多模态处理能力输入处理数据处理训练过程4.技术细节与优化预训练上下文长度注意机制5.安全性与编程能力安全性评估编程能力6.模型发布与应用发布时间应用方向

coolkidlan·2025-02-08 06:49

冯诺依曼计算机发展瓶颈,冯诺依曼瓶颈

计算速度的提高，必然会让人感觉到智能的提高，而人脑神经网络传递信号的速度，是否也有可能提高呢？所谓“冯诺依曼瓶颈”，是冯诺依曼架构本身带来的一些限制。

weixin_39747595·2025-02-08 05:14

DeepSeek模型与OpenAI模型原理和技术架构的异同分析

DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理（一）DeepSeekR1DeepSeekR1的核心原理是基于强化学习（RL）的训练方式，其创新之处在于不依赖任何监督微调（SFT

程序猿000001号·2025-02-08 04:10

vLLM显存优化

在使用vLLM框架进行大模型推理时，为了最大程度地减少GPU显存的占用，可以从以下几个方面调整参数和配置：1.调整max_batch_size参数max_batch_size：这是批处理的最大大小。

xnuscd·2025-02-08 04:07

MobileNetV2: Inverted Residuals and Linear Bottlenecks

以下是对这些核心内容的简要概述：MobileNetV2架构设计：提出了一种新的神经网络模块——倒残差结构（InvertedResiduals），其中的快捷连接位于瓶颈层之间。使用轻量级

TAICHIFEI·2025-02-08 03:38

【神经网络搜索】NasBench301 使用代理模型构建Benchmark

【GiantPandaCV导语】本文介绍的是NAS中的一个benchmark-NASBench301,由automl.org组织发表，其核心思想是针对表格型基准存在的不足提出使用代理模型拟合架构与对应准确率。Paper:NAS-Bench-301andThecaseforsurrogatebenchmarksforNeuralArchitectureSearchCode:https://githu

*pprp*·2025-02-08 03:32

NAS（神经架构搜索）基准数据集

在NAS（神经架构搜索）任务中，基准数据集是指专门设计并提供固定的搜索空间、评价指标和预训练结果的数据集，用于公平评估和比较不同NAS算法的表现。

TAICHIFEI·2025-02-08 03:31

说话人识别----技术挑战点

技术挑战点为:与文本无关;说话人识别中的跨信道、噪音;短语音;多说话人、防假冒处理;训练库大小限制;

sunfoot001·2025-02-08 01:54

Chapter4.1 Coding an LLM architecture

4ImplementingaGPTmodelfromScratchToGenerateText4.1CodinganLLMarchitecture4ImplementingaGPTmodelfromScratchToGenerateText本章节包含编写一个类似于GPT的大型语言模型（LLM），这个模型可以被训练来生成类似人类的文本

亲持红叶·2025-02-08 01:53

pyannote 语音活动检测/说话者变化检测/语音重叠检测

这个项目是基于PyTorch的，与webrtcvad有着天壤之别,在嘈杂环境下解决语音活动检测还是得靠神经网络,而webrtcvad在嘈杂状态下是无法工作的，感兴趣的同学可以看一下，或许你们有更好的解决方案

wx:pjcoder·2025-02-08 00:44

基于Pytorch的猫狗分类的代码演练

前段时间在人工智能课上老师给我们介绍了一下卷积神经网络CNN，顺便在课上复现了猫狗分类的相关代码。

摸爬滚打的包菜·2025-02-07 23:09

机器学习算法分类

以下是详细的分类介绍：1.根据学习方式进行分类1.1监督学习(SupervisedLearning)监督学习是指在训练过程中，输入数据（特征）和输出数据（标签）都是已知的。

和风化雨·2025-02-07 23:07

从零学习pytorch——4.基础概念讲解及神经网络模块

从零学习pytorch——4.基础概念讲解及神经网络模块在PyTorch中，nn.Module是构建神经网络模型的基础类。

PyTorch 研习社·2025-02-07 22:05

DeepSeek-V3：低成本高性能的AI代码生成器，开源大模型的又一里程碑

这款拥有6710亿参数的超大规模语言模型，以其低廉的训练成本（仅557万美元）和接近GPT-4o的性能，成为开源大模型领域的又一个里程碑，也为AI代码生成器领域带来了新的可能性。

·2025-02-07 22:52

【AI中数学-信息论-综合实例】缩小AI巨人：大模型神经网络的压缩与裁剪

第六章：信息论-综合实例第二节：缩小AI巨人：大模型神经网络的压缩与裁剪术在本节中，我们将探讨压缩和裁剪大规模神经网络模型的技术，使其更加高效，适用于实际应用。

云博士的AI课堂·2025-02-07 22:03

毕业设计：基于卷积神经网络的鲜花花卉种类检测算法研究

目录前言课题背景和意义实现技术思路一、算法理论基础1.1卷积神经网络1.2目标检测算法二、数据集2.1数据集2.2数据扩充三、实验及结果分析3.1实验环境搭建3.2模型训练最后前言大四是整个大学期间最忙碌的时光

HaiLang_IT·2025-02-07 20:23

AI商业化：如何包装技术并找到客户需求？

一、引言在过去几年里，从GPT、Transformer到DeepSeek，以及分布式训练和微调技术的发展，为AI技术带来了质的飞跃。然而，光有先进的技术并不足以实现商业成功。如何将这些技术包装成易于

hjy1821·2025-02-07 17:34

深入浅出 DeepSeek-Coder-V2 是如何打破闭源模型封锁的

今天，我们就从模型架构、训练数据、强化学习优化三

fertiland·2025-02-07 17:33

传统AI算法工程师转型指南：如何成功切入大模型领域赛道“

通过这个项目了解到了文本的大致编解码流程，以及一些常见的文本预训练任务（mlm等等）。在做项目的过程中，为了节省训练成本，阅读了很多peft（参数高效微调）的文献，并且实践了lor

大模型玩家·2025-02-07 17:33

ubuntu22.04，瑞芯微RK3568部署YOLOv5(纯干货版)

目录1,训练自己的数据集转换为onnx2，onnx格式→rknn格式3,3588平台部署1,训练自己的数据集转换为onnx在Anaconda的yolov5，进入yolov5根目录，终端运行如下pythonmodels

今夕是何年，·2025-02-07 16:58

torch库介绍

文章目录基本概念张量（Tensor）自动求导（AutomaticDifferentiation）：神经网络模块（nn.Module）优化器（Optimizer）：导入torch示例构建神经网络总结torch

codelyq·2025-02-07 15:22

深度搜索MoE：利用大规模预训练模型提升信息检索效能

深度搜索MoE：利用大规模预训练模型提升信息检索效能DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE项目简介DeepSeek-MoE

杭律沛Meris·2025-02-07 15:20

MOE-conformer 流式多语种语音识别

MOE(MixtureofExperts)：MOE是一种通过专家混合来实现深度学习模型的方法，主要有以下特点：MOE由多个专家(Excpert)组成，每个专家是一个独立的神经网络(可以是MLP、CNN、

深度学习-视听觉·2025-02-07 14:16

100.5 AI量化面试题：在使用LSTM预测股票价格时，如何有效处理金融时间序列的非平稳性？

目录0.承前1.数据预处理1.1平稳性检验1.2数据转换2.特征工程2.1技术指标构建2.2时间特征提取3.LSTM模型设计3.1数据准备3.2模型架构4.训练与验证4.1时序交叉验证4.2滚动预测5.

AI量金术师·2025-02-07 14:45

大语言模型原理基础与前沿高效的MoE架构

大语言模型原理基础与前沿高效的MoE架构关键词：大语言模型，MoE架构，参数高效微调，分布式训练，模型压缩，推理加速1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大语言模型（LargeLanguageModels

AI架构设计之禅·2025-02-07 13:39

ReLU激活函数的定义

ReLU（RectifiedLinearUnit，修正线性单元）是一种非常流行的激活函数，广泛应用于深度学习模型中，尤其是在卷积神经网络（CNN）中。

人工智能专属驿站·2025-02-07 13:34

基于深度学习的行人摔倒检测识别系统 —— 使用YOLOv5实现行人摔倒检测

目录引言项目背景与目标1.1项目背景1.2项目目标系统设计与架构2.1系统功能概述2.2系统架构数据准备与处理3.1数据集选择与收集3.2数据标注3.3数据集划分YOLOv5模型训练与优化4.1YOLOv5

2025年数学建模美赛·2025-02-07 13:34

RAG和KAG：AI知识增强的两大“利器”

一文读懂RAG和KAG：AI知识增强的两大“利器”阅读时长：15分钟发布时间：2025-02-07近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎

·2025-02-07 13:53

当大模型遇上Spark：解锁大数据处理新姿势

大模型，即大规模机器学习模型，是利用海量数据和强大算力训练出来的“大参数”模型。其发展历程可谓是一部科技创新的传奇史。从20世纪中叶人工智能概念的提出，到2006年深度学习技术崭露

敏叔V587·2025-02-07 11:52

基于langchain和gradio实现天气查询智能体，本地ollama大模型调实时天气api，前端输入即可自动返回天气

介绍：众所周知大模型训练数据都是用的历史数据，无法实时查询天气信息，因此使用本地ollama大模型调实时天气api接口的方式，大模型识别和理解你要查询的请求，然后调第三方天气api接口返回实时天气。

福小白·2025-02-07 10:48

基于 DeepSeek-R1 模型微调（SFT）技术详解

目录引言1.1大模型时代与微调的重要性1.2本文目的与结构概述DeepSeek-R1模型基础2.1模型简介2.1.1模型架构2.1.2预训练数据与目标2.2模型特点与优势2.2.1语言理解与生成能力2.2.2

zhangjiaofa·2025-02-07 10:43

idea2024新特性以及idea2024.1版本安装、激活

一、idea2024新特性1、行级别的代码补全IDEA现在可以根据代码的上下文分析，给我们提示一整行的代码，借助了大模型对数据的分析训练，同时确保了代码数据的安全性。

阿东知识库·2025-02-07 09:39

大模型元年：人工智能的“寒武纪大爆发”

一、从“专用”到“通用”：大模型开启AI新范式传统的人工智能模型往往是针对特定任务进行训练的“专用工具”，例如图像识别、语音识别等。而大模

小马过河R·2025-02-07 08:05

大模型生态开源工具整理

最近一直在做大模型应用开发工作,总结下用到的一些开源工具1-模型训练LLaMA-Factory整体介绍LLaMA-Factory是一个开源的微调框架，为开发者提供简便高效的工具，以便在预训练模型基础上快速适应特定任务需求

miracletiger·2025-02-07 08:35

windows下bat脚本git pull批处理

一.场景说明公司有很多项目，我把它们都放在本地同一个磁盘目录下,使用bat脚本，批量gitpull拉取每一个项目的最新代码。二.git_pull.bat脚本@echooffstartcmd/Kfor/D%%iin(F:\zzxypm\Cloud\dmp,F:\zzxypm\Cloud\pass,F:\zzxypm\Cloud\server,F:\zzxypm\Cloud\web,F:\zzxypm

G0_hw·2025-02-07 08:02

python写接口调用模型_对YOLOv3模型调用时候的python接口详解

之前训练好的模型，在模型调用的时候，总是在lib=CDLL("/home/*****/*******/darknet/li

weixin_39835607·2025-02-07 07:28

聚类算法与应用

3.1基本原理3.1.1树状结构的建立3.1.2聚合或分裂策略3.2应用场景3.2.1生物学中的基因表达数据聚类3.2.2文本数据的主题分类4.聚类算法的实践应用4.1数据准备与预处理4.2算法选择与模型训练

theskylife·2025-02-07 06:16

推荐频道

神经网络-批处理训练