pytorch量化感知训练第4页

基于PyTorch的生成对抗网络入门（5）——利用PyTorch搭建条件生成对抗网络（CGAN）超详解

案例描述二、代码详解2.1构建真实数据集2.2创建生成虚假数据2.3构建判别器2.3.1创建生成虚假标签2.3.2判别器类2.3.3测试判别器2.4构建生成器2.4.1生成器类2.4.2测试生成器2.5训练

wendy_ya·2025-02-14 08:56

Ollama与Vllm使用对比与优劣

资源管理：Ollama通过量化技术将模型参数从高精度调整

魔王阿卡纳兹·2025-02-14 08:55

视觉中的transformer：ViT

但是在cv领域用的很少，视觉里一般是和cnn一起用或者把某些conv替换成transformer（整体还是CNN）本篇文章证明纯的transformer直接在图片分类上也做得很好：在大量数据集上进行预训练的前提上

ch隔壁老张·2025-02-14 06:12

学习笔记-三维超声相关知识

超声引导的治疗过程尤其受到影响，因为在手术过程中或在一段时间内量化和

May_ZhaoHM·2025-02-14 06:12

AI 写作（三）文本生成算法：创新与突破

在训练复杂度方面，生成式模型通常较为复杂，因为它需要学习更多的参数来模拟数据的生成过程。例如，常

sdgfsdfxcg·2025-02-14 06:11

模糊模式识别：从贴近度到分类决策的Matlab实践

模糊模式识别是模糊数学在现实问题中的核心应用之一，其核心思想是通过量化模糊集合之间的“相似性”或“贴近度”，实现对未知模式的分类与识别。

青橘MATLAB学习·2025-02-14 05:03

第二章：9.5 多个输出的分类

构建多标签分类神经网络的方法方法一：独立训练多个神经网络一种方法是将多标签分类问题分解为多个独立的二分类问题。具体来说，

望云山190·2025-02-14 05:33

ALBERT：轻量级的BERT，用于语言表征的自监督学习

全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】ALBERT提出了特定的参数缩减技术，以降低内存消耗并提高BERT的训练速度

·2025-02-14 05:05

rk3588部署yolov8视频目标检测教程

目录1.环境配置1.1训练和导出onnx环境（电脑端执行）1.2导出rknn环境（电脑端执行）2.训练部分（电脑端执行）2.1训练脚本（电脑端执行）3.onnx转rknn（电脑端执行）1.环境配置1.1

今夕是何年，·2025-02-14 05:58

Pytorch的自动求导模块

文章目录torch.autograd.backward()基本用法非标量张量的反向传播保留计算图指定输入张量高阶梯度计算与y.backward()的区别torch.autograd.grad()基本用法非标量张量的梯度高阶梯度计算多输入、多输出的梯度计算未使用的输入张量保留计算图与backward()的区别torch.autograd.backward()该函数实现自动求导梯度，函数如下：torc

zoujiahui_2018·2025-02-14 05:57

工作流程设计 php,php工程狮感知的前端工作流程

这个时代不懂点前端知识，真的没有办法生存。就算不会写，也得了解它的原理吧！最近做了一些总结，之前都是迷迷糊糊，搞不清楚前端之前的相关定位。好好梳理了一下。错误之处请各位指正。本文主要说的是JavaScript工作流程目前前端真的该叫大前端，其越来越细化，越来越复杂。在这种背景下，诞生了很多工具很多前端工作流程。比如热门的：reactvuewebpackbabelgulpnode.jsnpmnvma

三符·2025-02-14 04:21

【Transformer】小白入门指南

Multi-HeadAttention）前馈神经网络（Feed-ForwardNeuralNetwork）位置编码（PositionalEncoding）残差连接与标准化框架认识1.输入输出2.Encoder3.Decoder4.训练过程

静静喜欢大白·2025-02-14 04:18

Python阶段小结：从零基础到项目实战的蜕变之旅

️知识肌肉训练清单训练部位核心动作（知识点）动作标准（关键要点）基础代谢变量/数据类型、运算符、f-stringtype()类型检测，f"{value:.2f}"精度控制条件反射if-elif-else

GHXX.·2025-02-14 04:18

Python 中如何 import 绝对路径的模块

importsyssys.path.append('模块所在路径')import路径下需要的模块使用场景：importsyssys.path.append('/Users/feishuoren/Projects/pytorch_learning

斐硕人·2025-02-14 04:16

使用OpenAI的API构建聊天机器人

核心原理解析聊天机器人主要依赖于生成式预训练模型（GPT），它通过大量文本数据训练，学习语言模式和上下文关联，从而能够生成

dgay_hua·2025-02-14 04:16

华为 MindStudio 安装指南

它支持模型训练、推理、算子开发、性能优化等AI任务，并依赖CANN（ComputeArchitectureforNeuralNetworks）作为计算架构基础。

丰年稻香·2025-02-14 03:01

Meta AI 最近推出了一款全新的机器学习框架ParetoQ，专门用于大型语言模型的4-bit 以下量化

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/MetaAI最近推出了一款全新的机器学习框架——ParetoQ，专门用于大型语言模型的4

新加坡内哥谈技术·2025-02-14 03:00

DeepSeek为何如此厉害，先是横扫华尔街，又是引得国内三大运营商争相加入？普通人又该如何入局？

在DeepSeek诞生之前，全世界对于AI大模型的认知是：只有疯狂砸钱，堆算力才能做出类似于OpenAI这样强大的AI大模型；可在DeepSeek诞生之后，直接将AI大模型的训练成本降低为不到原先的1%

2501_90560745·2025-02-14 02:51

人工智能之自然语言处理技术演进

近年来，NLP技术经历了从规则驱动到数据驱动的革命性演进，尤其是在深度学习和大规模预训练模型的推动下，取得了显著突破。

香橙薄荷心·2025-02-14 02:50

面向生成式语言模型场景到底是选择4卡5080还是选择两卡5090D

四卡RTX5080VS两卡RTX5090D：AI大模型性能比拼实践与思考本文主要从算力、显存、多卡扩展效率以及性价比等多个角度，分析在部署和训练大规模AI模型时，采用四卡RTX5080方案与两卡RTX5090D

weixin_40941102·2025-02-14 01:47

商汤大装置上架DeepSeek系列模型，限免体验、服务升级！

升级服务：全周期定制化方案，赋能智能开发全流程商汤大装置依托领先的技术平台与专家资源，形成了"场景定义-训练-部署-迭代"的闭环服务体系，确保客户开发效率与应用效果的双重提升。

·2025-02-14 01:01

零基础入门机器学习 -- 第二章机器学习的基本流程

训练模型：让模型从数据中学习模式并调整参数。评估模型：检查模型的准确率，以判断效果是否良好。本章会通过电影评分预测的示例，帮助你快速体验从数据到模型的基本

山海青风·2025-02-14 01:14

DDPM（Denoising Diffusion Probabilistic Models）的公式推导

核心推导在于通过变分推断将KL散度转换为噪声预测问题，大幅简化了训练目标。1.前向扩散过程前向过程通过\(T\)步逐渐向数据\(x_0\)添加高斯噪声，最终得到纯噪声\(x_T\)。

AndrewHZ·2025-02-14 00:12

AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战

大模型微调实战：精通、指令微调、开源大模型微调、对齐与垂直领域应用29套AI全栈大模型项目实战，人工智能视频课程-多模态大模型，微调技术训练营，大模型多场景实战，AI图像处理，AI量化投资，OPenCV

AI知识分享官·2025-02-14 00:41

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

GPT（2018）：划时代的起点：GPT（GenerativePre-trainedTransformer）首次将Transformer架构与无监督预训练结合，开启了大规模语言模型的新时代。

Ash Butterfield·2025-02-14 00:08

YOLO各版本原理和优缺点解析

模型结构简单，易于实现和训练。缺点：对小目标检测效果差，容易

Ash Butterfield·2025-02-14 00:08

【AI论文】OmniHuman-1: 重新思考一阶段条件式人体动画模型的扩展升级

在本文中，我们提出了OmniHuman，一个基于扩散变换器的框架，该框架通过将运动相关条件融入训练阶段来扩展数据规模。为此，我们为这些混合条件引入了两种训练原则，以及相应的模型架构和推理策略。

东临碣石82·2025-02-13 23:06

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

简单注意力机制带训练权重的注意力机

Tasfa·2025-02-13 23:33

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑

如果你的预算是3万元人民币，希望训练和微调7B参数规模的人工智能大模型（如LLaMA、Mistral等），你需要一台高性能的深度学习工作站。

岁月的眸·2025-02-13 23:03

多模态大模型（LMMs）与大语言模型（LLMs）的比较

本文将从基础定义、输入数据、应用场景、训练过程这几方面讨论下两者的区别。

大F的智能小课·2025-02-13 23:02

DeepSeek与ChatGPT正在改写学历规则？2025教育革命深度解析

一、颠覆性现状：AI如何解构学历价值1.知识获取民主化随着AI技术的不断进步，知识获取的方式正在发生翻天覆地的变化：DeepSeek-R1通过仅10%的训练成本，实现了与GPT-4o相当的性能，技术文档的生成效率提升了

笑傲江湖2023·2025-02-13 23:01

解码DeepSeek家族系列：大语言模型赛道上的黑马传奇

公司由知名量化资管巨头幻方量化孕育而生，其创始人梁文峰是幻方量化的联合创始人之一。

大F的智能小课·2025-02-13 22:52

DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

一、DeepSeek降低训练成本的核心方法1.1创新训练方法DeepSeek通过独特的训练方案显著降低了训练成本。其核心策略包括减少监督微调（SFT）步骤，仅依赖强化学习（RL）技术。

大F的智能小课·2025-02-13 21:51

数据库三级模式

由于大多数数据库系统用户并未受过计算机的专业训练，因此系统开发人员需要通过视图层、逻辑层和物理层三个层次上的抽象来对用户屏蔽系统的复杂性，简化用户与系统的交互。

iamphp·2025-02-13 20:16

DeepSeek使用手册，其中一份是清华大学出品

DeepSeek（深度求索）是一款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能平台，专注于提供高效易用的AI模型训练与推理能力。

cpa007·2025-02-13 20:45

conda 装tensorboardx_【工欲善其事】TensorboardX的使用

“我不喜欢Tensorflow，但这并不妨碍我使用tensorboard”上一篇文章(https://zhuanlan.zhihu.com/p/39849027)，和大家简单地聊了一下关于如何在训练过程中有序地组织

weixin_39719042·2025-02-13 19:08

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

首先，MLA是什么？可能是指Multi-HeadLocalAttention，即多头局部注意力，这种机制通常用于减少计算量，特别是在处理长序列时，每个头只关注局部区域。比如每个token只注意其周围的一定窗口内的其他token，而不是全局。这可能与传统的Transformer中的滑动窗口或局部注意力类似。接下来，我需要考虑如何将局部注意力与多头机制结合。每个注意力头可能有不同的局部窗口，或者共享相

DukeYong·2025-02-13 19:38

具身智能训练新思路！将生成视频用于训练机器人

将生成视频用于训练具身智能（EmbodiedAI）确实是近年来备受关注的前沿方向，这一思路通过结合生成式AI（如扩散模型、神经辐射场等）与机器人学习，为解决真实世界数据稀缺、训练成本高等问题提供了新可能

天机️灵韵·2025-02-13 18:02

从零开始大模型开发与微调：Miniconda的下载与安装

这些模型通过在海量文本数据上进行预训练,能够捕捉到丰富的语义和上下文信息,从而在自然语言处理任务中表现出色。

AGI大模型与大数据研究院·2025-02-13 18:30

Deepseek的MOE架构中ColumnParallelLinear()是怎么实现的

我记得在PyTorch中，模型并行通常涉及到将模型的层分布到不同的GPU上。ColumnParallelLinear可能指的是将线性层的列（即输出神经元）分布在多个设备上。

DukeYong·2025-02-13 18:00

100.10 AI量化面试题：AI大模型中的MOE架构主要类型，和DeepSeek使用了哪一种类型？

目录0.承前1.解题思路1.1基础概念维度1.2架构对比维度1.3实践应用维度2.标准MOE架构2.1基本概念3.稀疏MOE架构3.1实现原理4.共享专家稀疏MOE架构4.1核心设计5.架构对比5.1主要特点对比5.2DeepSeek的选择6.回答话术0.承前本文通过通俗易懂的方式介绍MOE（混合专家系统）架构的几种变体，包括标准MOE、稀疏MOE和共享专家稀疏MOE，并分析它们的异同。如果想更加

AI量金术师·2025-02-13 18:00

如何避免交叉验证中的数据泄露？

大家好，我是小青在机器学习中，交叉验证（Cross-Validation）是一种常用的模型评估技术，目的是通过将数据集分割为多个子集，反复训练和验证模型，以便更好地估计模型的性能。

奋进小青·2025-02-13 17:25

小白零基础学习深度学习之张量

1.张量PyTorch中的张量（Tensor）就是一种用来存储数据的“盒子”，这个盒子可以有不同的形状和大小，里面可以装各种数字。

爱理科的小王子·2025-02-13 17:53

深度学习-情感分析

以下将分别使用PyTorch和TensorFlow框架实现基于深度学习的情感分析，这里以影评的情感分析为例，数据集使用IMDB影评数据集。

小赖同学啊·2025-02-13 17:52

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 16:39

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM

·2025-02-13 16:07

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

GPT（GenerativePre-trainedTransformer，生成式预训练Transformer）是由OpenAI开发的基于Transformer解码器（Decoder）的自回归（Autoregressive

IT古董·2025-02-13 16:15

python同花顺交易接口_开启量化第一步！同花顺iFinD数据接口免费版简易操作教程...

而量化交易，旨在以先进的数学模型替代人为的主观判断，利用计算机技术从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略，辅助投资者进行理性投资。

weixin_39564527·2025-02-13 15:12

量化交易软件排名有哪些？如何评判其优劣？各软件有何独特之处？

炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python

财云量化·2025-02-13 15:42

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。

·2025-02-13 15:31

推荐频道

pytorch量化感知训练

基于PyTorch的生成对抗网络入门（5）——利用PyTorch搭建条件生成对抗网络（CGAN）超详解

Ollama与Vllm使用对比与优劣

视觉中的transformer：ViT

学习笔记-三维超声相关知识

AI 写作（三）文本生成算法：创新与突破

模糊模式识别：从贴近度到分类决策的Matlab实践

第二章：9.5 多个输出的分类

ALBERT：轻量级的BERT，用于语言表征的自监督学习

rk3588部署yolov8视频目标检测教程

Pytorch的自动求导模块

工作流程设计 php,php工程狮感知的前端工作流程

【Transformer】小白入门指南

Python阶段小结：从零基础到项目实战的蜕变之旅

Python 中如何 import 绝对路径的模块

使用OpenAI的API构建聊天机器人

华为 MindStudio 安装指南

Meta AI 最近推出了一款全新的机器学习框架ParetoQ，专门用于大型语言模型的4-bit 以下量化

DeepSeek为何如此厉害，先是横扫华尔街，又是引得国内三大运营商争相加入？普通人又该如何入局？

人工智能之自然语言处理技术演进

面向生成式语言模型场景到底是选择4卡5080还是选择两卡5090D

商汤大装置上架DeepSeek系列模型，限免体验、服务升级！

零基础入门机器学习 -- 第二章机器学习的基本流程

DDPM（Denoising Diffusion Probabilistic Models）的公式推导

AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

YOLO各版本原理和优缺点解析

【AI论文】OmniHuman-1: 重新思考一阶段条件式人体动画模型的扩展升级

【AI系列】从零开始学习大模型GPT (2)- Build a Large Language Model (From Scratch)

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑

多模态大模型（LMMs）与大语言模型（LLMs）的比较

DeepSeek与ChatGPT正在改写学历规则？2025教育革命深度解析

解码DeepSeek家族系列：大语言模型赛道上的黑马传奇

DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

数据库三级模式

DeepSeek使用手册，其中一份是清华大学出品

conda 装tensorboardx_【工欲善其事】TensorboardX的使用

Pytorch实现一个简单DeepSeek中的MLA多头潜在注意力架构

具身智能训练新思路！将生成视频用于训练机器人

从零开始大模型开发与微调：Miniconda的下载与安装

Deepseek的MOE架构中ColumnParallelLinear()是怎么实现的

100.10 AI量化面试题：AI大模型中的MOE架构主要类型，和DeepSeek使用了哪一种类型？

如何避免交叉验证中的数据泄露？

小白零基础学习深度学习之张量

深度学习-情感分析

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

python同花顺交易接口_开启量化第一步！同花顺iFinD数据接口免费版简易操作教程...

量化交易软件排名有哪些？如何评判其优劣？各软件有何独特之处？

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练