gpu人工智能深度学习第7页

A100 解析：为何它成为 AI 大模型时代的首选？

前言NVIDIAA100TensorCoreGPU可针对AI、数据分析和HPC应用场景，在不同规模下实现出色的加速，有效助力更高性能的弹性数据中心。

PPIO派欧云·2025-02-27 18:37

DeepEP：开源通信库的高效专家并行计算解决方案

它提供高效的all-to-all通信模式，支持GPU之间的高吞吐量和低延迟数据交换。DeepEP旨在优化专家并行计算中的通信效率，确保在大规模分布式系统中实现高性能的数据处理。

耶耶Norsea·2025-02-27 16:41

DeepSeek开源周合集

周一：FlashMLA，核心成就：GPU带宽利用接近理论极限，算力利用效率翻倍；周二：DeepEP，一个高效的MOE架构专家并行通信库：支持高效且优化后的全对全通信使用NVlink和RDMA进行节点内和节点间通信用于训练和推理填充的高吞吐量内核用于推理解码的低延迟内核原生支持

Vip.Gong·2025-02-27 14:03

自编大模型系列之 01 使用 Python 从头构建 LLaMA 3 编写您自己的十亿参数LLM（教程含源码）

我们不会在本博客中使用GPU，但您至少需要17GB的RAM，因为我们将加载一些大小超过15GB的文件。如果这对您来说是个问题，您可以使用Kaggle作为解

知识大胖·2025-02-27 10:33

Cassini_Network-Aware Job Schedulingin Machine Learning Clusters

研究背景背景介绍:这篇文章的研究背景是深度学习数据集和模型规模的不断增长，对高效GPU集群的需求日益增加。

一只积极向上的小咸鱼·2025-02-27 07:37

NVIDIA CUDA Compiler Driver NVCC

`--list-gpu-code`(`-code-ls`)4.2.8.24.

Yongqiang Cheng·2025-02-27 05:23

cosyvoice自用的代码

fromcosyvoice.cli.cosyvoiceimportCosyVoice,CosyVoice2fromcosyvoice.utils.file_utilsimportload_wavimporttorchaudioimportonnxruntimeasort#设置使用GPUort.set

PyAIGCMaster·2025-02-27 05:22

LM_Funny-2-01 递推算法：从数学基础到跨学科应用

目录第一章递推算法的数学本质1.1形式化定义与公理化体系定理1.1(完备性条件)1.2高阶递推的特征分析案例：Gauss同余递推4第二章工程实现优化技术2.1内存压缩的革新方法滚动窗口策略分块存储技术2.2异构计算加速方案GPU

王旭·wangxu_a·2025-02-27 01:25

理解CPU与GPU频繁数据传输

基础理解在学习深度学习神经网络过程中，有时候会遇到一些描述“尽量避免CPU与GPU频繁数据传输”。那这句话应该如何理解呢？我们知道CPU可以访问内存，而GPU也有自己的显存。

_DCG_·2025-02-26 22:58

深度学习批次数据处理的理解

GPU硬件架构GPU的硬件架构设计是批处理能够高效运行的关键原因之一。GPU现阶段一般采用SIMT架构，它的特点如下：SIMT（Singl

_DCG_·2025-02-26 22:28

IPU概述

1.IPU概述（一）框架首先来看看imx6q整体系统框架图，看看IPU位于整个SOC系统中的位置：可以看出来，整个IPU挂接在AXI与AHB总线上面，通过总线，它可以与ARM，VPU，GPU和RAM等模块通信

深圳信迈主板定制专家·2025-02-26 21:24

安装CUDA以及GPU版本的pytorch

使用pytorch进行深度学习的时候，往往想用GPU进行运算来提高速度。于是搜索便知道了CUDA。下面给出一个自检的建议：检查cuda的版本是否适配自己的GPU。

lskkkkkkkkkkkk·2025-02-26 21:53

技术硬核：突出FP8、3倍速度、90%成本暴降等技术参数，强化可信度

DeepSeek近期开源项目详细分析1.FlashMLA：大模型推理效率革命技术特点：首个开源项目FlashMLA是针对英伟达Hopper架构GPU（如H800）优化的高效多头潜在注意力（MLA）解码内核

guzhoumingyue·2025-02-26 20:45

全面分析 DeepSeek 的新开源 FlashMLA

导言著名的人工智能公司DeepSeek最近开源了FlashMLA，这是一款针对HopperGPU上的多头潜意识（MLA）进行了优化的高性能解码内核。

X.Cristiano·2025-02-26 19:34

云原生周刊：云原生和 AI

FlashMLA是专为NVIDIAHopper架构GPU（如H100、H800）优化的高效多头潜在注意力（MLA）解码内核，旨在提升大模型推理性能，特别是针对可变长度序列进行了优化。

·2025-02-26 19:58

DeepSeep开源周，第三天：DeepGEMM是啥？

DeepGEMM通过算法优化、硬件指令集加速和并行计算技术，显著提升计算速度，适用于GPU、CPU等硬件平台。对开发者的用处性能提升优化计算密集型任务（如LLM训练/推理），降低延迟，提升吞吐量。

程序员差不多先生·2025-02-26 19:33

DeepSeek 开源周：DeepEP 项目详解，GPU 压榨计划启动！

这个旨在优化GPU性能的工具一经发布便迅速获得了广泛的关注和赞誉，短短两小时内就斩获了超过1000个Star。本文将详细介绍DeepEP的功能、应用场景以及如何使用它来提升AI训练和推理的效率。

东方佑·2025-02-26 18:29

在Intel GPU上使用IPEX-LLM进行本地BGE嵌入

Intel的IPEX-LLM是一种专门为IntelCPU和GPU优化的PyTorch库，能够在包括本地PC上的集成显卡和独立显卡（如Arc、Flex和Max）在内的Intel硬件上以极低的延迟运行大型语言模型

shuoac·2025-02-26 16:16

【无标题】

日常开发stream流示例基础对象代码块@Data@ToStringpublicclassPerson{privateStringname;privateStringcity;publicPerson(

fan510988896·2025-02-26 15:38

下载cuda11.2+cudnn8.1+tensorflow-gpu2.5

安装cuda11.2和cudnn8.1要注意自己的版本，目前tensorflow-gpu2.5或最高版本tensorflow-gpu2.6只支持cuda11.2和cudnn8.1。

听微雨·2025-02-26 14:03

云平台结合DeepSeek的AI模型优化实践：技术突破与应用革新

**弹性算力调度体系**-**动态资源分配**：基于Kubernetes的智能调度器实现GPU资源的细粒

荣华富贵8·2025-02-26 13:23

DL之IDE：深度学习环境安装之Tensorflow/tensorflow_gpu+Cuda+Cudnn(最清楚/最快捷)之详细攻略(图文教程)

DL之IDE：深度学习环境安装之Tensorflow/tensorflow_gpu+Cuda+Cudnn(最清楚/最快捷)之详细攻略(图文教程)导读本人在Win10下安装深度学习框架Tensorflow

一个处女座的程序猿·2025-02-26 11:43

【TVM教程】为 NVIDIA GPU 自动调度神经网络

ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

HyperAI超神经·2025-02-26 09:57

人工智能深度学习系列—深入探索KL散度：度量概率分布差异的关键工具

人工智能深度学习系列—深度解析：交叉熵损失（Cross-EntropyLoss）在分类问题中的应用人工智能深度学习系列—深入解析：均方误差损失（MSELoss）在深度学习中的应用与实践人工智能深度学习系列

学步_技术·2025-02-26 08:19

WebGPU与Web框架集成

目录React集成Vue集成Angular集成Svelte集成React集成将WebGPU与React集成，可以让您在React应用中利用现代Web图形和计算API来创建高性能的3D图形和计算任务。

天涯学馆·2025-02-26 08:13

【python】flash-attn安装

这个命令：确保使用正确的CUDA12.6工具链设置必要的CUDA环境变量包含了常见的GPU架构支持利用你的128核心进行并行编译#清理之前的安装proxychains4pipuninstall-yflash-attn

x66ccff·2025-02-26 03:43

GLake：优化GPU内存管理与IO传输的开源项目

GLake：突破GPU内存和IO瓶颈的利器在人工智能快速发展的今天，大模型训练和推理正面临着严峻的挑战。

2401_87458718·2025-02-26 02:35

llama-cpp-python本地部署并使用gpu版本

使用带编译的命令安装llama库#首选GGML_CUDA后续LLAMA_CUBLAS将删除CMAKE_ARGS="-DGGML_CUDA=on"FORCE_CMAKE=1pipinstallllama-cpp-python--no-cache-dirCMAKE_ARGS="-DLLAMA_CUBLAS=on"FORCE_CMAKE=1pipinstallllama-cpp-python--no-c

i__chen·2025-02-26 02:03

Vulkan：Vulkan物理模拟与碰撞检测技术教程_2024-07-20_15-47-39.Tex

它由KhronosGroup开发，旨在提供高性能的图形渲染和计算能力，同时减少CPU的开销，提高GPU的利用率。

chenjj4003·2025-02-26 01:58

Anaconda 2025 最新版安装与Python环境配置指南（附官方下载链接）

一、软件定位与核心功能Anaconda2025是Python/R数据科学集成开发平台，预装1500+科学计算库，新增AI模型可视化调试、多环境GPU加速等特性。

waicsdn_haha·2025-02-26 00:22

梯度累加（结合DDP）梯度检查点

通常，较大的批量可以提高训练的稳定性和效率，但受限于GPU或TPU的内存，无法一次性加载大批量数据。梯度累积通过多次前向传播和反向传播累积梯度，然后一次性更新模型参数，从而模拟大批量训练的效果。

糖葫芦君·2025-02-25 23:16

突破性能极限：DeepSeek开源FlashMLA解码内核技术解析

Shockang·2025-02-25 22:09

PaddleOCR环境搭建(记录)

需nvidia下载zlib包即C:\ProgramFiles\NVIDIAGPUComputingToolkit\CUDA\v1

江木27·2025-02-25 21:04

探秘 DeepSeek 硬件适配：GPU/TPU/NPU 异构计算原理剖析

DeepSeek作为前沿且极具创新性的技术框架，在与GPU、TPU、NPU等异构硬件的融合适配方面展现出卓越特性。

FinkGO小码·2025-02-25 18:11

Flutter-Android编译报错与解决方案汇总

because“”isnull解决方案：IsolvedthisproblembyupgradingAndroidGradlePlugintoversion8.3.1.YoucanuseTools->AGPUpgradeAssistanttoupgradeAndroidGr

ShawnRacine·2025-02-25 09:35

部署 Llama 3.1 405B：分步指南,深入研究 Llama 最新模型 Llama 3.1 4050 亿参数模型的部署。这个强大的模型需要大量的 VRAM，特别是 4 位量化版本需要 231 G

但是，经过一些优化，我们可以使用8x4090GPU在192GB上运行它。最好的部分？我们只需要运行三个终端命令即可完成所有设置。

知识大胖·2025-02-25 02:47

Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用

硬件加速：GPU、TPU等加速计算，提升实

mosquito_lover1·2025-02-25 01:07

使用 DeepSeek 和 Streamlit 构建 AI 驱动的 SQL 查询应用程序

知识大胖·2025-02-25 01:06

[15] 使用Opencv_CUDA 模块实现基本计算机视觉程序

使用Opencv_CUDA模块实现基本计算机视觉程序CUDA提供了出色的接口，发挥GPU的并行计算能力来加速复杂的计算应用程序利用CUDA和Opencv的功能实现计算机视觉应用1.对图像的算术和逻辑运算两个图像相加

明月醉窗台·2025-02-24 18:51

显卡3050ti等安培架构的GPU安装paddlepaddle

3050ti等安培架构的GPU安装paddlepaddle官网原话如果您使用的是安培架构的GPU，推荐使用CUDA11.2如果您使用的是非安培架构的GPU，推荐使用CUDA10.2，性能更优其他配套确定软件版本后

社会闲散人员中的代码爱好者·2025-02-24 14:49

什么是Grok-3？技术特点，场景，潜在问题与挑战

Grok-3的技术特点与优势1.超大算力与训练规模算力投入：Grok-3使用了20万块英伟达H100GPU，分两个阶段训练（第一阶段10万GPU训练144天，第二阶段20万GPU训练92天），总计算量是前代

AndrewHZ·2025-02-24 13:46

简单介绍 NVIDIA推出的图形处理单元（GPU）架构“安培架构“

概念"安培架构"（AmpereArchitecture）是NVIDIA推出的一款图形处理单元（GPU）架构，它是继图灵架构之后的下一代产品。

神仙约架·2025-02-24 13:13

ChatTTS-ui模型概述、安装及使用方法说明

的安装与配置1.安装Python和Git环境2.下载ChatTTS-ui源码3.创建并激活虚拟环境4.安装依赖5.启动应用四、ChatTTS-ui的高级功能1.API调用2.音色自定义3.细粒度控制4.GPU

醉心编码·2025-02-24 12:38

Ollama 部署指南（Windows）

Ollama现在作为本机Windows应用程序运行，包括NVIDIA和AMDRadeonGPU支持。

圣心·2025-02-24 11:27

适用于呼叫中心质检的离线ASR模型

支持GPU/CPU部署，提供Python和C++接口。部署

狂爱代码的码农·2025-02-24 08:07

GPU与FPGA加速：硬件赋能AI应用

GPU与FPGA加速：硬件赋能AI应用1.背景介绍1.1人工智能的兴起人工智能(AI)在过去几年中经历了爆炸式增长,成为推动科技创新的核心动力。

AI天才研究院·2025-02-24 01:20

（14）FPGA与GPU区别

（14）FPGA与GPU区别1文章目录1）文章目录2）FPGA入门与提升课程介绍3）FPGA简介4）FPGA与GPU区别5）技术交流6）参考资料2FPGA入门与提升课程介绍1）FPGA入门与提升文章目的是为了让想学

宁静致远dream·2025-02-24 01:18

GPU和FPGA的区别

GPU（GraphicsProcessingUnit，图形处理器）和FPGA（Field-ProgrammableGateArray，现场可编程门阵列）不是同一种硬件。

Florence23·2025-02-24 00:44

在 GPU 上实现全规模文件系统加速

摘要现代高性能计算和人工智能计算解决方案经常使用GPU作为其主要计算能力来源。这就为GPU应用程序的存储操作造成了严重的不平衡，因为每一个此类存储操作都必须向CPU发出信号并由CPU处理。

·2025-02-23 16:04

前端面试题（超全！）

（2）那么就拿html和css来说，是靠GUI来渲染的，那么如果要避免回流重绘，需要靠GPU进程完成，这样性能会好。（3）js是靠渲染进程的渲

技术猿禁·2025-02-23 15:06

推荐频道

gpu人工智能深度学习