扫地的小何尚

NVIDIA Grace Hopper架构深度解析

NVIDIA Grace Hopper Superchip 架构是第一个真正的异构加速平台，适用于高性能计算 (HPC) 和 AI 工作负载。它利用 GPU 和 CPU 的优势加速应用程序，同时提供迄今为止最简单、最高效的分布式异构编程模型。科学家和工程师可以专注于解决世界上最重要的问题。

在本文中，您将全面了解 Grace Hopper 超级芯片，并重点介绍 NVIDIA Grace Hopper 带来的性能突破。有关 Grace Hopper 使用 NVIDIA Hopper H100 GPU 在最强大的基于 PCIe 的加速平台上实现的加速的更多信息，请参阅 NVIDIA Grace Hopper Superchip Architecture 白皮书。

强大的 HPC 和超大 AI 工作负载的性能和生产力

NVIDIA Grace Hopper Superchip 架构将 NVIDIA Hopper GPU 的突破性性能与 NVIDIA Grace CPU 的多功能性结合在一起，在单个超级芯片中与高带宽和内存一致的 NVIDIA NVLink Chip-2-Chip (C2C) 互连相连，并且支持新的 NVIDIA NVLink 交换系统。

NVIDIA NVLink-C2C 是一种 NVIDIA 内存一致性、高带宽和低延迟的超级芯片互连。它是 Grace Hopper Superchip 的核心，提供高达 900 GB/s 的总带宽。这比加速系统中常用的 x16 PCIe Gen5 通道高 7 倍。

NVLink-C2C 内存一致性提高了开发人员的生产力和性能，并使 GPU 能够访问大量内存。CPU 和 GPU 线程现在可以同时透明地访问 CPU 和 GPU 驻留内存，使您能够专注于算法而不是显式内存管理.

内存一致性使您能够仅传输所需的数据，而不是将整个页面迁移到 GPU 或从 GPU 迁移出来。它还通过启用来自 CPU 和 GPU 的本机原子操作来启用跨 GPU 和 CPU 线程的轻量级同步原语。具有地址转换服务 (ATS) 的 NVLink-C2C 利用 NVIDIA Hopper 直接内存访问 (DMA) 复制引擎来加速跨主机和设备的可分页内存的批量传输。

NVLink-C2C 使应用程序能够超额订阅 GPU 的内存，并在高带宽下直接使用 NVIDIA Grace CPU 的内存。每个 Grace Hopper Superchip 具有高达 512 GB 的 LPDDR5X CPU 内存，GPU 可以直接高带宽访问比 HBM 可用内存多 4 倍的内存。结合 NVIDIA NVLink 开关系统，在多达 256 个 NVLink 连接的 GPU 上运行的所有 GPU 线程现在可以在高带宽下访问高达 150 TB 的内存。第四代 NVLink 支持使用直接加载、存储和原子操作访问对等内存，使加速应用程序能够比以往更轻松地解决更大的问题。

与 NVIDIA 网络技术一起，Grace Hopper 超级芯片为下一代 HPC 超级计算机和人工智能工厂提供了配方。客户可以承担更大的数据集、更复杂的模型和新的工作负载，从而比以前更快地解决它们。

NVIDIA Grace Hopper Superchip的主要创新点如下：

英伟达 Grace CPU：
- 多达 72 个 Arm Neoverse V2 内核，每个内核具有 Armv9.0-A ISA 和 4 个 128 位 SIMD 单元。
- 高达 117 MB 的 L3 缓存。
- 高达 512 GB 的 LPDDR5X 内存提供高达 546 GB/s 的内存带宽。
- 多达 64 个 PCIe Gen5 通道。
- NVIDIA 可扩展一致性结构 (SCF) 网格和分布式缓存，内存带宽高达 3.2 TB/s。
- 单个 CPU NUMA 节点可提高开发人员的工作效率。
NVIDIA Hopper GPU：
- 与 NVIDIA A100 GPU 相比，具有第四代 Tensor Core、Transformer Engine、DPX 以及高 3 倍的 FP32 和 FP64 的多达 144 个 SM。
- 高达 96 GB 的 HBM3 内存提供高达 3000 GB/s 的速度。
- 60 MB 二级缓存。
- NVLink 4 和 PCIe 5。
英伟达 NVLink-C2C：
- Grace CPU 和 Hopper GPU 之间的硬件一致性互连。
- 高达 900 GB/s 的总带宽，450 GB/s/dir。
- 扩展 GPU 内存功能使 Hopper GPU 能够将所有 CPU 内存寻址为 GPU 内存。每个 Hopper GPU 可以在超级芯片内寻址多达 608 GB 的内存。
NVIDIA NVLink 交换系统：
- 使用 NVLink 4 连接多达 256 个 NVIDIA Grace Hopper 超级芯片。
- 每个 NVLink 连接的 Hopper GPU 都可以寻址网络中所有超级芯片的所有 HBM3 和 LPDDR5X 内存，最高可达 150 TB 的 GPU 可寻址内存。

性能、便携性和生产力的编程模型

具有 PCIe 连接加速器的传统异构平台要求用户遵循复杂的编程模型，该模型涉及手动管理设备内存分配和与主机之间的数据传输。

NVIDIA Grace Hopper Superchip 平台是异构的且易于编程，NVIDIA 致力于让所有开发人员和应用程序都可以访问它，而不受所选编程语言的影响。

Grace Hopper Superchip 和平台的构建都是为了让您能够为手头的任务选择正确的语言，而 NVIDIA CUDA LLVM 编译器 API 使您能够将您喜欢的编程语言带到具有相同代码级别的 CUDA 平台 -生成质量和优化作为 NVIDIA 编译器和工具。

NVIDIA 为 CUDA 平台提供的语言包括加速标准语言，如 ISO C++、ISO Fortran 和 Python。该平台还支持基于指令的编程模型，如 OpenACC、OpenMP、CUDA C++ 和 CUDA Fortran。 NVIDIA HPC SDK 支持所有这些方法，以及一组丰富的用于分析和调试的加速库和工具。

NVIDIA 是 ISO C++ 和 ISO Fortran 编程语言社区的成员，这使得符合 ISO C++ 和 ISO Fortran 标准的应用程序能够在 NVIDIA CPU 和 NVIDIA GPU 上运行，无需任何语言扩展。有关在 GPU 上运行符合 ISO 标准的应用程序的更多信息，请参阅使用标准并行 C++ 进行多 GPU 编程和使用 Fortran 标准并行编程实现 GPU 加速。

该技术在很大程度上依赖于 NVIDIA NVLink-C2C 和 NVIDIA 统一虚拟内存提供的硬件加速内存一致性。如图所示，在没有 ATS 的传统 PCIe 连接 x86+Hopper 系统中，CPU 和 GPU 具有独立的每进程页表，系统分配的内存不能直接从 GPU 访问。当程序使用系统分配器分配内存但页面条目在 GPU 的页表中不可用时，从 GPU 线程访问内存将失败。

在基于 NVIDIA Grace Hopper Superchip 的系统中，ATS 使 CPU 和 GPU 能够共享单个每进程页表，使所有 CPU 和 GPU 线程能够访问所有系统分配的内存，这些内存可以驻留在物理 CPU 或 GPU 内存上。所有 CPU 和 GPU 线程都可以访问 CPU 堆、CPU 线程堆栈、全局变量、内存映射文件和进程间内存。

NVIDIA NVLink-C2C 硬件一致性使 Grace CPU 能够以缓存行粒度缓存 GPU 内存，并使 GPU 和 CPU 无需页面迁移即可访问彼此的内存。

NVLink-C2C 还可以加速 CPU 和 GPU 在系统分配内存上支持的所有原子操作。范围内的原子操作得到完全支持，并且可以跨系统中的所有线程实现细粒度和可扩展的同步。

在 LPDDR5X 或 HBM3 上，运行时在第一次接触时使用物理内存支持系统分配的内存，具体取决于 CPU 还是 GPU 线程首先访问它。从操作系统的角度来看，Grace CPU 和 Hopper GPU 只是两个独立的 NUMA 节点。系统分配的内存是可迁移的，因此运行时可以更改其物理内存支持以提高应用程序性能或处理内存压力。

对于 x86 或 Arm 等基于 PCIe 的平台，您可以使用与 NVIDIA Grace Hopper 模型相同的统一内存编程模型。这最终将通过异构内存管理 (HMM) 功能实现，该功能结合了 Linux 内核功能和 NVIDIA 驱动程序功能，使用软件模拟 CPU 和 GPU 之间的内存一致性。

在 NVIDIA Grace Hopper 上，这些应用程序明显受益于 NVLink-C2C 提供的更高带宽、更低延迟、更高原子吞吐量和内存一致性硬件加速，无需任何软件更改。

超芯架构特点

以下是 NVIDIA Grace Hopper 架构的主要创新：

英伟达 Grace CPU
NVIDIA Hopper GPU
NVLink-C2C
NVLink 交换系统
扩展 GPU 显存

英伟达 Grace CPU

随着 GPU 的并行计算能力每一代都增加三倍，快速高效的 CPU 对于防止现代工作负载的串行和仅 CPU 部分主导性能至关重要。

NVIDIA Grace CPU 是第一个 NVIDIA 数据中心 CPU，它是从头开始构建的，用于创建 HPC 和 AI 超级芯片。 Grace 提供多达 72 个带有 Armv9.0-A ISA 的 Arm Neoverse V2 CPU 内核，以及每个内核 4×128 位宽的 SIMD 单元，支持 Arm 的可扩展矢量扩展 2 (SVE2) SIMD 指令集。

NVIDIA Grace 提供领先的每线程性能，同时提供比传统 CPU 更高的能效。 72 个 CPU 内核在 SPECrate 2017_int_base 上提供高达 370（估计）的分数，确保高性能以满足 HPC 和 AI 异构工作负载的需求。

机器学习和数据科学中的现代 GPU 工作负载需要访问大量内存。通常，这些工作负载必须使用多个 GPU 将数据集存储在 HBM 内存中。

NVIDIA Grace CPU 提供高达 512 GB 的 LPDDR5X 内存，可在内存容量、能效和性能之间实现最佳平衡。它提供高达 546 GB/s 的 LPDDR5X 内存带宽，NVLink-C2C 以 900 GB/s 的总带宽可供 GPU 访问。

单个 NVIDIA Grace Hopper Superchip 为 Hopper GPU 提供了总共 608 GB 的快速访问内存，几乎是 DGX-A100-80 中可用慢速内存的总量；上一代的八卡GPU 系统。

这是通过下图中所示的 NVIDIA SCF 实现的，它是一种网状结构和分布式缓存，可提供高达 3.2 TB/s 的总对分带宽，以实现 CPU 内核、内存、系统 I/O 和 NVLink- C2C。 CPU 核心和 SCF 缓存分区 (SCC) 分布在整个网格中，而缓存交换节点 (CSN) 通过结构路由数据，并充当 CPU 核心、缓存内存和系统其余部分之间的接口。

NVIDIA Hopper GPU

NVIDIA Hopper GPU 是第九代 NVIDIA 数据中心 GPU。与前几代 NVIDIA Ampere GPU 相比，它旨在为大规模 AI 和 HPC 应用程序提供数量级的改进。 Hopper GPU 还具有多项创新：

新的第四代 Tensor Cores 在更广泛的 AI 和 HPC 任务上执行比以往更快的矩阵计算。
与上一代 NVIDIA A100 GPU 相比，新的 transformer 引擎使 H100 能够在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理加速。
空间和时间数据局部性和异步执行的改进功能使应用程序能够始终保持所有单元忙碌并最大限度地提高能效。
安全多实例 GPU (MIG) 将 GPU 划分为隔离的、大小合适的实例，以最大限度地提高较小工作负载的服务质量 (QoS)。

NVIDIA Hopper 是第一个真正的异步 GPU。其张量内存加速器 (TMA) 和异步事务屏障使线程能够重叠和流水线独立的数据移动和数据处理，使应用程序能够充分利用所有单元。

线程块集群、分布式共享内存和线程块重新配置等新的空间和时间局部性功能为应用程序提供了对更大量共享内存和工具的快速访问。这使应用程序能够更好地重用片上数据，从而进一步提高应用程序性能。

有关详细信息，请参阅 NVIDIA H100 Tensor 核心架构概述和 NVIDIA Hopper 架构深入。

NVLink-C2C：用于超级芯片的高带宽、芯片到芯片互连

NVIDIA Grace Hopper 通过 NVIDIA NVLink-C2C 将 NVIDIA Grace CPU 和 NVIDIA Hopper GPU 融合到一个超级芯片中，NVIDIA NVLink-C2C 是一种 900 GB/s 的芯片到芯片一致性互连，可以使用统一的编程模型对 Grace Hopper 超级芯片进行编程。

NVLink Chip-2-Chip (C2C) 互连在 Grace CPU 和 Hopper GPU 之间提供高带宽直接连接，以创建 Grace Hopper Superchip，该超级芯片专为 AI 和 HPC 应用程序的嵌入式加速而设计。

凭借 900 GB/s 的双向带宽，NVLink-C2C 以更低的延迟提供 x16 PCIe Gen 链路带宽的 7 倍。 NVLink-C2C 每传输一位仅使用 1.3 皮焦耳，比 PCIe Gen 5 的能效高出 5 倍以上。

此外，NVLink-C2C 是一种一致的内存互连，具有对系统范围原子操作的本机硬件支持。这提高了内存访问非本地内存的性能，例如 CPU 和 GPU 线程访问驻留在其他设备中的内存。硬件一致性还提高了同步原语的性能，减少了 GPU 或 CPU 相互等待的时间并提高了总体系统利用率。

最后，硬件一致性还简化了使用流行编程语言和框架的异构计算应用程序的开发。有关详细信息，请参阅 NVIDIA Grace Hopper 编程模型部分。

NVLink 交换系统

NVIDIA NVLink 交换系统结合了第四代 NVIDIA NVLink 技术和全新的第三代 NVIDIA NVSwitch。 NVSwitch 的单级最多可连接八个 Grace Hopper 超级芯片，胖树拓扑结构中的第二级可通过 NVLink 联网多达 256 个 Grace Hopper 超级芯片。 Grace Hopper Superchip 对以高达 900 GB/s 的速度交换数据。

凭借多达 256 个 Grace Hopper 超级芯片，该网络可提供高达 115.2 TB/s 的全对全带宽。这是 NVIDIA InfiniBand NDR400 总带宽的 9 倍。

第四代 NVIDIA NVLink 技术使 GPU 线程能够使用正常的内存操作、原子操作和批量传输来寻址 NVLink 网络中所有超级芯片提供的高达 150 TB 的内存。 MPI、NCCL 或 NVSHMEM 等通信库在可用时透明地利用 NVLink 开关系统。

扩展 GPU 显存

NVIDIA Grace Hopper Superchip 旨在加速具有超大内存占用空间的应用程序，其容量大于单个超级芯片的 HBM3 和 LPDDR5X 内存容量。有关详细信息，请参阅 NVIDIA Grace Hopper 加速应用程序部分。

高带宽 NVLink-C2C 上的扩展 GPU 内存 (EGM) 功能使 GPU 能够高效地访问所有系统内存。 EGM 在多节点 NVSwitch 连接系统中提供高达 150 TB 的系统内存。使用 EGM，可以分配物理内存以供多节点系统中的任何 GPU 线程访问。所有 GPU 都可以以 GPU-GPU NVLink 或 NVLink-C2C 的最低速度访问 EGM。

Grace Hopper Superchip 配置中的内存访问通过本地高带宽 NVLink-C2C 以 900 GB/s 的速度进行。远程内存访问是通过 GPU NVLink 执行的，并且根据正在访问的内存，还可以使用 NVLink-C2C（下图所示）。借助 EGM，GPU 线程现在可以以 450 GB/s 的速度访问 NVSwitch 结构上的所有可用内存资源，包括 LPDDR5X 和 HBM3。

NVIDIA HGX Grace Hopper

NVIDIA HGX Grace Hopper 每个节点都有一个 Grace Hopper 超级芯片，与 BlueField-3 NIC 或 OEM 定义的 I/O 以及可选的 NVLink 开关系统配对。它可以风冷或液冷，TDP 高达 1,000W。

带 InfiniBand 的 NVIDIA HGX Grace Hopper

NVIDIA HGX Grace Hopper with Infiniband非常适合扩展传统机器学习 (ML) 和 HPC 工作负载，这些工作负载不会受到 InfiniBand 网络通信开销的瓶颈，InfiniBand 是可用的最快互连之一。

每个节点包含一个 Grace Hopper Superchip 和一个或多个 PCIe 设备，例如 NVMe 固态驱动器和 BlueField-3 DPU、NVIDIA ConnectX-7 NIC 或 OEM 定义的 I/O。 NDR400 InfiniBand NIC 具有 16 个 PCIe Gen 5 通道，可在超级芯片上提供高达 100 GB/s 的总带宽。结合 NVIDIA BlueField-3 DPU，该平台易于管理和部署，并使用传统的 HPC 和 AI 集群网络架构。

带有 NVLink 开关的 NVIDIA HGX Grace Hopper

NVIDIA HGX Grace Hopper with NVLink Switch 是强大的可扩展巨型机器学习和 HPC 工作负载的理想选择。它使 NVLink 连接域中的所有 GPU 线程能够在 256-GPU NVLink 连接系统中以每个超级芯片高达 900 GB/s 的总带宽寻址高达 150 TB 的内存。一个简单的编程模型使用指针加载、存储和原子操作。其 450 GB/s 的全归约带宽和高达 115.2 TB/s 的对分带宽使该平台成为大规模扩展全球最大、最具挑战性的 AI 训练和 HPC 工作负载的理想选择。

NVLink 连接的域与 NVIDIA InfiniBand 网络联网，例如，NVIDIA ConnectX-7 NIC 或 NVIDIA BlueField-3 数据处理单元 (DPU) 与 NVIDIA Quantum 2 NDR 交换机或 OEM 定义的 I/O 解决方案配对。

「JavaScript深入」Socket.IO：基于 WebSocket 的实时通信库八了个戒 JavaScript系列面试宝典大前端 javascript websocket 开发语言前端
Socket.IOSocket.IO的核心特性Socket.IO的架构解析Socket.IO的工作流程Socket.IO示例：使用Node.js搭建实时聊天服务器1.安装Socket.IO2.服务器端代码（Node.js）3.客户端代码（HTML+JavaScript）4.房间功能高级功能实现1.命名空间2.中间件3.二进制传输性能优化策略1.负载均衡2.资源管理3.监控与调试安全与可靠性1.安全
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Python strip() 方法详解：用途、应用场景及示例解析（中英双语）阿正的梦工坊 Python python 开发语言
Pythonstrip()方法详解：用途、应用场景及示例解析在Python处理字符串时，经常会遇到字符串前后存在多余的空格或特殊字符的问题。strip()方法就是Python提供的一个强大工具，专门用于去除字符串两端的指定字符。本文将详细介绍strip()的用法、适用场景，并通过多个示例解析其应用。1.strip()方法简介strip()方法用于去除字符串两端的指定字符（默认为空格和换行符）。它的
PX4飞控之位置控制（1）整体架构 Felix_ZL px4飞控 PX4 位置控制架构
位置控制是无人机飞控的核心算法之一，一方面根据commander中的flag标志位和Navigator中提供的航点信息进行控制（自主模式下），另一方面得到期望姿态角（setpoint）的四元数信息，给到姿态控制模块进行姿态控制。本文重点PX4飞控的位置控制的代码整体架构（mc_pos_control）,具体的控制算法将在后续文章中陆续奉上。位置控制模块的主函数：task_main()1.订阅结构体
使用Python连接SqlServer 带带琪宝工作日记 python sqlserver 开发语言
目录cursor()execute('sqlstr')fetchall()、fetchone()cursor.description属性close()转化为dataframe进行分析使用的是pymssql库，这个库的详细用法参照博客（博客里也有官方文档，英语好的可以直接看）：pythonpymssql—pymssql模块使用指南_夏日白云的博客-CSDN博客我目前的需求只是使用Python连接数据
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
为微服务架构增加聚合层 hello_world! 云原生 springboot
最近公司业务繁忙，全力以赴在做狐小E，一直没时间做技术分享，现在上线了，终于有时间来写点东西。网关是微服务架构不可或缺的一部分，作为微服务架构的唯一入口，将所有请求转发到后端对应的微服务上去，同时又可以将各个微服务中的通用功能集中到网关去做，而不是在每个微服务都实现一遍，比如权限校验，限流，熔断和监控等。如图所示，这是个典型的前后端分离的微服务架构，但这个架构在的问题是，一个接口无法同时满足不同场
基于springboot的在线点餐系统爱编程的小哥 java毕设 spring boot 后端 java vue
全栈在线点餐系统架构解析|SpringBoot+ElementUI后台管理实战（附高并发订单处理方案）一、系统全景透视基于五张效果图分析，该系统是餐饮行业全流程数字化解决方案，采用SpringBoot+MyBatisPlus+Vue2+ElementUI技术栈，实现用户端订餐与商家端管理的双向闭环。通过RBAC权限控制+订单状态机+实时库存预警三大核心机制，支持日均万级订单处理，覆盖从用户选餐、支
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
力扣 160 - Intersection of Two Linked Lists. (相交链表) Python双指针小杨快没头发了 Leetcode 刷题
力扣160-IntersectionofTwoLinkedLists.(相交链表)Python双指针原题地址：https://leetcode.com/problems/intersection-of-two-linked-lists/Giventheheadsoftwosinglylinked-listsheadAandheadB,returnthenodeatwhichthetwolistsi
golang jwt挖坑 qiang527052 golang个人笔记 golang jwt
golangjwt使用golangjwt使用中遇到的一个坑，特此记录。具体描述：因为公司需要，现有架构jwt生成token的代码是java实现的，然后现在在golang中需要对此token进行解析。java用到的jar包：io.jsonwebtoken.jjwt0.9.0golang用到的库：github.com/dgrijalva/jwt-gojava生成token测试代码如下：publicst
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
Nginx 接入 Keepalived 实现高可用，让你的网站稳如泰山！ OutOfMemory~~ nginx 服务器前端
一、往期内容回顾前面提到nginx可以实现后端服务的负载均衡，来使得后端的服务能力得到水平的扩展。但是怎么保证nginx的高可用呢，如果nginx挂了，还怎么持续提供服务呢？今天我们就来讲一讲Keepalived实现高可用的方案。二、什么是高可用？Keepalived高可用架构是什么？简单来说，高可用就是让你的网站服务时刻在线，即使出现硬件故障、网络波动等问题，也能快速恢复，保证用户访问不受影响。
springboot基于bs 架构的母婴用户商城全程服务管理系统(源码+lw+部署文档+讲解等) 源码哆哆V+ymhydo Java毕设优质源码 spring boot 架构后端
具体实现截图技术栈后端框架SpringBoot采用springboot作为后台的框架，java框架具有简化配置和开发的效率。Spring框架目前是很多java开发者的首选框架，Spring主要有两大功能，控制反转和面向切面的编程。控制反转（IOC）可以实现代码的依赖注入，减少代码的耦合性，大大提高了软件质量，面向切面编程（AOP）主要是应用动态代理的技术对代码逻辑进行分离，可以实现对代码的重用，适
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
python为什么需要文本编辑器-推荐几款高效的Python文本编辑器| 高效的文本编辑器的特点是什么... weixin_39991305
我们都知道程序员花费大量的时间在编写、阅读和编辑代码上，因此一定要使用高效的文本编辑器才能够提高并很好的完成工作的效率和保证工作的质量。什么是高效的文本编辑器呢？除了自己用的得心应手外，小编认为还应该包含以下几个特点：·突出代码的结构，让你在编写代码时就能够发现常见的bug；·包含自动缩进功能；·显示代码长度的标志；·用于执行常见操作的快捷键；如果你是编程新手小白，小u非常建议你使用具备上述功能而
【MySQL】实战篇—数据库设计与实现：根据需求设计数据库架构 AI人H哥会Java MySQL sql mysql 数据库
在设计数据库架构时，开发者需要遵循一系列步骤，以确保数据库能够高效、可靠地满足系统需求。以下是设计数据库架构的理论知识和步骤说明。1.需求分析需求分析是数据库设计的第一步，旨在理解系统的功能需求和数据需求。通过与利益相关者（如用户、开发人员和业务分析师）进行沟通，明确系统需要存储和管理的数据类型。步骤说明识别业务需求：确定系统的主要功能，例如用户管理、订单处理、库存管理等。收集数据需求：明确每个功
一文读懂Python列表（5）跟着杰哥学Python python
列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素，列表是新手可直接使用的最强大的Python功能之一。一、列表是什么1.列表由按顺序排列的元素组成，用[]表示列表，用逗号分隔元素2.举例：bicycles=['trek','cannondale','redline','specialized']二、列表的索引1.第一个列表元素的索引为0，而不是12.举例：三、访
一文读懂Python异常（16）跟着杰哥学Python python
Python程序执行期间发生的错误叫做异常，如果你编写了处理异常的代码，程序将继续执行；如果未编写处理异常的代码，程序将停止，并返回一条traceback，其中包含异常的报告。通常使用try-except代码块来处理异常。一、try-except代码块1、如果try代码块的代码运行起来没问题，则跳过except代码块；如果try代码块的代码导致了错误，则运行except代码块。2、举例二、try-
一文读懂Python之random模块（31）跟着杰哥学Python python
random模块是Python的内置标准库，用于生成各类随机数，可以用作生成网站初始登录密码和随机验证码。一、random模块简介random模块可以生成随机数，包括随机整数、浮点数、随机元素等。二、random模块相关概念随机数：是指在一定范围内随机产生的数，每个数被选中的概率相等。随机数最重要的特性是其后产生的数与前面的数毫无关系，即随机性、不可预测性和不可重现性。三、random模块常用方法
学习笔记——GPU 鹤岗小串 gpu算力分布式信息与通信系统架构硬件架构运维笔记
本文为学习笔记，故只对知识点依据自己的理解作概要总结，方便以后复习激活记忆。注：本文中GPU的讲解以A100型号为例，V100跟A100的架构差别不大也可适用，但是其他架构可能会有所出入。一、GPU硬件结构NVIDIAA100GPU的硬件结构HBM2：显存MemoryController：负责控制HBM2和L2Cache之间的通信High-SpeedHub：GPU总线，将NVLink、PCIE、E
应用-构建并优化 Python 的 Rust 扩展李星星BruceL 自动化测试 python rust 开发语言
目录构建并优化Python的Rust扩展如果你的Python代码运行速度不够快，你可以选择使用编译语言来编写更快的扩展。本文将重点介绍Rust，它具有以下优势：现代工具链，包括名为crates.io的包仓库和内置的构建工具（cargo）。出色的Python集成和工具支持。Rust的Python支持包是PyO3。对于打包，你可以使用setuptools-rust来与现有的setuptools项目集成
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

NVIDIA Grace Hopper架构深度解析

NVIDIA Grace Hopper架构深度解析

强大的 HPC 和超大 AI 工作负载的性能和生产力

性能、便携性和生产力的编程模型

超芯架构特点

英伟达 Grace CPU

NVIDIA Hopper GPU

NVLink-C2C：用于超级芯片的高带宽、芯片到芯片互连

NVLink 交换系统

扩展 GPU 显存

NVIDIA HGX Grace Hopper

带 InfiniBand 的 NVIDIA HGX Grace Hopper

带有 NVLink 开关的 NVIDIA HGX Grace Hopper

你可能感兴趣的:(架构,python,计算机视觉,NVIDIA,GPU)