图波列夫

CUTLASS: Efficient GEMM in CUDA

以下内容翻译自：CUTLASS 中的 Efficient GEMM in CUDA

Efficient GEMM in CUDA

CUTLASS 实现了 CUTLASS: Fast Linear Algebra in CUDA C++ 和 CUTLASS GTC2018 talk 中描述的分层分块结构。

Hierarchical Structure

基本的三重嵌套循环计算矩阵乘法可以应用分块和拼贴，以匹配硬件、内存局部性和并行编程模型中的并发性。CUTLASS 中 GEMM 映射到 NVIDIA GPU 的结构如以下嵌套循环所示。

for (int cta_n = 0; cta_n < GemmN; cta_n += CtaTileN) {                     // for each threadblock_y           } threadblock-level concurrency
  for (int cta_m = 0; cta_m < GemmM; cta_m += CtaTileM) {                   //    for each threadblock_x        }

    for (int cta_k = 0; cta_k < GemmK; cta_k += CtaTileK) {                 //       "GEMM mainloop" - no unrolling
                                                                            //                       - one iteration of this loop is one "stage"
                                                                            //
      for (int warp_n = 0; warp_n < CtaTileN; warp_n += WarpTileN) {        // for each warp_y                  } warp-level parallelism
        for (int warp_m = 0; warp_m < CtaTileM; warp_m += WarpTileM) {      //    for each warp_x               }
                                                                            //
          for (int warp_k = 0; warp_k < CtaTileK; warp_k += WarpTileK) {         //       fully unroll across CtaTileK
                                                                            //         - one iteration of this loop is one "k Group"
                                                                            //
            for (int mma_k = 0; mma_k < WarpTileK; mma_k += MmaK) {         // for each mma instruction         } instruction-level parallelism
              for (int mma_n = 0; mma_n < WarpTileN; mma_n += MmaN) {       //    for each mma instruction      }
                for (int mma_m = 0; mma_m < WarpTileM; mma_m += MmaM) {     //        for each mma instruction  }
                                                                            //
                  mma_instruction(d, a, b, c);                              //            TensorCore matrix computation

                }   // for mma_m
              }   // for mma_n
            }   // for mma_k

          }   // for warp_k
        }   // for warp_m
      }   // for warp_n

    }   // for cta_k
  }   // for cta_m
}   // for cta_n

这种拼贴嵌套循环的目标是线程块、线程束以及 CUDA 和张量核心之间的并发性。

它利用共享内存和寄存器内的内存局部性。

下图说明了该结构中的数据流。这就是 CUTLASS 所体现的分层 GEMM 计算。每个阶段描述了一个嵌套层次的拼贴，它对应于 CUDA 执行模型内的一层并发性和内存层次结构内的一个层次，从左向右移动变得越来越精细。

Threadblock-level GEMM

每个线程块通过迭代加载输入矩阵的图块并计算累积矩阵乘积来计算其输出 GEMM 的部分。在线程块级别，数据从全局内存加载。一般而言，分块策略是实现效率的关键。然而，程序员必须平衡多个相互冲突的目标：

更大的线程块意味着从全局内存中获取的数据更少，从而确保 DRAM 带宽不会成为瓶颈。
然而，大的线程块图块可能无法很好地匹配问题的维度：
- 如果 GEMM 的 M 或 N 维度较小，则线程块内的某些线程可能无法执行有意义的工作，因为线程块可能部分超出问题的范围。
- 如果 M 和 N 都较小而 K 较大，则该方案可能会启动相对较少的线程块，并且无法充分利用 GPU 内的所有多处理器。针对这种情况，优化性能的策略，如 Parallelized Reductions 部分所述，跨多个线程块或多个线程束对 GEMM 的 K 维度进行划分：
  - 这些线程块或线程束并行地计算矩阵积；
  - 然后对产品进行归约以计算结果。

在 CUTLASS 中，线程块图块的维度由ThreadblockShape::{kM, kN, kK}指定，并且可以进行调整以专门针对目标处理器和 GEMM 问题的维度进行 GEMM 计算。

Warp-level GEMM

线程束级 GEMM 映射到 CUDA 执行模型内的线程束级并行。线程块内的多个线程束将数据从共享内存提取到寄存器中并执行计算。Warp 级 GEMM 可以通过以下两种方法来实现：

发射 mma.sync 或 wmma 指令到 TensorCore ；
向 CUDA 核发出线程级矩阵计算。

为了获得最大性能，对共享内存的访问应该是无 bank 冲突的。为了最大限度地提高线程束内的数据重用，应选择大的线程束级 GEMM 切片。

Thread-level GEMM

在最低级别的分块中，每个线程负责处理一定数量的元素。线程无法访问彼此的寄存器，因此我们选择一种组织方式，能够重用寄存器中保存的值来执行多条数学指令。这会在线程内产生2D 图块结构，其中每个线程向 CUDA 核发出一系列独立的数学指令并计算累积的外积。

SGEMM、IGEMM、HGEMM 和 DGEMM 由线程级矩阵乘法程序发出的 SIMT 数学指令进行计算。

Epilogue

上述代码仅关注矩阵乘法运算 C = AB，其结果保存在线程块内每个线程的寄存器中。选择输出块中的逻辑元素到每个线程的映射以最大化矩阵乘法计算的性能，但不会导致高效、合并的加载和存储到全局内存。

收尾是一个单独的阶段，其中线程通过共享内存交换数据，然后使用高效的条带访问模式协同访问全局内存。这也是可以使用矩阵乘积结果作为输入来方便地计算线性缩放和其他元素运算的阶段。

CUTLASS 定义了几种典型的收尾操作，例如线性缩放和截断，但也可以使用其他设备端函数调用运算符来执行自定义操作。

Optimizations

上述分层结构可有效映射到 NVIDIA GPU 中的 CUDA 执行模型和 CUDA/TensorCore。以下各节描述了在设计空间的所有角落获得最佳性能、最大化并行性并尽可能利用数据局部性的策略。

Pipelining

分块结构需要在每个 CUDA 线程的寄存器内分配大量存储空间。累加器元素通常占据线程的总寄存器预算的至少一半。因此，与其他类别的 GPU 工作负载相比，占用率（并发线程、线程束和线程块的数量）相对较低。这限制了 GPU 通过上下文切换到 SM 内其他并发线程来隐藏内存延迟和其他停顿的能力。

为了减轻内存延迟的影响，CUTLASS 使用软件流水线将内存访问与线程内的其他计算重叠。 CUTLASS 通过在以下范围内进行双缓冲来实现这一点。

线程块范围的共享内存块：在共享内存中分配两个块。一个用于加载当前矩阵运算的数据，而另一个图块用于缓冲从全局内存加载的数据以供下一个主循环迭代使用。
线程束范围的矩阵分片：寄存器内分配两个分片。在当前矩阵计算期间，将一个分片传递给 CUDA 和 TensorCore，而另一个分片用于接收共享内存取回来的数据，用于下一步的线程束级矩阵操作。

下图说明了 CUTLASS 的 GEMM 中使用的高效、流水线式主循环体。

Threadblock Rasterization

为了最大限度地重用最后一级缓存中的数据，CUTLASS 定义了几个函数来影响线程块到 GEMM 问题的逻辑分区的映射。这些函数将连续启动的线程块映射到分区 GEMM 问题的打包二维区域，以增加这些线程块在大约同一时间访问相同的全局内存块的概率。

在 cutlass/gemm/threadblock_swizzle.h 中定义了几个函数。

Parallelized Reductions

Split K - reduction across threadblocks

矩阵乘积计算揭示了_O(MN)_ 独立内积计算之间的并行性。对于足够大的问题规模，CUTLASS 中的 GEMM 内核可以逼近理论上的最大计算吞吐量。但对于较小的问题，线程块太少，无法有效地占用整个 GPU。

作为一种手段，并行化内积计算期间执行的归约可以让更多线程块同时执行，同时仍然能利用大型线程块级 GEMM 切片的吞吐量优势。

CUTLASS 通过对 GEMM 的 K 维度进行划分，并为每个分区启动一组额外的线程块来实现跨线程块的并行归约。因此，我们在 CUTLASS 中将这种策略称为“并行归约 splitK”。 “并行归约 splitK”策略需要执行 2 个内核：partitionedK GEMM 和批量归约。

PartitionedK GEMM 类似于批量跨步 GEMM 的一种风格。PartitionedK GEMM 不要求用户指定每个批次的问题规模，而是要求总体问题规模以及将沿操作数 A 和 B 的 K 维度应用的分区数量。例如，参数 m=128，n =128、k=4096 和 partition=16 将产生16个批次的跨步 GEMM，每个批次 m=128、n=128、k=256。
PartitionedK 还允许 k 不能被分区数整除的情况。例如，参数 m=128、n=128、k=4096 和 partition=20 将产生 20 个批量跨步 GEMM。前19个批次将具有 m=128、n=128 和 k=4096/20=204，最后一个批次将具有 m=128、n=128 和 k=220。

批量归约内核将 partitionedK GEMM 的输出（C）作为输入，并沿 K 维进行归约。用户必须管理工作区内存来存储此中间结果。

Sliced K - reduction across warps

与 split-k 场景类似，sliced-k 旨在提高 M 和 N 维度较小但 K 维度较大时内核的效率。
在线程块级别，参数 CtaTileN 和 CtaTileM 通过在 warp 之间划分工作来公开并行性。较大的 warpTiles 具有更好的指令级并行性 (ILP) 和重用性，但也限制了每个线程块运行的 warp 数量，从而降低了效率。

为了提高此类场景中的效率，同样沿 ctaTileK 划分 warpTiles，通过允许更多线程束在 CTA 中同时运行来更有效地使用硬件。
Sliced-k 内核不仅在 CtaTileN、CtaTileM 维度之间，而且还在 CtaTileK 维度上分解线程块计算到参与的线程束。
因此，sliced-k 带来了一个小的归约形式的开销，这种归约必须出现在参与线程束的末尾。这是因为每个线程束仅使用 CtaTileK 的“切片”进行计算，因此每个线程束在归约之前仅具有部分和。

Warp Specialization

从 Hopper 开始，CUTLASS 3.0 将 Warp Specialization 的概念纳入内核设计的一部分。将线程块划分为两个线程束集合，producer warp group and consumer warp group：

生产者线程束组使用新的 Tensor Memory Accelerator (TMA) 将数据从全局内存加载到共享内存缓冲区中。
一旦数据写入共享内存，TMA 也会更新与该阶段关联的屏障，以通知受影响的线程已填充缓冲区。
另一方面，Consumer warp group (MMA) 等待生产者线程束组发出缓冲区已满的信号，然后启动张量核心 MMA 操作。
之后，消费者线程束组释放缓冲区以便发生下一组 TMA 加载。
Producer warp group (DMA) 等待消费者线程束组使用新添加的 Async Pipeline 类（请参阅）发出共享内存缓冲区为空的信号。

Warp-Specialized Persistent Cooperative kernel design

从 Hopper 开始引入的另一种 Warp 专用内核设计是 Warp-Specialized Persistent Cooperative 内核。与 Warp-Specialized 内核一样，线程束组和线程束组之间的屏障同步的概念在协作设计中保持不变。Warp-Specialized Persistent Cooperative 内核的显著特征如下：

启动持久线程块以占用 KernelHardwareInfo 结构中所提数量的 SM。这些持久线程块用于拼块输出，从而（可能）在其生命周期内计算多个输出块。这增加的主要好处是分摊了所有内核中典型的线程块启动和内核序幕开销。
通过在 M 维度上将图块一分为二，在同一输出块上存在两个协同工作的消费者线程束组。存在两个消费者线程束组通过在 M 维度上将图块分成两半来在同一输出图块上进行合作。这允许启用更大的图块尺寸——因为每个消费者线程束组的寄存器压力降低了——从而提高性能。

由于每个线程块现在计算多个输出块，因此网格启动的形状以及线程块的图块调度使用新的 Tile Scheduler 进行管理。Tile Scheduler 考虑集群的形状以及可用 SM 的数量，以计算输出图块到已启动线程块的有效调度。

Warp-Specialized Persistent Ping-Pong kernel design

第三种内核设计是 Warp-Specialized Persistent Ping-Pong 内核。
与 Warp Specialized Persistent Cooperative 一样，线程束组的核心概念、线程束组之间的屏障同步以及网格发射的形状在持久乒乓设计中保持不变。 Warp-Specialized Persistent Ping-Pong 内核的显著特征如下：

使用 Tile Scheduler 为两个消费者线程束组分配不同的输出图块。这允许一个消费者线程束组的收尾与另一消费者线程束组的数学运算重叠——从而最大化张量核心利用率。
生产者线程束组使用 Ordered Sequence Barrier 进行同步，以按顺序依次填充两个消费者线程束组的缓冲区。

Resources

以下附加资源描述了针对 NVIDIA GPU 的 GEMM 的设计和实现细节。

Developing CUDA Kernels to Push Tensor Cores to the Absolute Limit on NVIDIA A100. (SR 21745)
CUTLASS: Fast Linear Algebra in CUDA C++
CUTLASS: SOFTWARE PRIMITIVES FOR DENSE LINEAR ALGEBRA AT ALL LEVELS AND SCALES WITHIN CUDA
Programming Tensor Cores: NATIVE VOLTA TENSOR CORES WITH CUTLASS
CUDA Programming Guide: warp matrix functions
Matrix Multiply Accumulate Instructions

Copyright

  Redistribution and use in source and binary forms, with or without
  modification, are permitted provided that the following conditions are met:

  1. Redistributions of source code must retain the above copyright notice, this
  list of conditions and the following disclaimer.

  2. Redistributions in binary form must reproduce the above copyright notice,
  this list of conditions and the following disclaimer in the documentation
  and/or other materials provided with the distribution.

  3. Neither the name of the copyright holder nor the names of its
  contributors may be used to endorse or promote products derived from
  this software without specific prior written permission.

  THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
  AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
  FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
  SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
  CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
  OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南知识大胖 NVIDIA GPU和大语言模型开发教程 linux 运维服务器
简介为了获得最佳性能，您需要在Linux上运行5090/5080/5070Ti/5070或其他50系列GPU（或Windows上的WSL）。这篇文章将包含有关如何操作的详细指南。主线内核和驱动程序怪癖之旅Nvidia50系列GPU拥有最新的Nvidia技术。但是，新硬件需要一些新软件或更新，这需要一些耐心。如果您在这里，您可能会遇到Ubuntu默认设置的障碍。不要害怕！我最近自己摸索了这个迷宫，结
使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
8卡RTX 5090D服务器部署Qwen3-32B-AWQ模型执行性能测试
一、背景最近得了一台8卡5090D服务器进行测试评估。GPU拓扑情况如下(test)root@ubuntu:/opt/models#nvidia-smitopo-mGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7CPUAffinityNUMAAffinityGPUNUMAIDGPU0XNODENODENODESYSSYSSYSSYS0-31,64-950N/AGPU1NODEXNO
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Linux驱动开发学习入门第一篇柴工002 linux 驱动开发学习
一.如何学习Linux驱动Linux驱动开发基础Linux驱动开发是指为Linux操作系统创建能够控制和管理硬件设备的软件模块的过程。驱动程序是操作系统内核的一部分，它们负责与硬件设备通信，确保硬件能够正常工作。Linux内核提供了一个丰富的框架和API，用于简化驱动程序的开发。学习资源和教程对于初学者来说，有许多在线资源和书籍可以帮助理解Linux驱动开发的概念和技术。例如，《Linux设备驱动
【Zephyr开发实践系列】06_存储块设备驱动开发（Nand Flash） jz-炸芯片的zero Zephyr实践开发驱动开发单片机嵌入式硬件 linux iot mcu 物联网
文章目录前言一、Flash驱动模型介绍1.1核心基础应用API（必须）1.2高级功能应用API（可选）1.3设置数据结构1.4硬件初始化1.5设备实例化二、数据结构定义2.1获取Flash块与页大小三、核心API函数实现3.1擦除函数3.2读取函数3.3写入函数4.4layout函数4.5坏区检测函数总结前言在嵌入式系统中，常见的Flash存储模块根据接口类型和用途可分为NOR、NAND、EMMC
显卡GPU的架构和工作原理 InnoLink_1024 芯片人工智能 AGI 架构硬件架构人工智能
显卡GPU（图形处理单元）是专为并行计算和图形处理设计的芯片，广泛应用于游戏、科学计算、人工智能和数据中心等领域。以下详细介绍GPU的架构和工作原理，涵盖核心组件、计算流程和关键技术，尽量简洁清晰。一、GPU架构概述GPU架构与CPU不同，专注于高并行计算，适合处理大量简单、重复的任务。其核心设计目标是最大化吞吐量，而非单任务的低延迟。主流GPU厂商（如NVIDIA、AMD、Intel）架构虽有差
window显示驱动开发—XR 格式的强制转换功能程序员王马 windows图形显示驱动开发 xr
DXGI_FORMAT_R10G10B10_XR_BIAS_A2_UNORM格式是DXGI_FORMAT_R10G10B10A2_TYPELESS系列的成员。因此，应用程序可以通过API级别的“视图”概念将DXGI_FORMAT_R10G10B10_XR_BIAS_A2_UNORM格式强制转换为该系列的任何其他成员。此过程是应用程序呈现到资源的预期方式。具体而言，Direct3D运行时只能通过驱动
英伟达 Isaac ROS产品体验芝麻香儿 Roads to deep learning.AI 英伟达 Isaac ROS
这里写自定义目录标题英伟达IsaacROS产品体验运行的商品名称运行过程记录GPU加速仿真总结英伟达IsaacROS产品体验NVIDIAIsaacROS是一套为自主移动机器人（AMR）开发的硬件加速软件包，专为在NVIDIAGPU和Jetson平台上优化ROS（RobotOperatingSystem）应用程序而设计。它通过提供一系列模块化的ROS包和完整的处理管道，帮助开发者加速AI感知、图像处
当高级辅助驾驶遇上“安全驾校”：NVIDIA如何用技术给智能驾驶赋能？小lo想吃棒棒糖安全人工智能高级辅助驾驶
高级辅助驾驶技术的商业化落地，核心在于能否通过严苛的安全验证。国内的汽车企业其实也在做高级辅助驾驶，但是吧，基本都在L2级别。换句话说就是在应急时刻内，还是需要人来辅助驾驶，AI驾驶只是决策层，并不能完全掌握汽车。而国内做的比较好的品牌达到L4级别的，例如之前很火的萝卜快跑、或者目前智己汽车（并未大量推广），也都并没达到非常理想的状态。而NVIDIA近期推出的DRIVEAI系统检测实验室，不仅是行
在Ubuntu系统下使用Docker部署ollama并使用英伟达gpu加速 longze_7 docker 容器运维
下载安装英伟达Nvidiacontainertoolkit：curl-fsSLhttps://nvidia.github.io/libnvidia-container/gpgkey|sudogpg--dearmor-o/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg\&&curl-s-Lhttps://nvidia.github.io
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
NVIDIA GeForce RTX 3090显卡详细介绍山顶望月川人工智能
一、详细参数（一）核心参数芯片厂商：NVIDIA显卡芯片：GeForceRTX3090显示芯片系列：NVIDIARTX30系列制作工艺：8纳米核心代号：GA102-300核心频率：基础频率1400MHz，加速频率1700MHzCUDA核心：10496个（二）显存规格显存频率：19500MHz显存类型：GDDR6X显存容量：24GB显存位宽：384bit最大分辨率：7680×4320（三）显卡接口接
Ubuntu22.04安装cudnn详细步骤大鹏的NLP博客深度学习 cudnn
下载指定版本的cudnnhttps://developer.nvidia.com/rdp/cudnn-archive#a-collapse804-111安装sudodpkg-icudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb根据上步提示：sudocp/var/cudnn-local-repo-ubuntu2204-8.9.7.29/cudnn
【华为昇腾|CUDA】服务器A6000显卡部署LLM实战记录刘阿宾技能备忘服务器语言模型华为 gpu算力 kylin
安装驱动https://www.nvidia.cn/drivers/lookup/搜索对应gpu的kylin版本即可先使用wget下载rpm包rpm-i安装最后使用dnfinstallnvidia-driver即可上面安装的是驱动仓库安装CUDAkylin服务器参考配置同上，先wget，后rpm-i，最后dnfinstallcuda即可安装Ollamaollama官方提供aarch64docker
window显示驱动开发—BGRA 扫描输出支持程序员王马 windows图形显示驱动开发驱动开发
为DXGI_FORMAT_B8G8R8A8_UNORM和DXGI_FORMAT_B8G8R8A8_UNORM_SRGB格式启用扫描输出位。因此，用户模式显示驱动程序应能够执行以下操作：处理对这些格式的主图面的请求。为使用这些格式创建的资源处理对其SetDisplayMode函数的调用。处理对其PresentDXGI函数的调用，以通过位块传输(bitblt)和翻转操作呈现这些格式。处理对其BltDX
驱动开发系列59- 再述如何处理硬件中断黑不溜秋的 GPU驱动专栏驱动开发
目录一：硬件中断以及内核是如何处理中断的二：分配硬件IRQ1.使用request_irq()分配中断处理程序2.释放IRQ3.设置中断标志4.理解电平触发与边沿触发中断三：实现中断处理程序四：使用线程中断模型五：启用/禁用中断六：查看所有已分配的中断线七：理解和使用上半部和下半部八：总结在本文中，我们将重点讨论编写设备驱动程序时一个非常关键的方面：什么是硬件中断，更重要的是，作为驱动开发者，你该如
【NVIDIA-H100】基于 nvidia-smi 数据H100 GPU 功耗异常深度分析与解决方案清风 001 AI大模型底层建设人工智能 gpu算力
目录一、引言二、GPU功耗与温度管理基础逻辑（一）GPU温度调控机制（二）功耗与温度的关联逻辑三、3号H100GPU异常数据深度拆解（一）正常卡与异常卡数据对比（核心指标）（二）异常指标的物理意义四、功耗低的根源分析（多维度拆解）（一）硬件故障维度1.温度传感器故障（GPU核心）2.显存散热模块失效3.供电电路异常（二）软件与驱动维度1.NVIDIA驱动版本兼容性问题2.系统级电源管理策略冲突（三
一文就够-InfiniBand 技术全面解析：从原理到实践的通俗易懂指南清风 001 AI大模型底层建设 php 开发语言 ai gpu算力
目录一、基本概念：揭开InfiniBand的神秘面纱1.1什么是InfiniBand？1.2InfiniBand的核心优势1.3InfiniBand与以太网的区别1.4InfiniBand的应用场景二、Nvidia+Mellanox：强强联合重塑高速网络格局2.1收购背景：Nvidia的"网络拼图"2.2Mellanox的技术家底2.3收购后的化学反应：Nvidia如何整合Mellanox2.4对
位运算符详解
在C语言中，位运算符（BitwiseOperators）用于对整数类型（如int,unsignedint,long,char等）的二进制位进行操作。这些操作比算术运算更底层，常用于嵌入式开发、驱动开发、图像处理、网络协议、加密等场景。下面是C语言中所有的位运算符及其详解：一、位运算符列表运算符名称功能说明&位与（AND）两个二进制位都为1，结果才为1``位或（OR）^位异或（XOR）两个二进制位不
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
Ubuntu22.04 安装autoware universe
注意事项：1，不要用conda包管理2，将autoware项目和autoware_map都放在$Home目录下3，系统的软件更新器更新包这步很重要1，装好了ubuntu22.04系统后，首先装nvidia显卡驱动autoware所需最低驱动版本为550,进入ubuntu恢复模式，启动终端输入以下命令（前提是有网络连接）wgethttps://vip.123pan.cn/1816448054/xTo
window显示驱动开发—X 通道解释程序员王马 windows图形显示驱动开发驱动开发
例如，用户模式显示驱动程序应读取包含X(的所有格式的X通道，当向筛选硬件或混合器提供此类格式时，DXGI_FORMAT_B8G8R8X8_UNORM)为1.0f。将数据移出三维管道(即，当应用程序调用ID3D10Device：：CopyResource、ID3D10Device：：CopySubresourceRegion或ID3D10Device：：UpdateSubResource方法时，必须
window显示驱动开发—从 BGR8888 转换为 XR_BIAS 程序员王马 windows图形显示驱动开发 xr
例如，从BGR8888类型格式的转换(，DXGI_FORMAT_B8G8R8A8_UNORM)到XR_BIAS是无损的。显式选择比例因子510，用于在BGR8888类型格式与XR_BIAS之间提供完全不可逆的转换，而不会导致比例系数511所暗示的非线性跳跃接近0.5。核心设计原理无损转换条件BGR8888是8位/通道的归一化格式（值范围[0,1]，步长1/255）。XR_BIAS的10位精度（范围
Ubuntu下安装多版本CUDA及灵活切换全攻略芯作者 D2：ubuntu linux ubuntu
——释放深度学习潜能，告别版本依赖的烦恼！**为什么需要多版本CUDA？在深度学习、科学计算等领域，不同框架（TensorFlow、PyTorch等）对CUDA版本的要求各异。同时升级框架或维护旧项目时，版本冲突频发。多版本CUDA共存+一键切换是高效开发的刚需！本文将手把手教你实现这一能力，并分享独创的“动态软链接+环境隔离”技巧，让版本管理行云流水！环境准备硬件要求NVIDIA显卡（支持CUD
PyTorch安装总失败？看完这篇保姆级教程，从0到1轻松搞定！喜欢编程就关注我 pytorch 人工智能 python
引言：为什么你装不好PyTorch？“CUDA版本不匹配？pip安装超时？conda环境冲突？”新手安装PyTorch的坑比代码bug还多！这篇博客整合CSDN高赞实战技巧，手把手教你绕过10大安装陷阱，附赠代码级验证指南！一、安装前必看：环境检查清单检查项操作方法Python版本python--version（推荐3.8-3.11）CUDA驱动nvidia-smi（仅NVIDIA显卡需要）con
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70. weixin_66009678 pytorch 人工智能 python
出现如下报错：NVIDIAGeForceRTX3090withCUDAcapabilitysm_86isnotcompatiblewiththecurrentPyTorchinstallation.ThecurrentPyTorchinstallsupportsCUDAcapabilitiessm_37sm_50sm_60sm_70.IfyouwanttousetheNVIDIAGeForceRT
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本