wujianming_110117

NVIDIA安培架构

NVIDIA Ampere Architecture In-Depth

在2020年英伟达GTC主题演讲中，英伟达创始人兼首席执行官黄仁勋介绍了基于新英伟达安培GPU架构的新英伟达A100 GPU。本文将介绍新的A100 GPU，并描述NVIDIA安培体系结构GPU的重要新功能。

在现代云数据中心运行的计算密集型应用程序的多样性推动了NVIDIA GPU加速云计算的爆炸式增长。这些密集型应用包括人工智能深度学习（AI deep learning，DL）培训和推理、数据分析、科学计算、基因组学、边缘视频分析和5G服务、图形渲染、云游戏等。从扩展人工智能培训和科学计算，到扩展推理应用程序，再到实现实时对话人工智能，NVIDIA gpu提供了必要的马力来加速当今云数据中心中运行的众多复杂和不可预测的工作负载。

NVIDIA GPU是推动人工智能革命的领先计算引擎，为人工智能训练和推理工作提供了巨大的加速。此外，NVIDIA gpu加速了许多类型的HPC和数据分析应用程序和系统，使您能够有效地分析、可视化数据，并将数据转化为见解。NVIDIA加速计算平台是世界上许多最重要和增长最快的行业的核心。

Introducing the NVIDIA A100 Tensor Core GPU

NVIDIA A100 Tensor Core GPU基于新的NVIDIA安培GPU体系结构，并建立在以前的NVIDIA Tesla V100 GPU的能力之上。它增加了许多新功能，为HPC、AI和数据分析工作负载提供了显著更快的性能。

A100为运行在单个和多个GPU工作站、服务器、集群、云数据中心、边缘系统和超级计算机中的GPU计算和DL应用程序提供了强大的扩展能力。A100 GPU支持构建弹性、多用途和高吞吐量的数据中心。

A100 GPU包括一个革命性的新的多实例GPU（MIG）虚拟化和GPU分区功能，这对云服务提供商（csp）特别有利。当配置为MIG操作时，A100允许csp提高其GPU服务器的利用率，以不增加成本的方式提供最多7倍的GPU实例。健壮的故障隔离允许他们安全地划分单个A100 GPU。

A100增加了一个强大的新的第三代Tensor核心，它在增加了对DL和HPC数据类型的全面支持的同时，还增加了一个新的稀疏特性，使吞吐量进一步增加了一倍。

A100中新的TensorFloat-32（TF32）Tensor Core操作为在DL框架和HPC中加速FP32输入/输出数据提供了一条简单的途径，运行速度比V100 FP32 FMA操作快10倍，或在稀疏情况下快20倍。对于FP16/FP32混合精度DL，A100张量核的性能是V100的2.5倍，稀疏性增加到5倍。

新的Bfloat16（BF16）/FP32混合精度张量核运算以与FP16/FP32混合精度相同的速率运行。INT8、INT4和二进制舍入的张量核心加速支持DL推断，A100稀疏INT8的运行速度比V100 INT8快20倍。对于HPC，A100 Tensor Core包括新的符合IEEE标准的FP64处理，其性能是V100的2.5倍。

NVIDIA A100 GPU的架构不仅可以加速大型复杂工作负载，还可以有效地加速许多较小的工作负载。A100支持构建能够适应不可预测的工作负载需求的数据中心，同时提供细粒度的工作负载配置、更高的GPU利用率和改进的TCO。

NVIDIA A100 GPU为人工智能训练和推理工作负载提供了超过V100的异常加速。

Key features

在台积电7NMN7制造工艺上制造的基于NVIDIA安培架构的GA100 GPU为A100供电，包括542亿个晶体管，芯片尺寸为826平方毫米。

A100 GPU streaming multiprocessor

NVIDIA安培体系结构中的新的流多处理器（SM）基于A100张量核GPU显著提高了性能，建立在Volta和Turing SM体系结构中引入的特性的基础上，并增加了许多新功能。
A100第三代张量核增强了操作数共享和效率，并添加了强大的新数据类型，包括：

加速处理FP32数据的TF32张量核心指令

符合IEEE标准的HPC FP64张量核指令

与FP16吞吐量相同的BF16张量核心指令

表1. A100张量核心GPU性能规范。

1）峰值速率基于GPU升压时钟。

2）使用新稀疏特性的有效TFLOPS/TOPS。

在100个张量核中新的稀疏性支持可以利用DL网络中的细粒度结构稀疏性来加倍张量核操作的吞吐量。稀疏性特征在本文后面的A100介绍细粒度结构稀疏性一节中有详细描述。
A100中更大更快的一级缓存和共享内存单元提供的每SM聚合容量是V100的1.5倍（192 KB/SM，128 KB/SM），可为许多HPC和AI工作负载提供额外的加速。

其他一些新的SM特性提高了效率和可编程性，降低了软件复杂性。

40 GB HBM2 and 40 MB L2 cache

为了满足巨大的计算吞吐量，NVIDIA A100 GPU拥有40gb的高速HBM2内存，其内存带宽达到1555gb/s，比Tesla V100提高了73%。此外，A100 GPU的片上内存显著增加，包括一个比V100大近7倍的40MB二级（L2）缓存，以最大限度地提高计算性能。A100二级缓存采用了一种新的分区交叉结构，提供了V100二级缓存读取带宽的2.3倍。

为了优化容量利用率，NVIDIA安培体系结构为您提供了二级缓存驻留控制，用于管理要保留或从缓存中收回的数据。A100还增加了计算数据压缩，使DRAM带宽和二级带宽提高了4倍，二级容量提高了2倍。

Multi-Instance GPU

新的多实例GPU（MIG）功能允许A100 Tensor Core GPU安全地划分为多达七个单独的GPU实例，用于CUDA应用程序，为多个用户提供单独的GPU资源以加速其应用程序。
使用MIG，每个实例的处理器在整个内存系统中都有独立的路径。片上纵横端口、二级缓存组、内存控制器和DRAM地址总线都是唯一分配给单个实例的。这确保了单个用户的工作负载可以在相同的二级缓存分配和DRAM带宽下以可预测的吞吐量和延迟运行，即使其他任务正在冲击自己的缓存或使DRAM接口饱和。

MIG提高了GPU硬件利用率，同时提供了定义的QoS和不同客户端（如vm、容器和进程）之间的隔离。MIG对于拥有多租户用例的csp尤其有利。它确保了一个客户机不会影响其他客户机的工作或调度，此外还提供了增强的安全性并允许为客户机提供GPU利用率保证。

Third-generation NVIDIA NVLink

第三代NVIDIA高速NVLink互连在A100 GPUs和新NVIDIA nvlswitch中实现，显著提高了多GPU的可扩展性、性能和可靠性。由于每个GPU和交换机有更多的链路，新的NVLink提供了更高的GPU-GPU通信带宽，并改进了错误检测和恢复功能。

第三代NVLink每个信号对的数据速率为50gbit/sec，几乎是V100中25.78gbit/sec速率的两倍。一个A100NVLink在每个方向上提供25GB/秒的带宽，与V100类似，但每个链路使用的信号对数仅为V100的一半。链路总数在A100中增加到12个，而在V100中增加到6个，从而产生600 GB/秒的总带宽，而在V100中为300 GB/秒。

Support for NVIDIA Magnum IO and Mellanox interconnect solutions

A100 Tensor Core GPU与NVIDIA Magnum IO和Mellanox最先进的InfiniBand和以太网互连解决方案完全兼容，可加速多节点连接。

Magnum IO API集成了计算、网络、文件系统和存储，以最大限度地提高多GPU、多节点加速系统的I/O性能。它与CUDA-X库接口，以加速从人工智能和数据分析到可视化等各种工作负载的I/O。

PCIe Gen 4 with SR-IOV

A100 GPU支持PCI Express Gen 4（PCIe Gen 4），通过提供31.5
GB/s而不是15.75 GB/s的x16连接，PCIe 3.0/3.1的带宽翻了一番。更快的速度对于连接到支持PCIe 4.0的cpu的100 gpu和支持快速网络接口（例如200gbit/sec InfiniBand）尤其有利。

A100还支持单根输入/输出虚拟化（SR-IOV），允许为多个进程或虚拟机共享和虚拟化单个PCIe连接。

Improved error and fault detection, isolation, and containment

通过检测、包含并经常纠正错误和故障，而不是强制GPU重置，最大化GPU正常运行时间和可用性至关重要。在大型多GPU集群和单GPU、多租户环境（如MIG配置）中尤其如此。A100 Tensor Core GPU包括新技术，用于改进错误/故障属性、隔离和遏制，如本文后面深入的架构部分所述。

Asynchronous copy

A100 GPU包括一个新的异步复制指令，该指令将数据直接从全局内存加载到SM共享内存中，从而消除了使用中间寄存器文件（RF）的需要。异步复制减少了寄存器文件带宽，更有效地使用了内存带宽，并降低了功耗。顾名思义，异步复制可以在后台完成，而SM正在执行其他计算。

Asynchronous barrier

A100 GPU在共享内存中提供硬件加速屏障。这些障碍是使用CUDA 11的形式，ISO C++ +符合壁垒对象。异步屏障将屏障到达和等待操作分开，可用于将从全局内存到共享内存的异步副本与SM中的计算重叠。它们可用于使用CUDA线程实现生产者-消费者模型。屏障还提供了同步不同粒度的CUDA线程的机制，而不仅仅是扭曲或块级别。

Task graph acceleration

CUDA任务图为向GPU提交工作提供了一个更有效的模型。任务图由一系列操作组成，如内存拷贝和内核启动，这些操作通过依赖关系连接起来。任务图允许定义一次并重复运行执行流。预定义的任务图允许在单个操作中启动任意数量的内核，极大地提高了应用程序的效率和性能。A100增加了新的硬件特性，使任务图中网格之间的路径明显更快。

A100 GPU hardware architecture

NVIDIA GA100 GPU由多个GPU处理集群（gpc）、纹理处理集群（tpc）、流式多处理器（SMs）和HBM2内存控制器组成。

GA100 GPU的完整实现包括以下单元：

· 8 GPCs, 8 TPCs/GPC, 2 SMs/TPC, 16 SMs/GPC, 128 SMs per
full GPU

· 64 FP32 CUDA Cores/SM, 8192 FP32 CUDA Cores per full GPU

· 4 third-generation Tensor Cores/SM, 512 third-generation
Tensor Cores per full GPU

· 6 HBM2 stacks, 12 512-bit memory controllers

GA100 GPU的A100 Tensor Core GPU实现包括以下单元：

· 7 GPCs, 7 or 8 TPCs/GPC, 2 SMs/TPC, up to 16 SMs/GPC, 108
SMs

· 64 FP32 CUDA Cores/SM, 6912 FP32 CUDA Cores per GPU

· 4 third-generation Tensor Cores/SM, 432 third-generation
Tensor Cores per GPU

· 5 HBM2 stacks, 10 512-bit memory controllers

A100 SM architecture

新的A100SM显著提高了性能，建立在Volta和Turing SM体系结构中引入的特性的基础上，并增加了许多新的功能和增强。

A100 SM图如图5所示。Volta和Turing每个SM有8个张量核，每个张量核每个时钟执行64个FP16/FP32混合精度融合乘法加法（FMA）操作。A100 SM包括新的第三代张量核心，每个核心执行256 FP16/FP32 FMA操作每时钟。A100每个SM有四个张量核，每个时钟总共提供1024个密集的FP16/FP32 FMA操作，与Volta和Turing相比，每个SM的计算功率增加了两倍。

本文简要强调了SM的主要功能，并在后面的文章中详细介绍了这些功能：

第三代张量磁芯：

所有数据类型的加速，包括FP16、BF16、TF32、FP64、INT8、INT4和Binary。

新的张量核稀疏特性利用了深度学习网络中的细粒度结构稀疏性，使标准张量核操作的性能提高了一倍。

A100中的TF32 Tensor核心操作为在DL框架和HPC中加速FP32输入/输出数据提供了一条简单的途径，运行速度比V100 FP32 FMA操作快10倍，或在稀疏情况下快20倍。

FP16/FP32混合精度张量核运算为DL提供了前所未有的处理能力，运行速度比V100张量核运算快2.5倍，稀疏性增加到5倍。

BF16/FP32混合精度张量核心运算的运行速度与FP16/FP32混合精度相同。

FP64 Tensor核心操作为HPC提供了前所未有的双精度处理能力，运行速度比V100 FP64 DFMA操作快2.5倍。

具有稀疏性的INT8张量核操作为DL推理提供了前所未有的处理能力，运行速度比V100 INT8操作快20倍。

192kb的共享内存和L1数据缓存，比V100 SM大1.5x。

新的异步复制指令将数据直接从全局内存加载到共享内存中，可以选择绕过一级缓存，并且不需要使用中间寄存器文件（RF）。

新的基于共享内存的屏障单元（异步屏障），用于新的异步复制指令。

二级缓存管理和常驻控制的新说明。

CUDA协作组支持的新的扭曲级缩减指令。

许多可编程性改进以降低软件复杂性。

图6比较了V100和A100 FP16张量核心操作，还将V100 FP32、FP64和INT8标准操作与各自的A100 TF32、FP64和INT8张量核心操作进行了比较。吞吐量是每个GPU的聚合，A100使用FP16、TF32和INT8的稀疏张量核心操作。左上角的图显示了两个V100 FP16张量核，因为V100 SM每个SM分区有两个张量核，而A100 SM分区有两个张量核。

Figure 6. A100 Tensor Core operations compared to V100 Tensor Core and standard operations for different data types.

Figure 7. TensorFloat-32 (TF32) provides the range of FP32 with the precision of FP16(left). A100 accelerates tensor math with TF32 while supporting FP32 input and output data (right), enabling easy integration into DL and HPC programs and automatic acceleration of DL frameworks.

今天，人工智能训练的默认数学是FP32，没有张量核心加速度。NVIDIA安培体系结构引入了对TF32的新支持，使得人工智能训练在默认情况下可以使用张量核，而用户不必费劲。在产生标准IEEE FP32输出之前，非张量操作继续使用FP32数据路径，而TF32张量核读取FP32数据并使用与FP32相同的范围，同时降低内部精度。TF32包括8位指数（与FP32相同）、10位尾数（与FP16精度相同）和1个符号位。

与Volta一样，自动混合精度（AMP）使您能够使用FP16的混合精度进行人工智能训练，只需更改几行代码。使用AMP，A100提供比TF32快2倍的张量核心性能。

综上所述，用户对NVIDIA安培架构数学进行DL培训的选择如下：

默认情况下，使用TF32张量核，不调整用户脚本。与A100上的FP32相比，吞吐量高出8倍；与V100上的FP32相比，吞吐量高出10倍。

应使用FP16或BF16混合精度训练以获得最大训练速度。与TF32相比，吞吐量增加了2倍，与A100上的FP32相比，吞吐量增加了16倍，与V100上的FP32相比，吞吐量增加了20倍。

A100张量核加速高性能混凝土

高性能计算机应用的性能需求正在迅速增长。许多科学和研究领域的应用都依赖于双精度（FP64）计算。

为了满足HPC计算快速增长的计算需求，A100 GPU支持张量运算，加速符合IEEE标准的FP64计算，使FP64的性能达到NVIDIA Tesla V100 GPU的2.5倍。

A100上新的双精度矩阵乘法加法指令取代了V100上的8条DFMA指令，减少了指令获取、调度开销、寄存器读取、数据路径功率和共享内存读取带宽。

A100中的每个SM总共计算64个FP64 FMA操作/时钟（或128个FP64操作/时钟），是特斯拉V100吞吐量的两倍。A100 Tensor Core GPU具有108条短信息，峰值FP64吞吐量为19.5tflops，是Tesla V100的2.5倍。

有了对这些新格式的支持，A100张量核可以用于加速HPC工作负载、迭代求解器和各种新的AI算法。

Table 2. A100 speedup over V100 (TC=Tensor Core, GPUs at respective clock speeds).

Effective TOPS / TFLOPS using the new Sparsity feature

A100 introduces fine-grained structured sparsity

NVIDIA使用A100 GPU引入了细粒度结构稀疏性，这是一种新的方法，可以使深部神经网络的计算吞吐量翻倍。

在深度学习中，稀疏性是可能的，因为个体权重的重要性在学习过程中不断演化，到网络训练结束时，只有一个子集的权重在确定学习输出时获得了有意义的目的。剩下的权重不再需要了。

细粒度结构稀疏性对允许的稀疏性模式施加了约束，使硬件更有效地对输入操作数进行必要的对齐。由于深度学习网络能够在基于训练反馈的训练过程中自适应权值，NVIDIA工程师发现，结构约束一般不会影响训练网络的推理精度。这使得能够以稀疏性推断加速度。

对于训练加速，需要在训练过程的早期引入稀疏性以提供性能效益，而训练加速而不损失精度的方法是一个活跃的研究领域。

稀疏矩阵定义

结构是通过一个新的2:4稀疏矩阵定义来实现的，该定义允许每四个入口向量中有两个非零值。A100支持行上2:4的结构化稀疏性，如图9所示。

由于矩阵结构清晰，因此可以有效地压缩它，并将内存存储和带宽减少近2倍。

Figure 9. A100 fine-grained structured sparsity prunes trained weights with a 2-out-of-4 non-zero pattern, followed by a simple and universal recipe for fine-tuning the non-zero weights. The weights are compressed for a 2x reduction in data footprint and bandwidth, and the A100 Sparse Tensor Core doubles math throughput by skipping the zeros.

NVIDIA开发了一个简单而通用的方法，用这种2:4结构的稀疏模式来稀疏化深层神经网络进行推理。该网络首先使用稠密权值进行训练，然后应用细粒度结构化剪枝，最后通过附加的训练步骤对剩余的非零权值进行微调。这种方法实际上不会导致基于横跨视觉、对象检测、分割、自然语言建模和翻译的数十个网络的评估的推断精度损失。

A100 Tensor-Core GPU包含新的稀疏Tensor-Core指令，这些指令跳过值为零的条目的计算，从而使Tensor-Core计算吞吐量加倍。图9显示了Tensor Core如何使用压缩元数据（非零索引）将压缩的权重与为输入到Tensor Core点积计算而适当选择的激活相匹配。

Combined L1 data cache and shared memory

首先在NVIDIA Tesla V100中引入的NVIDIA将L1数据缓存和共享内存子系统架构相结合，显著提高了性能，同时还简化了编程并减少了达到峰值或接近峰值应用程序性能所需的调整。将数据缓存和共享内存功能组合到单个内存块中，为这两种类型的内存访问提供最佳的总体性能。

一级数据缓存和共享内存的组合容量在A100中为192 KB/SM，而在V100中为128 KB/SM。

Simultaneous execution of FP32 and INT32 operations

与V100和Turing gpu类似，A100 SM还包括单独的FP32和INT32内核，允许以全吞吐量同时执行FP32和INT32操作，同时也增加了指令发出吞吐量。

许多应用程序都有执行指针算术（整数内存地址计算）的内部循环，这些内部循环与浮点计算结合使用，可从同时执行FP32和INT32指令中获益。流水线循环的每次迭代都可以更新地址（INT32指针算法）并为下一次迭代加载数据，同时在FP32中处理当前迭代。

A100 HBM2 DRAM subsystem

随着HPC、AI和分析数据集的不断增长以及寻找解决方案的问题变得越来越复杂，需要更多的GPU内存容量和更高的内存带宽。

特斯拉P100是世界上第一个支持高带宽HBM2存储技术的GPU架构，而特斯拉V100提供了更快、更高效、更大容量的HBM2实现。A100再次提高了HBM2的性能和容量。

HBM2内存由与GPU位于同一物理包上的内存堆栈组成，与传统的GDDR5/6内存设计相比，它提供了大量的功耗和面积节省，允许在系统中安装更多的GPU。有关HBM2技术基本细节的更多信息，请参阅NVIDIA Tesla P100：有史以来最先进的数据中心加速器白皮书。

A100 GPU的SXM4型电路板上有40GB的快速HBM2 DRAM内存。内存被组织为五个活动的HBM2堆栈，每个堆栈有八个内存片。A100 HBM2具有1215 MHz（DDR）的数据速率，可提供1555 GB/秒的内存带宽，比V100内存带宽高出1.7倍以上。

ECC内存弹性

A100 HBM2存储子系统支持单纠错双纠错码（SECDED）纠错码（ECC）保护数据。ECC为对数据损坏敏感的计算应用程序提供了更高的可靠性。在大规模集群计算环境中，gpu处理大型数据集或长时间运行应用程序时，它尤其重要。A100中的其他密钥存储结构也受到SECDED ECC的保护，包括二级缓存和一级缓存以及所有短消息中的注册文件。

A100 L2 cache

A100 GPU包含40 MB的二级缓存，比V100二级缓存大6.7倍缓存二级缓存分为两个分区，以实现更高的带宽和更低的延迟内存访问。每个二级分区定位和缓存数据，以便从直接连接到分区的gpc中的SMs进行内存访问。这种结构使A100能够提供比V100高2.3x的L2带宽。硬件缓存一致性在整个GPU中维护CUDA编程模型，应用程序自动利用新的二级缓存的带宽和延迟优势。

二级缓存是GPC和SMs的共享资源，位于GPC之外。A100 L2缓存大小的大幅增加显著提高了许多HPC和AI工作负载的性能，因为现在可以以比读取和写入HBM2内存快得多的速度缓存和重复访问更大部分的数据集和模型。一些受DRAM带宽限制的工作负载将受益于较大的二级缓存，例如使用小批量的深度神经网络。

为了优化容量利用率，NVIDIA安培体系结构为您提供了二级缓存驻留控制，用于管理要保留或从缓存中收回的数据。您可以为持久数据访问预留一部分二级缓存。

例如，对于DL推断工作负载，ping-pong缓冲区可以持久地缓存在L2中，以便更快地访问数据，同时还可以避免对DRAM的写回。对于生产者-消费者链（如在DL培训中发现的那些），二级缓存控件可以跨写-读数据依赖关系优化缓存。在LSTM网络中，递归权重可以优先缓存并在L2中重用。

NVIDIA-Ampere体系结构增加了计算数据压缩，以加速非结构化稀疏性和其他可压缩数据模式。二级压缩可使DRAM读/写带宽提高4倍，二级读取带宽提高4倍，二级容量提高2倍。

Table 3. Comparison of NVIDIA data center GPUs.

Peak rates are based on the GPU boost clock.
Four Tensor Cores in an A100 SM have 2x the raw FMA
computational power of eight Tensor Cores in a GV100 SM.
Effective TOPS / TFLOPS using the new Sparsity feature.

注：由于A100 Tensor Core GPU设计用于安装在高性能服务器和数据中心机架中，为AI和HPC计算工作负载供电，因此它不包括显示连接器、用于光线跟踪加速的NVIDIA RT内核或NVNC编码器。

Compute capability

A100 GPU支持新的计算能力8.0。表4比较了NVIDIA GPU体系结构的不同计算能力的参数。

Table 4. Compute Capability: GP100 vs. GV100 vs. GA100.

MIG architecture

尽管许多数据中心工作负载在规模和复杂性上都在不断扩展，但一些加速任务并没有那么苛刻，例如早期开发或在低批量大小的简单模型上进行推理。数据中心管理者的目标是保持高资源利用率，因此一个理想的数据中心加速器不仅会变得很大，还会有效地加速许多较小的工作负载。

新的MIG特性可以将每个A100划分为多达7个GPU实例以获得最佳利用率，有效地扩展了对每个用户和应用程序的访问。

图10显示了Volta MPS如何允许多个应用程序在单独的GPU执行资源（SMs）上同时执行。但是，由于内存系统资源在所有应用程序之间共享，如果一个应用程序对DRAM带宽有很高的要求，或者其请求超额订阅了二级缓存，则可能会干扰其他应用程序。

图11中所示的A100 GPU新的MIG功能可以将单个GPU划分为多个GPU分区，称为GPU实例。每个实例的短消息在整个内存系统中都有独立的路径——片上纵横端口、二级缓存组、内存控制器和DRAM地址总线都是唯一分配给单个实例的。这确保了单个用户的工作负载可以在相同的二级缓存分配和DRAM带宽下以可预测的吞吐量和延迟运行，即使其他任务正在冲击自己的缓存或使DRAM接口饱和。

使用此功能，MIG可以对可用的GPU计算资源进行分区，以便为不同的客户端（如vm、容器、进程等）提供具有故障隔离的定义服务质量（QoS）。它允许多个GPU实例在单个物理A100 GPU上并行运行。MIG还保持CUDA编程模型不变，以最小化编程工作量。

csp可以使用MIG来提高其GPU服务器上的利用率，以不增加成本的方式提供最多7倍的GPU实例。MIG支持csp所需的必要的QoS和隔离保证，以确保一个客户端（VM、容器、进程）不会影响另一个客户端的工作或调度。

csp通常根据客户使用模式来划分硬件。只有当硬件资源在运行时提供一致的带宽、适当的隔离和良好的性能时，有效的分区才起作用。

使用基于NVIDIA安培体系结构的GPU，您可以在新的虚拟GPU实例上查看和调度作业，就像它们是物理GPU一样。MIG与Linux操作系统及其管理程序协同工作。用户可以使用诸如Docker Engine之类的运行时运行带有MIG的容器，并且很快就会支持使用Kubernetes的容器编排。

Figure 10. CSP Multi-user node today (pre-A100). Accelerated GPU instances are available for usage only at full physical GPU granularity for users in different organizations, even if the user applications don’t require a full GPU.

Figure 11. CSP multi-user with MIG diagram. Multiple independent users from the same or different organizations can be assigned their own dedicated, protected, and isolated GPU Instance within a single physical GPU.

错误和故障检测、隔离和控制

通过检测、包含并经常纠正错误和故障，而不是强制GPU重置，提高GPU的正常运行时间和可用性至关重要。这在大型、多GPU集群和单GPU、多租户环境（如MIG配置）中尤其重要。

NVIDIA安培体系结构A100 GPU包括改进错误/故障归因的新技术（对导致错误的应用程序进行属性化）、隔离（隔离故障应用程序，使其不影响在同一GPU或GPU集群中运行的其他应用程序），和包容（确保一个应用程序中的错误不会泄漏并影响其他应用程序）。这些故障处理技术对于MIG环境尤其重要，以确保共享单个GPU的客户端之间的正确隔离和安全性。

NVLink连接的gpu现在具有更强大的错误检测和恢复功能。远程GPU上的页面错误通过NVLink发送回源GPU。远程访问故障通信是大型GPU计算集群的一个重要恢复功能，有助于确保一个进程或VM中的故障不会导致其他进程或VM宕机。

A100 GPU还包括其他一些新的和改进的硬件功能，可以提高应用程序性能。有关更多信息，请参阅即将发布的NVIDIA A100 Tensor Core GPU体系结构白皮书。

CUDA11 advances for NVIDIA Ampere architecture GPUs

在NVIDIA-CUDA并行计算平台上构建了数千个GPU加速应用程序。CUDA的灵活性和可编程性使其成为研究和部署新的DL和并行计算算法的首选平台。

NVIDIA安培体系结构GPU旨在提高GPU的可编程性和性能，同时降低软件复杂性。NVIDIA安培体系结构gpu和CUDA编程模型的发展加速了程序执行，降低了许多操作的延迟和开销。
新的CUDA 11特性为第三代Tensor核、稀疏性、CUDA图、多实例gpu、L2缓存驻留控制以及NVIDIA-Ampere体系结构的其他一些新功能提供编程和API支持。

有关新CUDA功能的更多信息，请参阅即将发布的NVIDIA A100 Tensor Core GPU体系结构白皮书。有关新DGX A100系统的详细信息，请参见使用NVIDIA DGX A100定义AI创新。有关开发人员区域的更多信息，请参阅NVIDIA Developer，有关CUDA的更多信息，请参阅新的CUDA编程指南。

Conclusion

英伟达的使命是加速我们这个时代的达芬奇和爱因斯坦的工作。科学家、研究人员和工程师致力于利用高性能计算（HPC）和人工智能解决一些世界上最重要的科学、工业和大数据挑战。

NVIDIA A100 Tensor Core GPU为我们的加速数据中心平台带来了下一个巨大的飞跃，在每个规模上都提供了无与伦比的加速，使这些创新者能够在一生中完成他们一生的工作。A100为许多应用领域提供动力，包括HPC、基因组学、5G、渲染、深度学习、数据分析、数据科学和机器人技术。

推进当今最重要的HPC和AI应用个性化医疗、对话式AI和深度推荐系统需要研究人员做大。A100为包括Mellanox HDR InfiniBand、NVSwitch、NVIDIA HGX A100和Magnum IO SDK在内的NVIDIA数据中心平台提供了升级功能。这个集成的技术团队有效地扩展到数以万计的gpu，以前所未有的速度训练最复杂的AI网络。

A100 GPU的新MIG功能可以将每个A100划分为多达7个GPU加速器，以实现最佳利用率，有效地提高GPU资源利用率和GPU对更多用户和GPU加速应用程序的访问。通过A100的多功能性，基础设施管理人员可以最大限度地利用其数据中心中的每个GPU，以满足不同规模的性能需求，从最小的作业到最大的多节点工作负载。

你可能感兴趣的:(GPU,机器学习,架构)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ARMV8体系结构简介：概述简单同学 ARMV8体系结构 ARMV8
1.前言本文主要概括的介绍ARMV8体系结构定义了哪些内容，概括的说：ARM体系结构定义了PE的行为，不会定义具体的实现ARM体系结构也定义了debug体系结构和trace体系结构ARM体系结构采用RISC指令集（1）长度一致的寄存器；（2）load/store架构，数据处理操作只能对寄存器内容进行处理，不会直接对内存的内容进行处理；（3）简单寻址方式，load/store地址来源于寄存器或指令域
Table列表复现框实现【勾选-搜索-再勾选】～四时春～ java 开发语言 elementui vue
Table列表复现框实现【勾选-搜索-再勾选】概要整体架构流程代码实现技术细节注意参考文献概要最近在开发时遇到一个问题，在进行表单渲染时，正常选中没有问题，单如果需要搜索选中时，一个是已选中的不会回填，二是在搜索的结果中进行选中，没有实现，经过排查，查找资料后实现。例如：整体架构流程具体的实现效果如下：代码实现{{scope.row.userName}}已选区{{userItem.userName
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
程序员架构师主要是做什么_程序员架构师：职责、技能与挑战绿色小猪
免费备考资料（2024年11月软考）：历年试题+视频课合集+电子讲义点击领取>>>免费刷题：2024年11月软考备考刷题点此进入>>>程序员架构师的角色定位在软件开发领域，程序员架构师是一个至关重要的角色。他们不仅需要深入理解业务需求，还要将其转化为技术上的解决方案。程序员架构师是项目中的技术领航者，负责制定和维护软件系统的整体架构，确保系统的可扩展性、可维护性和性能。他们的工作涉及从概念化到实现
metaRTC8.0，一个全新架构的webRTC SDK库 metaRTC webrtc 音视频
概述metaRTC8.0是metaRTC开源以来架构变化最大的一个版本，是metaIPC3.0等高性能的基础。metaRTC8.0是一个全新架构版本，并非在metaRTC7.0版本上简单升级，在QOS/语音对讲/内存占用/视频文件录制读取等方面新增多个模块，在弱网对抗/语音对讲/内存优化等效果上有显著提升。metaRTC8.0在一年多的开发中进行了近200次迭代，metaRTC8.0社区版计划在2
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri