评测Jetson AGX Xavier性能

NVIDIA Jetson AGX Xavier的GPU有512个核,是Jetson TX2的两倍,并且搭载了深度学习加速器,以及视觉加速器。Xavier的CPU表现也有了提升,从原来的6核提升到了8核,速度变为原来的两倍,Xavier的内存也由原来的8GB提升为16GB。这些提升对于我们的机器人来讲是至关重要的,因为机器人不仅仅需要板载深度学习运算,还需要一些控制算法运行在CPU上面,以及用于通信等,Xavier在这方面的提升进一步提高了我们机器人的性能。

我们的自平衡自行车利用Xavier解决实时跟踪目标人物的问题,之前我们使用TX2,同样的算法Xavier的速度是TX2的两倍多。当然,Xavier还有更大的本领,主要集中在TensorRT的加速上,我们之后也会进一步挖掘Xavier的强大性能,为我们的机器人增加更多需要高性能计算的本领。

非常贴心的一点是,开发和调试深度学习AI应用程序所需的所有工具都包含在NVIDIA的JetPack软件包中,省去了很多配置环境的时间。

除了功能强大外,Xavier的能耗依然保持较低的水平,对于我们的未连接到电网而是使用自身电池并且电能有限的机器人来说,这一点很重要。

Xavier在机器人上的实时表现非常强大,允许快速、独立且准确地在现场处理信息,可以在不连接云的情况下进行简单的学习和快速的神经网络推导,而无需将数据发送回服务器进行处理和返回。
评测Jetson AGX Xavier性能_第1张图片

评测实景拍摄
这是一款功能齐全的小型计算系统,Xavier芯片本身设计为完整的商业现货(COTS)系统,整个平台的尺寸不超过105mm x105mm。

NVIDIA提供完整Jetson AGX Xavier开发套件。该套件提供了模块运行所需的一切,包括电源、散热器,以及一块非常重要的分接板。这块分接板提供各种I/O接头和端口,从标准的双 USB Type-C 3.1、HDMI和千兆以太网端口,到用于相机连接的MIPI CSI-2连接器等更专业的接口,以及40pin GPIO连接器等一系列典型的开发板接头。

Jetson AGX Xavier最厉害的地方在于,其提供了PCIe Gen4 x16以及M.2 PCIe x1通用扩展插槽,可用于连接WiFi或蜂窝网络模块等附加设备,可为傲视群雄。

Xavier芯片作为系统的大脑,是NVIDIA迄今为止最大、最复杂的SoC,是Arm生态系统的重量级产品之一,在350mm²的面积上集成了90亿晶体管。Xavier芯片的四周为16GB LPDDR4X内存、 32GB eMMC闪存以及供电模块等其他核心组件。

Xavier芯片主要由NVIDIA自研的Carmel架构8核64位CPU和Volta架构512 CUDA处理器GPU这两大模块组成,这两部分电路占据了芯片的大部分空间。

8个CPU核心被平均分配为4个集群,每个集群都有一个独立的时钟平面,并在2个CPU核心之间共享2MB L2缓存,在其之上,4个集群共享4MB L3缓存。目前关于全新Carmel架构的信息很少,只知道它是之前Denver架构的继任者,其设计特点是强大的动态代码优化能力。NVIDIA只对外表示Carmel是一个10宽度的超标量架构(10个执行端口, 非10宽度解码),并且支持ARMv8.2+RAS指令集。

Xavier的GPU源于Volta架构,内部结构被划分为4个TPC(纹理处理集群),每个TPC具有2个SM(流式多处理器 ),每个SM集成64个CUDA核心,共计512个CUDA核心,其单精度浮点运算性能为2.8Tflops,双精度为1. 4Tflops。此外Xavier还从Volta那里继承了Tensor Core,其8bit运算性能为22.6Tops,16bit运算性能为11.3Tops。

除了CPU和GPU,Xavier内还设计有全新的DLA(Deep Learning Accelerator,深度学习加速器 )和PVA(Programmable Vision Accelerator,可编程视觉加速器 )单元,其中DLA是一种新型的机器推理加速专用单元,其INT8计算性能高达11.4Tops;PVA则是一种更传统的视觉计算单元,在视觉管道中位于ISP之后,它能以比GPU或DLA更高效的处理对象检测等基本任务,将图像分割成对象后转发到GPU或DLA上进行后续处理。

开发者可以利用强大的 NVIDIA Jetson AGX Xavier 开发套件大规模开发和部署智慧机器。它能够执行现代先进神经网络及其他 AI 工作负载,进而解决制造、物流、零售、服务、农业、智慧城市和便携式医疗器材的问题。NVIDIA嵌入式产品的核心模组不存在独立的显存和内存,CPU部分和GPU部分公用存储器的。所以Xavier 32GB LPDDR4x是CPU和GPU部分公用的,既是显存,也是内存。因为物理上的存储是统一的,连cudaMemcpy都可以完全省略,真正的0传输时间 . 举个例子说:Xavier在高速采集来自外设摄像头的信息,或者其他数据,采集速率假设达到了20GB/s,此时它们可以让GPU就地使用这些数据,完成计算。而可能台式GPU永远不可以,因为他们实际能取得的传输到自己显存的速度,由于必须经过PCI-E,只有10GB/s多点。此时将永远无法完成任务,卡在PCI-E传输瓶颈上。这种统一的CPU/GPU一体芯片,无此类问题。Xavier显存32GB,优势就更显著了:适合原本在大内存显卡上训练好的模型,直接挪动过来使用。可以同时容纳多种需要使用的网络(例如一个检测姿势的,一个检测汽车型号的),而无需反复的从内置EMMC存储载入。如果不介意训练时间稍微慢的话,则性价比突出,可以用来训练需要大量显存的模型,而无需购买动辄几万的台式显卡。注意:如果台式机想要拼凑32GB显存,只能双卡(至少RTX2080+的级别)+NVlink,成本几万。或者选择上大量的内存,然而大内存直接CPU训练,算力不够;而直接用GPU训练,PCI-E的带宽不够。Xavier是一个良好的综合,能用超过常见显卡的容量,无需拼凑,提供了良好的访存带宽+运算性能。另外不要忘记:Xavier的LPDDR4x内存(显存),理论速率有137GB/s,等于说,Xavier的GPU部分,可以用高达100多GB/s的速度,访问CPU部分产生的数据(例如CPU上的某些采集设备和它们的驱动,在内存中产生数据的速度)。 Jetson TX2是 58.3 GB/s,Jetson NANO更低,只有25.6 GB/s!

参考链接:
https://zhuanlan.zhihu.com/p/68542043
https://www.zhihu.com/question/449944874/answer/1789514213

你可能感兴趣的:(机器人,嵌入式硬件)