NVIDIA TX2---Tegra架构介绍

一、Tegra发展以及各Tegra对比

1、Tegra发展

(1)2008年2月,NVIDIA与Microsoft合作开发基于ARM11架构的APX 2500应用处理器发布。

(2)随后英伟达发布Tegra产品Tegra 600 和 Tegra 650,集成的显示核心是基于GeForce 6,并加入了对CUDA和双精度浮点运算的支持。

2、Tegra发展图谱

3、各Tegra简要对比

 

二、Tegra X1/X2 架构解析

1、Tegra X1架构解析

(1)NVIDIA GeForce Maxwell 图形处理单元(GPU);

(2)四核 ARM Cortex-A57 核心;

(3)64位DRAM接口提供了高宽带;

(4)基于一个Cortex-A9处理器和独立RAM的独立音频子系统;

(5)双显示控制器;

(6)高性能H.265/H.264视频硬件编码器,以及编码器完全支持超高清的10位像素4K视频60fps。

2、Maxwell架构解析

(1)相对Kepler而言,Maxwell重构了新的SMM以提高效率,全新的数据通路管理与组织;

(2)每个SMM包含4个Warp Schedulers;

(3)每个Warp Scheduler可以在每个Warp周期发起两条指令;

(4)Maxwell的CUDA Core是Kepler性能的1.4倍;

(5)2 SMM * 4 Warp Scheduler * 32 CUDA Core Processing Blocks = 256 CUDA Core

3、CUDA Core

4、Kepler VS Maxwell

5、GTX 980 VS TX1

6、Tegra X2架构解析

(1)NVIDIA Pascal 图形处理单元(GPU)架构;

(2)双核NVIDIA Denver 2 ARM CPU 核心,加四核ARM Cortex-A57核心;

(3)基于一个Cortex-A9处理器和独立RAM的独立音频子系统;

(4)基于独立的ARM Cortex-R5F 传感器处理器;

(5)基于独立的ARM Cortex-R5F 处理器子系统用于处理启动和能量管理;

(6)基于独立的ARM Cortex-R5F 处理器子系统用于处理摄像头管理;

(7)128位DRAM接口提供了高宽带的LPDDR4支持。

7、Pascal 架构解析

(1)相对于Kepler,Pascal简化了数据通路组织与管理,降低了Die区域大小,降低了数据传输时的能量消耗;

(2)新的SM调度器架构基于Maxwell调度器,且更加的智能化,即提高了性能有降低了功耗;

(3)一个SM内有2个Warp Scheduler,每个Warp Scheduler 可以在每个Warp周期发起两条指令;

(4)一个Warp Scheduler内有32个单精度CUDA Core。

8、Pascal VS Maxwell

9、Jetson TX1 VS Jetson TX2

10、TX1处理器性能

11、TX1图形性能

 

三、ARM Cortex-A57架构解析

1、ARM处理器家族

2、ARM Cortex-A57架构解析

(1)完全遵循 ARMv8-A 指令集规范;

(2)超标量,可变长度,乱序执行流水线;

(3)带有分支目标缓冲(BTB)与全局历史缓冲(GHB)RAM,一个返回堆栈,以及一个间接预测器的动态分支预测;

(4)AMBA 4 AXI 一致性扩展(ACE)或CHI 主机接口;

(5)实现了加速器一致性端口(ACP)为AXI4一致性从机接口;

(6)支持基于ETMv4架构的嵌入式跟踪单元(ETM);

(7)支持基于PMUv3架构的性能监控单元(PMU);

(8)用于多处理器调试的交叉触发接口(CTI);

(9)通用中断控制器(GIC)CPU接口。

3、ARM Cortex-A57的性能

4、AArch32 VS AArch64

5、NEON架构解析

(1)架构分析

(2)NEON数据读取模式

(3)NEON架构对比

 

四、Tegra工作原理与软件架构

1、Tegra 工作原理

2、Tegra中断控制

(1)一共有0-192号全局中断,由六个中断控制器分别管理;

(2)TX1中断控制器分为两类:GIC400与LIC;

(3)GIC400是ARM Cortex-A57 的中断控制器;

(4)LIC是属于轻量级BPMP处理器的中断控制器;

(5)任何处理器都可以发送一个软件中断给其它一个或多个处理器(包括自身),但是IPI中断志限于A57之间(包括自身);

(6)每个ARM处理器都有两个引脚来接收IRQ和FIQ中断,因为低电平触发,因此命名nFIQ和nIRQ;

3、Component 软件结构

(1)OS Images:JetPack包含来自Ubuntu的样例文件系统;

(2)Libraries:CUDA Toolkit(Linux下CUDA开发工具链)、TensorRT and cuDNN(高性能深度学习应用)、VisionWorks and Opencv(视觉计算应用);

(3)Developer Tools:Tegra Graphics Debugger(调试OpenGL控制台级别地 工程)、Tegra System Profiler(系统调试跟踪分析器,提高CPU效率)、PerfKit(提供访问GPU性能统计)、Samples(NVIDIA GameWorks Vulkan 以及 OpenGL 范例)。

4、VisionWorks 软件结构

 

五、Jetson 开发注意事项

1、Jetson 功能概览

2、Jetson功能布局

3、Jetson注意事项

(1)0-50℃温度范围内工作;

(2)不同用户的eMMC、DRAM厂商型号可能不同;

(3)SATA不支持热插拔;

(4)除了IIC_GPI是3.3V以外,其它的IIC接口都是1.8V接口;

(5)TX1生命期(EOL)至2021年1月(商业级);

(6)Jetson TX1只有四核A57,没有A53;

(7)上电后风扇不转,自动风扇调速;

(8)默认没安装系统,新的模块上电后无任何反应。

4、CUDA开发注意事项

5、Jetson 开发注意事项

 

致谢

1、《Jetson开发者入门之Tegra架构解析》

2、NVIDIA-Jetson_github

全文转自:https://blog.csdn.net/qq_38880380/article/details/79667765

你可能感兴趣的:(AI芯片,Tegra架构,NVIDIA,NVIDIA,TX2)