一、Tegra发展以及各Tegra对比
1、Tegra发展
(1)2008年2月,NVIDIA与Microsoft合作开发基于ARM11架构的APX 2500应用处理器发布。
(2)随后英伟达发布Tegra产品Tegra 600 和 Tegra 650,集成的显示核心是基于GeForce 6,并加入了对CUDA和双精度浮点运算的支持。
2、Tegra发展图谱
3、各Tegra简要对比
二、Tegra X1/X2 架构解析
1、Tegra X1架构解析
(1)NVIDIA GeForce Maxwell 图形处理单元(GPU);
(2)四核 ARM Cortex-A57 核心;
(3)64位DRAM接口提供了高宽带;
(4)基于一个Cortex-A9处理器和独立RAM的独立音频子系统;
(5)双显示控制器;
(6)高性能H.265/H.264视频硬件编码器,以及编码器完全支持超高清的10位像素4K视频60fps。
2、Maxwell架构解析
(1)相对Kepler而言,Maxwell重构了新的SMM以提高效率,全新的数据通路管理与组织;
(2)每个SMM包含4个Warp Schedulers;
(3)每个Warp Scheduler可以在每个Warp周期发起两条指令;
(4)Maxwell的CUDA Core是Kepler性能的1.4倍;
(5)2 SMM * 4 Warp Scheduler * 32 CUDA Core Processing Blocks = 256 CUDA Core
3、CUDA Core
4、Kepler VS Maxwell
5、GTX 980 VS TX1
6、Tegra X2架构解析
(1)NVIDIA Pascal 图形处理单元(GPU)架构;
(2)双核NVIDIA Denver 2 ARM CPU 核心,加四核ARM Cortex-A57核心;
(3)基于一个Cortex-A9处理器和独立RAM的独立音频子系统;
(4)基于独立的ARM Cortex-R5F 传感器处理器;
(5)基于独立的ARM Cortex-R5F 处理器子系统用于处理启动和能量管理;
(6)基于独立的ARM Cortex-R5F 处理器子系统用于处理摄像头管理;
(7)128位DRAM接口提供了高宽带的LPDDR4支持。
7、Pascal 架构解析
(1)相对于Kepler,Pascal简化了数据通路组织与管理,降低了Die区域大小,降低了数据传输时的能量消耗;
(2)新的SM调度器架构基于Maxwell调度器,且更加的智能化,即提高了性能有降低了功耗;
(3)一个SM内有2个Warp Scheduler,每个Warp Scheduler 可以在每个Warp周期发起两条指令;
(4)一个Warp Scheduler内有32个单精度CUDA Core。
8、Pascal VS Maxwell
9、Jetson TX1 VS Jetson TX2
10、TX1处理器性能
11、TX1图形性能
三、ARM Cortex-A57架构解析
1、ARM处理器家族
2、ARM Cortex-A57架构解析
(1)完全遵循 ARMv8-A 指令集规范;
(2)超标量,可变长度,乱序执行流水线;
(3)带有分支目标缓冲(BTB)与全局历史缓冲(GHB)RAM,一个返回堆栈,以及一个间接预测器的动态分支预测;
(4)AMBA 4 AXI 一致性扩展(ACE)或CHI 主机接口;
(5)实现了加速器一致性端口(ACP)为AXI4一致性从机接口;
(6)支持基于ETMv4架构的嵌入式跟踪单元(ETM);
(7)支持基于PMUv3架构的性能监控单元(PMU);
(8)用于多处理器调试的交叉触发接口(CTI);
(9)通用中断控制器(GIC)CPU接口。
3、ARM Cortex-A57的性能
4、AArch32 VS AArch64
5、NEON架构解析
(1)架构分析
(2)NEON数据读取模式
(3)NEON架构对比
四、Tegra工作原理与软件架构
1、Tegra 工作原理
2、Tegra中断控制
(1)一共有0-192号全局中断,由六个中断控制器分别管理;
(2)TX1中断控制器分为两类:GIC400与LIC;
(3)GIC400是ARM Cortex-A57 的中断控制器;
(4)LIC是属于轻量级BPMP处理器的中断控制器;
(5)任何处理器都可以发送一个软件中断给其它一个或多个处理器(包括自身),但是IPI中断志限于A57之间(包括自身);
(6)每个ARM处理器都有两个引脚来接收IRQ和FIQ中断,因为低电平触发,因此命名nFIQ和nIRQ;
3、Component 软件结构
(1)OS Images:JetPack包含来自Ubuntu的样例文件系统;
(2)Libraries:CUDA Toolkit(Linux下CUDA开发工具链)、TensorRT and cuDNN(高性能深度学习应用)、VisionWorks and Opencv(视觉计算应用);
(3)Developer Tools:Tegra Graphics Debugger(调试OpenGL控制台级别地 工程)、Tegra System Profiler(系统调试跟踪分析器,提高CPU效率)、PerfKit(提供访问GPU性能统计)、Samples(NVIDIA GameWorks Vulkan 以及 OpenGL 范例)。
4、VisionWorks 软件结构
五、Jetson 开发注意事项
1、Jetson 功能概览
2、Jetson功能布局
3、Jetson注意事项
(1)0-50℃温度范围内工作;
(2)不同用户的eMMC、DRAM厂商型号可能不同;
(3)SATA不支持热插拔;
(4)除了IIC_GPI是3.3V以外,其它的IIC接口都是1.8V接口;
(5)TX1生命期(EOL)至2021年1月(商业级);
(6)Jetson TX1只有四核A57,没有A53;
(7)上电后风扇不转,自动风扇调速;
(8)默认没安装系统,新的模块上电后无任何反应。
4、CUDA开发注意事项
5、Jetson 开发注意事项
致谢
1、《Jetson开发者入门之Tegra架构解析》
2、NVIDIA-Jetson_github