声明:本文是学习赛灵思 Zynq UltraScale+ MPSoC 5EV过程中写的笔记,便于以后复习,参考《详解 Zynq UltraScale+ MPSoC 无与伦比的低功耗与高灵活性特性》、黑金Zynq UltraScale+ MPSoC 5EV开发板资料。
赛灵思推出首款真正的 All Programmable(全可编程)异构多处理 SoC —— Zynq UltraScale+MPSoC。
采用台积公司 (TSMC) 新一代 16nm FinFET 工艺节点的 Zynq UltraScale+ MPSoC 包含一个可扩展的 32位 或 64 位多处理器 CPU、用于实时处理图形和视频的专用硬化引擎、先进的高速外设,以及可编程逻辑,可用于汽车驾驶员辅助与安全、无线和有线通信、数据中心以及连接与控制等多种应用领域。与基于 ASSP 的固定 SoC 解决方案不同,Zynq UltraScale+ MPSoC 能通过灵活的 32 或 64 位数据宽度的处理系统提供最大的可扩展性。它能将关键应用(例如图形和视频管线)分配给专用处理模块来处理,并通过有效的电源域 (power domain) 和门控电源孤岛 (power island) 来开启和关闭模块。Zynq UltraScale+ MPSoC 提供多种互连选项、DSP 模块以及可编程逻辑选择,因而具备整体灵活性,可满足用户的各种应用需求。该产品系列具备出色可扩展性,使设计人员能够利用单个平台和行业标准工具开发出低成本以及高性能应用 。
Zynq UltraScale+ MPSoC 方框图
应用程序处理单元 (APU),采用四核 ARM® Cortex ™ -A53 处理器 :
新一代 ARMv8 架构支持 32 或 64 位数据宽度;
非常适用于 Linux 和裸机 SMP/AMP 应用系统。
实时处理单元 (RPU),采用双核 ARM Cortex-R5 处理器 :
低时延、高确定性的性能;
APU 任务分担。
最新集成硬化多媒体模块 :
图形处理单元 (GPU) [ARM Mali™ -400MP2];
4Kx2K 60fps 视频编码器 / 解码器 (VCU) [ 部分器件包含 ];
4Kx2K 30fps DisplayPort 接口。
最新集成高速外设 :
PCIe® Gen1 或 Gen2 根联合体和集成端点模块,x1、x2 和 x4 信道;
具有主机、器件和 OTG 模式的 USB 3.0/2.0;
具有巨型帧和精确时间协议的千兆位以太网;
SATA 3.1 主机;
高达 6Gb/s 的专用 Quad 收发器。
通用和引导外设 :
CAN、I2C、QSPI、SD、eMMC 和 NAND 闪存接口;
GPIO、UART 和走线端口。
带 ECC 的 6 端口 DDR 控制器,支持 x32/x64 的 DDR3、DDR3L、LPDDR3、LPDDR4、DDR4。
支持多个电源域的集成平台管理单元 (PMU)。
集成配置安全单元 (CSU)。
提供 TrustZone 支持。
外设和存储器保护。
Zynq UltraScale+ MPSoC 在设计之初就考虑了高效电源管理问题。该器件被分成四个电源域:
Zynq UltraScale+ MPSoC 电源域框架
处理系统 (PS) 中的电池电源域包含实时时钟和电池供电的 RAM。
PS 中的低电源域包含 RPU、通用外设、片上存储器 (OCM)、平台管理单元,以及配置安全单元。
PS 中的全电源域包含 APU、高速外设、系统存储器管理器和 DDR 控制器。
可编程逻辑 (PL) 位于自身的电源域中。
除了始终处于开启状态的电池电源域外,设计人员有很多运行模式和功率等级可选。不用的电源域可在启动时关闭,然后智能地通过中断或事件唤醒:
低电源和全电源域还支持在单个引擎上建立电源孤岛,以实现更精细的电源控制。APU 中的每个 Cortex-A53 处理器都可进行电源门控,RPU 中的两个 Cortex-R5 处理器可以一起进行电源门控,GPU中的像素和几何处理器均可进行独立门控。与 RPU 紧密耦合的存储器和片上存储器 (OCM) 进一步细分为多个同样可进行独立门控的 Bank,包括 APU 中的 L2 高速缓存。另外,很多通用和高速外设也可作为 电源孤岛进行独立门控。
Zynq UltraScale+ MPSoC 含有可控制电源域的创新型平台管理单元 (PMU)。PMU 负责器件的安全管 理,并监管电源域内的电源。它包含一个专用 ROM,用于智能地处理电源域的上电和断电,以及复位请 求 ;还包含 128KB 的 RAM,用来存储可选的自定义电源管理固件。PMU 包含 256 位的器件秘钥,用以 在安全重启时进行可选的数据解密 ;它还支持处理器间中断 (IPI),这样某个电源域就可以在关键事件发 生时监测和唤醒另一个睡眠电源域。
Zynq UltraScale+ MPSoC 的核心是两个 CPU 模块。应用处理单元 (APU) 是一个四核 ARM Cortex-A53,理想适合于 Linux 和裸机应用处理 ;实时处理单元 (RPU) 是一个双核 ARM Cortex-R5,理想适用于低时延确定性应用,诸如安全模块和 APU 任务分担等。由于结合了全新多媒体图形引擎、高速 外设,以及最新一代可编程架构和 IP,Zynq UltraScale+ MPSoC 与 前代赛灵思 Zynq-7000 器件相比,系统性能可提升 5 倍。
APU 中的四核 ARM Cortex-A53 处理器在 ARM v8 新一代架构中将领先性能与高能效处理完美结合在一 起。每个 Cortex-A53 都提供更高的基线性能——达到 Zynq-7000 器件中 ARM Cortex-A9 的 2.7 倍 ;并支持多种高级特性,例如新一代浮点,以及由管理程序支持的真正 APM 运行。APU 非常适合在 Linux 和其他第三方 RTOS 上执行应用程序,或者在裸机上执行。
APU 的主要特性包括 :
四核 ARM Cortex-A53 处理器;
高达 1.5GHz 的最高运行速度;
提供 ARMv8 新一代架构支持;
64 位或 32 位数据位宽;
每个处理器有专用存储器管理单元 (MMU);
每个处理器有专用的新一代单指令/多数据 (SIMD) 引擎;
每个处理器有 32KB 的 L1 指令高速缓存(带奇偶校验);
每个处理器有 32KB 的 L1 数据高速缓存(带 ECC);
1MB 的共享 L2 高速缓存(带 ECC);
提供管理程序支持。
RPU 中的双核 ARM Cortex-R5 处理器针对低时延、确定性执行进行了精心优化,并包含安全关键型和 高可靠性安全应用所需的专用低时延紧耦合存储器 (TCM),或者作为附加处理器分担 APU 的处理任务。
RPU 的主要特性包括 :
双核 ARM Cortex-R5 处理器;
高达 600MHz 的最高运行速度;
提供 ARMv7R 架构支持;
32 位数据位宽;
默认的分离模式运行或者双核锁步运行;
每个处理器有专用的存储器保护单元 (MPU);
每个处理器有 32KB 的 L1 指令高速缓存(带 ECC);
每个处理器有 32KB 的 L1 数据缓存(带 ECC);
每个处理器有 128KB 的低时延紧耦合存储器 (TCM)(带 ECC);
锁步模式下 TCM 存储器可耦合为 256KB。
图形处理单元 (GPU) 为 ARM Mali-400 MP2,位于 Zynq UltraScale+ MPSoC 的处理系统 (PS) 内。它直 接与 APU 相连,可加速帧缓冲器中视频图像的渲染以进行显示输出。GPU 可通过其专用并行引擎生成 视频信息,速度比依靠 CPU 进行图形处理的同类竞争性 ASSP 要快得多 ;而且成本和功耗比那些依赖设计人员添加片外 GPU 引擎的解决方案也要低。 GPU 利用完全可编程的架构加速 2D 和 3D 图形处理,该架构可同时支持基于着色的图形 API 和固定函 数图形 API。其内置的抗锯齿功能,可获得最佳图像质量,而且几乎不增加额外性能开销。此外,其还 包括业经验证全套 Linux 驱动程序,可自动将 APU 的图形命令传递给 GPU 并让其执行。
Zynq UltraScale+ MPSoC GPU 的主要特性:
ARM Mali-400 MP2;
高达 667MHz 的最高运行速度;
1 个几何处理器,2 个像素处理器;
专用的 64KB 共享 L2 高速缓存;
专用存储器管理单元;
提供 OpenGL ES 2.0 和 OpenGL ES 1.1 支持;
提供 OpenVG 1.1 API 支持;
三个引擎上均有独立的电源门控;
像素填充率为 :13.34 亿个像素/秒;
7260 万个三角形/秒;
21.34 Gflflops 浮点着色。
视频编解码单元 (VCU):
支持 H.264 和 H.265 HEVC 视频标准;
同步编码/解码;
8Kx4K 视频,15fps,或者 4Kx2K 视频,60fps;
8 位和 10 位色彩分量;
I、IP、IPB 帧编码;
4:2:0 和 4:2:2 色度格式;
同时处理 8 个不同视频流。
主要有三种型号:
命名:
CG框架图
- 双核 Arm® Cortex®-A53
- 双核 Arm Cortex-R5F
- 16nm FinFET+ 可编程逻辑
EG框架图
四核 Arm Cortex-A53
双核 Arm Cortex-R5F
16nm FinFET+ 可编程逻辑
Arm Mali™-400MP2
EV框架图
四核 Arm Cortex-A53;
双核 Arm Cortex-R5F;
16nm FinFET+ 可编程逻辑;
Arm Mali-400MP2;
H.264/H.265 视频编解码器;
Zynq-7000 器件已经普遍用于当今汽车的安全与摄像头系统。汽车中的摄像头系统数量预计在未来四年 内将会翻倍,包括音响系统。汽车的中央 ADAS 设备需要处理具有六个同步摄像头信号的视频管线,而且每个摄像头至少达到 200 万像素(30fps),而 Zynq UltraScale+ MPSoC 完全可以满足这种要求。
Zynq UltraScale+ MPSoC ADAS 应用实例
借助 ADAS 中央模块内的 Zynq UltraScale+ MPSoC,该器件的 I/O 可利用多种接口标准(包括 MIPI 和以太网协议)捕捉来自车上多个摄像头的视频链路信号。然后,将原始视频传递给 PL 中运行的视频与分析 IP ;该 IP 支持多种加速功能,例如用于盲点探测的运动估算、用于前大灯控制的头灯/尾灯分类、用于车道偏离警告的边缘检测、用于交通标志识别的模式识别与光流估算,以及用于行人检测的梯度提取。
然后,处理后的图像数据被发送到 Zynq UltraScale+ MPSoC 处理系统,在这里,APU 四核处理器将执行图像数据的环境特性描述,同时监测车辆传感器。APU 可通过设定参数控制寄存器(例如边缘检测的阀值)来调整可编程逻辑中的硬件加速器 ;或者在停车等红灯时动态地切换模块,由车道检测切换成行人监控。APU 执行帧处理,例如对象跟踪和距离估测。附加的视频处理任务(例如镜头形状的变形校正)分配给 GPU,从而实现更高的 CPU 性能和更均匀的热平衡。将环境特性描述信息从 APU 发送至 RPU。RPU 作为汽车的主要接口,用以监测和启动执行器,同时执行并行系统诊断。双核 Cortex-R5 处理器在锁步模式下运行,以满足功能安全性要求。通过集成 CAN 接口从 RPU 向汽车发出的命令,并且在可编程逻辑中有交叉监测和诊断保护投票功能。
APU 和 RPU 共同为 ADAS 主机控制器集成提供功能安全支持。除了这些处理单元外,输入视频链路、图形处理、集成 CAN 接口以及用于硬件加速的可编程逻辑也都集成在 Zynq UltraScale+ MPSoC 板件上,这不仅能降低总体材料清单 (BOM) 成本,省去添加单独的主机控制器和摄像头视频链路接口的麻烦,而且还集成了 GPU 和片上存储器,将 ECU 的系统总功耗降低达 25% 之多,使得系统性能功耗比相对采用 Zynq-7000 AP SoC 的类似系统提升 4 倍。
ZU5EV 芯片的 PS 系统集成了 4 个 ARM Cortex™-A53 处理器, 速度高达 1.2Ghz,支持 2 级 Cache; 另外还包含 2 个 Cortex-R5 处理器,速度高达 500Mhz。 ZU5EV 芯片支持 32 位或者 64 位的 DDR4,LPDDR4,DDR3,DDR3L, LPDDR3 存储芯 片,在 PS 端带有丰富的高速接口如 PCIE Gen2, USB3.0, SATA 3.1, DisplayPort;同时另外也支持 USB2.0,千兆以太网,SD/SDIO,I2C,CAN,UART,GPIO 等接口。PL 端内部含有丰富的可编程逻辑单元,DSP 和内部 RAM。
PS 系统部分的主要参数如下:
ARM 四核 Cortex™-A53 处理器,速度高达 1.5GHz,每个 CPU 32KB 1 级指令和数据缓存,1MB 2 级缓存 2 个 CPU 共享。
ARM 双核 Cortex-R5 处理器,速度高达 600MHz,每个 CPU 32KB 1 级指令和数据缓存,及 128K 紧耦合内存。
图像视频处理器 Mali-400 MP2, 速度高达 677MHz,64KB 2 级缓存。
外部存储接口,支持 32/64bit DDR4/3/3L、LPDDR4/3 接口。
静态存储接口,支持 NAND, 2xQuad-SPI FLASH。
高速连接接口,支持 PCIe Gen2 x4, 2xUSB3.0, Sata 3.1, DisplayPort, 4x Tri-mode Gigabit Ethernet。
普通连接接口:2xUSB2.0, 2x SD/SDIO, 2x UART, 2x CAN 2.0B, 2x I2C, 2x SPI, 4x 32b GPIO。
电源管理:支持 Full/Low/PL/Battery 四部分电源的划分。
加密算法:支持 RSA, AES 和 SHA。
系统监控:10 位 1Mbps 的 AD 采样,用于温度和电压的检测。
其中 PL 逻辑部分的主要参数如下:
逻辑单元(System Logic Cells):256.2K;
触发器(CLB flip-flops) : 234.24K;
查找表(CLBLUTs) : 117.12K;
Block RAM:5.1Mb;
时钟管理单元(CMTs): 4 个
DSP Slices:1248 个
图像编解码单元(VCU):1 个
PCIE3.0 : 2 个
GTH 12.5Gb/s 收发器: 4 个
XCZU5EV-2SFVC784I芯片的速度等级为-2,工业级,封装为SFVC784。
博文中的资料已经放在下面公众号里面,可以关注公众号:Kevin的学习站,创作不易,但您的点赞、关注、收藏就是对我最大的鼓励!