高性能国产化信号处理平台国产DSP+FPGA+AI NPU安路紫光方案

一、有了NPU,还要DSP吗?

· 其实都是针对某种算法进行加速的处理器,不过NPU针对的是那些神经元算法,DSP针对的是信号处理算法,二者各有侧重

NPU采用普林斯顿结构。

DSP采用哈弗结构。

各自有自己的指令系统。

DSP是专注数字信号处理的,即使DSP处理器其实也是分了很多针对不同类型的信号的不同型号类型,比如有音频信号的、图像的等待

NPU是专注于神经网络处理的,处理不同的数据。

用通用架构的CPU处理AI和用NPU处理AI,速度是不同,但为什么还是离不开CPU呢,因为NPU只能处理AI计算,其它的也是不行的。

· DSP(digital signal processor)是专业做数字信号处理的。DSP是一种独特的微处理器(采用哈佛结构,内部结构已经固定),有完整指令系统,通过指令和数据工作(这个也是CPU和ARM等的工作方式),开发遵循嵌入式软件的设计原则,更注重于算法的实现。

NPU是​嵌入式神经网络处理器(NPU),采用“数据驱动并行计算”的架构,特别擅长处理视频、图像类的海量多媒体数据​

在NPU中集成那些可支持必要服务操作的功能及服务。DSP可定制以便集成及增加通道的密度与速度,但不是设计用来增加DSL服务能力,如更好的网络弹性、更精细的网络流量管理、更完善服务保证以及用于处理新服务机会的更多灵活性等。NPU在这些功能上更具有优势。
至于算力的衡量

国外知名媒体Anandtech选择了使用麒麟960的华为Mate 9、使用麒麟970的华为Mate 10 Pro、使用骁龙835的谷歌Pixel 2 XL和LG V30四款手机,分别测试了ARM CPU、Hexagon DSP和NPU的AI性能,测试结果以性能(fps)和效能(mJ/inference)双重指标来衡量。

NPU和CPU在处理AI运算时的性能有着几十倍的巨大差异。这些算法在CPU上执行的速度最高不过2fps,同时还会消耗掉大量的电能。无论是骁龙835还是麒麟960的CPU平均功耗都已经超过可持续工作的上限。

作为对比,骁龙835的Hexagon DSP相比CPU约有8~10倍的性能提升,而麒麟970的NPU性能又可达到Hexagon DSP的1.5倍~4倍。不过在能耗比方面,虽然华为NPU相比CPU有着巨大到已经不在一个次元的优势,但骁龙835的Hexagon DSP的综合效率落后麒麟970的NPU仅6%左右。

传统芯片厂商(如CPU、GPU和DSP)对于深度学习市场非常重视,因此利用他们巨大体量和市场推广、销售能力,大力推广用这些传统芯片来进行深度学习处理,其本质上也是对现有的技术进行微调,用传统SIMD架构来适配神经网络。

然而,由于传统CPU、GPU和DSP本质上并非以硬件神经元和突触为基本处理单元,相对于NPU在深度学习方面天生会有一定劣势,在芯片集成度和制造工艺水平相当的情况下,其表现必然逊色于NPU

二、DSP+FPGA+AI NPU方案

信迈科技高性能国产化信号处理平台采用多通道双向10Gbps光纤数据传输+国产V7 FPGA+多片国产多核DSP的硬件架构,可以完成一体化电子系统、有源相控阵雷达、电子侦察、MIMO通信、声呐等领域的高速实时信号处理。

高性能国产化信号处理平台国产DSP+FPGA+AI NPU安路紫光方案_第1张图片

信迈科技信号处理平台的组成框图如图1所示,由四组4通道双向光纤接口、FPGA 及其扩展电路(2组独立读写的 DDR3 存储器、FPGA扩展的4个串口、实时控制信号输入/输出等),两片FT-M6678 DSP及其扩展电路、DSP时钟电路、100M/1000M以太网、主DSP的RS232扩展、DSP间互连接口、DSP与 FPGA间的EMIF、SRIO接口,供电电源等部分组成。

硬件资源

1 接口

光纤数据传输接口:四组 4 通道双向光纤,传输速率 10Gbps

以太网:主、从DSP各扩展1个100M/1000M以太网,主DSP以太网口与终端连接,从DSP以太网口备份

串行口:主DSP提供1个串口,FPGA为主DSP扩展4个串口,从DSP不扩展串口

实时控制信号接口:1个与信号采集单元的定时控制信号接口(含RS422通信口)

双天线北斗接口:北斗定位定向模块可直接安装在信号处理平台上

倾斜仪接口:电源输入及控制接口1个

8 位测试信号输出口1个

120MHz时钟输入口1个

FPGA、DSP 调试口。

2 国产FPGA

国产V7 FPGA(复旦微电子或国微)

3 FPGA拓展存储器

2组独立读写DDR3存储器,每组容量为256M×64bit,读写时钟频率最高支持1600MHz。

4 国产DSP

2 片国产多核DSP

5 DSP拓展存储器

256M×64bit DDR3 存储器,读写时钟频率最高支持 1600MHz;

4Gbit NAND Flash 存储器;

64Mbyte SPI NORFlash;

1Mbit I2C EEPROM;

FPGA内部EMIF接口双口RAM。

6 FPGA与DSP间接口

两组 SRIO×4 ,速率 3.125GBaud;

EMIF×16 接口;

GPIO 接口。

7 DSP间的互联接口

PCIe×4 ,每 Lane 5GBaud;

扩展在 FPGA 内部的 EMIF 双口 RAM。

8 外部输入时钟

频 率 :≤400MHz;

功率:8dBm ±2dBm ;

输出阻抗:50Ω;

信号形式:正弦波。

9 板载时钟

板载时钟:200MHz 差分时钟

10温度检测

提供3个温度传感器,检测 FPGA、DSP 附近温度

11风扇及控制

提供风扇供电及开关控制

12LED 指示

FPGA 扩展 4 个 LED 指示灯

13供电及功耗

供电电源:+12V±1V ;功耗:≤70W

外形、尺寸及重量

外形如图 2 所示,尺寸为:280mm×150mm×10mm(长×宽×高,不含扇热板),重量≤400g(不含散热板)

高性能国产化信号处理平台国产DSP+FPGA+AI NPU安路紫光方案_第2张图片

设计开发资源

★ 多通道光纤数据传输协议

★ 以太网分包数据传输协议

★ 多核DSP资源分配

★ 信号处理平台硬件资源说明

★ 信号处理平台器件手册

★ FPGA及扩展资源测试程序

★ DSP及扩展资源测试程序

★ 四通道光纤数据发送、接收FPGA软件

★ 多波束DBF、时域脉压、频域脉压、DDR3存取、FFT、SRIO接口、EMIF接口、扩展串口等FPGA软件

★ 国产多核 DSP 正样手册及交付物 V2.5.zip

0. 支持包安装程序

1. Document(详规手册)

2. Emulation

3. Hardware

4. Project

5. 评测文档

6. DSP 用户常见问题-v1.1.pdf

★ 国产多核 DSP 正样手册及交付物 V2.6.zip

0. 持包安装程序

1. Document(详规手册)

2. Emulation

3. Hardware

4. Project

5. 评测文档

6. DSP 用户常见问题-v1.1.pdf

★ 国产多核 DSP 仿真器光盘文件 V1.2.zip

EMU560 仿真器

SEED-XDS510PLUS仿真器

★ 国产多核 DSP 仿真器光盘文件 V1.3.zip

EMU560 仿真器

SEED-XDS510PLUS 仿真器

★ TI-6678 例程包K1_STK_v1.1(example code)

内含TI-6678 的 EMIF、GE、GPIO、Hyperlink、I2C、内存(DDR3、L2 等)、多核导航器、PCIE、Robust、SPI、SRIO、Timer、UART 和 DMA 等测试例程。

★ CCS 环境搭建安装包

内含 CCSv7.2.0 和 CCSv5.5.0 安装包及其环境相应配置过程。

★DSP 串口、FPGA 扩展串口通信软件

★ 以太网通信软件

★ 两维相扫数字多波束雷达 DSP 信号处理软件例程

★ 两维相扫圆柱阵雷达 DSP 信号处理软件例程

★ 一维相扫雷达 DSP 信号处理软件例程

★ Matlab 程序

应用领域

★ 一体化电子系统实时信号处理

★ 有源相控阵雷达实时信号处理

高性能国产化信号处理平台国产DSP+FPGA+AI NPU安路紫光方案_第3张图片

国产高性能信号处理平台已应用于图3所示的两维相扫数字多波束系统中,实现了6波束 DBF、脉压、MTD、目标检测、目标识别等实时信号处理,可实时处理每波束8000以上距离单元。

★ 电子侦察实时信号处理

★ MIMO通信系统实时信号处理

★ 声呐阵列信号处理

★ 实时信号处理算法性能评估

你可能感兴趣的:(DSP,fpga开发,单片机,嵌入式硬件)