没玩过GT资源都不好意思说自己玩儿过FPGA,这是CSDN某大佬说过的一句话,鄙人深信不疑。。。GT资源是Xilinx系列FPGA的重要卖点,也是做高速接口的基础,不管是PCIE、SATA、MAC等,都需要用到GT资源来做数据高速串化和解串处理,Xilinx不同的FPGA系列拥有不同的GT资源类型,低端的A7由GTP,K7有GTX,V7有GTH,更高端的U+系列还有GTY等,他们的速度越来越高,应用场景也越来越高端。。。UltraScale GTH 适用于Xilinx UltraScale系列的FPGA上,包括Virtex UltraScale、Kintex UltraScale、Zynq® UltraScale等器件,在UltraScale系列之下只有GTH,而UltraScale GTH相比于GTH,线速率更高,支持协议类型更多,功耗更低,带宽更高。。。
本文使用Xilinx的Kirtex UltraScale+系列的xcku5p-ffvb676-1-i型号FPGA 的UltraScale GTY+PCIE,aurora 8b/10b编解码,PCIE视频传输实验,视频源有两种,分别对应开发者手里的开发板有没有HDMI输入接口的情况,一种是使用笔记本电脑模拟HDMI视频,ADV7611芯片将输入的HDMI视频解码为GRB后供FPGA使用;如果你的开发板有没有HDMI输入接口,或者你的开发板HDMI输入解码芯片不是ADV7611,则可使用代码内部生成的动态彩条模拟摄像头视频;视频源的选择通过代码顶层的define COLOR_TEST宏定义进行,默认使用HDMI输入作为视频源;FPGA采集到谁视频后,首先会送入数据组包模块对视频进行打包,并加上以字符BC为基础的控制帧头和帧尾以及其他标志符;然后调用Xilinx官方的UltraScale GTY IP核,并配置为8b/10b编解码模式,线速率配置为5G然后通过板载的SFP光口将8b/10b编码后的视频进行回环后板子后接收,板载有两个SFP光口,可以使用1个SFP光口做回环,也可以使用两个SFP光口做回环,代码里通过define SFP_0_LOOP宏定义选择,上电默认使用1个SFP光口做回环;UltraScale GTY 再做8b/10b解码处理;然后将数据送入数据对齐模块进行对齐处理;然后将数据送入数据解包模块去掉帧头帧尾并恢复视频时序;然后用我常用的FDMA图像缓存架构,将图像写入DDR4中做三帧缓存;再调用Xilinx官方的XDMA,从DDR4中将视频读出,通过PCIE总线发送给PC端;PC端运行QT上位机,以中断方式接收FPGA发来的图像并显示出来;
提供1套vivado2022.2版本的FPGA工程源码,提供一套Windows版本的QT上位机源码,提供经过修改后适用于中断模式的XDMA驱动及其源码;通过代码里的两个 define 宏定义可组成4种不同的收发模式;详情如下:
模式1:宏定义选择 COLOR_TEST, 宏定义选择 SFP_0_LOOP, 动态彩条输入, 使用1个SFP光口回环后缓存DDR4, XDMA PCIE输出;
模式2:宏定义选择 COLOR_TEST, 宏定义不选择SFP_0_LOOP, 动态彩条输入, 使用2个SFP光口回环后缓存DDR4, XDMA PCIE输出;
模式3:宏定义不选择COLOR_TEST, 宏定义选择 SFP_0_LOOP, HDMI输入 , 使用1个SFP光口回环后缓存DDR4, XDMA PCIE输出;
模式4:宏定义不选择COLOR_TEST, 宏定义不选择SFP_0_LOOP, HDMI输入 , 使用2个SFP光口回环后缓存DDR4, XDMA PCIE输出;
本博客详细描述了Xilinx的Kirtex UltraScale+系列的xcku5p-ffvb676-1-i型号FPGA的UltraScale GTH资源做板对板视频传输实验的设计方案,工程代码可综合编译上板调试,可直接项目移植,适用于在校学生、研究生项目开发,也适用于在职工程师做学习提升,可应用于医疗、军工等行业的高速接口或图像处理领域;
提供完整的、跑通的工程源码和技术支持;
工程源码和技术支持的获取方式放在了文章末尾,请耐心看到最后;
本工程及其源码即有自己写的一部分,也有网络公开渠道获取的一部分(包括CSDN、Xilinx官网、Altera官网等等),若大佬们觉得有所冒犯,请私信批评教育;基于此,本工程及其源码仅限于读者或粉丝个人学习和研究,禁止用于商业用途,若由于读者或粉丝自身原因用于商业用途所导致的法律问题,与本博客及博主无关,请谨慎使用。。。
我的主页有FPGA GT 高速接口专栏,该专栏有 GTP 、 GTX 、 GTH 、 GTY 等GT 资源的视频传输例程和PCIE传输例程,其中 GTP基于A7系列FPGA开发板搭建,GTX基于K7或者ZYNQ系列FPGA开发板搭建,GTH基于KU或者V7系列FPGA开发板搭建,GTY基于KU+系列FPGA开发板搭建;以下是专栏地址:
点击直接前往
我的主页有PCIE通信专栏,该专栏基于XDMA的轮询模式实现与QT上位机的数据交互,既有基于RIFFA实现的PCIE方案,也有基于XDMA实现的PCIE方案;既有简单的数据交互、测速,也有应用级别的图像采集传输,以下是专栏地址:
点击直接前往
此外,我的主页有中断模式的PCIE通信专栏,该专栏基于XDMA的中断模式实现与QT上位机的数据交互,以下是专栏地址:点击直接前往
本文使用Xilinx的Kirtex UltraScale+系列的xcku5p-ffvb676-1-i型号FPGA 的UltraScale GTY+PCIE,aurora 8b/10b编解码,PCIE视频传输实验,视频源有两种,分别对应开发者手里的开发板有没有HDMI输入接口的情况,一种是使用笔记本电脑模拟HDMI视频,ADV7611芯片将输入的HDMI视频解码为GRB后供FPGA使用;如果你的开发板有没有HDMI输入接口,或者你的开发板HDMI输入解码芯片不是ADV7611,则可使用代码内部生成的动态彩条模拟摄像头视频;视频源的选择通过代码顶层的define COLOR_TEST宏定义进行,默认使用HDMI输入作为视频源;FPGA采集到谁视频后,首先会送入数据组包模块对视频进行打包,并加上以字符BC为基础的控制帧头和帧尾以及其他标志符;然后调用Xilinx官方的UltraScale GTY IP核,并配置为8b/10b编解码模式,线速率配置为5G然后通过板载的SFP光口将8b/10b编码后的视频进行回环后板子后接收,板载有两个SFP光口,可以使用1个SFP光口做回环,也可以使用两个SFP光口做回环,代码里通过define SFP_0_LOOP宏定义选择,上电默认使用1个SFP光口做回环;UltraScale GTY 再做8b/10b解码处理;然后将数据送入数据对齐模块进行对齐处理;然后将数据送入数据解包模块去掉帧头帧尾并恢复视频时序;然后用我常用的FDMA图像缓存架构,将图像写入DDR4中做三帧缓存;再调用Xilinx官方的XDMA,从DDR4中将视频读出,通过PCIE总线发送给PC端;PC端运行QT上位机,以中断方式接收FPGA发来的图像并显示出来;
工程详细设计方案框图如下:
框图解释:箭头表示数据流向,箭头内文字表示数据格式,箭头外数字表示数据流向的步骤;
视频源有两种,分别对应开发者手里的开发板有没有HDMI输入接口的情况,一种是使用笔记本电脑模拟HDMI视频,ADV7611芯片将输入的HDMI视频解码为GRB后供FPGA使用;如果你的开发板有没有HDMI输入接口,或者你的开发板HDMI输入解码芯片不是ADV7611,则可使用代码内部生成的动态彩条模拟摄像头视频;视频源的选择通过代码顶层的define宏定义进行,默认使用HDMI输入作为视频源;视频源的选择通过代码顶层的`define宏定义进行;如下:
代码位于顶层system_wrapper.v;
选择逻辑代码部分如下:
选择逻辑如下:
当(注释) define COLOR_TEST时,输入源视频是HDMI输入;
当(不注释) define COLOR_TEST时,输入源视频是动态彩条;
使用ADV7611解码输入的HDMI视频,适应板载ADV7611解码芯片的FPGA开发板;ADV7611解码芯片需要i2c配置才能使用,ADV7611解码芯片配置及采集这两部分均用verilog代码模块实现,代码中配置为1920x1080分辨率;代码位置如下:
代码中配置为1920x1080分辨率;
动态彩条可配置为不同分辨率的视频,视频的边框宽度,动态移动方块的大小,移动速度等都可以参数化配置,我这里配置为辨率1920x1080,动态彩条模块代码位置和顶层接口和例化如下:
由于视频需要在UltraScale GTY中通过aurora 8b/10b协议收发,所以数据必须进行组包,以适应aurora 8b/10b协议标准;视频数据组包模块代码位置如下:
首先,我们将16bit的视频存入FIFO中,存满一行时就从FIFO读出送入GTY发送;在此之前,需要对一帧视频进行编号,也叫作指令,GTY组包时根据固定的指令进行数据发送,GTY解包时根据固定的指令恢复视频的场同步信号和视频有效信号;当一帧视频的场同步信号上升沿到来时,发送一帧视频开始指令 0,当一帧视频的场同步信号下降沿到来时,发送一帧视频开始指令 1,视频消隐期间发送无效数据 0 和无效数据 1,当视频有效信号到来时将每一行视频进行编号,先发送一行视频开始指令,在发送当前的视频行号,当一行视频发送完成后再发送一行视频结束指令,一帧视频发送完成后,先发送一帧视频结束指令 0,再发送一帧视频结束指令 1;至此,一帧视频则发送完成,这个模块不太好理解,所以我在代码里进行了详细的中文注释,需要注意的是,为了防止中文注释的乱序显示,请用notepad++编辑器打开代码;指令定义如下:
32'h55_00_00_bc 一帧视频开始指令0;
32'h55_00_01_bc 一帧视频开始指令1;
32'h55_00_02_bc 无效数据0;
32'h55_00_03_bc 无效数据1;
32'h55_00_04_bc 一行视频开始指令;
32'h55_00_05_bc 一行视频结束指令;
32'h55_00_06_bc 一帧视频结束指令0;
32'h55_00_07_bc 一帧视频结束指令1;
指令可以任意更改,但最低字节必须为bc;
关于UltraScale GTY 介绍最详细的肯定是Xilinx官方的《ug578-UltraScale Architecture GTY Transceivers》,我们以此来解读:《ug578-UltraScale Architecture GTY Transceivers》的PDF文档我已放在了资料包里,文章末尾有获取方式;
我用到的开发板FPGA型号为Kirtex UltraScale+系列的xcku5p-ffvb676-1-i型号;UltraScale GTY 的收发速度为 500 Mb/s 到 30.5 Gb/s 之间,比UltraScale GTH高出一倍;UltraScale GTY 收发器支持不同的串行传输接口或协议,比如 PCIE 1.1/2.0 接口、万兆网 XUAI 接口、OC-48、串行 RapidIO 接口、 SATA(Serial ATA) 接口、数字分量串行接口(SDI)等等;
工程调用UltraScale GTY 做aurora 8b/10b协议的数据编解码,代码位置如下:
UltraScale GTY 基本配置如下:板载差分晶振125M,线速率配置为5G,协议类型被指为aurora 8b/10b;
在 Ultrascale/Ultrascale+架构系列的 FPGA 中,GTY 高速收发器通常使用 Quad 来划分,一个 Quad 由四个GTYE3/4_CHANNEL 原语和一个 GTYE3/4_COMMON 原语组成。每个 GTYE3/4_COMMON 中包含两个 LC-tank pll
(QPLL0 和 QPLL1)。只有在应用程序中使用 QPLL 时,才需要实例化 GTYE3/4_COMMON。下图为UltraScale GTY 收发器示意图:《ug578-UltraScale Architecture GTY Transceivers》第15页;
每个 GTYE3/4_CHANNEL 由一个 channel PLL(CPLL)、一个 transmitter,和一个 receiver 组成。一个参考时钟可以直接连接到一个 GTYE3/4_CHANNEL 原语,而不需要实例化 GTYE3/4_COMMON,如下图:
《ug578-UltraScale Architecture GTY Transceivers》第22页;
Ultrascale GTY 收发器的发送端和接收端功能是相互独立,都是由 Physical Media Attachment(物理媒介适配层 PMA)和Physical Coding Sublayer(物理编码子层 PCS)组成。PMA 内部集成了串并转换(PISO)、预加重、接收均衡、时钟发生器和时钟恢复等;PCS 内部集成了 8b/10b 编解码、弹性缓冲区、通道绑定和时钟修正等,每个 GTHE3/4_CHANNEL源语的逻辑电路如下图所示:《ug578-UltraScale Architecture GTY Transceivers》第17页;
这里说多了意义不大,因为没有做过几个大的项目是不会理解这里面的东西的,对于初次使用或者想快速使用者而言,更多的精力应该关注IP核的调用和使用,后面我也会重点将到IP核的调用和使用;
UltraScale 器件中的 GTY 收发器提供了不同的参考时钟输入选项。参考时钟选择架构支持 QPLL0、QLPLL1 和CPLL。从架构上讲,每个 Quad 包含四个 GTHE3/4_CHANNEL 原语,一个 GTHE3/4_COMMON 原语,两个专用的外部参考时钟引脚对,以及专用的参考时钟路由。如果使用到了高性能 QPLL,则必须实例化 GTHE3/4_COMMON,如下面 GTHE3/4_COMMON 时钟多路复用器结构的详细视图所示,(《ug576-ultrascale-gth-transceivers》第33页)在一个 Quad 中有 6 个参考时钟引脚对,两个本地参考时钟引脚对:GTREFCLK0或GTREFCLK1,两个参考时钟引脚对来自上面的两个Quads:GTSOUTHREFCLK0或 GTSOUTHREFCLK1,两个参考时钟引脚对来自下面的两个 Quads: GTNORTHREFCLK0 或GTNORTHREFCLK1。《ug578-UltraScale Architecture GTY Transceivers》第31页;
首先用户逻辑数据经过 8B/10B 编码后,进入一个发送缓存区(Phase Adjust FIFO),该缓冲区主要是 PMA 子层和 PCS 子层两个时钟域的时钟隔离,解决两者时钟速率匹配和相位差异的问题,最后经过高速 Serdes 进行并串转换(PISO),有必要的话,可以进行预加重(TX Pre-emphasis)、后加重。值得一提的是,如果在 PCB 设计时不慎将 TXP 和 TXN 差分引脚交叉连接,则可以通过极性控制(Polarity)来弥补这个设计错误。接收端和发送端过程相反,相似点较多,这里就不赘述了,需要注意的是 RX 接收端的弹性缓冲区,其具有时钟纠正和通道绑定功能。这里的每一个功能点都可以写一篇论文甚至是一本书,所以这里只需要知道个概念即可,在具体的项目中回具体用到,还是那句话:对于初次使用或者想快速使用者而言,更多的精力应该关注IP核的调用和使用。
《ug578-UltraScale Architecture GTY Transceivers》的第101到181页详细介绍了发送处理流程,其中大部分内容对于用户而言可以不去深究,因为手册讲的基本都是他自己的设计思想,留给用户可操作的接口并不多,基于此思路,我们重点讲讲UltraScale GTY 例化时留给用户的发送部分需要用到的接口;
用户只需要关心发送接口的时钟和数据即可,UltraScale GTY 例化模块的这部分接口如下:该文件名为gty_aurora_example_wrapper.v,例化IP后由官方自动生成;
在代码中我已为你们重新绑定并做到了模块的顶层,代码部分如下:
该文件名为gty_aurora_example_top.v;例化了官方的gty_aurora_example_wrapper.v;
《ug578-UltraScale Architecture GTY Transceivers》的第183到316页详细介绍了发送处理流程,其中大部分内容对于用户而言可以不去深究,因为手册讲的基本都是他自己的设计思想,留给用户可操作的接口并不多,基于此思路,我们重点讲讲UltraScale GTY 例化时留给用户的发送部分需要用到的接口;
用户只需要关心发送接口的时钟和数据即可,UltraScale GTY 例化模块的这部分接口如下:该文件名为gty_aurora_example_wrapper.v,例化IP后由官方自动生成;
在代码中我已为你们重新绑定并做到了模块的顶层,代码部分如下:
该文件名为gty_aurora_example_top.v;例化了官方的gty_aurora_example_wrapper.v;
UltraScale GTY 基本配置如下:板载差分晶振125M,线速率配置为5G,协议类型被指为aurora 8b/10b;
具体配置参考vivado工程,在IP配置好后,需要打开example工程,并将里面的文件复制出来作为自己的工程中使用,不过在我的工程中已经做好了这一步;打开example工程方法如下:
由于GT资源的aurora 8b/10b数据收发天然有着数据错位的情况,所以需要对接受到的解码数据进行数据对齐处理,数据对齐模块代码位置如下:
我定义的 K 码控制字符格式为:XX_XX_XX_BC,所以用一个rx_ctrl 指示数据是否为 K 码 的 COM 符号;
rx_ctrl = 4'b0000 表示 4 字节的数据没有 COM 码;
rx_ctrl = 4'b0001 表示 4 字节的数据中[ 7: 0] 为 COM 码;
rx_ctrl = 4'b0010 表示 4 字节的数据中[15: 8] 为 COM 码;
rx_ctrl = 4'b0100 表示 4 字节的数据中[23:16] 为 COM 码;
rx_ctrl = 4'b1000 表示 4 字节的数据中[31:24] 为 COM 码;
基于此,当接收到有K码时就对数据进行对齐处理,也就是将数据打一拍,和新进来的数据进行错位组合,这是FPGA的基础操作,这里不再赘述;
数据解包是数据组包的逆过程,代码位置如下:
UltraScale GTY 解包时根据固定的指令恢复视频的场同步信号和视频有效信号;这些信号是作为后面图像缓存的重要信号;至此,数据进出GTX部分就已经讲完了;
板载有两个SFP光口,可以使用1个SFP光口做回环,也可以使用两个SFP光口做回环,代码里通过define SFP_0_LOOP宏定义选择,上电默认使用1个SFP光口做回环;代码部分如下:
代码位于uiAurora_8b10b_vid.v;
选择逻辑如下:
当(注释) define SFP_0_LOOP时,选择2个SFP光口回环;
当(不注释) define COLOR_TEST时,选择1个SFP光口回环;
经常看我博客的老粉应该都知道,我做图像缓存的套路是FDMA,他的作用是将图像送入DDR中做3帧缓存再读出显示,目的是匹配输入输出的时钟差和提高输出视频质量,关于FDMA,请参考我之前的博客,博客地址:点击直接前往
FDMA图像缓存架构的两个自定义IP在Block Design中,代码映射如下:
本设计使用Xilinx官方的XDMA方案搭建基于Xilinx系列FPGA的PCIE通信平台,使用XDMA的中断模式与QT上位机通讯,即QT上位机通过软件中断的方式实现与FPGA的数据交互;XDMA将从SFP接收到的视频从DDR3中读取出来,通过PCIE总线发送给电脑主机,电脑主机运行QT上位机软件,QT软件通过通断方式接收PCIE发来的图像数据并实时显示图像;
本设计的关键在于我们编写了一个 XDMA中断模块。该模块用来配合驱动处理中断,xdma_inter.v 提供了AXI-LITE 接口,上位机通过访问 user 空间地址读写 xdma_inter.v 的寄存器。该 模块 在 user_irq_req_i 输入的中断位,寄存中断位号,并且输出给 XDMA IP ,当上位机的驱动响应中断的时候,在中断里面写 xdma_inter.v 的寄存器,清除已经处理的中断。DMA中断模块代码位置如下:
XDMA配置为X4模式,8G线速率,即PCIE3.0,如下:
关于基于XDMA的PCIE应用,请参考我的PCIE通信专栏,专栏地址:点击直接前往
QT上位机本方案使用 VS2015 + Qt 5.12.10 完成上位机开发软件环境搭建,QT程序调用XDMA官方API采用中断模式实现与FPGA的数据交互,本例程实现的是读写测速,提供QT上位机软件及其源码,路径如下:
QT源码部分截图如下:
开发板FPGA型号:Xilinx–Kirtex7-UltraScale-xcku060-ffva1156-2-i
开发环境:Vivado2022.2;
输入:HDMI或者动态彩条,分辨率1920x1080@60Hz;
输出:8B/10B回环用的是SFP光口的光纤;FPGA板卡与PC端用的是PCIE3.0总线;
应用:FPGA高端项目:图像采集+UltraScale GTH + PCIE,aurora 8b/10b编解码,PCIE视频传输;
工程Block Design如下:
工程代码架构如下:
综合编译完成后的FPGA资源消耗和功耗预估如下:
1:如果你的vivado版本与本工程vivado版本一致,则直接打开工程;
2:如果你的vivado版本低于本工程vivado版本,则需要打开工程后,点击文件–>另存为;但此方法并不保险,最保险的方法是将你的vivado版本升级到本工程vivado的版本或者更高版本;
3:如果你的vivado版本高于本工程vivado版本,解决如下:
打开工程后会发现IP都被锁住了,如下:
此时需要升级IP,操作如下:
如果你的FPGA型号与我的不一致,则需要更改FPGA型号,操作如下:
更改FPGA型号后还需要升级IP,升级IP的方法前面已经讲述了;
1:由于每个板子的DDR不一定完全一样,所以MIG IP需要根据你自己的原理图进行配置,甚至可以直接删掉我这里原工程的MIG并重新添加IP,重新配置;
2:根据你自己的原理图修改引脚约束,在xdc文件中修改即可;
3:纯FPGA移植到Zynq需要在工程中添加zynq软核;
FPGA开发板;
笔记本电脑,你的板子没有HDMI输入接口可以选择动态彩条;
SFP光口模块及光纤;
支持PCIE3.0的台式电脑;
连接光纤,板子上电,下载bit;
板子光纤接法如下:
HDMI输入:当UltraScale GTY 运行5线速率时输出如下:
动态彩条输入:当UltraScale GTY 运行5G线速率时输出如下:
录制了一个动态彩条输出的小视频,输出动态演示如下:
V7-GTH-COLOR
福利:工程代码的获取
代码太大,无法邮箱发送,以某度网盘链接方式发送,
资料获取方式:私,或者文章末尾的V名片。
网盘资料如下: