之前的项目中使用RT1052的FlexSPI X8 接口与FPGA通信成功,但是100MHz的SCLK时钟频率,通信速度只达到了9MB/S左右,通信效率不高。最近有项目需要高速通信,重新翻出以前的代码进行优化,成功让FlexSPI接口与FPGA通信速度达到76.9MB/S(理论上还可以更高,待继续优化)。
通过分析,一方面是串行接口需要传输指令、地址、数据长度等信息,如果一次传输4字节(传输长度受AHB总线和是否启用Cache等因素影响),这几个信息就占用了超过一半的带宽资源(见如下LUT表指令 Read Data 描述),另一方面没有启用缓存和Dcache功能,没有发挥iMXRT芯片的实力。
LUT表如下
static const uint32_t customLUT[CUSTOM_LUT_LENGTH] = {
/* Read Data */
[4 * FPGARAM_CMD_LUT_SEQ_IDX_READDATA] =
FLEXSPI_LUT_SEQ(kFLEXSPI_Command_SDR, kFLEXSPI_8PAD, 0xA0, kFLEXSPI_Command_RADDR_SDR, kFLEXSPI_8PAD, 0x18),// 指令 0xA0,地址长度0x18 = 24位
[4 * FPGARAM_CMD_LUT_SEQ_IDX_READDATA + 1] =
FLEXSPI_LUT_SEQ(kFLEXSPI_Command_DATSZ_SDR, kFLEXSPI_8PAD, 0x08, kFLEXSPI_Command_DUMMY_SDR, kFLEXSPI_8PAD, 0x01), // DATSZ_SDR 可用于通知外部设备有多少个时钟周期 添加一个kFLEXSPI_Command_DUMMY_SDR 周期用于等待DQS切换方向
[4 * FPGARAM_CMD_LUT_SEQ_IDX_READDATA + 2] =
FLEXSPI_LUT_SEQ(kFLEXSPI_Command_READ_SDR, kFLEXSPI_8PAD, 0x04, kFLEXSPI_Command_STOP, kFLEXSPI_8PAD, 0x00),
/* Write Data */
[4 * FPGARAM_CMD_LUT_SEQ_IDX_WRITEDATA] =
FLEXSPI_LUT_SEQ(kFLEXSPI_Command_SDR, kFLEXSPI_8PAD, 0x20, kFLEXSPI_Command_RADDR_SDR, kFLEXSPI_8PAD, 0x18),
[4 * FPGARAM_CMD_LUT_SEQ_IDX_WRITEDATA + 1] =
FLEXSPI_LUT_SEQ(kFLEXSPI_Command_DATSZ_SDR, kFLEXSPI_8PAD, 0x08, kFLEXSPI_Command_DUMMY_SDR, kFLEXSPI_8PAD, 0x01),
[4 * FPGARAM_CMD_LUT_SEQ_IDX_WRITEDATA + 2] =
FLEXSPI_LUT_SEQ(kFLEXSPI_Command_WRITE_SDR, kFLEXSPI_8PAD, 0x04, kFLEXSPI_Command_STOP, kFLEXSPI_8PAD, 0x00),
};
FPGA设备访问描述配置如下
static flexspi_device_config_t deviceconfig = {
.flexspiRootClk = 120000000, //此处赋值只是用于库函数FLEXSPI_SetFlashConfig 把它作为时间基准进行运算的
.isSck2Enabled = false,
.flashSize = M_FLASH_SIZE,
.CSIntervalUnit = kFLEXSPI_CsIntervalUnit1SckCycle,
.CSInterval = 0, //CS的最小 宽度
.CSHoldTime = 1, //SCK最后一个时钟沿到CS上升沿的延迟
.CSSetupTime = 0, //CS下降沿到 SCK上升沿时钟
.dataValidTime = 1, //单位是0.1nS // 速度低于100M时才有效
.columnspace = 0, //列地址宽度
.enableWordAddress = true,
.AWRSeqIndex = FPGARAM_CMD_LUT_SEQ_IDX_WRITEDATA,
.AWRSeqNumber = 1,
.ARDSeqIndex = FPGARAM_CMD_LUT_SEQ_IDX_READDATA,
.ARDSeqNumber = 1,
.AHBWriteWaitUnit = kFLEXSPI_AhbWriteWaitUnit2AhbCycle,
.AHBWriteWaitInterval = 0, //0AHB时钟延迟
.enableWriteMask = false, //写外部器件时DQS信号输出
};
NXP官方有一个文档《AN12239 如何在 i.MX RT 上使用 HyperRAM》
https://download.csdn.net/download/catshit322/87580645
描述了提高FlexSPI访问速度的方法:
提高时钟速度
将数据放在DTCM,将代码放在ITCM中
启用预读取和写入缓冲
开启Dcache
受代码体积影响,我将代码全部放在SDRAM中运行,由FPGA独占FlexSPI接口访问带宽
我的应用是将代码放在SPI Flash中存储,通过修改分散加载文件和拷贝中断向量表的方式,启动后将代码搬移到SDRAM中,再重新配置FlexSPI接口,然后通过AHB方式开始访问FPGA,FPGA通过FIFO的方式将数据进行输出,由于我的应用中通过地址区分需要发送的数据,因此地址字段(下图中0x30,0x0C,0x50)不能省去,只用到地址的最高4位,后面的数据用来实现FIFO连续输出。数据长度字段(0x20)用于通知FPGA输出多少个数据。如果不开启Cache功能,每次只能传输4字节(uint32_t)或8字节(uint64_t),下图是开启了缓冲功能后的时序图,每次可以传输32字节(与AHB RX buffer 缓冲区设置大小有关)。
使用的FlexSPI初始化函数如下:
void flexspi_init(void)
{
flexspi_config_t config;
flexspi_gpio_init();
SCB_DisableDCache();
/* Wait for bus to be idle before changing flash configuration. */
while (false == FLEXSPI_GetBusIdleStatus(EXAMPLE_FLEXSPI))
{
}
const clock_usb_pll_config_t g_ccmConfigUsbPll = {.loopDivider = 0U};
FLEXSPI_Deinit(EXAMPLE_FLEXSPI);
//初始化USB1PLL,即PLL3,loopDivider=0
//所以USB1PLL=PLL3 = 24*20 = 480MHz
CLOCK_InitUsb1Pll(&g_ccmConfigUsbPll);
//Set PLL3 PFD0 clock: PLL3*18/24 = 360MHZ
CLOCK_InitUsb1Pfd(kCLOCK_Pfd0, 24);
//选择PLL3 PFD0作为flexspi时钟源
//00b derive clock from semc_clk_root_pre
//01b derive clock from pll3_sw_clk
//10b derive clock from PLL2 PFD2
//11b derive clock from PLL3 PFD0
CLOCK_SetMux(kCLOCK_FlexspiMux, 0x03);
//设置flexspiDiv分频因子,得到FLEXSPI_CLK_ROOT = PLL3 PFD0/(flexspiDiv+1) = 120M.
uint8_t div = 2;
CLOCK_SetDiv(kCLOCK_FlexspiDiv, div);
uint32_t coreclk = CLOCK_GetFreq(kCLOCK_CpuClk);
uint32_t ahbclk = CLOCK_GetFreq(kCLOCK_AhbClk);
uint32_t fpgabusclk = CLOCK_GetFreq(kCLOCK_Usb1PllPfd0Clk)/(div+1);
printf("coreclk:%d ahbclk:%d fpgabusclk:%d\r\n", coreclk, ahbclk, fpgabusclk);
FLEXSPI_GetDefaultConfig(&config); //Get FLEXSPI default settings and configure the flexspi.
config.rxSampleClock = kFLEXSPI_ReadSampleClkExternalInputFromDqsPad; // 使用外部回环 最高 166M SDR
// config.rxSampleClock = kFLEXSPI_ReadSampleClkLoopbackInternally; // 使用内部回环 最高 60M SDR
// config.rxSampleClock = kFLEXSPI_ReadSampleClkLoopbackFromSckPad ; //使用自SCK信号 最高133M SDR
// config.rxSampleClock = kFLEXSPI_ReadSampleClkLoopbackFromDqsPad ; //使用自回环 最高133M SDR
config.enableSckFreeRunning = true; ///持续运行为FPGA提供时钟
config.ahbConfig.enableReadAddressOpt = false; /// 使用FPGA fifo时应为false ,否则出现地址对齐问题同一地址多次读取FPGA无法识别
config.enableCombination = true; // 使用8位模式
// config.txWatermark = 8; // AHB 模式下无用
// config.rxWatermark = 8;
config.ahbConfig.enableAHBPrefetch = false; //AHB 预读取功能,开启此功能后 数据长度指令无效,无法传输准确的读取长度给FPGA,由CS引脚控制
config.ahbConfig.enableAHBBufferable = true;
config.ahbConfig.enableAHBCachable = true;
/*Set AHB buffer size for reading data through AHB bus. */
// 配置4个 AHB RX BUFFER
for(char i = 0;i < FSL_FEATURE_FLEXSPI_AHB_BUFFER_COUNT ; i++ )
{
// config.ahbConfig.buffer[i].priority = 1;
config.ahbConfig.buffer[i].masterIndex = i;
config.ahbConfig.buffer[i].bufferSize = 256;
}
FLEXSPI_Init(EXAMPLE_FLEXSPI, &config);
deviceconfig.flashSize = 0x4000; /// A1 寻址范围0x6000000 0x60FFFFFF 0x1000000 = 0x4000 * 1024
FLEXSPI_SetFlashConfig(EXAMPLE_FLEXSPI, &deviceconfig, kFLEXSPI_PortA1);
//A2 寻址范围 0x6100 0000 ~ 0x6184 0000+
/* Set flexspi root clock. */
deviceconfig.flexspiRootClk = flexspi_get_frequency();
FLEXSPI_SetFlashConfig(EXAMPLE_FLEXSPI, &deviceconfig, kFLEXSPI_PortA2);//Configure flash settings according to serial flash feature.
FLEXSPI_UpdateLUT(EXAMPLE_FLEXSPI, 0, customLUT, CUSTOM_LUT_LENGTH); //Update LUT table
/* Do software reset. */
FLEXSPI_SoftwareReset(EXAMPLE_FLEXSPI);
SCB_EnableDCache();
}
需要注意的是开始启Cache功能会导致FlexSPI接口不按预期去读取外部数据,使用时需要特别处理,有两种方法。
设置MPU,将FPGA映射的地址设置为Non-Cacheable。
/* Memory with Normal type, not shareable, non-cacheable */
MPU->RBAR = ARM_MPU_RBAR(10, 0x61000000U);
MPU->RASR = ARM_MPU_RASR(0, ARM_MPU_AP_FULL, 1, 0, 0, 0, 0, ARM_MPU_REGION_SIZE_256MB);
/// cacheable
// MPU->RASR = ARM_MPU_RASR(0, ARM_MPU_AP_FULL, 0, 0, 1, 1, 0, ARM_MPU_REGION_SIZE_256MB);
此时
config.ahbConfig.enableAHBBufferable = true;
config.ahbConfig.enableAHBCachable = true;
选项实际不起作用,测试的读取速度如下图(时间精度为100us)
经过测试读取速度可以达到27.97MB/S,与理论速度仍有较大差距。
另一种方法是将FPGA映射的地址设置为Cacheable,开启缓存功能。
/* Memory with Normal type, not shareable, non-cacheable */
MPU->RBAR = ARM_MPU_RBAR(10, 0x61000000U);
// MPU->RASR = ARM_MPU_RASR(0, ARM_MPU_AP_FULL, 1, 0, 0, 0, 0, ARM_MPU_REGION_SIZE_256MB);
/// cacheable
MPU->RASR = ARM_MPU_RASR(0, ARM_MPU_AP_FULL, 0, 0, 1, 1, 0, ARM_MPU_REGION_SIZE_256MB);
在读取FPGA之前先使用无效化缓存指令使内部缓存无效,强制去读取外部设备以产生访问时序。
DCACHE_InvalidateByRange((EXAMPLE_FLEXSPI_AMBA_BASE + addr), len);
DCACHE_CleanByRange((EXAMPLE_FLEXSPI_AMBA_BASE + addr), len);
然后使用AHB方式访问FPGA
flexspi_ahbcommand_read_data(addr, Psave_buf, len); // 读数据
flexspi_ahbcommand_read_data 实现代码为
void flexspi_ahbcommand_read_data(uint32_t address, uint8_t *buffer, uint32_t length)
{
uint64_t* startAddr = (uint64_t*)(EXAMPLE_FLEXSPI_AMBA_BASE + address);
uint64_t * Pbuf = (uint64_t*) buffer;
uint32_t len = length/sizeof(uint64_t);
for(int i = 0;i
实测通信速度如下图:
虽然与理论最大速度仍有差距,但是现阶段已经满足使用要求,待接下来有时间再继续优化。
根据《AN12239 如何在 i.MX RT 上使用 HyperRAM》文档对RT1052程序进行优化,现在可以达到76.9MB/S的读取速度,受FPGA逻辑影响,无法开启所有优化方式,下一步有时间再研究如何让RT1052和FPGA通信达到官方测试的最高281MB/S的读取速度。