STM32 LWIP 接收大数据包导致Hardfault问题解决记录

STM32 LWIP 接收大数据包导致Hardfault问题解决记录

  • 问题描述
  • 问题排查
  • 解决方案

问题描述

一套设备使用了 STM32H743,使用CubeMX IDE 配置以太网,加上了Freertos和LWIP,主要业务是收发UDP数据,现场一直工作良好。部署后现场反馈说开机几分钟后LED不闪烁,经我调试发现是进入了Hardfault。 抓包发现现场内网存在广播设备,全网段10hz以上广播3000到4000字节的UDP数据包。

还原现场,在自己电脑python编程进行UDP广播数据发送,的确出现了每帧数据6K,且数据频率较快时,MCU不一会就出现死机现象。
STM32 LWIP 接收大数据包导致Hardfault问题解决记录_第1张图片

问题排查

  1. 最先想到Freertos在任务堆栈不够时,会有一样现象,加大任务堆栈到2K,问题依旧。
  2. 提高Lwip内MEM_SIze,等缓冲区设置,问题依旧。
  3. 修改Lwip内各种内存分配大小相关的值,问题依旧。

受到以下文章启发:

工程师笔记 | Lwip中和 IP分包相关的参数

STM32 LWIP 接收大数据包导致Hardfault问题解决记录_第2张图片
和我遇到的问题很类似,可能需要改动ETH驱动底层接收数组的大小。

查看CubeMX生成的RX_buffer代码在哪
STM32 LWIP 接收大数据包导致Hardfault问题解决记录_第3张图片
CubeMX IDE 生成的是GCC编译器

宏定义ETH_TX_DESC_CNT和ETH_RX_DESC_CNT在stm32h7xx_hal_conf.h文件里面

#define ETH_TX_DESC_CNT         4  /* number of Ethernet Tx DMA descriptors */
#define ETH_RX_DESC_CNT         4  /* number of Ethernet Rx DMA descriptors */

可以看到以太网底层DMA数组大小是4个,每个 ETH_RX_BUFFER_SIZE 是 1524,为啥是1524是因为以太网TCP或者UDP最大分包就是这么大,再大也会被分片后发出。

在这里插入图片描述

到这里问题的原貌是:

当广播的用户发送一个6K左右的大数据包时,分包后相当于发出了4个连续的 1500字节以上的数据包,这样会导致单片机的DMA无法处理,出现内存异常。

这样解决方案就简单了,一是关闭广播,让他分为更小的包发送。另外一个是加大我们一次处理1500个字节数据包的能力。也就是改大 ETH_TX_DESC_CNT.

解决方案

直接改动 ETH_TX_DESC_CNT 宏定义为8,编译错误。错误出现在链接阶段。

STM32H743ZITX_FLASH.ld:148 cannot move location counter backwards (from 00000000300400c0 to 0000000030040060)

报错基本说上是无法把一个东西放入0x30040060,要用到0x300400c0

H7 由于有I-cache 和MPU,以太网相关的内存定义到特定区段内,这是用 ld 链接脚本实现的:

  .lwip_sec (NOLOAD) : {
    . = ABSOLUTE(0x30040000);
    *(.RxDecripSection) 
    
    . = ABSOLUTE(0x30040060);
    *(.TxDecripSection)
    
    . = ABSOLUTE(0x30040200);
    *(.RxArraySection) 
  } >RAM_D2 AT> FLASH  

在 RAM_D2内分3个标记,RxDecripSection 从 0x30040000开始,TxDecripSection 从 0x30040060 开始,RxArraySection 从 0x30040200 开始。

分别对应开头提到的3个DMA数组,由于被DMA访问,需要设置位置,进行MPU设置。
在这里插入图片描述
由于我改动了 ETH_TX_DESC_CNT,导致第一个数组变大,所以第二个TxDecripSection已经不能从0x30040060开始。所以第二个起始改为0x300400c0

改动完毕,发现不能ping通,检查MPU设置,原来以下这段也是根据官方以太网历程添加。

/* MPU Configuration */

void MPU_Config(void)
{
  MPU_Region_InitTypeDef MPU_InitStruct = {0};

  /* Disables the MPU */
  HAL_MPU_Disable();
  /** Initializes and configures the Region and the memory to be protected
  */
  MPU_InitStruct.Enable = MPU_REGION_ENABLE;
  MPU_InitStruct.Number = MPU_REGION_NUMBER0;
  MPU_InitStruct.BaseAddress = 0x30040000;
  MPU_InitStruct.Size = MPU_REGION_SIZE_256B;
  MPU_InitStruct.SubRegionDisable = 0x0;
  MPU_InitStruct.TypeExtField = MPU_TEX_LEVEL0;
  MPU_InitStruct.AccessPermission = MPU_REGION_FULL_ACCESS;
  MPU_InitStruct.DisableExec = MPU_INSTRUCTION_ACCESS_ENABLE;
  MPU_InitStruct.IsShareable = MPU_ACCESS_NOT_SHAREABLE;
  MPU_InitStruct.IsCacheable = MPU_ACCESS_NOT_CACHEABLE;
  MPU_InitStruct.IsBufferable = MPU_ACCESS_BUFFERABLE;

  HAL_MPU_ConfigRegion(&MPU_InitStruct);

0x30040000 开始,
MPU_REGION_SIZE_256B
对256Byte大小区域做了不可共享,不可缓存保护.

STM32 LWIP 接收大数据包导致Hardfault问题解决记录_第4张图片

/** 
  * @brief  ETH DMA Descriptor structure definition
  */
typedef struct
{
  __IO uint32_t DESC0;
  __IO uint32_t DESC1;
  __IO uint32_t DESC2;
  __IO uint32_t DESC3;
  uint32_t BackupAddr0; /* used to store rx buffer 1 address */
  uint32_t BackupAddr1; /* used to store rx buffer 2 address */
}ETH_DMADescTypeDef;

但是我用8*2个ETH_DMADescTypeDef类型,,一个24字节,那就是已经用了380多字节,原来256B的保护行为要扩充了。

所以设置MPU要保护更多的内容,Size改为512.
STM32 LWIP 接收大数据包导致Hardfault问题解决记录_第5张图片

最后ping通恢复,长时间 每帧 8K 数据冲刷 , 正常通过,结案。

你可能感兴趣的:(嵌入式,stm32,物联网,单片机)