STM32 LWIP 接收大数据包导致Hardfault问题解决记录
问题描述
一套设备使用了 STM32H743,使用CubeMX IDE 配置以太网,加上了Freertos和LWIP,主要业务是收发UDP数据,现场一直工作良好。部署后现场反馈说开机几分钟后LED不闪烁,经我调试发现是进入了Hardfault。 抓包发现现场内网存在广播设备,全网段10hz以上广播3000到4000字节的UDP数据包。
还原现场,在自己电脑python编程进行UDP广播数据发送,的确出现了每帧数据6K,且数据频率较快时,MCU不一会就出现死机现象。
问题排查
- 最先想到Freertos在任务堆栈不够时,会有一样现象,加大任务堆栈到2K,问题依旧。
- 提高Lwip内MEM_SIze,等缓冲区设置,问题依旧。
- 修改Lwip内各种内存分配大小相关的值,问题依旧。
受到以下文章启发:
工程师笔记 | Lwip中和 IP分包相关的参数
和我遇到的问题很类似,可能需要改动ETH驱动底层接收数组的大小。
查看CubeMX生成的RX_buffer代码在哪 CubeMX IDE 生成的是GCC编译器
宏定义ETH_TX_DESC_CNT和ETH_RX_DESC_CNT在stm32h7xx_hal_conf.h文件里面
#define ETH_TX_DESC_CNT 4
#define ETH_RX_DESC_CNT 4
可以看到以太网底层DMA数组大小是4个,每个 ETH_RX_BUFFER_SIZE 是 1524,为啥是1524是因为以太网TCP或者UDP最大分包就是这么大,再大也会被分片后发出。
到这里问题的原貌是:
当广播的用户发送一个6K左右的大数据包时,分包后相当于发出了4个连续的 1500字节以上的数据包,这样会导致单片机的DMA无法处理,出现内存异常。
这样解决方案就简单了,一是关闭广播,让他分为更小的包发送。另外一个是加大我们一次处理1500个字节数据包的能力。也就是改大 ETH_TX_DESC_CNT.
解决方案
直接改动 ETH_TX_DESC_CNT 宏定义为8,编译错误。错误出现在链接阶段。
STM32H743ZITX_FLASH.ld:148 cannot move location counter backwards (from 00000000300400c0 to 0000000030040060)
报错基本说上是无法把一个东西放入0x30040060,要用到0x300400c0
H7 由于有I-cache 和MPU,以太网相关的内存定义到特定区段内,这是用 ld 链接脚本实现的:
.lwip_sec (NOLOAD) : {
. = ABSOLUTE(0x30040000);
*(.RxDecripSection)
. = ABSOLUTE(0x30040060);
*(.TxDecripSection)
. = ABSOLUTE(0x30040200);
*(.RxArraySection)
} >RAM_D2 AT> FLASH
在 RAM_D2内分3个标记,RxDecripSection 从 0x30040000开始,TxDecripSection 从 0x30040060 开始,RxArraySection 从 0x30040200 开始。
分别对应开头提到的3个DMA数组,由于被DMA访问,需要设置位置,进行MPU设置。 由于我改动了 ETH_TX_DESC_CNT,导致第一个数组变大,所以第二个TxDecripSection已经不能从0x30040060开始。所以第二个起始改为0x300400c0
改动完毕,发现不能ping通,检查MPU设置,原来以下这段也是根据官方以太网历程添加。
void MPU_Config(void)
{
MPU_Region_InitTypeDef MPU_InitStruct = {0};
HAL_MPU_Disable();
MPU_InitStruct.Enable = MPU_REGION_ENABLE;
MPU_InitStruct.Number = MPU_REGION_NUMBER0;
MPU_InitStruct.BaseAddress = 0x30040000;
MPU_InitStruct.Size = MPU_REGION_SIZE_256B;
MPU_InitStruct.SubRegionDisable = 0x0;
MPU_InitStruct.TypeExtField = MPU_TEX_LEVEL0;
MPU_InitStruct.AccessPermission = MPU_REGION_FULL_ACCESS;
MPU_InitStruct.DisableExec = MPU_INSTRUCTION_ACCESS_ENABLE;
MPU_InitStruct.IsShareable = MPU_ACCESS_NOT_SHAREABLE;
MPU_InitStruct.IsCacheable = MPU_ACCESS_NOT_CACHEABLE;
MPU_InitStruct.IsBufferable = MPU_ACCESS_BUFFERABLE;
HAL_MPU_ConfigRegion(&MPU_InitStruct);
0x30040000 开始, MPU_REGION_SIZE_256B 对256Byte大小区域做了不可共享,不可缓存保护.
typedef struct
{
__IO uint32_t DESC0;
__IO uint32_t DESC1;
__IO uint32_t DESC2;
__IO uint32_t DESC3;
uint32_t BackupAddr0;
uint32_t BackupAddr1;
}ETH_DMADescTypeDef;
但是我用8*2个ETH_DMADescTypeDef类型,,一个24字节,那就是已经用了380多字节,原来256B的保护行为要扩充了。
所以设置MPU要保护更多的内容,Size改为512.
最后ping通恢复,长时间 每帧 8K 数据冲刷 , 正常通过,结案。
|