一台生产服务器安装完FPGA卡后,出现大量pcie相关报错,从加载完操作系统后该错误信息就一直出现在IPMI的远程控制窗口中,系统日志/var/log/message里也有大量错误信息写入,而且错误消息持续滚动出现在屏幕中,虽没有影响到正常使用,但是实在是无法忍受。

生产服务器的pcie错误_第1张图片


网上google了下具体错误原因和解决办法,原来是PCIe Active State Power Management 的设置导致低电源状态引起的报错。

使用内核参数‘pcie_aspm=off’ 将其关闭,不过使用后将会造成电源消耗增加,这些对于数据中心的服务器都不是问题。


系统版本为SL7.1操作系统(同CentOS7.1), 修改/etc/default/grub,在‘GRUB_CMDLINE_LINUX’栏后面添加该参数‘pcie_aspm=off’

然后写入grub,

grub2-mkconfig -o /boot/grub2/grub.cfg

重启服务器后,报错消失。