080、PCIE错误消息与错误转发:从一次诡异的设备掉线说起

080、PCIE错误消息与错误转发:从一次诡异的设备掉线说起

上个月在客户现场调试,遇到个邪门事儿:系统跑着跑着,某个PCIE网卡突然就“消失”了。lspci里找不到,重启又能恢复。查了两天日志,终于在dmesg里看到一行:

[ 1234.567] pcieport 0000:00:1c.0: AER: Corrected error received: 0000:01:00.0
[ 1235.678] pcieport 0000:00:1c.0: PCIe Bus Error: severity=Corrected, type=Physical Layer

就是这行“Corrected”(已纠正)的错误,背后藏着PCIE错误处理的核心逻辑。今天咱们就掰开揉碎讲讲,PCIE的错误消息到底怎么传递,系统怎么处理,以及为什么有时候“修好了”的错误反而会坏事。

错误分类:不是所有错误都致命

PCIE把错误分成三大类,这个分类直接影响后续处理流程:

可纠正错误(Correctable Error)
比如链路层的CRC校验错,硬件自己重传一次就能搞定。这类错误通常不打断业务,但频繁出现可能暗示硬件问题。上面那个案例就是典型——设备自己恢复了,但系统知道“这里出过事”。

非致命错误(Uncorrectable Error Non-Fatal)
数据错了,但设备和链路还能用。比如事务层的数据包内容错误,软件需要介入处理,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值