ISO 26262 把失效的类型分为系统失效和随机硬件失效,并且对其做了区分。
1,随机硬件失效:random hardware failure
26262中定义是:Failure (1.39) that can occur unpredictably during the lifetime of a hardware element (1.32) and that follows a probability distribution。在硬件要素(2.32)的生命周期中,非预期发生并服从概率分布的失效(2.39)。
NOTE Random hardware failure rates (1.41) can be predicted with reasonable accuracy.
注: 随机硬件失效率(2.41)可在合理的精度内来预测。
其中的关键词是:
硬件要素:在硬件要素中发生的失效。
非预期发生的:尽管硬件的设计是正确的(电阻值,电容值,电路布置),元器件也是符合质量标准的。但是却无法预知的故障,无法预知在哪里发生,以怎样的形式发生。
服从概率分布:可以在合理的精度范围内进行预测。可以通过FMEDA(Failure Mode Effects and Diagnostics Analysis),即失效模式影响和诊断分析,对随机硬件失指标效进行量化。FMEDA是FMEA的一种扩展,与FMEA相比其加入了诊断机制。
比如flash由于自身的特性出位翻转(bit flip)的现象就属于随机故障,原因可能是漂移效应(Drifting Effects),编程干扰所产生的错误(Program-Disturb Errors),读操作干扰产生的错误(Read-Disturb Errors )等,无法预期的。
2,系统性失效 systematic failure (Part2:E3.3)
failure(1.39), related in a deterministic way to a certain cause, that can only be eliminated by a change of the design or of the manufacturing process, operational procedures, documentation or other relevant factors. 以确定的方式与某个原因相关的失效(2.39),只有对设计或生产流程、操作规程、文档或其它相关因素进行变更后才可能排除这种失效。
其关键词:
确定的方式与某个原因相关:也就是说如有错误,只要条件满足,那么必然发生,比如软件bug。
系统性失效具有三个特征:
1, 仅仅进行正确维护而不加修改的情况下,无法消除故障。
2, 通过模拟失效原因可以导致系统失效。
3, 是人为错误引起,失效原因比如:安全要求规范的错误;硬件的设计,制造,安装,操作的错误;软件的设计和实现的错误等。
3,总结和对比
总的来说系统性失效是由于设计的错误或者忽略,通常是由于人为造成的。
而随机硬件失效即便是在“正确的”设计上,也会以一种无法预期的方式失效。但是无法预期并不是说没有root cause,而是说root cause通常不易观察和控制。
下面通过一个假象的案例进行下形象说明:
比如一个PCB板上有10000个晶体管,但是在流水线操作的时候,其中一个晶体管被操作工不小心碰到了,造成了轻微的损害。最开始的时候不影响正常的功能,但是随着产品的使用,经过N多次的升降温,震动等工况,某一天终于造成了失效。也可以说是,在整个产品使用寿命中9999个晶体管都是好的,但是其中一个会出错。于是乎工程师倾向于得出结论,失效率是万分之一。这里有root cause,就是由于操作工的操作不当,但是这样的root cause我们很难从现象上去推理发现,因为无论从设计,晶体管质量都是OK的,而且其他9999个晶体管都是好的,因此这个看上去很“随机”的失效就是随机硬件失效。
但假如我们能够找到造成这个晶体管的失效原因,比如操作工搬运的时候不小心着地了,我们可以改进运输方式,使得这种情况不再发生。这种情形下也可以将其叫做系统性失效。但是在真实世界里,很多导致失效的细节是难以观测到的,我们不能跟随产品的每一个步骤和每一个时刻发生的情形。很多时候,失效发生的原因是这些微小的、难以观测的、与安全相关的事件随着时间的累积而形成的,就好像是量变到质变的过程。这种情况下引发的失效称之为“随机硬件失效”。