关于仪表5个9可靠性的疑惑

2018/3/3 1:39:19 人评论 次浏览 分类:技术方案  文章地址://www.e-cumulus.com/tech/1813.html

前段时间,用WQS(WindchillQuality Solutions)软件基于SR332可靠性预计给出了一台微型彩色无纸记录仪的MTBF预计值到客户。随后客户反应微型彩色无纸记录仪的一个主板达不到5个9的可靠性要求。当时就对“什么是5个9可靠性”疑惑了,客户是不是说99.999%的可靠性呢?如果是指可靠性,通常电子产品如果基于指数分布R=e(-λt),λ=1/MTBF,现在MTBF已知,但时间t是未知的,怎么就说达不到要求的“5个9可靠性”呢?

笔者查看客户邮件才明白:客户提到的是Availability(可用性),并非之前笔者理解的指数分布的可靠性的概率值。问题得以解决:运用固有可用性计算公式A=MTBF/(MTBF+MTTR)(这里A指可用性Availability);MTBF已知为2,000,000小时(这里数字为参考,与实际值在一个数量级),MTTR的取值定义为1小时(因为MTTR指平均修复时间,这仪表按照笔者的实际经验,正常拆装重组到恢复运行要1个小时,这意味着即使不修坏了的主板,直接更换性维修也至少1小时,所以这里MTTR先去最小值1小时)。算出来A=2000000/(2000000+1)=0.99999950000025=99.999950000025%。

这一看,6个9了......怎么客户还说不符合呢?难道客户的MTTR时间很长,考虑了实际的现场维护可能出现的维修延迟?例如更换板卡和协调人员维修等耽误的时间等....利用反推法,假设刚好满足5个9的可用性,算出MTTR=20小时,意味着维修时间若超过20小时,则达不到5个9的要求;因为现场维护时间对于不同场景均有不同,后来有询问客户他们的通常售后维护MTTR时间,并告知客户我们目前的MTBF为预计值且指定了SR332里面的Issue 3、Method 1、Case 1的预计算法,不同预计算法得出的值都有差异。可能由于商业或者其他原因,客户不愿透露他们的预计方法及MTTR取值参数,且也未再提我们的产品不能达到5个9的要求.....

注意:不建议直接将可靠性预计值直接代入计算可用性,有条件的情况下,为了更接近现场,通常使用加速测试方案卡方分布单侧置信得出的MTBF值进行计算。

说来也巧,在解答了上面的疑问后看到了“可靠性几个9什么意思,把人搞疯了”的文章,里面提到了企业经常宣传的几个9的定义级别,提到了一般电信级设备要求5个9的要求。对于里面的提及的一年允许中断时间的计算方法,引用文章里1个9和5个9各自对应的一年允许中断时间如下:1个9:(1-90%)×365=36.5天;5个9:(1-99.999%)×365×24×60=5.26分钟;

这里有人可能会有疑惑怎么直接算出上面的值?下面笔者运用可用度公式分别验证了这两个计算方法如下:
先说1个9:A=MTBF/(MTBF+MTTR);这里A=0.9,MTBF+MTTR=1年(因为描述里写了一年内允许的中断时间,假设时间长度为1年,则无故障时间+故障维修时间总和为一年,即MTBF+MTTR=1年),代入得如下等式: 0.9=(365-MTTR)/365;继而推导出MTTR=(1-0.9)×365=36.5天,吻合;

再说5个9;同样的道理,代入得出0.99999=(365-MTTR)/365,MTTR=(1-0.99999)×365×24×60=5.256分钟,吻合。

笔者写这篇文章的时候在想,要提高可用性,有两个方向:一是提高平均无故障工作时间MTBF,二是缩短平均修复时间MTTR。
不过通常这两个方向都会增加成本,这里就涉及到了全寿命周期花费LCC(Life Cycling Cost),如何平衡取舍,将总体成本最优化?这应该是可靠性的一个重要工作内容,不过暂无LCC相关案例,欢迎大家在留言处补充,留待后续讨论。
----------------------------------------------------------------------------------------------------------------
文章《可靠性几个9什么意思,把人搞疯了》原文
企业要提高产品的竞争力,可靠性是考虑的重点之一;用户购买产品也会选择可靠性高的产品。和可靠性相关的数字中,“9”是最常见的。现在购买产品,经常被宣传的几个9搞懵了,那么,产品宣传的几个9是什么含义?企业开发产品可靠性需要几个9呢?

大家都清楚,产品的可靠性是指:产品在规定的条件下、在规定的时间内完成规定的功能的能力。下面分别介绍一下机械产品和电子产品几个9的含义,以及如何选择和确定的。

机械产品
机械产品可靠性度量参数很多,如可靠度、MTBF、可靠寿命等,本文重点介绍可靠度。需要注意的是,这里的可靠度一般指机械产品某种关键故障模式不发生的概率。

对机械产品而言,一般考虑失效影响的重要性,将可靠度分成5级,最高级别超过5个9,最低的可能小于1个9,具体分类见下表。

机械产品可靠度等级水平
失效影响                               要求的可靠度指标                  可靠度级别
造成重大后果                           0.99999-1                                5
损失重大                                  0.999                                       4
一般损失                                  0.99                                         3
影响较小                                  0.9                                           2
基本无影响,可更换                  ——                                        1
在具体产品设计时,应根据实际情况确定合适的等级。可靠度级别越高需要投入的成本也越大,当然必须把可能造成重大后果的失效模式作为可靠性设计分析重点。机械可靠性仿真分析与优化软件可帮你完成针对失效模式的可靠度、灵敏度分析,以及产品的可靠性优化设计。

电子产品
对电子产品而言,产品宣传经常用可用度 n 个 9 来描述产品可靠性水平。n 个 9 表示在系统1年时间的使用过程中,系统可以正常使用时间与总时间(1年)之比,通过下面的计算来感受下 n 个 9 在不同级别的可靠性差异。
①4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。
②5个9:(1-99.999%)*365*24*60=5.26分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。

那么n个9里的n选多少合适呢?电子产品宣传中很少有1-2个9,也没有大于6的,为什么呢?
1个9:(1-90%)*365=36.5天;6个9:(1-99.9999%)*365*24*60*60=31秒。可以看到1个9和2个9分别表示一年时间内业务可能中断的时间是36.5天、3.65天,这种级别的可靠性或许还不配使用“可靠性”这个词。而6个9则表示一年内业务中断时间最多是31秒,那么这个级别的可靠性并非实现不了,而是要做到从“5个9” 到“6个9”的可靠性提升的话,后者需要付出比前者几倍的成本。

电子产品可靠度等级水平
可用度A                 9的个数                年停机(min)                适用产品
0.999                     三个9                       500                         电脑或服务器
0.9999                   四个9                       50                           企业级设备
0.99999                 五个9                       5                             一般电信级设备
0.999999               六个9                       0.5                          更高要求电信级设备
当然,可靠性度量参数还很多,本文仅仅介绍了一些和用户和企业密切相关的内容,仅供参考。不管你是用户还是产品研发者,都应该擦亮眼睛,千万不要被几个9再搞晕了。
文章转载自网络,作者:Andy

共有访客发表了评论 网友评论

  客户姓名:
邮箱或QQ:
验证码: 看不清楚?