通信系统可靠性真的需要做到99.999%?

作者: hovey 分类: VoIP, 商业, 技术 发布时间: 2016-08-07 00:32 ė5,189 浏览数 6没有评论

最近一段时间,产品问题频发,好在团队顶住了,及时将主要问题都解决了。

不禁想起刚入通信这行那会。

师傅和领导们都说,通信行业要保证高可靠性,要达到5个9,就是99.999%。

没概念?

那边一台交换机,随便拔一块板子下来,通信不能中断。

夸张一点,朝机柜泼瓢水,通信依然正常,才算OK。

原来以为这个是说笑,后来陆陆续续知道,国内的机房环境复杂,老鼠在机柜上撒尿是屡见不鲜。

话说回来,这么多年,还真没在系统内部见识过5个9。

非我们不够努力,而是这么多年,没有机会经历那种会选择5个9的市场。

当然,个人经历有限,能见到内部的系统不太多,孤陋寡闻,如有冒犯,敬请原谅。

做到5个9,和2个9的成本,差距也许不止一个量级;特别是在小众行业,更是如此。

比如,从软件产品的角度讲,按照我的理解,做到高可靠性:

构架的设计,占40%;

正常流程处理,占20%;

异常流程处理,站30%;

故障恢复,占10%;

那我们常常说的功能特性,在哪一块呢?正常流程。

什么是异常流程呢?举例来说,程序要做一件事情,根据数据,依据算法,执行动作。那么问题来了:如何保证数据准确?如何保证数据获取手段是OK的?算法是否有问题?执行可能涉及到很多先决条件及多个串行并行动作,如何保证执行成功?任何一处失败该如何处理?

都做到了,你以为这样就已经很好了?你怎么知道程序本身不出问题,不被外部干扰?操作系统出问题怎么办?内存出错怎么办?突然断网断电怎么办?

甚至,万一,太阳黑子活动频繁怎么办?

说上面的还好理解,但说太阳黑子活动是不是危言耸听?卫星上的软硬件系统,还真的考虑这个,你以为可靠的硬件传输都将变得不可靠,想想,连时间都要慢一些,这个又算得了什么?

所以,同样的软件特性,不同厂家的实现,抛开成本面不说,其所呈现出来的可靠性/健壮性/可扩展性,真的是天壤之别。

但,这些大都属于下水道工程,风和日丽的日子,高楼大厦漂漂亮亮,GDP光鲜得很,谁会在意到下水道?

在有限的生命里,不经历几次“百年不遇”的雨水冲刷,你怎么知道大部分的城市,其下水道如此不堪?

道理,大家都知道,真要买单,还是肉痛;所以,合适的,才是最好的。

 

我相信,分享的越多,收获的也越多。本文不设版权,欢迎转发转载(微信/QQ:40993704)。

hovey微信二维码

本文出自 跬步正酣,转载时请注明出处及相应链接。

本文永久链接: http://www.unccc.com/?p=513

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Ɣ回顶部