通信系统可靠性真的需要做到99.999%?
最近一段时间,产品问题频发,好在团队顶住了,及时将主要问题都解决了。
不禁想起刚入通信这行那会。
师傅和领导们都说,通信行业要保证高可靠性,要达到5个9,就是99.999%。
没概念?
那边一台交换机,随便拔一块板子下来,通信不能中断。
夸张一点,朝机柜泼瓢水,通信依然正常,才算OK。
原来以为这个是说笑,后来陆陆续续知道,国内的机房环境复杂,老鼠在机柜上撒尿是屡见不鲜。
话说回来,这么多年,还真没在系统内部见识过5个9。
非我们不够努力,而是这么多年,没有机会经历那种会选择5个9的市场。
当然,个人经历有限,能见到内部的系统不太多,孤陋寡闻,如有冒犯,敬请原谅。
做到5个9,和2个9的成本,差距也许不止一个量级;特别是在小众行业,更是如此。
比如,从软件产品的角度讲,按照我的理解,做到高可靠性:
构架的设计,占40%;
正常流程处理,占20%;
异常流程处理,站30%;
故障恢复,占10%;
那我们常常说的功能特性,在哪一块呢?正常流程。
什么是异常流程呢?举例来说,程序要做一件事情,根据数据,依据算法,执行动作。那么问题来了:如何保证数据准确?如何保证数据获取手段是OK的?算法是否有问题?执行可能涉及到很多先决条件及多个串行并行动作,如何保证执行成功?任何一处失败该如何处理?
都做到了,你以为这样就已经很好了?你怎么知道程序本身不出问题,不被外部干扰?操作系统出问题怎么办?内存出错怎么办?突然断网断电怎么办?
甚至,万一,太阳黑子活动频繁怎么办?
说上面的还好理解,但说太阳黑子活动是不是危言耸听?卫星上的软硬件系统,还真的考虑这个,你以为可靠的硬件传输都将变得不可靠,想想,连时间都要慢一些,这个又算得了什么?
所以,同样的软件特性,不同厂家的实现,抛开成本面不说,其所呈现出来的可靠性/健壮性/可扩展性,真的是天壤之别。
但,这些大都属于下水道工程,风和日丽的日子,高楼大厦漂漂亮亮,GDP光鲜得很,谁会在意到下水道?
在有限的生命里,不经历几次“百年不遇”的雨水冲刷,你怎么知道大部分的城市,其下水道如此不堪?
道理,大家都知道,真要买单,还是肉痛;所以,合适的,才是最好的。
我相信,分享的越多,收获的也越多。本文不设版权,欢迎转发转载(微信/QQ:40993704)。
本文出自 跬步正酣,转载时请注明出处及相应链接。
本文永久链接: http://www.unccc.com/?p=513