可用性(avilbility)是系统能够正常运行的时间比例。经常用两次故障之间的时间长度或在出现故障时系统能够恢复正常的速度来表示。
可靠性(labilil)是软件系统在应用或系统错误面前,在意外或错是使用的情况下维持软件系统的功能特性的基本能力。
由于可靠性指标直接影响可用性指标,所以一般我们将这两个指标一并分析与讨论。
高可用性(High Availability)通常用来描述- 个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。
计算机系统的可用性用平均无故障时间(MTTF)来度量,即计算机系统平均能够正常运行多长时间,才发生一次故障。 系统的可用性越高,平均无故障时间越长。可维护性用平均维修时间(MTTR)来度量,即系统发生故障后维修和重新恢复正常运行平均花费的时间。系统的可维护性越好,平均维修时间越短。计算机系统的可用性定义为:MTTF/ (MTTF+MTTR) *100%。由此可见,计算机系统的可用性定义为系统保持正常运行时间的百分比。所以,想要提高一个系统的可用性,要么提升系统的单次正常工作的时长,要么减少故障修复时间。常见的可用性战术如下:
●错误检测:用于错误检测的战术包括命令/响应、心跳和异常。
●错误恢复:用于错误恢复的战术包括表决、主动冗余、被动冗余。
●错误预防:用于错误预防的战术包括把可能出错的组件从服务中删除、引入进程监视器。