数据中心检查清单:响应概要
在遇到数据中心宕机的初始阶段,我们可以参考如下的清单来判断我们需要做什么。具体需要根据发生的事情的情况来决定选择哪些步骤以及其顺序是怎样的。比如说,掉电故障应对的步骤和火灾应对的步骤就不太相同。在制定灾备计划的时候,请考虑到如下的方面。
场景 1: 电源故障
场景2:服务器故障
场景3:数据中心火灾
大规模灾难的响应清单
如上所描述的响应顺序多半是应对典型的数据中心灾难。不同的企业组织遇到不同情况的时候需要采取的响应步骤也不尽相同。因此在采取响应措施的时候需要灵活处理,根据遇到问题的特点和严重程度来修改响应步骤。
在应对较大规模数据中心灾难的时候可以参考如下的数据中心清单。在做这些步骤之前,需要根据具体的问题参看之前建议的步骤,并确保这些步骤也在灾备计划中。
响应清单:建筑物损毁
以上步骤的前提是相关的方案已经被制定出来,用于针对列出来的各种场景,比如邮件系统恢复,硬件和软件系统恢复、数据恢复、文档恢复和搬到另一个数据中心。
灾难后的评估
一旦情况得到了缓和,恢复过程可以开始之后,就应该评估这个事件,确认发生了什么,采取了什么行动,还有什么没有做。要经常地组织和开展实用性的会议以帮助汇总一些重要的数据,因为有些可能在后面的保险索赔甚至法律诉讼上需要用到。
补充的数据中心灾难恢复规划资源
根据需要制定的详细程度不同,数据中心灾难响应的过程可以非常复杂。一个让过程变得更容易的方式是看看现有的标准以及数据中心操作流程。下面将列举三条有用的准则:
- 标准与科技美国国家实验室的SP 800-34标准 “信息技术系统应急计划指南”
- 2008年国际标准化组织标准ISO 24762 “信息与通信技术灾难恢复服务指南”
- 2011年国际标准化组织标准ISO 27031“信息与通信技术业务可持续性的准备指南”
在规划一个数据中心灾难恢复计划的时候,需要注意下面的几点:
1.需要得到高层管理的支持,这样计划就会有资金上的扶持,有文件证明并且能被有规律的执行。
2.认真的执行数据中心灾难恢复过程:计划不需要很长,但需要包含现在准确的信息。
3.在流程中考虑使用曾经使用过的标准。
4.在收集并整理了足够的正确信息后,尽可能的让流程简洁明了。
5.制定好流程后和其他核心部门再共同审阅一次,以确保对环境的估计准确无误。
数据中心受损将可以严重的影响到业务的正常运行。当有些公司决定通过再建一个新的机房或者从第三方机构租赁一个机房作为灾备方案的时候,我们建议详细评估数据中心的运用情况以及潜在风险,这对灾备过程的开始是有着重要意义的。当我们有着一份做足准备的灾难恢复计划在手,尤其是包含有详细的复原和恢复的步骤,这对让数据中心受损程度最小化是有很大帮助的。