对于灾难恢复计划首要的是风险评估,但是理解如果不理解风险的影响,单单只是明白风险本身,这也没什么意义。想要发展一个IT灾难恢复计划,在考虑如何构成高效的恢复策略时,两个重要的问题需谨记于心。

1、哪些灾难恢复方案在我们的IT环境中切实可行?

2、已有的方案如何影响现有IT环境支撑的业务?

这些问题能够反映评估IT环境风险和判断风险结果需要什么因素,还能体现它对组织的效果。

风险到底是什么?

从IT的角度我们可以用多种方法定义什么构成了风险?最普及的观点是“暴露在了已知的威胁存在中,有发生的可能。”如果我们想好好把工作完成,就不要把专业术语挂在嘴边,而是简洁地解释好。比如说,危险暴露可能是因为冗余服务器硬件缺乏,威胁就是经常会硬件故障,就这就构成了一个风险。

评价风险

在灾难恢复过程应该很早就查处风险,同样重要的一点是:不要再风险发现了才做灾难恢复策略。

检查硬盘故障很简单,但是作为风险来说就不算事儿,因为有数据备份,磁盘故障可以很快解决。真理是风险存在,但是控制手段要就位,以便减少影响。

最佳实践是先评估每个风险,分析其对业务的影响,然后评价现有的控制手段能否在坏影响发生的时候解决问题。

也就是说风险无论如何都会存在,但是得有控制手段解决。

尽管评价风险是重要的,但这是建立在有理有据的基础,需要评价它有多少可能发生。要承认计划外的断电确实可能会发生,而主观去想象更重要。

你需要寻找什么?

评估风险时要避免把所有可能的危险全都列举出来。而是着重于可能性较为合理 的。由于“飞机撞数据中心”或者“太阳能烧了处理器”这种事情只能分类在范围更广的类别中。

把所有可能发生的风险因素列举好,然后考查现有的控制手段,确保它们适合。 比如说,你不能因为有一个故障转移站点,就忽视飓风的风险,即使没发生你也得考虑如何最小化这种潜在的破坏。

IT环境可能要面对以下潜在威胁:

缺乏冗余数据中心关键架构。包括UPS或者配电路径,没有后备发电机,有单点故障的冷却系统或者不完善的防火等等。

地理和气候相关的威胁。无论数据中心和IT架构的冗余程度如何,整个设施如果受到气候影响,还是会发生单点故障。

缺乏冗余IT架构部件或存在单点故障。这部分范围较广,从高级部件比如单独网络连接和关键应用服务器,到粒状的单独电源服务器。

物理和逻辑安全不足。不锁门,或者安保系统薄弱。

数据备份步骤不一致。通常是失败的备份、报告或者监控,缺乏站外的备份拷贝或者不一致的站外备份传输。

未定义恢复时间或者恢复点。这会导致对数据备份的错误评估,通常方法对了,但是结果错误。

不完善的变更管理步骤。缺乏合适的变更控制,通常会成为计划外断电或者人为数据丢失的起因。

配置文件材料缺乏。高度依赖IT人员是不能完全代替基础的配置文件。

缺乏灾难恢复计划。在灾难评估步骤,早就不断强调了这一点。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-01-08 10:33:37
国内资讯 双活数据中心是高可用性应用程序弹性的关键
以一家咨询机构与用户的合作为例,该客户的主要业务应用程序具有高可用性需求。其客户将事务发送到主要数据中心应用服务器,并在收到确认之前缓冲事务。其客户将其两个数据 <详情>
2018-09-30 10:37:24
大数据技术 史上全 Redis 高可用解决方案总结来了!
本文主要针对 Redis 常见的几种使用方式及其优缺点展开分析。 <详情>
2018-05-07 09:34:00
机房建设 数据中心可用性、可靠性取决于多种因素
在数据中心行业中,术语"可靠性"和"可用性"通常可互换使用来描述预期的数据中心性能水平。虽然数据中心的可靠性和可用性是相关的,但他们描述的是明显不同的性能特征。 <详情>
2018-04-17 14:59:00
国内资讯 支付宝架构师眼里的高可用与容灾架构演进
企业服务、云计算、移动互联网领域中,高可用的分布式技术为支撑平台正常运作提供着关键性的技术支撑。从用户角度,特别是作为主要收入来源的企业用户的角度出发,保证业务 <详情>
2018-01-08 09:42:33
机房建设 企业较高、混合且可变的密度需要自适应的数据中心
现如今,客户们比以往任何时候对于服务供应商如何交付产品和服务都更为关注。他们期望获得便捷、个性化、高速、高效、无缝、易用、真实和肯定的服务。并期望随时随地的进行 <详情>