灾难恢复规划通常是一项巨大的工程,花费很长的时间并要求大量预算。不过创建规划只是整个流程的一部分;规划必须经过充分的测试来确保其可以像预期那样运作。然而测试又是一项花费时间的操作,并且往往带有破坏性,因此测试频率经常达不到要求。一种新的应用程序——灾难恢复准备监控应用——可以加速这一测试流程。

灾难恢复监控应用解决了一个会引起恢复失败的关键问题:组态漂移。当存储或其它IT配置升级或更换,而灾难恢复文档和流程并没有作相应的更新,记录这部分变化时,会产生组态漂移现象。当灾难恢复文档中的记录和现实环境产生差异,恢复就很容易出问题。监控应用的作用在于发现这些差异点并大幅提升成功测试和实际恢复中的几率。

监控什么?

从灾难恢复的逻辑角度讲,首先关注点就应该是核心数据。这意味着通过一系列方式备份主站点和离线站点的数据,这些技术包括磁盘到磁盘(D2D)和磁盘到磁带(D2T)的备份技术;数据镜像至离线的本地站点或云服务处;以及将备份磁带运输至离线存储站点等。

接下来一步就是硬件和应用。你肯定想要确保对这些设备进行定期监控,以确保其运作正常。随后,当然并非强制的,就是针对网络设备,诸如本地的局域网络、城域网络、存储区域网络、基础系统,比如路由和交换机,以及声音系统比如PBX系统和VoIP系统。

在一个典型的数据中心中,各运营设备之间的连接有多种方式,绝大多数是通过网络设备。这些资源设备之间的连接关系错综复杂,这使得组态漂移或其它不一致性出现时,很难被侦查发现到。

再好的灾难恢复规划,如果没有定期的检验来确保业务关键应用的支持,也是没有意义的。不过企业通常只是每年检测一次他们的灾难恢复规划,甚至更少。

为了维护对数据保护活动,系统应用和网络仔细地监控,你要从所有这些关键设备上实时地获取性能数据。如果你可以实时了解到你IT基础架构的健康度状况,在面对突发故障时可以更好地准备响应。

现有的性能监控系统

假设你的企业在中等到大型规模,并且你已经投资购买了一系列的性能监控工具。你或许也有这样的应用程序,可以监控某一系统,或者一系列的活动,比如网络性能和信息安全的监控。

不过假设你要在所有这些已有的监控上增加灾难恢复,你需要诊断现有的性能监控是否可以和灾难恢复规划所整合。更重要的是需要灾难恢复规划所需的各类性能数据,诸如确认数据复制活动是否像预期那样完成。那么当你有成百上千的应用分布在各处时该怎么办呢?你能判定所有这些都工作正常么?如果一项关键系统开始发生故障,你必须尽快引起注意。

灾难恢复监控系统解释

新近出现的一些软件产品可以提供系统运作时的性能数据,并且该数据可以和灾难恢复规划同步。Toigo Partners International的执行总裁Jon Toigo解释说,有三种类型的灾难恢复监控工具。“一些软件产品存储你规划相关的信息,并创建规划文档。另一些可以提供场景来协助你从一种技术的故障中切换到另一种,并提供数据复制服务。第三种是被动式的工具,它监控数据保护过程。”我们致力于提供第三类的灾难恢复监控工具。

作为存储经理,你最主要的关注在于数据保护,因此正如上面所提到的,你希望有工具可以监控所有保护相关的活动。不过你也可能会认为这可以通过平时多注意些就可以了,没有必要部署额外专用的系统。

“尽管你可以努力、仔细地致力于建立一个高可用的数据复制环境,你可能仍无法做到对于生产环境完全地复制,”Kathleen Lucey,FBCI,是Montague Risk Management的总裁,Business Continuity Institute(BCI)美国分部的副总裁以及BCI Global Membership Council的副主席。“在一些部件中肯定会有未被检测到的不兼容性。而当这些不兼容性存在时,你只会在系统切换到备份站点,发现系统无法工作时,你才会发现。”

当然,仔细地手动操作对于关键IT运营活动仍非常重要,比如变更管理和配置管理。“但是否仅在服务管理和配置管理方面具有经验对于确保灾难恢复能力和规划文档的完整性是否是必需的?”Douglas Weldon说。Douglas是一家著名的金融服务公司的IT执行主管,同时担任BCI美国分部的总裁,他认为:“回答是肯定的,这些经验实践完全是必要的,不过额外的工具也同样必要,来完成持续地监控工作。”

“除侦测运营弱点之外,监控产品还应该能够标记出所有的变更,而不管变更大小,”Harvey Betan,MBCI,时任H.Betan公司,一家位于纽约的业务持续性咨询机构,“由于是全自动化的产品,监控产品可以较手动方式更为快速地检查IT环境。”

在一个理想的环境中,数据中心管理员可以通过单一界面链接所有监控系统,并且具有一个简明集中化的控制台,获悉所有体系架构的性能。对于灾难恢复性能的指标汇报肯定会是其中的一部分。

灾难恢复监控系统提供以下四项主要功能:

数据获取及恢复

数据编辑

通过预先定义的配置数据和性能指标进行数据分析

数据呈现

灾难恢复监控系统通常通过内部网络(如局域网)和外部网络(如因特网)连接目标系统。通过预先定义的逻辑,系统会发送定制的数据包来侦测出特殊操作。

发现过程中获取的数据会根据预先定义的参数进行分析。“这些产品收集应用程序、系统、硬件配置、系统之间的连接等信息,提供整个IT基础架构的地图和连接关系,”Toigo Partner的Toigo说道,“其同样可以和配置管理数据库(CMDB)软件整合,提供简便地参考。”配置管理数据库存储IT基础架构资产信息,相互之间的关系和配置。不过由于其不具备分析能力,CMDB很难有效地使用数据来保护数据并确保业务连续性。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2020-12-18 08:59:14
机房建设 改进灾难恢复策略的九个建议
无论组织是否已经制定完善的灾难恢复计划,还是刚刚开始实施,需要了解将其灾难恢复策略提升到更高水平的方法。 <详情>
2020-07-01 09:11:18
云安全 疫情对于云计算灾难恢复的启示
欧洲各国由于疫情持续蔓延而颁布出行禁令,企业必须对要求全体员工在家工作迅速做出反应。在发布出行禁令几天之后,IT部门必须应对对VDI和协作工具的空前高峰,并且他们大 <详情>
2020-06-18 09:18:52
云安全 灾难恢复和云计算的3个误区
灾难恢复(DR)是每次将应用程序或数据集投入生产时都会解决的主题之一,但通常只是一个选择。 <详情>
2020-01-20 09:32:21
运维管理 盘点|2019年备受关注的5个IT系统灾难恢复技术趋势
盘点2019年灾难恢复领域备受关注的5大技术与话题,既是对过去的一个简单总结,同时也希望能够对2020年灾难恢复的未来发展有所预示。 <详情>
2018-10-19 11:38:22
云技术 为什么云计算更适合灾难恢复
在对灾难恢复(DR)架构进行任何实际更改之前,第一步是评估需要在紧急情况下进行保护的整个IT环境。好的方法是确定哪些服务和功能会因延长停机时间而受到大损害,然后确定其 <详情>