灾难恢复规划通常是一项巨大的工程,花费很长的时间并要求大量预算。不过创建规划只是整个流程的一部分;规划必须经过充分的测试来确保其可以像预期那样运作。然而测试又是一项花费时间的操作,并且往往带有破坏性,因此测试频率经常达不到要求。一种新的应用程序——灾难恢复准备监控应用——可以加速这一测试流程。

灾难恢复监控应用解决了一个会引起恢复失败的关键问题:组态漂移。当存储或其它IT配置升级或更换,而灾难恢复文档和流程并没有作相应的更新,记录这部分变化时,会产生组态漂移现象。当灾难恢复文档中的记录和现实环境产生差异,恢复就很容易出问题。监控应用的作用在于发现这些差异点并大幅提升成功测试和实际恢复中的几率。

监控什么?

从灾难恢复的逻辑角度讲,首先关注点就应该是核心数据。这意味着通过一系列方式备份主站点和离线站点的数据,这些技术包括磁盘到磁盘(D2D)和磁盘到磁带(D2T)的备份技术;数据镜像至离线的本地站点或云服务处;以及将备份磁带运输至离线存储站点等。

接下来一步就是硬件和应用。你肯定想要确保对这些设备进行定期监控,以确保其运作正常。随后,当然并非强制的,就是针对网络设备,诸如本地的局域网络、城域网络、存储区域网络、基础系统,比如路由和交换机,以及声音系统比如PBX系统和VoIP系统。

在一个典型的数据中心中,各运营设备之间的连接有多种方式,绝大多数是通过网络设备。这些资源设备之间的连接关系错综复杂,这使得组态漂移或其它不一致性出现时,很难被侦查发现到。

再好的灾难恢复规划,如果没有定期的检验来确保业务关键应用的支持,也是没有意义的。不过企业通常只是每年检测一次他们的灾难恢复规划,甚至更少。

为了维护对数据保护活动,系统应用和网络仔细地监控,你要从所有这些关键设备上实时地获取性能数据。如果你可以实时了解到你IT基础架构的健康度状况,在面对突发故障时可以更好地准备响应。

现有的性能监控系统

假设你的企业在中等到大型规模,并且你已经投资购买了一系列的性能监控工具。你或许也有这样的应用程序,可以监控某一系统,或者一系列的活动,比如网络性能和信息安全的监控。

不过假设你要在所有这些已有的监控上增加灾难恢复,你需要诊断现有的性能监控是否可以和灾难恢复规划所整合。更重要的是需要灾难恢复规划所需的各类性能数据,诸如确认数据复制活动是否像预期那样完成。那么当你有成百上千的应用分布在各处时该怎么办呢?你能判定所有这些都工作正常么?如果一项关键系统开始发生故障,你必须尽快引起注意。

灾难恢复监控系统解释

新近出现的一些软件产品可以提供系统运作时的性能数据,并且该数据可以和灾难恢复规划同步。Toigo Partners International的执行总裁Jon Toigo解释说,有三种类型的灾难恢复监控工具。“一些软件产品存储你规划相关的信息,并创建规划文档。另一些可以提供场景来协助你从一种技术的故障中切换到另一种,并提供数据复制服务。第三种是被动式的工具,它监控数据保护过程。”我们致力于提供第三类的灾难恢复监控工具。

作为存储经理,你最主要的关注在于数据保护,因此正如上面所提到的,你希望有工具可以监控所有保护相关的活动。不过你也可能会认为这可以通过平时多注意些就可以了,没有必要部署额外专用的系统。

“尽管你可以努力、仔细地致力于建立一个高可用的数据复制环境,你可能仍无法做到对于生产环境完全地复制,”Kathleen Lucey,FBCI,是Montague Risk Management的总裁,Business Continuity Institute(BCI)美国分部的副总裁以及BCI Global Membership Council的副主席。“在一些部件中肯定会有未被检测到的不兼容性。而当这些不兼容性存在时,你只会在系统切换到备份站点,发现系统无法工作时,你才会发现。”

当然,仔细地手动操作对于关键IT运营活动仍非常重要,比如变更管理和配置管理。“但是否仅在服务管理和配置管理方面具有经验对于确保灾难恢复能力和规划文档的完整性是否是必需的?”Douglas Weldon说。Douglas是一家著名的金融服务公司的IT执行主管,同时担任BCI美国分部的总裁,他认为:“回答是肯定的,这些经验实践完全是必要的,不过额外的工具也同样必要,来完成持续地监控工作。”

“除侦测运营弱点之外,监控产品还应该能够标记出所有的变更,而不管变更大小,”Harvey Betan,MBCI,时任H.Betan公司,一家位于纽约的业务持续性咨询机构,“由于是全自动化的产品,监控产品可以较手动方式更为快速地检查IT环境。”

在一个理想的环境中,数据中心管理员可以通过单一界面链接所有监控系统,并且具有一个简明集中化的控制台,获悉所有体系架构的性能。对于灾难恢复性能的指标汇报肯定会是其中的一部分。

灾难恢复监控系统提供以下四项主要功能:

数据获取及恢复

数据编辑

通过预先定义的配置数据和性能指标进行数据分析

数据呈现

灾难恢复监控系统通常通过内部网络(如局域网)和外部网络(如因特网)连接目标系统。通过预先定义的逻辑,系统会发送定制的数据包来侦测出特殊操作。

发现过程中获取的数据会根据预先定义的参数进行分析。“这些产品收集应用程序、系统、硬件配置、系统之间的连接等信息,提供整个IT基础架构的地图和连接关系,”Toigo Partner的Toigo说道,“其同样可以和配置管理数据库(CMDB)软件整合,提供简便地参考。”配置管理数据库存储IT基础架构资产信息,相互之间的关系和配置。不过由于其不具备分析能力,CMDB很难有效地使用数据来保护数据并确保业务连续性。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-07-28 09:06:00
运维管理 IDC数据中心这些隐患您是否知道
这份数据中心灾难报告由两部分构成,该报告完全基于现实经验。在报告的第一部分中(详见《亲历火灾:数据中心灾难恢复启示录》),管理人员一直工作到下午三点,研究如何预 <详情>
2017-07-03 11:53:16
公众号 小型机房监控一体机,工控式机房监控,嵌入式机房监控,有什么区别?
现在市场上很多中小型机房设备分配比较乱,机房管理员分工不够明确,大都是管理员需要管理机房主要设备和服务器,ups,数据库,电力和环境参数等,如果发生故障,会给企业 <详情>
2017-06-22 14:37:00
公众号 机房三维(3D)监控系统和机房可视化动力环境监控系统两者有什么特点?
三维监控系统,具备强大的二三维一体化监控能力,可以实现二维视频与三维虚拟场景无缝拼接,构成三维数字沙盘与虚拟现实的集成系统。 <详情>
2017-06-01 09:53:23
安全监控 PUE的精确性得益于持续监控
PUE被广泛接受的评价数据中心能源效率的指标。该指标可以衡量支持数据中心IT负载的物理基础设施系统的效率。PUE值是数据中心总的能量消耗与IT系统设备(IT负载)的能源消耗 <详情>
2017-04-18 09:51:47
安全监控 监控与管理:数据中心健康运行关键因素
在上个月,曾就关于创建数据中心整体监控做过激烈的讨论,讨论远未结束。在过去一个月里,当探讨关于在监控与数据中心管理方面,我收到一些不错的反馈与论点。毕竟,数据中 <详情>