海量存储备份系统设计的实现架构_数据中心节能

针对海量存储系统的备份实现，以下图示（图 12-5）的是统一的实现架构。

远程备份容灾

远程备份（e-vaulting）级别容灾满足哪种需求针对对于恢复时间要求较高，而且有可能还没有在本地实施备份系统的的部门，通过远程网络直接将数据备份到海量存储系统的存储池中，可以大大提高容灾系统的RTO和RPO，由于海量存储系统具备最为妥善的介质保存措施，不但可以将这些备好数据的介质安全的保护起来，而且可以大程度地保证介质的数据可恢复性。

图 12-5 统一实现架构

采用这种容灾方式，一般要求恢复的数据时间点在灾难发生前的几十分钟到几个小时；而从灾难发生后，需要完成从恢复系统、恢复数据、直到实现对外提供应用服务这么一整套的恢复工作，所需要时间大约为几小时到一天。

工作流程

远程备份级别容灾的工作流程如下图所示：

图 12-6 远程备份级别容灾的工作流程

首先海量存储系统按照事先和各部门协商所制定的容灾计划，定期（每天的某个时刻）自动启动各部门的备份工作，将数据备份到海量存储系统的存储池中。备份数据会按照部门、日期、保存时间、数据类型等关键信息分类地存放在存储池中，同时会再空闲时备份到磁带中，并被保存到温湿环境适当、门禁严格、可防范多种灾害（如火灾、水灾等）的安全区域，海量存储系统还为这些数据建立了完善的数据库及其应用管理系统，以便快速的存取，并提供网上的数据备份查询服务。

而当出现故障或自然灾害等灾难时，在出现灾难的部门的本地数据备份完全丢失的情况下，海量存储系统可以按照该部门的要求将完成数据恢复所需的所有数据通过网络恢复到该部门指定的备用服务器上，由该部门的技术人员（或在海量存储系统技术人员的协助下）完成应用的重新启动和对外开放；海量存储系统也可以按照该部门的要求将将完成数据恢复所需的所有物理介质通过人工运输到该部门指定的地点，由该部门的技术人员（或在海量存储系统技术人员的协助下）完成数据恢复工作。整个备份恢复的过程如果完全采用网络传输，甚至在本地不需要做备份；所以如果该部门技术人员甚至不需要掌握备份和恢复技术，在实施时可以大大加快进度。

上述是一种原理性的容灾实施步骤，简化的标准可实施的流程如下：

a）和相关需要远程备份级别容灾的部门的技术及业务一起制定详细的 DRP 计划，包括备份策略、恢复策略、双方指定联系人等；

b）必要的话，海量存储系统可以对该部门人员（技术和业务）进行容灾知识培训，并帮助其完成 DRP 计划；

c）海量存储系统协助该部门完成远程备份系统客户端及安全通信网络的搭建；

d）海量存储系统和远程备份部门按照 DRP计划，按期执行远程备份工作；

e）在海量存储系统将数据保存在存储池中的同时，制作一份磁带拷贝副本，并将其分门别类地存放在具备良好存放条件的远程备份区，同时要建立完备的数据备份数据库和管理系统；

f）数据保存期间，海量存储系统负责监控数据的安全性；而备份的磁带介质在存放期间，海量存储系统一面要按照保存的时效完成介质的更换或归档；一面定期对介质进行倒带、防霉等维护操作，

g）各远程备份部门可以通过海量存储系统对外开放的服务系统，完成诸如查询数据备份记录，更改 DRP计划等工作；

h）海量存储系统应当配合远程备份部门定期实施 DR 演练，确保 DRP 计划在灾难真正来临是起到真正的作用；

i）当灾难来临时，按照预先制定的 DRP计划，快速实施数据恢复工作。

系统架构

远程备份/容灾系统在海量存储系统的总体逻辑拓扑结构如下图所示：

图 12-7 远程备份/容灾逻辑图

整个系统主要由备份服务器、备份用磁盘阵列和磁带库三部分组成。此外备份客户端安装在远程的各部门服务器上，而网络主要完成数据的可靠和安全传输。为了保证 7x24 的备份服务，无论是内网、外网还是互联网都是各由多台服务器组成一个备份服务器集群，当集群中某台服务器出现故障时，可以由其他服务器接替它的的工作。而备份服务器的主要工作有：在执行远程备份操作时，指引远程传输过来的备份数据流向备份用磁盘阵列；而在空闲时（没有远程备份操作时），再将磁盘阵列的数据备份到磁带库中。

磁盘阵列是远程备份的近线存储，主要是为了提高备份的速度，好地利用网络带宽。磁带库负责最终保存备份的数据。而远程备份管理应用系统主要负责远程备份的自动化管理；在数据到备份到存储池中时，海量存储系统的远程备份管理应用系统就会及时地将备份数据的相关信息保存起来。这样远程备份管理应用系统中就会保存有所有远程备份的相关信息，一方面供海量存储系统内部管理使用，一方面可以允许用户可以通过 Web 浏览器查询自己的相关容灾信息。同样为了安全起见，这里建立了内网和外网两套管理应用系统。

远程备份容灾系统的特点容灾的 RTO 和 RPO 时间较短，可以满足大部分应用容灾需求要求各部门在本地服务器安装软件连续的在线备份方案数据可以获得最为安全的保护可靠性和可恢复性更高投资成本较高

远程备份容灾系统需要考虑的要素：

为了有效的提供远程备份服务，不能简单的将现有的本地备份技术应用于远程备份，因为这样将使得远程备份的成本、效率和服务质量非常低下，从而严重阻碍远程备份服务的开展。因此在建设远程备份系统时，需要在现有的备份技术基础上着重考虑以下几个因素：减少存储投资一方面是解放硬件资源，降低实现同一任务所需要的设备要求；另外一方面是资源的充分利用，解决如何降低磁盘容量需求，提高磁盘利用率等因素，降低客户在享受该服务时需要支付的设备成本。

减少网络带宽需求带宽对于本地备份而言不是关键问题，但如果需要实现异地备份，则是非常重要的一个成本因素，如果用户为了享受该服务而必需支付昂贵的带宽租用费的话，那将是一个非常高的成本。因此需要采取一切措施减少远程备份所需要的带宽资源。提高服务质量，保证服务级别提供远程备份服务的目的是保证用户系统在出现故障后能够恢复、并且能够在规定的时间内恢复。

降低管理费用

对普通的存储系统而言，按照 Gartner Group 的报告，其管理费用是购置成本的 8倍。对几种存储系统而言，管理变得更复杂，对服务的要求更高，这一比例相应更大。管理费用分为两个部分：对设备的维护管理和提供的服务。先进的技术，规划良好的系统结构和专业人员队伍能极大地降低维护费用。

客户端的多样性和服务平台的统一性由于备份客户端会因为不同部门的不同应用而不同，但在海量存储系统可以采用统一平台的备份服务器为各种备份客户端提供服务。外网/互联网与内的区别外网/互联网的数据大、服务多，所以采用的服务器数量较多，内网的服务器数量较少。

存储资源监控

存储管理和监控对于了解、监控与管理规模较大的存储网络是十分必要的。对于容灾系统，这些管理可以有效的帮助位于数据中心与管理中心的管理人员从网络、系统层面上进行全面集中的监控，为将来的发展以及整个存储网络的管理搭建管理框架，并且进一步保证各子系统的管理与维护。存储资源管理（SRM）是一组互为补充的产品、标准和进程，用来对物理及逻辑存储在可用性、容量、配置和性能等方面进行报告，分析和自动管理。 —引自 Gartner 简单地说，SRM 提供了一个有关存储网络中的存储容量及其使用状况的动态视图，从而使管理员可以从一个中心管理控制台监控其所有存储设备的状态。即存储资源管理负责管理存储网络上的各种系统，包括数据库、邮件系统、磁盘阵列、NAS、备份系统等对硬盘空间、磁带库空间的使用管理；

监控、预测、分析并以各种报表的方式呈现。其主要功能包括：

1.空间管理——搜集空间的使用信息，监控空间的使用，实现配额管理、预警、空间回收、数据迁移

2.容量规划——收集容量消耗的历史信息，提供容量消耗速率报表，从而辅助完成容量的规划

3.资产管理——收集存储资产信息，提供额外的元数据输入

4.事件管理——监控、诊断以及在必要时修复存储

5.性能管理——收集存储资源的性能数据，提供性能分析报表，在物理的极限内提高存储资产的性能

6.配置管理——决定如何对已有的物理存储资源作出好的安排用于将这些多种多样的功能串接起来的公用线索是——它们都是元数据驱动的。元数据（Metadata，关于数据的数据）汇集了每个被管理的存储对象的信息，包括数据文件（大小、创建日期和属主）和物理存储系统（容量和性能特征）。这些信息可以被那些负责存储的管理员、数据库管理员，IS规划人员以及 IS执行人员用来辅助决策。

SRM 是对许多具体的存储管理功能的新的分类方法——例如容量规划和空间管理（这些功能已经出现很长时间了）。这种在 SRM 下的重新分类简化了自动化的任务并隐藏了这些管理任务的复杂性，因而可以帮助 IS向存储公用设施方向发展。

存储网络管理

负责发现、监控与管理整个存储网络，以及网络的连接性、每个节点的状态、网络可用性、系统性能等等，完善的事件管理可以将事件及时地以各种方式报告给管理员。同时，还可以对光纤交换机等网络设备进行配置管理。更具体地说，对各交换机经常查看其所处 SAN 架构的运行状况，及早发现潜在问题并自动向网络管理员报警，从而消除了隐患，避免了故障的进一步升级。通过跟踪广泛的 fabric 事件，为 SAN 解决方案传递出了最有价值的信息。

例如，它应该监控：Fabric资源，包括 fabric重新配置，zoning 变化和新的设备登陆/退出，ISL的状态变化或中断等交换机等存储网络设备的环境功能如温度，电源和风扇状态以及高可用性的度量值既可以监控多端口级别的端口状态转换，错误和流量信息，并指定端口性能的监控范围，也应该监控所支持的 FINISAR 的“ 智能”SFP模块的各种状态。

监控 SAN 网络的安全性，记录非法登陆的时间和次数在监控到各种要素发生规定范围外的变化，应自动、及时地通知管理员，通知的方式应有如下几种：

1. 通过向指定 e-mail 地址发送信息的方式提供事件通知

2. 通过简单网络管理协议（SNMP）发通知

3. 事件记录（Event Log）条目记录事件

4. 通过锁定端口记录

5. 通过 UNIX的标准系统记录和事件接口集成在一起的 SYSLOG 发通知同时，网络监控的参数应可快速配置，并可将监控功能集成到一些企业级管理软件中。

系统监控管理

系统管理软件能够帮助 IT 管理部门持续的监控分布式的异构系统和网络设备的运行状态，它可以支持 OS/390、z/OS、UNIX、Linux、Windows、OS/400、Tandem NSK、Open VMS、PalmOS、MVS等几十种操作系统确保管理的扩展性，并且提供非常灵活的体系架构从而有利于管理范围的伸缩行。海量存储系统系统要求系统管理软件具有内置的智能包括高级事件关联 Advanced Event Correlation （AEC）可以提供根源分析的能力，快速隔离非根源事件并迅速发现故障原因。

服务管理

服务水平管理海量存储系统实际上是一个数据存储，备份和再处理中心，为各种用户提供高质量的IT 服务；为此需要海量存储系统具有很高的服务水平（Service Level）。以往一般是依靠严密的数据中心管理制度等人为方法来保证，但多年的实践经验说明需要采用可视化的、量化的管理方式和手段，所以容灾在制定完善的服务水平管理规范的同时，也要采用高效的管理软件实现计算机化的管理，提高服务响应速度和水平。

服务水平要求是一个综合的、基于 Web 的解决方案，能够管理跨越整个海量存储系统基础架构的预定义的服务目标。它能够直接从各种不同来源包括基于 SNMP 的应用程序和网络服务如 SMTP、POP、NNTP和 HTTP 等方面收集可用性和性能数据，其高级配置工具应当允许管理员设置批量报告产生的时间间隔。服务报告基于这些数据产生。

运维管理

运维管理包括运维规范和辅助的运维管理系统。运维规范在《运行维护》一节做详细阐述。运维管理系统是一个综合的、集成的智能服务台解决方案，它可以接受通过 Call Center或 Web 界面手工提交的问题，也可以自动接收事件管理平台转发的问题，并且按照规范的处理流程完成问题请求、变更管理以及服务水平管理，科学的自动的完成人力资源分配，确保每个问题及时解决。

基于运维管理系统建设的 IT 服务支持系统是整个系统管理体系的核心。它把用户、各级支持人员、被管理 IT 系统和监控管理软件有机的结合起来，通过服务台提供的标准化管理模式协同工作，使整体 IT服务支持体系达到高效、有序、迅捷的预期目标，从 IT 服务支持的基础方面保障各项业务系统的高效运行。