华安信达
主页 安全服务 安全知识 安全论坛 关于我们

资源目录

 

 信息技术系统应急计划指南:制定恢复策略
3.4 制定恢复策略
恢复策略提供了在服务中断之后快速有效地恢复IT运行的方法。这些策略应涉及到在BIA中确定的中断影响和允许的中断时间。制定策略时应该考虑几种因素,包括费用、允许的中断时间、安全,并将其整合到更大的、机构级的应急计划中。

所选择的恢复策略应该涉及到BIA中确定的潜在影响并且应该在系统生命周期的设计和实施阶段将其整合到系统体系中。该策略应该包括互相补充的方法组合以提供整个事件范围内的恢复能力。应该考虑各种各样的恢复方法,根据事件、系统类型及其运行需求 确定合适的选择。应该考虑3.4.2节中描述的恢复方法,恢复方法可以包括与冷、温或热站点供应商签订商业合同、移动站点、镜像站点、与内部或外部机构签订互惠协议、与设备供应商签订服务水平协议(SLA)。另外,在制定系统恢复策略时应该考虑诸如独立磁盘冗余阵列(RAID)、自动故障切换、不间断电源(UPS)和镜像系统等技术。

3.4.1 备份方法
应该定期备份系统数据。策略应该根据数据的重要程度和引入新信息的频率设定备份的频率(如每日或每周、增量或整体)。数据备份策略应指明已备份数据的放置场所、文件命名规则、介质替换频率和将数据离站运输的方法。可以将数据备份在磁盘、磁带或光盘(如CD)上。对特定备份方法的选择基于系统和数据的可用性和完整性需求。这些方法包括电子跳跃、镜像磁盘(使用直接访问存储设备[DASD]或RAID) 和软盘。

将备份数据离站存储是良好的业务措施。商业数据存储设施被特别设计用来存档介质和保护数据免遭危害。如果使用离站存储,数据在机构设施中备份然后标记、包装并运输到存储设施。如果需要对数据进行恢复或测试,机构与存储设施联系请求将特定数据运输到机构或备用设施 。商业存储设施经常提供介质运输、响应和恢复服务。

当选择离站存储设施和供应商时,以下标准应该予以考虑-

  • 地理区域-离机构的距离以及存储站点受到与机构相同灾难影响的可能性
  • 可访问性-从存储地取回数据所需的时间和存储设施的工作时间
  • 安全-存储设施的安全能力和雇员的保密性,这些必须满足数据敏感级别和安全需求
  • 环境-存储设施的结构和环境条件(如温度、湿度、防火和电源管理控制)
  • 费用-运输费用、运行费用和灾难响应/恢复服务的费用

3.4.2 备用站点
虽然长时间的严重中断很少见,但是应该在应急计划中得到解决。这样,计划就必须包括在比较长的期间在备用设施中恢复和执行系统运行的策略。通常,有三种备用站点可供选择:

  • 由机构拥有或运行的专用站点
  • 与内部或外部实体签订的互惠协议或协议备忘录
  • 商业租用设施

无论选择哪种类型的备用站点,设施必须能够支持应急计划中所定义的系统操作。三种站点类型可以根据运行的准备程度进行分类。这样的话,站点可以被确定为冷站点、温站点、热站点、移动站点和镜像站点。下面以从基本到高级的顺序予以描述:

  • 冷站点通常具有充足空间和支持IT系统的基础设施(电源、电信连接和环境控制)。空间可能配有活动地板和其它适合IT运行的属性。站点不包含IT设备并且通常也不包含办公自动化设备如电话、传真机或复印机。机构使用冷站点是为了用于提供安装所需的设备和电信能力。
  • 温站点装备有部分设备,包含一些或全部系统硬件、软件、电信和电源。温站点被维持于随时准备接收被重新部署系统的运行状态。这种站点在接收系统和恢复人员之前需要进行准备。在很多情况下,温站点做为另一个系统或功能的正常运行设施,在应急计划启动时,遭受中断的系统临时占用了正常运行系统的设施。
  • 热站点是支持系统需求的规模适当的办公场所,配置了所需的系统硬件、提供支持的基础设施和支持人员。热站点通常24小时有人值守。接到应急计划启动的通知时热站点人员就可以立即开始准备系统的接收。
  • 移动站点是内部包含了适应客户需要的特定电信装备和满足系统需求的IT设备的可以移动的载体。可以通过供应商租赁。这种设施经常被放置在拖车中并且可以被拖放和安置在所需的备用场所。在多数情况下,为了适应恢复方案,供应商可以对移动站点进行进一步设计,双方应该签署SLA。之所以要这样是因为配置移动站点所需的时间可能比较长,如果不提前协调好,递送移动站点的时间可能会超出系统允许的中断时间。
  • 镜像站点是具有完整和实时信息镜像的完全的冗余设施。镜像站点与主站点在所有的技术层面上都是一致的。由于在主站点和备用站点同时处理和存储数据所以这些站点提供了最高的可用性。这些站点由机构设计、建造、运行和维护。

五种选项之间存在明显的费用和准备时间上的差别。镜像站点是最昂贵的选择,但是它保证了百分之百的可用性。冷站点维持起来最便宜,但是它需要相当长的时间来获取和安装所需设备。装备了部分设备的站点如温站点落在了两者范围的中间。许多情况下,移动站点可以在24小时内送达到所需的地点。但是安装所需的时间会增加响应时间。在选择固定站点位置时应该解决将人员输送到站点 所需的时间和方式。另外,固定站点应该建在不会受到影响机构主站点同样的灾难事件(如和天气有关的影响或供电网故障)的不良影响的地理区域。表3-1总结了确定满足BIA中所定义的机构需求的备用站点类型所应遵循的标准。在评估站点时,应急计划协调人应该确保系统的安全性、管理性、操作性和技术性控制和预期站点相一致。这些控制应该包括防火墙和物理访问控制、数据残留控制以及站点及其支持人员的安全许可级别。

这些备用站点可以由机构(内部恢复)拥有和运行,也可以通过签订合同得到商业站点。如果和供应商签订站点合同,必须就充足的测试时间、工作场地、安全需求、硬件需求、电信需求、支持服务和恢复日数(机构在恢复期间占用空间的长短)进行协商并明确地写入合同。客户应该明白会有多个机构与供应商就同一个备用站点签订合同;这就造成了该站点在灾难同时影响到这些客户时可能无法容纳所有的客户。供应商就此情况的解决策略和优先级安排应该在合同商定时予以协调。

两个或多个在IT配置和备份技术上相似或相同的机构可以签订正式协议互相做为对方的备用站点,或者联合租用一个备用站点。这种类型的站点通过互惠协议或谅解备忘录(MOU)建立。因为在发生灾难事件期间,每一个站点必须能够在承担自己的工作负荷之外支持其它站点,所以达成互惠协议时必须谨慎从事。这种协议需要从对双方有利与合作的角度对双方机构应用的恢复顺序制定优先级别。在伙伴站点中应该进行测试以评估额外的处理限度、兼容的系统和备份设置、充足的电信连接、兼容的安全措施、可能被其它特权用户访问的数据敏感性以及恢复策略的功能。

备用站点的MOU、协议备忘录(MOA)或SLA应该根据机构的特定需求和伙伴机构的能力制定。各方的法律部门必须检查和批准协议。通常,协议应至少涉及到以下因素:

  • 合同/协议的有效时间
  • 灾难宣布和占用(每日使用)、管理、维护、测试的成本/费用结构、每年成本/费用的增长、运输支持费用(可能的情况下,接收和返还离站数据/用品)、成本/花费分配(可能的情况下)以及记帐和付款的时间表
  • 灾难宣布(如环境造成的灾难、通知程序)
  • 站点/设施访问和/或使用的优先顺序
  • 站点的可用性
  • 站点保证
  • 可能的情况下,其它客户订购同样资源和站点以及站点订购者的总数
  • 合同/协议变化和更改方法
  • 合同/协议的终止条件
  • 协商扩展服务的方法
  • 兼容性保证
    IT系统对硬件、软件的需求(包括数据和电信需求)以及特殊的系统需要(硬件和软件)
  • 变化管理和通知需求,包括硬件、软件和基础设施
  • 安全需求,包括特殊的安全需要
  • 提供/不提供人员支持
  • 提供/不提供设施服务(使用在站办公设备、自助餐厅等)
  • 测试,包括时间安排、可用性、测试持续时间和可能需要的额外测试
  • 记录管理(在站和离站),包括电子介质和硬拷贝
  • 服务水平管理(性能测量和所提供的IT服务的质量管理)
  • 工作空间需求(如椅子、桌子、电话和个人电脑)
  • 提供/不提供用品(如办公用品)
  • 其它地方没有涉及到的费用
  • 可能的情况下,其它合同事项
  • 可能的情况下,其它技术需求

3.4.3 设备更换
如果IT系统遭到损坏或损毁或主站点无法使用,这时就需要快速启用或取得所需的硬件和软件并递送到备用站点。有三种基本策略用于准备设备的更换。当选择最佳策略时,要注意在毁灭性灾难事件中,交通运输可能受到限制或暂时终止。

供应商协议 在制定应急计划的过程中,可以与硬件、软件和支持供应商签订紧急维护服务的SLA。SLA应该设定供应商应该在得到通知后多长时间必须进行响应。协议应该使机构更换设备出货的优先权状态高于平时购买设备的优先权状态。SLA还应进一步讨论在毁灭性灾难事件中涉及到多个供应商客户时的优先权状态。在这种情况下,关系到健康、人身保护业务的机构通常会取得出货的最高优先权。这些谈判细节应该记录到SLA中,应该与应急计划一同进行维护。

设备存货 应该预先采购所需的设备并将其存储到安全的离站地点,如将执行恢复操作的备用站点(温站点或移动站点),或者其它存储地点,需要时被运送到备用站点。但是这种方案是有缺点的。机构必须预先提供资金来采购这些设备 ,而且这些设备随着时间的推移可能会因系统技术和需求的改变而变得过时或不适用。

现有的兼容设备 现在库存的设备、租用的热站点中使用的设备以及部门中其它机构使用的设备。与热站点以及内部互惠站点签订的协议可以确保相似或兼容的设备可以由机构在应急情况下使用。

对选择进行评估时,应急计划协调人应该考虑到在需要时采购设备是比较划算的,但是会在恢复中增加相当多的额外时间来等待运送和进行组建;反过来说,无用的设备会增加成本,但会使恢复操作更快地开始。根据在BIA过程中发现的影响,应该考虑到影响广泛的灾难发生的可能性,这种灾难后可能需要大量的设备更换和产生交通运输的延误从而延长恢复时间。无论选择何种策略,应急计划都需要维护详细的设备清单和规格说明。设备清单文档在4.1节《支持信息》中有进一步讨论。

3.4.4 角色和责任
完成对系统恢复策略的选择和实施后,应急计划协调人必须指定合适的团队来实施策略。每一个团队都应该得到培训并时刻准备在中断事件发生需要启动计划时展开工作。这些团队将负责对事件进行响应、对功能进行恢复和使系统回到正常运行状态,恢复人员应该被安排到其中的一个团队中。这样,他们就需要明确了解团队在恢复工作中的目标、他们要执行的每一个步骤以及他们的团队与其它团队的关系。

所涉及到的系统不同则团队的需求也就不同。不同的机构中各团队的规模、团队名称和构成也不相同。另外,除了要有一个负责决策(包括启动计划)的指挥角色外,策略还可能需要以下功能小组:

  • 高级管理人员
  • 管理小组
  • 损害评估小组
  • 操作系统管理小组
  • 系统软件小组
  • 服务器恢复小组(如客户服务器、Web服务器)
  • LAN/WAN恢复小组
  • 数据库恢复小组
  • 网络运行恢复小组
  • 应用程序恢复小组
  • 电信恢复小组
  • 硬件拯救小组
  • 备用站点恢复协调小组
  • 原站点恢复/拯救协调小组
  • 测试小组
  • 监管支持小组
  • 运输布置小组
  • 媒体公关小组
  • 法律事务小组
  • 物理/人员安全小组
  • 采购小组(设备和用品)

应该根据其所具备的技能和知识将人员分配到这些团队中。理想的情况是,分配到相关团队中的人员在正常条件下负责的是相同或类似的工作。例如,服务器恢复小组的成员应包括服务器管理员。小组成员不仅要了解应急计划的目的,还必须了解执行恢复策略所需的规程。小组应该具有充足的规模以便在某些成员缺席的情况下保持有效性,也可以指定预备小组成员。同样,小组成员还应该熟悉其它小组的目标和规程以便进行小组间的协调。应急计划协调人还应该考虑到灾难发生时多数或全体人员无法到场的情况。在这种情况下,唯一可行的选择是使用其它地理区域的人员或者雇佣其它人员或供应商。这些人员可以被做为备用团队进行协调和培训。

各团队由团队负责人领导,团队负责人指挥整个团队的运作、是管理层在团队中的代表并且负责与其它团队负责人进行联络。团队负责人向团队成员发布信息并批准队内作出的决定。团队负责人应该指定后备人选在主负责人不在时充当负责人。

对于多数系统来说,管理小组需要提供在重大中断或紧急情况下的整体指导。这个小组负责启动应急计划并监督应急操作的运行。管理小组还协助其他各小组之间的沟通以及监督IT应急计划的测试和演习。所有的或某些管理小组可能会领导其它某些应急小组。高级管理人员如CIO具有决定启动计划的最终裁定权,由高级管理人员对于花费水平、可接受的风险以及部门之间的协调作出决策,高级管理人员通常领导管理小组。

继任序列计划通常用于COOP,但是也可以包含在IT应急计划中。继任顺序将定义在最高官员(通常是从CIO开始)缺席或无法履行职责的事件中为了应急计划的执行指定的负责人。例如,如果CIO受伤或去世,副CIO将履行计划的相关职责;如果CIO和副CIO都受伤或去世,信息系统安全经理将履行计划的相关职责。继任序列会根据机构的需要一直延续到一定的级别,但是必须认真地同COOP协调以确保不存在职责冲突。

3.4.5 费用考虑
应急计划协调人应该确保有足够的人员和资金以便有效执行所选择的策略。各种类型的备用站点、设备更换和存储方式的费用应该和预算限制 相平衡。协调人应该确定已知的应急计划花费,如备用站点的合同费用,还有一些不是很明确的费用,如实施部门范围内的应急意识培训项目以及定约人的支持费用。预算必须充足,应包括软件、硬件、差旅及运送、测试、计划培训项目、意识培训项目、劳务、其它合同服务以及任何其它适用的资源(如办公桌、电话、传真机、钢笔和纸张)的费用。部门应该进行成本效益分析以确定最佳恢复策略。表3-2提供了评估费用考虑事项的模板。

 

 
©2003 华安信达(China CISSP)计算机系统安全咨询网