灾难恢复测试:确保灾难恢复计划正常工作

企业需要了解灾难恢复测试对于所有IT组织至关重要的原因,以及如何成功有效地实施这些测试。灾难恢复测试是组织灾难恢复计划(DRP)的一个多步骤演练,旨在确保在发生实际灾难时恢复信息技术(IT)系统。作为灾难恢复计划的一部分,企业通常采用灾难恢复服务。

为什么灾难恢复测试至关重要?

自然灾难或人为事件通常会中断正常的IT功能,如数据处理、通信、虚拟化以及网络和数据中心操作。研究一致表明,灾难中IT功能的丧失会导致业务失败。例如,根据美国档案和记录管理局的报告,由于灾难事件导致数据文件丢失或计算机系统崩溃长达10天或以上的公司中,93%的公司在一年内申请破产倒闭。虽然灾难并不会经常发生,但一旦发生,其影响可能是毁灭性的。

灾难恢复测试的主要目标是确保在灾难发生的情况下,灾难恢复计划将真正起到作用。企业的灾难恢复站点将上线运营,IT系统将以最短的停机时间重新上线。也许一家公司使用基于云计算的灾难恢复(DR)或灾难恢复即服务(DRaaS),但在任何一种情况下,灾难恢复测试都会揭示备份是否真的像企业需要的那样万无一失。

正在进行的测试是必要的,因为灾难恢复测试的有效性可能受到组织内人员、技能水平以及硬件和软件架构的不可避免变化的影响。全面测试灾难恢复计划是制定灾难恢复计划的一个绝对关键的方面。

灾难恢复方案

灾难恢复测试(DRT)计划可以帮助组织为任何类型的IT灾难做好准备,包括在现实生活中展开的以下各种场景。

  • 卡内基梅隆大学(CMU)发表的一项研究表明,在一次在内部破坏攻击的案例中,一家公司在解雇一名软件工程师之前禁止访问公司的IT系统。然而在遭到解雇之后,,心怀不满的员工从家里登录公司的IT系统,他通过远程连接从应用程序中删除了几个关键文件。该公司在重新加载备份数据并重新开始之前,损失了四个小时的生产时间。
  • 2017年,包括美国联邦快递、马士基、默克和许多其他公司在内的企业成为了一种名为NotPetya的勒索软件病毒的受害者。在其全球航运业务陷入停顿之后,马士基公司后来承认,由于技术清理、业务中断和销售损失,损失了6.7亿美元。美国联邦快递公司损失了4亿美元。
  • 相比之下,2005年,新奥尔良市提前发出卡特里娜飓风预警,该市在致命风暴期间和之后设法保持重要的业务功能不间断运行。该市下载了财务管理等关键系统,并提前将其运送到加利福尼亚州的ACS数据中心。该城市的网站从市政厅迁移到了由Red Carpet Host运营的达拉斯数据中心。在卡特里娜飓风过后,该市在奥斯汀建立了一个备用数据中心。

灾难恢复与业务连续性计划

灾难恢复计划(DRP)和测试通常与业务连续性计划(BCP)混淆。虽然两者密切相关,但它们并不相同。

灾难恢复计划和测试系统规定了IT组织在灾难发生后恢复系统所必须采取的步骤,这些系统将满足企业的技术需求。另一方面,业务连续性计划(BCP)阐明了企业必须做些什么来确保其产品和服务仍然可供客户使用。业务连续性计划(BCP)由业务影响分析、风险评估和整体业务连续性策略组成。它通过业务连续性测试(BCT)进行测试。一些组织将灾难恢复计划(DRP)/灾难恢复测试(DRT)和业务连续性计划(BCP)/业务连续性测试(BCT)分开处理,而其他组织在整体业务连续性计划和测试中包括灾难恢复。

5个灾难恢复测试技术

除了在紧急情况下恢复数据和保持关键应用程序和服务在线之外,灾难恢复解决方案还应包括向工作人员发出灾难警报的方法,以及在电话线路和网络中断时允许在事件期间和之后进行通信的方法。在规划和测试过程中,灾难恢复团队还应认识到,尽管发生了灾难,组织必须继续履行其安全和法规遵从性义务。

五种类型的灾难恢复测试(DRT)用于测试灾难恢复解决方案:

  • 书面测试:在书面测试中,灾难恢复团队成员阅读并注释恢复计划文档,如灾难恢复策略、过程、时间表、基准、检查表。文档的硬拷贝应存储在安全的脱机环境中,并将数字副本存储在云中。
  • 演练测试:演练测试是指对灾难恢复计划(DRP)进行的小组演练,以确定需要解决的任何问题以及应对灾难恢复环境进行的任何修改。
  • 模拟:在一个某种程度上符合消防演习的过程中,团队在现实生活中实践灾难恢复计划(DRP),以确保其足以进行IT灾难恢复。
  • 并行测试:在并行测试中,对故障转移恢复系统进行测试,以确保在发生灾难时,它们可以执行支持关键进程和应用程序的实际业务事务。同时,主系统继续运行完整的生产工作负载。
  • 切换测试:切换测试进一步测试故障转移恢复系统,该系统是为在发生灾难时接管整个生产工作负载而构建的。主系统在测试期间断开。

六个灾难恢复测试级别

在并行和切换测试中,IT系统可以在不同的综合性水平上进行测试。IT组织的测试水平各不相同,灾难恢复服务提供商也不相同。

  • 数据验证:这一级别的测试检查块/文件在备份后是否良好,但不能确保应用程序可以在功能上恢复。
  • 数据库装载:数据库装载验证数据库在备份中是否具有基本功能。
  • 单机启动验证:单台机器启动验证单台服务器在停机后是否可以重新启动。
  • 采用屏幕截图验证的单机启动:此测试将操作系统的图像发送给管理员,作为可以重新启动服务器的证据。但是,它并不能证明服务器仍然可以正常运行。
  • DR Runbook测试:涉及多个服务器的DR Runbook测试主要用于多台机器,这些机器一起提供业务服务,例如集群数据库或企业资源规划(ERP)系统。
  • 恢复保证:最高级别的测试、恢复保证包括多台计算机、深层应用程序测试、服务级别协议(SLA)评估,以及有关回滚到系统恢复失败的原因的分析。一些但并非所有灾难恢复即服务(DRaaS)提供商都提供恢复服务保证测试。

灾难恢复测试最佳实践

  • 定期彻底测试

一些大型组织每季度进行灾难恢复测试。然而,尽管进行了灾难恢复经验的一些宣传,23%的企业从不测试灾难恢复,而大约33%的企业每年测试一次或两次。根据一项调查显示,在测试其灾难恢复计划(DRP)的公司中,大约65%的公司未通过自己的灾难恢复测试(DRT)。虽然测试的频率将取决于企业的业务及其灾难恢复准备情况,但专家强烈建议企业至少每年进行一次完整的测试。

  • 设置可衡量的基准

对于关键应用程序,设置恢复时间目标(RPO)和恢复点目标(RTO),这些目标可以按比例进行衡量。这些基准的目的是确保企业达到目标,同时详细说明成功的过程。包括医疗保健在内的一些行业要求组织了解并记录其恢复点目标(RTO)。无论企业在哪个行业,通过使用按比例衡量的基准,都能更好地确定需要改进的灾难恢复程序。

  • 保持灾难恢复团队成员的警惕性

明确定义负责研究、开发、实施和测试灾难恢复计划(DRP)的所有人员。如果相关人员不在公司办公室,需要为灾难恢复练习中的每个角色指派一名备份人员。与所有团队成员共享灾难恢复计划(DRP)和灾难恢复测试(DRT)。如果团队的成员辞职,需要确保替换他们的工作人员接受灾难恢复计划(DRP)和灾难恢复测试(DRT)政策和程序方面的培训。然后安排一个小组运行灾难恢复测试(DRT),以平滑灾难恢复过程。

  • 如果需要的话,可以与灾难恢复合作伙伴合作

虽然大型组织拥有自己执行灾难恢复测试(DRT)的内部专业知识,但许多小型公司将会向灾难恢复公司寻求帮助。除了多方面的灾难恢复即服务(DRaaS)之外,灾难恢复服务提供商还提供专业服务,例如持续测试和客户灾难恢复解决方案的全天候性能监控。

原文作者:Jacqueline Emigh

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-62778877-8261;邮箱:jenny@west.cn。本站原创内容未经允许不得转载,或转载时需注明出处::西部数码资讯门户 » 灾难恢复测试:确保灾难恢复计划正常工作

赞 (1)