很多企业由于缺乏可靠的灾难恢复计划非常容易受到停机的影响,从而造成重大且长期的运营失败、数据丢失和收入损失的风险。而根据Gartner报告显示,全球约有72%的企业没有做好灾难恢复的准备。
什么是IT灾难恢复计划?
首先,我们要搞清楚IT灾难的概念。IT灾难指的是任何在计划外的网络中断情况。它不仅仅包括针对IT基础设施或员工的物理攻击,也可能是来自恶意软件、勒索软件和流氓身份的网络攻击的结果。或者也可能来自火灾、洪水和地震等自然事件。
当这些灾难发生的时候,为了最大限度地减少业务中断和相关成本,企业必须要有一套可靠的恢复计划来保障业务的连续性。
虽然大多数企业都宣称自己有灾难恢复计划,但事实上,由于对于许多公司而言,灾难恢复根本不是优先事项,因此这些计划并不可靠。
那么这些企业在遭受IT灾难的时候会面临哪些主要的风险呢?
财务损失
IT灾难的发生会导致应用程序和Web服务无法访问,这可能对企业产生一系列短期和长期的财务影响和法律影响。
例如,企业在线商店无法访问会导致损失客户交易。而像医疗保健环境的服务中断甚至可能导致生命损失。
根据IBM今年的一项报告统计,企业若发生停机,将造成每小时85,000美元左右的成本。可以说,很少有企业能够坦然承受这么巨大的损失。
物理建筑破坏
灾害还可能使访问物理基础设施变得困难。例如,天气事件可能会摧毁建筑物或破坏现场数据中心。而失去物理建筑物访问权限对公司而言是最致命的,尤其是对于无法在安全的异地设施中备份其数据和应用程序的企业而言。
名誉损害
长时间停机之后,企业也面临声誉受损的风险。当客户无法访问在线资源时,他们可能会对品牌失去信心,甚至可能转向竞争对手。
数据丢失
如果说经济损失和声誉损害还可以修复,那么永久性的数据丢失就可能是灾难性的。
比如,意外火灾可能会毁坏包含宝贵研发数据的工作站或服务器。这可能会使企业倒退数年,并大大延迟公司新产品的上市时间。
市场影响
一个企业的失误正是另一个企业的机会。竞争对手会迅速利用负面新闻来抢夺在您的灾难后受到影响的客户,这就意味着您的市场份额极有可能受到巨大影响。
那么该如何制定IT灾难恢复计划呢?
IT灾难恢复计划往往需要根据不同的业务和行业来制定。在制定计划的时候,企业需要考虑自身独特的IT环境和工作流程等因素。
而以下两项原则是制定IT灾难恢复计划时普遍需要遵循的。
1. 时刻掌握真实情况
随着商业环境和新技术的不断变更,企业的IT环境每时每刻都在变化。如果企业不能实时掌握自身的IT情况,就无法有效更新其灾难恢复计划,从而在面临灾难的时候,难以快速恢复运营。
另外,在评估企业的灾难恢复准备情况和制定响应计划时一定要实事求是。如果对此项工作并不是很有信心,可以在必要时寻求第三方的帮助。专业的第三方可以帮助您识别计划中的差距或与事实不一致之处。
2. 做最坏的打算
IT环境正变得越来越复杂。与此同时,网络威胁也变得越来越危险、普遍和复杂。此外,由于气候变化加剧,企业也面临更高的危险天气事件风险。
不要错误地假设服务提供商和合作伙伴会有万无一失的计划。自己制定可靠的计划比指望其他机构来确保业务连续性要安全得多。通过做好最坏的打算并覆盖所有基地,您可以减轻损失并可能避免灾难性损失。
创建强大的IT灾难恢复流程
您的IT灾难恢复策略应包含灾前、灾中和灾后的程序和策略。在制定IT灾难恢复程序时,请牢记以下一些因素:
灾难发生前
在制定灾难恢复计划时,需要做好准备工作。比如,准确了解哪些人和机器可以访问您的关键应用程序、服务器、特权凭据和系统管理员权限。
测试系统的弹性并设置好替代管理员非常重要。这样的话,即便管理员发生了类似受伤、疾病或帐户泄露等情况,其他人也可以快速介入并接管。
灾难发生时
人们在紧急情况下可能会做出一些不可预测的行为,因此需要制定明确的指示来告诉他们在灾难发生时的正确操作。例如,在指导文件中清楚地描述如何访问备份服务器,如何访问管理员凭据等。清晰的指示将消除混乱并加快恢复过程,从而确保生产力和服务在很大程度上不受损害。
灾难发生后
灾难结束后,团队成员需要知道何时恢复正常工作流程并关闭备份系统。
在灾难恢复流程结束时,对任务进行汇报是非常重要的。分析哪些措施有效,哪些措施无效,以及在此过程中出现的任何差距都有助于优化灾难恢复计划,并减少下一次事件的损失。
IT灾难恢复的关键措施
一个有效的灾难恢复计划离不开正确的管理措施。以下是我们建议在制定灾难恢复计划时需要考虑的一些关键措施。
访问控制
无论是在现场还是远程,非常重要的一点是要确保合适的人员能够访问系统和凭据。可以考虑使用访问控制软件来跟踪活动、简化管理并从中央位置调整访问管理。
身份管理
必须要做好身份确认,以防止未经授权的用户获得可能导致帐户泄露的特殊权限和管理员权限。可以考虑将特权访问管理 (PAM) 与多重身份验证(MFA) 结合使用。这里需要考虑始终实施基于角色的访问控制并管理授权和身份验证,而不仅仅是在事件期间才这么做。
高可用性
可用性是指系统以最佳性能水平运行而不会出现故障的能力。高可用性的一个关键组成部分是冗余和无缝故障转移,这是确保系统和数据始终保持可访问性和可用性所必需的——即使在发生灾难时也不例外。
资产映射
灾难恢复计划的另一个关键方面涉及资产映射,包括硬件、设备和数据。攻击者可以使用这些资产信息来定位和攻击特定目标并对企业造成伤害,因此通过强大的访问控制来保护资产是非常重要的。
风险评估
业务风险往往根据行业、物理位置、资产类型、数据使用和规模等各种因素而各有不同。企业需要了解自身的IT和网络安全现状,并做好相应的风险评估。
测试与分析
一旦制定了可行的灾难恢复计划,企业就需要持续对其进行测试和更新。通常我们建议应该每六个月测试和更新一次灾难恢复计划,以确保它适应企业当前的业务需求。
秩简如何支持灾难恢复计划?
在管理IT基础架构时,我们会跟踪密码、特权帐号和凭据,并将它们存储在安全的保险库中。
秩简提供的Secret Server解决方案具有强大的灾难恢复功能。它能够发现、保护、监控、审计和管理权限,以保护敏感的管理员、应用程序、服务器和root帐号免受灾难性事件的影响。它还通过区域故障转移、全球分布式数据中心、Web服务器集群、数据库镜像、机密弹性和异地复制技术提供高可用性和弹性。
此外,我们将不同工作站和服务器上的特权访问安全进行分层管理,以实现快速的事件响应和风险控制。这种实时监控和覆盖能力提供了超越防火墙和防病毒工具的额外支持。
谁也无法预知下一次灾难何时会袭击并影响您的业务。与其等到坏事发生并被迫做出反应,不如主动审视您的恢复计划,以确保它能够保护您的IT 基础设施和数字资产。
准备好开始创建灾难恢复计划,让您的IT运营在任何情况下都能正常运行吗?