保障IT系统稳定高效运行？提高韧性是前提

Yu | 2024-04-15

在数字经济蓬勃发展的当下，企业数字化转型不仅是顺应时代潮流的战略选择，更是在激烈竞争中保持创新活力、提升核心竞争力、实现可持续发展的必然路径。而IT系统，作为数字化转型的重要基石，为企业的运营、管理、创新提供了不可或缺的技术支持与保障。

但与此同时，随着企业业务需求的迅速演变和系统的不断扩展，传统的IT系统架构在应对日益增长的数据处理需求和系统调用时显得力不从心。例如，持续增加的远程系统调用、日益复杂和分布式的系统，以及系统功能的频繁更新等都会增加系统中断的风险。而每一次的系统宕机，其负面影响远不止于表面上的经济损失，还会对品牌形象以及客户带来负面影响。

因此，保障IT系统的稳定与高效运行，已成为企业在运营过程中亟待解决的关键问题。云服务提供商规模化的运营方式，能够提供更高效、更可靠的计算和存储资源，促使越来越多的企业考虑将IT系统迁移到云端，以满足日益增长的业务需求。

如何增强IT韧性

亚马逊高级副总裁兼工程师James Hamilton强调，为了确保运行在基础设施之上的应用同样具备强大的韧性，客户需要从以下三个方面着手：

第一，尽可能扩大自动化范围

据Uptime Institute公布数据显示，高达70%的数据中心故障和服务中断是由人为操作失误所导致的。这凸显出增加自动化的重要性，因此，为了确保系统的韧性和稳定性，从数据备份到系统测试，每一步都应该尽可能地实现自动化，自动化是创建韧性架构的关键。

以医疗机构CalvertHealth为例，过去的电子健康记录的数据备份是依赖企业数据中心服务器进行手动管理，恢复时间目标(RTO)曾为48至72小时。CalvertHealth将其应用恢复系统迁移到亚马逊云科技后，RTO降至两小时以下，缩短了97%。

同时，在代码部署前及时发现并解决潜在问题，对于打造高可用性和高韧性的应用同样重要。尽管传统的手动代码审查可以依赖于评审人员深厚的专业知识与敏锐的洞察能力，但面对日益复杂的软件项目和持续增长的代码量，这种模式的局限性越发显现。在此背景下，借助机器学习增强的代码审查工具，企业不仅能够自动化这一过程，还能进一步提升应用的性能。

第二，持续测试来应对未知

持续测试是工程师理解系统如何应对未知情况的方法。实现这个目标的做法之一是故意搞“破坏”。通过这种方法，企业能够执行故障注入实验，帮助团队营造真实世界所需的条件，来发现分布式系统中难以甄别的隐藏错误、盲点和性能瓶颈。

James Hamilton指出，自21世纪初起，亚马逊一直在不影响客户体验的前提下，有意注入故障。“这提高了我们的应变能力，确保我们为最坏的情况做好了准备。如果我们能触发罕见事件，并更频繁地调整应对措施，那我们就做好了准备。”James Hamilton说道。

另一种流行的测试方法是韧性“游戏日”(game days)，通过模拟一个失败或其他事件来测试系统、流程和团队的响应。这种方法的目的是尽可能逼真地演习如果异常事件真的发生，团队会采取的行动。企业可以在亚马逊云科技中使用其生产环境的完整副本进行游戏日演练。

第三，统一可观测性指标

了解系统的运行情况对实现卓越的运营和韧性至关重要。企业不断收集和分析应用数据，才能更快地检测和解决应用可用性和性能方面存在的问题，从而改善最终用户的体验。但随着应用复杂性的日益增加，问题出现时很难快速定位并加以解决。为此，企业必须建立一套统一且高效的问题发现、定位和解决机制。

以全球电子学习技术供应商Docebo为例，开发团队在遇到问题时，通常需要耗费数日进行故障排查。通过采用亚马逊云科技的多种分析服务，Docebo成将所有的日志和追踪数据进行了整合，创建了单一事实来源，使问题排查时间缩减了高达90%，修复错误的耗时也从原来的70%-80%大幅降低至15%以下。

由此可见，随着更多企业将关键性的工作负载迁移至云端，云业务的稳定性和连续性变得日益重要，这也凸显了云韧性的关键作用。

将韧性融入服务

作为全球云计算的开创者，亚马逊云科技深知这一点，始终将韧性理念融入其基础设施、服务设计和部署、机制中构建保障措施，并将韧性植根于模式和机制的每一个环节中，致力于为客户提供稳健可靠的云基础设施，以支持客户构建和运行各类应用。

亚马逊云科技通过最小化全球基础设施之间的互联性，来规避单点故障风险。其遍布全球的基础设施分布在33个地理区域中的105个可用区，呈地理分散布局。且每个可用区都有独立的电力、制冷和物理安全设施，可用区之间通过冗余的超低延迟网络连接。同一区域内的可用区之间具有足够的距离，最远可达约100公里，既能防止相关故障，但又能实现单位毫秒级延迟的同步复制。

此外，亚马逊云科技还会考虑系统依赖因素，确保即使这些依赖受到影响，系统也能保持韧性。这种韧性得益于静态稳定性设计，使系统在故障或依赖项失效时仍能正常运行，无须任何改动。例如，在Amazon Elastic Compute Cloud (Amazon EC2)中，实例启动后就和数据中心中的物理服务器一样可用。其他亚马逊云科技资源如虚拟私有云(VPC)、Amazon Simple Storage Service (Amazon S3)存储桶以及Amazon Elastic Block Store (Amazon EBS)卷也具有相同的特性。

持续为企业赋能

据James Hamilton介绍，亚马逊云科技提供了一套全面的专门构建的服务、策略和架构最佳实践，用户可以使用这些服务、策略和最佳实践来提升企业自身的韧性。

这些服务、策略和最佳实践在亚马逊云科技韧性生命周期框架中被概述成了五个阶段，包括：设定目标、设计和实施、评估和测试、运营以及响应和学习。弹性生命周期框架模仿标准软件开发生命周期，因此客户可以轻松地将韧性纳入现有流程。

例如，用户可以使用Amazon Resilience Hub来设置目标，根据这些目标评估韧性状况，并根据Amazon Well-Architected Framework和Amazon Trusted Advisor的建议实施改进措施。在Resilience Hub中，用户可以创建和运行Amazon Fault Injection Service实验，这些实验允许客户测试其应用程序将如何响应某些类型的中断。其他服务，如Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route 53 ARC)，可以帮助用户快速响应和从中断中恢复。

值得一提的是，全球已有数百万用户选择亚马逊云科技作为云服务提供商。这些用户中，不乏对数据安全性要求极高的机构，例如纳斯达克、道琼斯以及默沙东等企业。

写在最后：

在瞬息万变的技术浪潮中，亚马逊云科技始终与时俱进，积极应对日益复杂的网络安全威胁和不断演进的商业模式带来的挑战。通过不断改进基础设施、服务设计、运营模式和机制，持续加强与发展云设施韧性。

我们坚信，亚马逊云科技通过持续提供广泛、深入的架构及运营最佳实践服务、工具和指导，能够助力更多的企业在云端搭建并运行灵活的应用程序，实现业务的持续稳定增长。