稳定至上 解析AWS数据中心基础设施建设之道

贾桂鹏 |  2020-12-25

  目前,数字化的技术正在让各行各业发生巨大的变革,不过,也对于作为支撑作用的云服务基础设施提出更高的要求。

  提到云服务,那么,亚马逊云服务(AWS)一定是绕不开的话题,长期以来它们都在该领域中处于领跑位置,不过,是什么样的基础设施推动着AWS能勇往直前呢?很多人对于AWS的数据中心了解甚少,对此不免心生好奇。

  最近,在今年的AWS re:Invent大会上,AWS全球基础架构和客户支持资深副总裁Peter DeSantis就详细讲述了AWS在数据中心的建设以及使用中,如何保持稳定和环保。AWS大中华区产品部计算与存储总监周舸对于Peter的演讲进行了解读。

稳定至上 解析AWS数据中心基础设施建设之道

AWS全球基础架构和客户支持资深副总裁Peter DeSantis

  稳定至上

  对于一家云服务提供商来说,数据中心基础设施的重要性不言而喻,而且,随着业务量不断增加,数据中心的规模也在不断扩大,在这之中,设备出现故障的几率也随着增加,因此,如果云服务提供商不能保证稳定性,即便在功能和性能方面非常突出,也得不到客户的认可。

  周舸表示:“去年的re:Invent里面曾经有一个数据,2018年,和AWS规模最接近的另外一家云服务提供商宕机时间是AWS的7倍多。”

  Amazon CTO Werner曾说过的,任何东西都会坏。很多基础设施出现问题是没办法回避的,这也是AWS每天都会面临的挑战,企业需要考虑的是去预测什么时候会坏、怎么坏,从而能够提早想办法解决问题,保护你的客户不受影响。

  从整个AWS和Amazon发展的逻辑来看,AWS认为任何事情没有捷径可以走,任何发展都要一步步进行积累。

  比如AWS数据中心的供电,首先从电网供电,然后经过配电控制系统把电供应出去,中间一定会配置备用电源系统。因为,电网供电出问题的时候,备用电源会马上接替工作,保证服务不中断。同时,供电控制系统将会启动发电机组,发电机给电池持续充电,继续保证足够功率,直至电网恢复供电。

  稳定至上 解析AWS数据中心基础设施建设之道

  此外,为了降低设施出现问题的几率,AWS的思路是尽量降低设备的复杂性,就如我们上面提到的发电机组和备用电源系统,传统厂商所生产的产品,拥有丰富的功能,导致其复杂性极高,但是,很多功能其实不是必须的,因此,AWS将数据中心备用电源按照自身需求进行改造并缩小,通过软件对其进行控制,当单个单元出问题时,其他单元还能继续工作,把损害降至最低。

  周舸表示:“AWS尽量把设备、系统简化,越简单就越不容易出故障,从而让它变得更易用、更可靠。”

  多地部署数据中心

  再来回到数据中心本身,AWS细分地理区域和可用区(AZ),这与其他云提供商有很大不同。早在2001年,当AWS还没有成立的时候,Amazon就在西雅图建立了数据中心。在这个海啸和地震频发的城市,AWS积累了数据中心建设的经验。

  通过在海啸与地震频发的西雅图建立数据中心,AWS意识到不能把所有数据都放在一个数据中心里面,当时,AWS的想法是要在美国东海岸建设一个数据中心。但是由于两地之间的物理距离过长,导致数据中心出现70毫秒的延时,这对于交易量巨大的平台来讲,难以接受。

  为了要减少延迟带来的影响,并且综合考虑了火灾、雷电、龙卷风、海啸、地震等等所有因素后,AWS发现了数据中心之间的最优距离是数十英里,在这个距离的基础上既可以保证数据中心的延迟在一毫秒之内,还最大程度保证数据中心之间的独立性。

  此外,还有一个重点,也是AWS的一个设计逻辑,就是人可以成就所有事情,也可以是破坏一切。因此,人为因素的不确定性是必须要去避免。因此,AWS要保证每个区域之间的运营独立,互不干扰,当客户在全球部署跨多个区域,就可以减小破坏带来的影响。

  目前,AMS有遍及24个地理区域的77个可用区,并已公布计划在澳大利亚、印度、印度尼西亚、日本、西班牙和瑞士新建6个AWS区域、18个可用区。

  疫情之下考验供应链体系

  在今年疫情的影响下,对于供应链有着极大的考验,这种考验不光是体现在企业能不能买到适合的产品,关键是怎样能有意地分散供应链,实现多元化,从而让企业抵抗风险。

  2015年的时候,AWS有四个关键零件的供应商来自于4个国家和地区、29个供应商,到今年同样零件的供应商数量已经变成了7个国家和地区、86个供应商,这是AWS渡过疫情难关很重要的基础,这同样证明AWS有能力在困难的情况下,找到最快解决问题的供应商。

  所以,即便在全球都受到疫情影响下,供应链也没有成为阻止AWS扩张云规模的障碍。

  回顾全年,Amazon出色的供应链体系支撑了Peloton以及Netflix等公司大量增加设备的需求。

  定制芯片保障效率提升

  对于AWS为什么要自研芯片,周舸表示:“因为有很多事情AWS需要了解怎么做才能做得更好。”

  首先来看Nitro芯片,它已经为数据中心提供了动力,AWS云平台通过Nitro控制器Amazon EC2添加网络,存储和安全资源。如在EC2 Mac实例中,AWS在Mini上安装了Nitro Controller,没有Hypervisor的Nitro Controller可以安全快速地连接到Mac Mini,通过Nitro接口,可以连接到EC2和EBS等服务。值得注意的是在2021年,第四代Nitro也即将面世。

  此外,AWS跟Arm也有非常紧密的合作,通过将半导体设计与验证迁移到AWS基于Graviton 2处理器,Arm降低了成本和调度新项目的风险,并将吞吐量提高10倍。这种做法使工程师可以专注于创新,Arm未来计划将全球数据中心面积至少压缩45%,将本地计算减少80%。

  稳定至上 解析AWS数据中心基础设施建设之道

  Peter DeSantis表示:“从90年代到现在,CPU性能一直在快速提升,但最近几年提升得没有那么明显了。主要原因是CPU频率的提升在减速,因此,增加核心数量就成为另一条发展路径,核心增加意味着一个CPU里面添加更多微处理器,如果程序能够利用好并行处理,就可以产生更高的效率。”

  写在最后

  一直以来,极度务实的态度推动着AWS不断前行,此次,通过Peter DeSantis的演讲了解到,AWS在建立数据中心的思路后,更加印证了他们忠于客户的初心。在与自身强大的技术能力结合,保证了其在行业中的竞争力。这也许就是AWS取得成功的秘密。

查看更多内容
正在加载
第三方账号登录
X
发布