性能提升20倍 NVIDIA发布全新7nm安倍架构A100 GPU

贾桂鹏 | 2020-05-15

2020年，新冠肺炎疫情流行，使得很多新品发布会都采用线上形式呈现，但我们还是没想到，NVIDIA GTC大会竟然在厨房里就把今年他们最重要的产品发布了。

北京时间5月14日晚9点，NVIDIA的年度黑科技大秀GTC 2020通过在线视频的方式举行，NVIDIA创始人兼CEO黄仁勋不仅发表了演讲，发布了NVIDIA新一代GPU架构安培，并且还带来了基于新架构的DGX-A100 AI系统和面向边缘AI计算的EGX A100。

其实，大家对于安培架构的GPU已经期待许久，此次GTC 2020正式拉下了它的面纱，呈现在我们面前的是目前全球最大的7nm芯片，面积达到了826平方毫米，集成540亿个晶体管，同时满足AI训练和推力的需求A100 GPU。

还不仅如此，在GTC 2020上面，老黄还向大家密集的抛出了20项重磅消息和产品，从全新的AI系统、全新的AI集群、全新的边缘AI产品等等，完全是一场NVIDIA“秀肌肉”的盛宴。

性能提升20倍的安培GPU

2017年，NVIDIA发布了基于伏特架构Tesla V100芯片，号称“地表最强”，而在之后的三年间，竞争对手们不断放出狠话、发布新品，要超越V100，但我们还是看到V100出现在各种AI芯片发布会上成为标杆，而积攒了三年之后，NVIDIA带来了更恐怖的产品。

在GTC 2020上面，老黄拿出了7nm工艺的安培架构GPU，开启了一个全新的时代，最先进的Mellanox网络技术、进化的特定软件平台等等，如果这不够直观表现出A100到底有多强，那么，老黄告诉大家，它比此前的标杆V100在性能上要强20倍。

作为V100的接班人，A100的定位也很清楚，主要针对于人工智能领域，其最大的一个亮点就在于第一次在单一的平台上面就可以同时进行训练和推力，这极大的降低了运营成本。

在A100 GPU上面，NVIDIA带来了五个方面的技术创新和提升：

1、在A100的内部包含了超过540亿个晶体管，是上一代V100的2.57倍，芯片面积为826平方毫米，这也让它成为了全球最大的7nm处理器。

2、A100采用第三代Tensor Core AI核心，支持全新的TF32运算(新数学格式)，无需更改任何代码便可以实现20倍于FP32单精度的AI性能，同时支持FP64双精度运算，在HPC应用上算力相比上代提升2.5倍。

3、Multi-instance GPU，这是一项新技术，其可以将一个A100 GPU分割为7个单独的GPU，从而为不同大小的任务提供不同的算力，以提升利用率和投资回报。

4、第三代NVLink互联技术，使GPU之间的高速连接数量翻倍，可将最多12个A100 GPU连为一个巨型GPU，从而为服务器提供更高效的性能拓展，其中GPU到GPU之间的带宽为600G/s，相比上代也是翻倍的。

5、结构稀疏性，新的效率技术利用了AI数学固有的稀疏性，优化之后性能提升了一倍。

据悉，微软将会成为第一批拿到A100 GPU的客户，他们将会利用A100训练图灵自然语言生成。

第三代AI系统发布

在活动上，老黄表示，AI已经被运用到了云计算、汽车、零售、医疗等等领域中，AI算法也正在变得越来越复杂和多样性，ResNet模型的算力需求从2016年至今已经增加了3000倍，而这一次NVIDIA拿出了更好的解决方案。

这个更好的解决方案就是第三代AI系统DGX A100，它高达5 Pataflops的AI性能直接创造了全新的世界纪录，而且，它还首次将数据中心的性能与功能都集中在了一个平台里。

NVIDIA表示，DGX A100系统单节点的峰值性能为：INT8 10 PetaOPS(每秒1亿亿次整数运算)、FP16 5 PFlops(每秒5千万亿次半精度浮点运算)、TF32 2.5 PFlops(每秒2.5千万亿次运算)、FP64 156 TFlops(每秒156万亿次双精度浮点运算)。

在DGX A100系统中集成了8个A100 GPU，并且它还具备了320GB内存用于训练最大型的AI数据集，以及速度可达到200Gbps MeLLanox HDR互联。凭借和强加的性能和功能，企业在采用DGX A100时可以在完全集成的软甲你定义平台上根据自己的需求进行优化计算力和资源，从而可加快数据分析、训练推理等工作的速度。

目前，NVIDIA DGX A100个人超算现已上市，售价19.9万美元，约合人民币141万元。虽然看似价格不菲，但是考虑到它不仅有强大性能和特性，还可以为客户降低使用成本和功耗，这对于云服务提供商来说，都将会非常诱人的方案。

黄仁勋在活动上表示，采购5个DGX A100系统组建机架，需要花费100万美元，但是它可以取代价值1100万美元，由50个DGX-1和600个CPU组建的25个机架带来的性能，功耗也将由630kW将至不可思议的28kW。所以，5个DGX A100组建的系统，在实际使用时提供等同性能时，耗电量只有现在数据中心系统的1/20、空间1/25、成本1/10。

对于有需求的企业来说，老黄已经把帐帮忙算好了。目前，该方案的云服务客户有阿里云、亚马逊AWS、百度云、Google Cloud、微软Azure、甲骨文、腾讯云，系统级客户有AtoS、Cray、戴尔、富士通、技嘉、HPE、浪潮、联想、广达、SuperMicro。

扩大边缘计算AI平台

在会上，老黄还宣布了两款强大的EGX Edge AI平台产品——大型商用现货服务器EGX A100和微型边缘服务器EGX Jetson Xavier NX，将强大的实时云计算能力带到边缘。

NVIDIA EGX A100是首款基于NVIDIA安培架构的边缘AI产品，安培架构GPU为其提供了第三代张量核心和新的安全特性。

现在，物联网与人工智能的融合，已经开启了一个全新的智能时代，而NVIDIA EGX边缘AI可以让平台在标准的服务器上面变为一个小型的云原生AI数据中心，并且基于AI应用架构，还可以实现构建从智能零售、机器人工厂、自动化呼叫中心等等智能服务。

作为云原生加速器，NVIDIA EGX A100能处理5G里面对于延迟最敏感的用例，这也将会为制造、零售、电信、医疗等等行业提供高效的AI与5G结合的平台。

而EGX Jetson Xavier NX是目前全球最小、最强大的用于微服务器和边缘AIoT的AI超级计算机，它将NVIDIA Xavier SoC芯片集成在了一个信用卡大小的模块里面，而且它还拥有服务器级别的性能，15W功耗却带来了21TOPS的算力，10W功耗限制下，最多也能带来14TOPS算力。

写在最后

虽然在GTC 2020活动上，我们只看到老黄在自家厨房里面的一出自导自演，但是，从发布的内容来看，这一场围绕着新架构GPU、AI算力的发布会质量极高，不仅为大家带来了意料之中的GPU芯片，还有全新的第三代AI系统、服务器构建块、AI超级计算机、边缘服务器产品等等。可以说GTC 2020让很多人刷新了对于算力的理解。

目前，AI芯片领域非常混乱，各大巨头纷纷入局，带来无数创新架构，无论是云端还是边缘都充满了竞争的意味，而NVIDIA在自己传统强项的GPU加速领域旁若无人的继续加速，相信，这一次NVIDIA带来的安培A100 GPU又将会在长时间成为各个AI厂商发布会上的常客，依然是以标杆般的存在。

在GTC 2020上，虽然我们看到老黄的头发已出现斑白，但是，我们一点也没有在NVIDIA身上看到有一丝衰老的痕迹。