英伟达再抛重磅核弹，AI芯片等一系列发布巩固AI领域地位

潇冷 | 2024-03-19

前不久，英伟达在对GTC2024大会进行预热时称，黄仁勋将在大会上发布加速计算、生成式AI以及机器人领域的最新突破性成果。在AI持续火爆的当下，英伟达GTC2024的官宣无疑成为AI领域的重头戏。果不其然，在今日凌晨，黄仁勋抛出了重磅炸弹。

英伟达推出成本与能耗较前代改善25倍的AI芯片

英伟达在发表《见证AI的变革时刻》演讲中宣布，正式发布名为Blackwell的新一代AI图形处理器(GPU)，称其“非常非常强大”，基于Blackwell技术，英伟达将推出B200和GB200系列芯片。

据悉，Blackwell平台能够在万亿参数级的大型语言模型(LLM)上构建和运行实时生成式AI，而成本和能耗比前身低25倍。英伟达还称，Blackwell架构系列芯片是迄今为止功能最强大的AI芯片家族。

据黄仁勋介绍，B200拥有2080亿个晶体管，而H100/H200有800亿个晶体管，采用台积电4NP工艺制程，可以支持多达10万亿个参数的AI大模型。该芯片还通过单个GPU提供20 petaflops的AI性能，而单个H100最多可提供4 petaflops的AI计算。

Blackwell架构系列芯片也将降低能耗，仁勋举例称，如果要训练一个1.8万亿参数量的GPT模型，需要8000张Hopper GPU，消耗15兆瓦的电力，连续跑上90天。但如果使用Blackwell GPU，只需要2000张，同样跑90天只要消耗四分之一的电力。

微软Azure、AWS、谷歌云等一众科技巨头都是Blackwell架构的首批用户。“生成式AI是我们这个时代的决定性技术。Blackwell是推动这场新工业革命的引擎。通过与世界上最具活力的公司合作，我们将实现AI在各行各业的承诺。”黄仁勋表示。

发布新一代AI超级计算机

英伟达还宣布新一代AI超级计算机——NVIDIA DGX SuperPOD，其搭载NVIDIA GB200 Grace Blackwell超级芯片。黄仁勋称，这台AI超级计算机可以用于处理万亿参数模型，能够保证超大规模生成式AI训练和推理工作负载的持续运行。

在配置上，全新DGX SuperPOD采用新型高效液冷机架级扩展架构，基于NVIDIA DGX GB200系统构建而成，在FP4精度下可提供11.5 exaflops的AI超级计算性能和240 TB的快速显存，且可通过增加机架来扩展性能。

与NVIDIA H100 Tensor Core GPU相比，GB200超级芯片在大语言模型推理工作负载方面的性能提升了高达 30倍。在NVIDIA GB200的支撑下，性能也有了大幅度提升。据悉，每个DGX GB200系统搭载36个NVIDIA GB200超级芯片，共包含36个NVIDIA Grace CPU和72个NVIDIA Blackwell GPU。这些超级芯片通过第五代 NVIDIA NVLink连接成一台超级计算机。

基于DGX GB200和DGX B200系统构建而成的NVIDIA DGX SuperPOD将于今年晚些时候提供。“VIDIA DGX AI超级计算机是推进AI产业变革的工厂。新一代DGX SuperPOD集 NVIDIA加速计算、网络和软件方面的最新进展于一体，能够帮助每一个企业、行业和国家完善并生成自己的AI。”黄仁勋表示。

英伟达推出系列微服务

在演讲中，黄仁勋还宣布推出AI微服务，用于在自己平台上创建和部署定制应用。黄仁勋表示：“未来软件开发或许要依靠NIMs(Nvidia inference micro service)，用与AI聊天的形式调动一堆NIMs来完成训练、应用的部署。”而英伟达的愿景是成为AI软件的“晶圆厂”。

这些云原生微服务目录在NVIDIA CUDA平台上开发，其中包括NVIDIA NIM微服务，可适用于NVIDIA及合作伙伴生态系统中20多个热门的AI模型进行推理优化。在性能表现上，NIM微服务提供基于NVIDIA推理软件的预构建容器，包括Triton推理服务器和TensorRT-LLM，使开发者能够将部署时间从几周缩短至几分钟。

同时，用户现能够以NVIDIA CUDA-X微服务的形式使用NVIDIA加速软件开发套件、库和工具，用于检索增强生成(RAG)、护栏、数据处理、HPC等。CUDA-X微服务为数据准备、定制和训练提供端到端的构建模块，助力各行各业加快开发生产级AI。

NVIDIA还发布20多项医疗NIM和CUDA-X微服务。黄仁勋表示：“这些精心挑选的微服务为NVIDIA全栈计算平台增添了新的一层，连接起了由模型开发人员、平台提供商和企业组成的AI生态系统，使其能够通过标准化的路径来运行针对NVIDIA CUDA安装基础(在云、数据中心、工作站和PC中的数以亿计的GPU)优化的定制AI模型。”

除了领先的应用提供商外，NVIDIA生态系统中的数据、基础设施和计算平台提供商也在使用NVIDIA微服务，为企业带来生成式AI。包括Box、Cloudera、Cohesity、Datastax、Dropbox和NetApp在内的顶级数据平台提供商正在使用NVIDIA微服务，帮助客户优化RAG管道，并将专有数据集成到生成式AI应用中。

人形机器人通用基础模型发布

当前关注度较高的人形机器人也出现在黄仁勋的演讲中，他表示：“在我们的世界里，类人机器人很有可能会发挥更大的作用，我们设置工作站、制造和物流的方式，并不是为人类设计的。因此，这些机器人的部署可能会更有成效。”

黄仁勋在演讲中发布了人形机器人通用基础模型 Project GR00T，并发布基于 NVIDIA Thor系统级芯片(SoC)的新型人形机器人计算机 Jetson Thor，对 NVIDIA Isaac机器人平台进行了重大升级。

GR00T使用的Isaac工具还能够为在任何环境中的任何机器人创建新的基础模型，包括用于强化学习的Isaac Lab和用于计算编排服务的OSMO。新的Isaac Lab是一个GPU加速、性能优化的轻量级应用，基于Isaac Sim而构建，专门用于运行数千个用于机器人学习的并行仿真。而OSMO是在分布式环境中协调数据生成、模型训练和软硬件在环工作流。

最新发布的Jetson Thor是一个全新的计算平台，能够执行复杂的任务并安全、自然地与人和机器交互，具有针对性能、功耗和尺寸优化的模块化架构。在黄仁勋的介绍中，我们了解到，包括一个带有transformer engine的下一代GPU，其采用NVIDIA Blackwell架构，可提供每秒800万亿次8位浮点运算AI性能，以运行GR00T等多模态生成式AI模型。

“NVIDIA正在为1X Technologies、Agility Robotics、Apptronik、波士顿动力公司、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行等人形机器人公司开发AI平台。”黄仁勋如是说。

发布集中式车载计算平台、交换机......

英伟达还宣布交通运输领域的领先企业已采用NVIDIA DRIVE Thor集中式车载计算平台，包括新能源汽车(NEV)、卡车、自动驾驶出租车、自动驾驶公交车和无人配送车。

DRIVE Thor可提供丰富的座舱功能，以及安全可靠的高度自动化驾驶和无人驾驶功能，并将所有功能整合至同一个集中式平台上。黄仁勋在演讲中指出，这款新一代自动驾驶汽车(AV)平台将搭载专为Transformer、大语言模型(LLM)和生成式AI工作负载而打造的全新NVIDIA Blackwell架构。

据悉，比亚迪、广汽埃安、小鹏、理想汽车和极氪均已宣布将在DRIVE Thor上构建其未来的汽车产品。Plus、Waabi、文远知行、Nuro将选择DRIVE Thor进行创新与验证。DRIVE Thor预计最早将于明年开始量产。

在演讲中，黄仁勋还发布专为大规模AI量身订制的全新网络交换机——X800系列。NVIDIA Quantum-X800 InfiniBand网络和NVIDIA Spectrum-X800以太网络是全球首批高达 800Gb/s端到端吞吐量的网络平台，将计算和AI工作负载的网络性能提升到了一个新的水平。

写在最后

技术发展日新月异。文生视频Sora的发布、人形机器人赛道的爆火，人工智能领域正在经历着一次又一次的变革与发展。作为人工智能的重要元素之一，算力尤其是智算已经成为AI领域的刚需。

在此背景下，我们看到英伟达在算力领域的迭代极为迅速，从算力、硬件端推动AI的进步。当然，除了在算力的发布外，GTC2024上还带来应用层、生态层的诸多惊喜。

对于此次发布，机构人士认为，2024年英伟达GTC大会超预期火爆，预示着AI商业落地的趋势或将加速，而算力基础设施为AI应用的持续落地的基础，英伟达供应链及其他AI算力及应用相关公司将迎来发展机遇。

未来已来，2024年英伟达已抛出性能更强的AI处理器Blackwell，新一轮的AI竞赛也将拉开帷幕。