NVIDIA AI平台大幅提高大型语言模型的性能

贾桂鹏 | 2022-07-29

随着大型语言模型的规模和复杂性日益增加，NVIDIA于近日宣布对NeMo Megatron框架进行更新，将训练速度提高30%。

此次，更新包括两项开创性的技术和一个超参数工具，用于优化和扩展任意数量GPU上的LLM训练，这为使用NVIDIA AI平台训练和部署模型提供了新功能。

BLOOM是全球最大的开放科学、开放存取多语言模型，具有 1760 亿参数。该模型最近在NVIDIA AI平台上进行了训练，支持46种语言和13种编程语言的文本生成。NVIDIA AI平台还提供了最强大的转换器语言模型，具有5300亿参数，Megatron-Turing NLG模型。

LLM是当今最重要的先进技术之一，涉及从文本中学习的多达数万亿参数。但LLM的开发过程昂贵而耗时，需要深厚的技术知识、分布式基础设施和全栈式方法。

LLM也大大有助于推动实时内容生成、文本摘要、客服聊天机器人以及对话式AI问答界面的发展。

为了推动LLM的发展，人工智能社区正在继续对Microsoft DeepSpeed, Colossal-AIHugging Face BigScience和Fairscale等工具进行创新，这些工具均由NVIDIA AI平台提供支持，包括Megatron-LM、Apex和其他GPU加速库。

这些对NVIDIA AI平台的全新优化有助于解决整个堆栈中现有的许多痛点。NVIDIA期待着与AI社区合作，让每个人都能享受到LLM的力量。

NeMo Megatron的最新更新令GPT-3模型的训练速度提高了30%，这些模型的规模从220亿到1万亿个参数不等。现在使用1024个NVIDIA A100 GPU只需24天就可以训练一个拥有1750亿个参数的模型。相比推出新版本之前，获得结果的时间缩短了10天或约25万个小时的GPU计算。

NeMo Megatron是快速、高效、易于使用的端到端容器化框架，它可以用于收集数据、训练大规模模型、根据行业标准基准评估模型，并且以最高水准的延迟和吞吐性能进行推理。

它让LLM训练和推理在各种GPU集群配置上变得简单、可复制。目前，早期访问用户客户可NVIDIA DGX SuperPOD、NVIDIA DGX Foundry以及Microsoft Azure上运行这些功能。对其他云平台的支持也即将推出。

另外，用户还可以在NVIDIA LaunchPad上进行功能试用。LaunchPad是一项免费计划，可提供短期内访问NVIDIA加速基础设施上的动手实验室目录的机会。