大模型时代，AI芯片厂商的机遇与挑战

Yu | 2023-08-02

ChatGPT的推出，可谓一石激起千层浪，不仅引起了人们的广泛关注，更吸引到众多玩家纷纷加入大模型产品的开发阵营。而不断涌现的大模型似猛兽般吞噬着算力，也给AI芯片市场带来了巨大变革。

毫无疑问，2023年是大模型的迸发之年。横空出世的ChatGPT宛如导火索，迅速引燃了大模型的战火。据中国科学技术信息研究院《中国人工智能大模型地图研究报告》显示，从全球已经发布的大模型分布来看，中国和美国研发的大模型数量已经占全球总数的80%以上。其中，截至2023年5月底，国内10亿级参数规模以上基础大模型，至少已发布79个。而且，大模型数量还在快速增加。

算力需求爆发

大模型全称大型语言模型(LargeLanguageModel，LLM)，是一类基于深度学习的人工智能模型，可以从海量数据集中获得的知识，可以根据从海量数据集中获得的知识来识别、总结、翻译、预测和生成文本和其他形式的内容。简单来说，大模型具有非常强大的学习和推理能力，可以提升人工智能的识别和预测能力，使之能够更加高效、准确地完成各项任务。

不过，需要指出的是，大模型的训练过程是计算密集型的，并且需要大量的计算能力。大模型训练效率取决于各种因素，如模型大小、训练数据大小、训练迭代次数和用于训练的硬件。通常，模型大小和训练数据越大，就需要越多的计算能力。

例如，具有超过1750亿个参数的GPT-3.5在微软Azure AI超算基础设施(由V100GPU组成的高带宽集群)上进行训练，总算力消耗约3640PF-days。也就是说，假如每秒计算一千万亿次，计算3640天，需要7至8个投资规模约30亿元、算力为500P的数据中心才能支撑运行。

作为算力的核心引擎，AI芯片的重要性不言而喻。据Transparency Market Research(TMR)研究显示，2021年全球AI芯片组市场估值约为455亿美元，该市场2022年至2031年，复合年增长率可能高达31.8%，到2031年，市场规模可能达到7174亿美元。这表明，AI芯片市场拥有着巨大的潜力和前景。

芯片厂商摩拳擦掌

伴随着大模型的火热，各大科技厂商在AI芯片领域可谓动作不断。

其中，英伟达先后推出了专门用于处理需要强大计算能力支持的密集型 HPC、AI和图形处理任务的V100;用于训练AI模型，执行推理任务或训练完成后的神经网络任务的A100，以及专为大型语言模型优化的处理器H100等多款用于AI训练的芯片。

英特尔在5月份公布了将于2025年推出的AI芯片“Falcon Shores”的一些新细节，包括：高带宽#FormatAID_0#(HBM3)规格将达到288GB，支持8bit浮点运算。另外，在英特尔2023年二季度财报电话会上，英特尔的CEO帕特・基辛格(Pat Gelsinger)表示，英特尔对AI持非常乐观的态度，并表示英特尔计划在未来制造的每一款产品中都融入AI。

AMD也不甘示弱，在2023年6月发布了一款新芯片MI300X，专为大模型和尖端人工智能应用而设计。AMD首席执行官苏姿丰(Lisa Su)表示，AMD正在增加AI相关的研发支出，公司已经制定AI战略，包括AI专用芯片和软件的开发，目标是让AI成为公司的重要增长动力。

可以说，大模型的不断涌现必将推动新一轮算力需求的爆发，同时也为AI芯片厂商带来了前所未有的机遇。

云服务商竞速新赛道？

但与此同时，巨大的算力需求也暴露出用于训练大模型的AI芯片全球供应链的局限性。人工智能行业分析师表示，持续的高端芯片短缺影响了大大小小的企业，包括领先的人工智能公司，而且至少在一年或更长时间内可能不会有实质性的改善。

例如，在供应AI芯片方面占据绝对市场份额的英伟达，正开足马力生产AI芯片，然而媒体报道称，小型和大型云提供商的大规模H100集群容量即将耗尽，H100的严重缺货问题至少会持续到2024年底。另据eBay网站显示，英伟达旗舰级芯片H100的售价已高达4.5万美元，而且货源较上半年也显著减少。

此外，大模型训练除了需要算力支撑外，还会造成大量的能源消耗。以GPT-3为例，这款大模型拥有1750亿个参数，训练时消耗28.4万千瓦时的能源。相比之下，拥有2500万个参数的计算机视觉模型ResNet-50只需要1500千瓦时的能量来训练。由此可见，大模型的功耗要求远高于其他AI应用。

受以上因素影响，不少云服务商在与芯片厂商合作的同时，也开始根据自身需求自研AI芯片。

值得一提的是，仅在2023年，就有多家云服务商公开了其自研AI芯片的最新进展。据媒体报道，微软正在开发代号为Athena(雅典娜)的AI芯片，旨在为大模型提供动力;4月初，谷歌公布了基于第四代TPU芯片，用于训练AI模型使用的超级计算机的最新细节，报道称，Tensor Processing Unit(TPU v4)，已应用于90%以上的人工智能训练工作;同月中旬，亚马逊云科技宣布Amazon EC2 Trn1n和Amazon EC2 Inf2实例正式可用;7月份，IBM高管Mukesh Khare在接受采访时表示，IBM正在考虑使用一种名为人工智能单元(Artificial Intelligence Unit)的芯片作为其新的“watsonx”云服务的一部分……

实际上，选择自研AI芯片，将给云服务商带来多方面的优势。一是可以使云服务商降低对芯片厂商的依赖程度;二是云服务商可以在每个业务流程中做到效率与成本的最优，降低资源闲置造成浪费的风险;三是云服务商还可以提供更多云服务器配置，为用户带来多种选择。

当然，这也意味着，芯片厂商要想从云服务商拥有自研芯片的领域获得订单，就需要付出更多努力。

写在最后：

当前，大模型正呈现蓬勃发展态势，越来越多的企业紧跟时代浪潮，打造自己的大模型。可以预见的是，随着大模型规模和复杂程度的不断提升，对于AI芯片的需求也会持续增加，AI芯片市场必将迎来发展的黄金时代。

而对于芯片厂商来说，还应在提升AI芯片产量的同时，不断推动技术的创新和突破，研发出针对特定领域的具有竞争优势的AI芯片。