大模型时代,AI芯片厂商的机遇与挑战

Yu |  2023-08-02

  ChatGPT的推出,可谓一石激起千层浪,不仅引起了人们的广泛关注,更吸引到众多玩家纷纷加入大模型产品的开发阵营。而不断涌现的大模型似猛兽般吞噬着算力,也给AI芯片市场带来了巨大变革。

  毫无疑问,2023年是大模型的迸发之年。横空出世的ChatGPT宛如导火索,迅速引燃了大模型的战火。据中国科学技术信息研究院《中国人工智能大模型地图研究报告》显示,从全球已经发布的大模型分布来看,中国和美国研发的大模型数量已经占全球总数的80%以上。其中,截至2023年5月底,国内10亿级参数规模以上基础大模型,至少已发布79个。而且,大模型数量还在快速增加。

大模型时代,AI芯片市场的机遇与挑战

  算力需求爆发

  大模型全称大型语言模型(LargeLanguageModel,LLM),是一类基于深度学习的人工智能模型,可以从海量数据集中获得的知识,可以根据从海量数据集中获得的知识来识别、总结、翻译、预测和生成文本和其他形式的内容。简单来说,大模型具有非常强大的学习和推理能力,可以提升人工智能的识别和预测能力,使之能够更加高效、准确地完成各项任务。

  不过,需要指出的是,大模型的训练过程是计算密集型的,并且需要大量的计算能力。大模型训练效率取决于各种因素,如模型大小、训练数据大小、训练迭代次数和用于训练的硬件。通常,模型大小和训练数据越大,就需要越多的计算能力。

  例如,具有超过1750亿个参数的GPT-3.5在微软Azure AI超算基础设施(由V100GPU组成的高带宽集群)上进行训练,总算力消耗约3640PF-days。也就是说,假如每秒计算一千万亿次,计算3640天,需要7至8个投资规模约30亿元、算力为500P的数据中心才能支撑运行。

  作为算力的核心引擎,AI芯片的重要性不言而喻。据Transparency Market Research(TMR)研究显示,2021年全球AI芯片组市场估值约为455亿美元,该市场2022年至2031年,复合年增长率可能高达31.8%,到2031年,市场规模可能达到7174亿美元。这表明,AI芯片市场拥有着巨大的潜力和前景。

  芯片厂商摩拳擦掌

  伴随着大模型的火热,各大科技厂商在AI芯片领域可谓动作不断。

  其中,英伟达先后推出了专门用于处理需要强大计算能力支持的密集型 HPC、AI和图形处理任务的V100;用于训练AI模型,执行推理任务或训练完成后的神经网络任务的A100,以及专为大型语言模型优化的处理器H100等多款用于AI训练的芯片。

  英特尔在5月份公布了将于2025年推出的AI芯片“Falcon Shores”的一些新细节,包括:高带宽#FormatAID_0#(HBM3)规格将达到288GB,支持8bit浮点运算。另外,在英特尔2023年二季度财报电话会上,英特尔的CEO帕特・基辛格(Pat Gelsinger)表示,英特尔对AI持非常乐观的态度,并表示英特尔计划在未来制造的每一款产品中都融入AI。

  AMD也不甘示弱,在2023年6月发布了一款新芯片MI300X,专为大模型和尖端人工智能应用而设计。AMD首席执行官苏姿丰(Lisa Su)表示,AMD正在增加AI相关的研发支出,公司已经制定AI战略,包括AI专用芯片和软件的开发,目标是让AI成为公司的重要增长动力。

  可以说,大模型的不断涌现必将推动新一轮算力需求的爆发,同时也为AI芯片厂商带来了前所未有的机遇。

  云服务商竞速新赛道?

  但与此同时,巨大的算力需求也暴露出用于训练大模型的AI芯片全球供应链的局限性。人工智能行业分析师表示,持续的高端芯片短缺影响了大大小小的企业,包括领先的人工智能公司,而且至少在一年或更长时间内可能不会有实质性的改善。

  例如,在供应AI芯片方面占据绝对市场份额的英伟达,正开足马力生产AI芯片,然而媒体报道称,小型和大型云提供商的大规模H100集群容量即将耗尽,H100的严重缺货问题至少会持续到2024年底。另据eBay网站显示,英伟达旗舰级芯片H100的售价已高达4.5万美元,而且货源较上半年也显著减少。

  此外,大模型训练除了需要算力支撑外,还会造成大量的能源消耗。以GPT-3为例,这款大模型拥有1750亿个参数,训练时消耗28.4万千瓦时的能源。相比之下,拥有2500万个参数的计算机视觉模型ResNet-50只需要1500千瓦时的能量来训练。由此可见,大模型的功耗要求远高于其他AI应用。

  受以上因素影响,不少云服务商在与芯片厂商合作的同时,也开始根据自身需求自研AI芯片。

  值得一提的是,仅在2023年,就有多家云服务商公开了其自研AI芯片的最新进展。据媒体报道,微软正在开发代号为Athena(雅典娜)的AI芯片,旨在为大模型提供动力;4月初,谷歌公布了基于第四代TPU芯片,用于训练AI模型使用的超级计算机的最新细节,报道称,Tensor Processing Unit(TPU v4),已应用于90%以上的人工智能训练工作;同月中旬,亚马逊云科技宣布Amazon EC2 Trn1n和Amazon EC2 Inf2实例正式可用;7月份,IBM高管Mukesh Khare在接受采访时表示,IBM正在考虑使用一种名为人工智能单元(Artificial Intelligence Unit)的芯片作为其新的“watsonx”云服务的一部分……

  实际上,选择自研AI芯片,将给云服务商带来多方面的优势。一是可以使云服务商降低对芯片厂商的依赖程度;二是云服务商可以在每个业务流程中做到效率与成本的最优,降低资源闲置造成浪费的风险;三是云服务商还可以提供更多云服务器配置,为用户带来多种选择。

  当然,这也意味着,芯片厂商要想从云服务商拥有自研芯片的领域获得订单,就需要付出更多努力。

  写在最后:

  当前,大模型正呈现蓬勃发展态势,越来越多的企业紧跟时代浪潮,打造自己的大模型。可以预见的是,随着大模型规模和复杂程度的不断提升,对于AI芯片的需求也会持续增加,AI芯片市场必将迎来发展的黄金时代。

  而对于芯片厂商来说,还应在提升AI芯片产量的同时,不断推动技术的创新和突破,研发出针对特定领域的具有竞争优势的AI芯片。

查看更多内容
正在加载
第三方账号登录
X
发布