定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《科技前瞻专题:AI ASIC:算力芯片的下一篇章-241216(42页).pdf》由会员分享,可在线阅读,更多相关《科技前瞻专题:AI ASIC:算力芯片的下一篇章-241216(42页).pdf(42页珍藏版)》请在薪酬报告网上搜索。
1、科技前瞻专题 AI ASIC:算力芯片的下一篇章 西南证券研究发展中心 海外研究团队 2024年12月 西南证券研究发展中心 海外研究团队 2024年12月 1 ASIC 可以适应不同的业务场景和商业模式的需求,可以满足大型CSP客户的诸多需求:1)内部工作负载的架构优化;2)更低的功耗,更低的成本;3)为AI工作负载定制的内存和I/O架构。随着AI应用的发展和生态逐步完善,AI算力集群特别是推理集群对加速计算芯片需求巨大,驱动ASIC快速成长。预计2028年数据中心 ASIC 市场规模将提升至429亿美元,CAGR为45.4%。ASIC针对特定算法和应用进行优化设计,在特定任务上的计算能力强
2、大,通常具有较高的能效比。目前ASIC以推理场景应用为主,并开始切入到部分训练环节。对照北美四大CSP的自研产品路线:Google的TPU出货目前以v5产品为主,2025年将量产TPU v6;亚马逊的ASIC产品包括Trainium和Inferentia,分别用于训练和推理环节;微软和Meta也推出了各自的ASIC产品Maia 100和MTIA。由于大型CSP的业务模型、应用场景等多通过自身云来承载,每个云承载了独特的应用和商业模型,包括内部应用(比如搜索引擎、社交媒体等)、SaaS服务(比如AI聊天机器人、Copilot等)、IaaS服务等,自研ASIC可适应自身不同的业务场景和商业模式的需
3、求。相关标的:1)博通:全球AI ASIC龙头,目前已向多家头部CSP客户批量供应ASIC产品,其在计算,存储,网络IO,封装等领域广泛的IP储备可为其XPU产品线赋能。2)Marvell:全球一线ASIC厂商,其定制计算产品包括AI加速芯片,针对安全、NIC/DPU、ARM计算、存储、视频和CXL功能的ASIC等,客户包括北美头部云厂商。风险提示:AI产业发展不及预期的风险;大型科技企业资本支出不及预期的风险;GPU竞争的风险。投 资 逻 辑 目 录 1 ASIC芯片市场前景 2 ASIC与GPU的对比 4 相关标的 3 北美四大CSP自研AI ASIC 2 3 大型CSP在资本支出方面投入
4、巨大,支出的同比增速在加快。北美四大CSP的Capex规模今年来增幅显著提升,2024年前三季度整体规模达到1708亿美元,同比增长56%,且yoy逐季加快(Q1-Q3 yoy分别为34.7%、64.6%、68%)。其中,微软530亿美元,yoy+78.5%;亚马逊551.7亿美元,yoy+44.6%;谷歌382.6亿美元,yoy+79%;Meta 243.9亿美元,yoy+20.7%。资本支出大幅提升的背后,是各家巨头在AI赛道上的竞赛、AI算力的稀缺、AI云赋能和AI生态的拓展等多方面驱动。1.1 大型CSP加速资本支出 数据来源:各公司公告,西南证券整理 北美四大CSP资本支出规模(亿美
5、元)4 大型CSP的业务模型、应用场景等很多通过自身的云来承载,每个云承载了独特的应用和商业模型,包括内部应用(比如搜索引擎、社交媒体等)、SaaS服务(比如AI聊天机器人、Copilot等)、IaaS服务等。ASIC 可以适应不同的业务场景和商业模式的需求。ASIC可以满足客户的需求:1)内部工作负载的架构优化;2)更低的功耗,更低的成本;3)为AI工作负载定制的内存和I/O架构。1.2 ASIC可适应不同的业务场景和商业模式的需求 数据来源:Marvell,西南证券整理 ASIC需要满足不同业务/应用的加速计算需求 5 目前在训练阶段,训练集群对加速计算芯片的需求已提升到万卡级别。随着AI
6、模型对训练需求的提升,未来10万卡级别指日可待。而在推理阶段,由于计算量与业务和应用密切相关,单个推理集群对加速计算芯片的需求低于训练集群,但推理集群的部署数量要远多于训练集群,推理集群的数量预计会达到百万级别。AI算力集群特别是推理集群对加速计算芯片的庞大需求,是ASIC快速成长的核心驱动力。1.3 训练和推理集群对加速计算芯片的需求 数据来源:Broadcom,Marvell,西南证券整理 训练和推理对AI算力集群的需求差异 6 据Marvell预测,2023年 ASIC 占数据中心加速计算芯片的16%,规模约为66亿美元;随着 AI 计算需求的增长,ASIC 占比有望提升至25%,预计2
7、028年数据中心 ASIC 市场规模将提升至429亿美元,CAGR为45.4%。1.4 ASIC市场规模预测 数据来源:650 Group,CignalAI,DellOro,LightCounting,Marvell,西南证券整理 数据中心定制加速计算市场规模 目 录 1 ASIC芯片市场前景 2 ASIC与GPU的对比 4 相关标的 3 北美四大CSP自研AI ASIC 7 8 ASIC针对特定算法和应用进行优化设计,在特定任务上的计算能力强大,例如在某些AI深度学习算法中实现高效的矩阵运算和数据处理。GPU具有强大的并行计算能力,拥有众多计算核心,可同时处理多个任务,在通用计算和图形处理方
8、面表现出色,适用于大规模的数据并行计算,如科学计算、图形渲染、视频处理等;但GPU在特定任务上的计算效率可能不如ASIC。ASIC通常具有较高的能效比,因其硬件结构是为特定任务定制的,能最大限度减少不必要的功耗。GPU由于其通用的设计架构,在执行特定任务时可能存在一些功耗浪费;但随着技术的进步,新一代GPU也在不断提高能效比。ASIC在处理特定任务时,能实现高吞吐量,数据处理速度快,可快速完成大量的数据处理工作。GPU具有较高的带宽和并行处理能力,在图形处理和通用计算中能实现较高吞吐量,但在处理一些复杂、非图形相关的特定任务时,其吞吐量可能会受到一定限制。ASIC在绝对算力和片间互联方面普遍低
9、于AI GPU,但ASIC的服务器间互联由于采用以太网为主,具有通用性强、生态开放、低成本等优势。2.1 ASIC硬件性能:针对特定算法和应用优化设计,具有较高能效比 数据来源:各公司官网,西南证券整理 市面主流GPU与ASIC规格对比 9 ASIC的单位算力成本更低,满足一定的降本需求。ASIC因其硬件结构是为特定任务定制的,减少了很多针对通用加速计算的不必要的硬件设计,其单位算力成本相比GPU或更低。谷歌TPU v5、亚马逊Trainium 2的单位算力成本分别为英伟达H100的70%、60%2.2 ASIC的单位算力成本更低,满足一定的降本需求 数据来源:各公司官网,西南证券整理 市面主
10、流GPU与ASIC算力成本对比 10 ASIC在软件生态上的优势:云厂商普遍具备较强的研发能力,为 ASIC 研发了配套的全栈软件生态,开发了一系列编译器、底层中间件等,提升 ASIC 在特定场景下的计算效率。部分第三方芯片厂商推出了开源平台,未来 ASIC 的软件生态将会愈发成熟和开放。ASIC在软件生态上的劣势:软件生态相对较为单一,主要针对特定的应用场景和算法进行优化。与 GPU 相比,ASIC 的编程难度较大,需要专业的知识和技能,开发工具和软件库相对较少。这使得开发者在使用 ASIC 时需要花费更多时间和精力进行开发调试。GPU软件生态的优势:软件生态丰富成熟,拥有广泛的开发工具、编
11、程语言和软件库支持,如英伟达的 CUDA 和 AMD 的 ROCm 等。开发者可使用熟悉的编程语言如 C、C+、Python 等进行开发,且有大量的开源项目和社区支持,方便开发者学习和交流。这使得 GPU 在各种应用场景中都能快速地进行开发和部署。GPU软件生态的劣势:软件生态在特定任务上的优化程度可能不如 ASIC。在一些对性能和功耗要求极高的特定场景中,需要进行大量的优化工作才能发挥出 GPU 的最佳性能。2.3 ASIC与GPU软件生态对比 数据来源:各公司官网,西南证券整理 11 ASIC在执行特定 AI 算法时的高性能和高能效的优势,对于大规模数据中心等对能耗敏感的场景非常重要。由于
12、 ASIC 不需要集成通用的功能模块,从而减少不必要的硬件资源浪费,如果AI应用场景明确且需求量大,ASIC在大规模生产后其单位成本可显著降低。但ASIC也有开发周期长且灵活性差的劣势,由于ASIC的设计和制造是针对特定算法和应用场景进行的,一旦设计完成其功能就固化下来,难以对芯片的功能和性能进行修改和升级,如果 AI 算法发生较大变化,ASIC 可能无法快速适应这种变化。此外,ASIC的生态系统还不够完善,开发者在使用 ASIC 时可能需要花费更多时间和精力去搭建开发环境、编写底层代码等,开发难度较大。ASIC更适用于推理:在推理阶段,AI模型已训练完成,需要对输入的数据进行快速的预测和分类
13、。此时对芯片的计算精度要求相对较低,但对计算速度、能效和成本等要求较高。ASIC正好满足这些需求,其高度定制化的设计能针对推理任务进行优化,以较低的功耗实现快速的推理计算。且在大规模部署的场景下,ASIC的成本优势更加明显,可以降低企业的运营成本。GPU更适用于训练:AI训练过程需要处理大量的数据和复杂的计算,对芯片的计算能力、内存带宽和并行处理能力要求非常高。GPU拥有众多的计算核心和高带宽内存,可以同时处理大量的数据样本和复杂的计算任务,能够加速 AI 模型的训练过程。且在训练过程中,需要不断地调整模型的参数和结构,GPU的灵活性使其更适合这种频繁的调试和迭代。2.4 ASIC以推理场景为
14、主,并开始切入到部分训练环节 数据来源:西南证券整理 目 录 1 ASIC芯片市场前景 2 ASIC与GPU的对比 4 相关标的 3 北美四大CSP自研AI ASIC 12 13 TPU(Tensor Processing Units,张量处理单元)是谷歌专为AI定制设计的ASIC,其针对大模型的训练和推理进行了优化。TPU适合各种使用场景,例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等。截至2024年,谷歌TPU已迭代6代产品。TPU v5p单个Pod可达8960颗芯片的集群规模,借助Multislice训练技术,TPU v5p可实现5万卡线性加速。最新一
15、代TPUv6 Trillium预计2024H2推出,TPU v6 FP16/BF16精度非稀疏算力可达926 TFLOPS,约为H100、B100的93%、53%。相比TPU v5e,TPU v6能效高出67%,峰值性能高出3.7倍。3.1 谷歌TPU:谷歌专为AI定制设计的ASIC 谷歌TPU历代产品性能 数据来源:谷歌,西南证券整理 14 TPU v4和TPU v5p算力集群采用3D torus(3D环面)架构和OCS,提供高速的网络连接,增强拓展性与互联效率。在TPUv4的架构中,每64颗TPU v4芯片组成4x4x4的立方体,每个CPU配备4颗TPU v4,64颗TPU v4和16颗C
16、PU放入一个机架,形成一个模块。一个模块有6个面的光路链接,每个面有16个链接,单模块共有96个光路连接到OCS。为了提供3D环面的环绕链接,对面的链接必须连接到同一个OCS。每个模块连接48个OCS(6162),最终实现所需的4096个TPU v4芯片互联。TPU v4算力集群的物理架构:一个PCB包含4个TPU v4,通过ICI链路连接到其他托盘(tray),16个托盘共同放入一个机架,形成4x4x4的3D模块结构。64个机柜共同组成4096颗芯片规模的算力集群。3.1.1 谷歌TPU算力集群能力 TPU立方体与3个OCS的连接 数据来源:谷歌,TPU v4:An Optically Re
17、configurable Supercomputer for Machine Learning with Hardware Support for Embeddings,西南证券整理 TPU v4封装和算力集群 15 TPU v4与英伟达A100在MLPerf基准测试中的性能对比:TPU v4在BERT上比A100快1.15倍,比IPU快约4.3倍;在ResNet上,TPUv4分别比A100和IPU快1.67倍和约4.5倍;运行MLPerf基准测试时,A100的平均功耗比TPU v4高1.31.9倍。虽然TPU v4单芯片算力为A100的88%,但在性能和功耗表现上要优于A100。3.1.2
18、谷歌TPU基准测试性能对比 TPU与A100在MLPerf训练中的性能对比 数据来源:谷歌,TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,西南证券整理 TPU与A100在MLPerf训练中的功耗对比 MLPerf Benchmark 英伟达A100 谷歌TPU v4 比率 BERT 380 W 197 W 1.93 ResNet 273 W 206 W 1.13 16 TPU的算力成本随着产品更新迭代也在持续优化。TPU v5e
19、的相对性价比(TFLOPs/$)是TPU v4的2.3倍,参考谷歌披露的TPUv4公开标价3.22美元/芯片/小时,TPU v5e的标价为1.2美元/芯片/小时,TPU v5e以更低的成本实现了更高的算力。TPU v5p训练LLM的速度比TPU v4快2.8倍,利用第二代SparseCores,TPU v5p训练嵌入密集模型的速度比TPU v4快1.9倍。3.1.3 谷歌TPU迭代推动大模型训练效率显著提升 谷歌TPU迭代推动大模型训练效率的显著提升 数据来源:谷歌,西南证券整理 17 AWS Trainium是AWS专门为超过1000亿个参数模型的深度学习训练打造的机器学习芯片。自2020年
20、以来,亚马逊发布了两代Trainium芯片。Trainium 1加速器提供190 TFLOPS的FP16/BF16算力,配有32GB的HBM,内存带宽820GB/s;而新一代Trainium2达到了430 TFLOPS的FP16/BF16算力,其HBM容量达到96GB,内存带宽为4TB/s。与第一代相比,AWS Trainium 2的性能提高了4倍,能效提高了1倍。每个Amazon Elastic Compute Cloud(Amazon EC2)Trn1实例部署多达16个Trainium加速器。AWS表示未来扩展到多达10万个芯片的EC2 UltraCluster集群中,从而高效训练大模型。
21、基于Trainium的Amazon EC2 Trn1实例与同类Amazon EC2实例相比,可节省高达50%的训练成本。Trainium已针对训练自然语言处理、计算机视觉和推荐器模型进行了优化,这些模型用于文本摘要、代码生成、问题解答、图像和视频生成、推荐和欺诈检测等各种应用程序。3.2.1 亚马逊自研AI芯片Trainium AWS Trainium 2 数据来源:AWS,Semianalysis,西南证券整理 AWS Trainium产品线 18 AWS Inferentia加速器由AWS设计,在Amazon EC2中以低成本为深度学习和生成式AI推理应用程序提供高性能。第一代AWSInf
22、erentia 1加速器为Amazon Elastic Compute Cloud(Amazon EC2)Inf1实例提供支持,与同类Amazon EC2实例相比,该实例的吞吐量可提高多达2.3倍,每次推理的成本可降低多达70%。2023年亚马逊发布了Inferentia 2芯片和Inf2实例,与Inferentia相比,AWS Inferentia 2加速器的吞吐量提高了4倍,延迟低至上一代的1/10。Inferentia 1加速器搭载4个第一代NeuronCore,配有8 GB的DDR4内存,每个EC2 Inf1实例最多有16个Inferentia 1加速器。Inferentia 2加速器
23、搭载了2个第二代NeuronCore,支持190 TFLOPS的FP16性能,配置32GB的HBM,与Inferentia 1相比,总内存增加了4倍,内存带宽增加了10倍;每个EC2 Inf2实例最多有12个Inferentia 2加速器。3.2.2 亚马逊自研AI芯片Inferentia AWS Inferentia 1架构 数据来源:AWS,西南证券整理 AWS EC2 Inf2实例性能 19 AWS Neuron是一款用于优化AWS Trainium和AWS Inferentia加速器上的机器学习性能的SDK。它支持在基于AWS Trainium的Amazon EC2 Trn1 实例上进
24、行高性能训练。对于模型部署,它支持在基于AWS Inferentia的Amazon EC2 Inf1实例和基于AWSInferentia2的Amazon EC2 Inf2实例上进行高性能和低延迟推理。AWS Neuron SDK与PyTorch和TensorFlow原生集成,确保客户可继续在这些热门框架中使用现有工作流程,并在Amazon EC2 Trn1、Inf1和Inf2实例上以最佳方式训练和部署ML/DL模型。开发者可将基于GPU的实例迁移到AWS Tranium中,客户只要修改少量代码即可实现海量数据训练,降低了训练成本。3.2.3 亚马逊AWS Neuron AWS Neuron S
25、DK工作流程 数据来源:AWS,西南证券整理 20 微软将Maia 100打造成定制的AI加速器,用于在Azure上运行OpenAI的模型和Copilot等AI工作负载。Maia 100采用台积电5nm制程和CoWoS-S封装技术,配备64GB(416GB)的HBM2E,内存带宽达1.8TB/s。Maia 100配备一个500MB的L1/L2缓存,芯片具有12倍400GbE的网络带宽,设计最大功耗700W TDP。Maia 100芯片在MXFP4数据格式下的性能达到 3200 TFLOPS,Int8下达到 1600 TFLOPS,BF16下达到 800TFLOPS,算力性能超过英伟达A100