定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《2025AI行业前瞻报告:Al行业关键时刻:瓶颈与机遇并存-241127(33页).pdf》由会员分享,可在线阅读,更多相关《2025AI行业前瞻报告:Al行业关键时刻:瓶颈与机遇并存-241127(33页).pdf(33页珍藏版)》请在薪酬报告网上搜索。
1、敬请参阅最后一页特别声明 1 报告摘要:2025 年,AI 将迎来模型与应用的双向奔赴:-模型侧模型侧,模型将朝大小模型互补的方向演进,聚焦增强推理能力以突破当前的 Scaling Law 瓶颈。大型预训练市场逐渐收敛,由 OpenAI、Meta 的 Llama、Mistral、阿里通义等主导,更多中小厂商则专注于特定任务的微调与Agent 业务。新兴技术路径如测试时训练、合成数据应用及感知量化训练将推动模型能力提升,而多模态融合模型在实时交互、音频与视觉生成领域展现出巨大潜力。-应用侧应用侧,渗透率持续快速上升,ChatGPT 活跃度持续攀升,视频生成模型如 Runway 和可灵国际版表现稳
2、定。我们持续看好如下应用方向:1)AI 程序员在企业中得到广泛应用,显著提升开发效率;2)数据重要性大幅提升推动SaaS 平台如 Snowflake、Datadog 和 Databricks 等业务高速增长;3)通用 SaaS 平台如 ServiceNow 和 Salesforce受益于大企业 AI 投入增加;4)AI 搜索有望在 2025 年诞生超级 APP;5)AI 眼镜作为综合体验最好的 AI 硬件新形态,预计将在 2025 年迎来大规模出货。-算力算力系统系统,虽然英伟达最新的 Blackwell 架构算力芯片仍在云端具备绝对统治力,但是随着系统复杂性的快速提升以及核心技术及零部件供给
3、瓶颈,硬件迭代速度可能在未来趋缓。这将给 AMD 等竞争对手以及云厂商自研芯片带来更多的发展机会。-电力基础设施电力基础设施,随着单数据中心规模的不断扩大,局部供电压力激增。独立于传统居民/工业电网的核电站成为潜在最优解决方案。美国几大云厂亚马逊、谷歌、微软都在积极寻求核电解决方案。核电的落地速度成为制约 AI 进一步发展的重要因素。-端侧端侧 AIAI,随着模型小型化趋势及应用场景的快速丰富,我们预计端侧我们预计端侧 AIAI 在在 20252025 年也将迎来大发展年也将迎来大发展。在硬件、软件、生态、云等所有环节都可控并有所参与的手机厂商更容易成功,其中苹果、谷歌更为完整。苹果在硬件、软
4、件、生态环境、云服务上具备极强竞争力。谷歌有原生安卓支持、Gemini 强大的模型能力,但在硬件上自有品牌Pixel 渗透率低,更多需要依赖三星端侧硬件拓展用户。-AI PCAI PC 领域领域:1)未来 X86 笔电市场竞争将会更为激烈,英特尔和 AMD 产品在性能、续航、适配性、生态方面各有千秋。2)X86 台式机领域,由于功耗的重要性大幅降低,AMD 有望依靠更出色的 CPU 性能提升市占率;3)AIPC 的渗透,重点看 ARM 芯片。苹果的优势最明显,高通 X Elite 短时间内很难与苹果竞争 ARM 架构 AI 笔电的市场。未来英伟达&联发科合作研发的处理器也会带来更多看点。ARM
5、 架构芯片的成熟有望推动 Windows 操作系统向更适合AI 的方向进化。风险提示 芯片制程发展与良率不及预期 中美科技领域政策恶化 智能手机、PC 销量不及预期 行业深度研究(深度)敬请参阅最后一页特别声明 2 扫码获取更多服务 内容目录内容目录 一、AI 模型趋势:大小模型互补,预训练市场快速收敛,Scaling Law 新方向增强推理需求.3 1.1 预训练和现实数据触顶,后训练时代将开启新的 Scaling Law 方向.3 1.2 方向一:用推理代替思考.3 1.3 方向二:测试时训练.5 1.4 方向三:合成数据.6 1.5 方向四:模型量化逐渐失效.7 1.6 方向五:多模态融
6、合模型发展空间大.7 二、AI 应用渗透率持续增长,落地场景多点开花.9 2.1 AI 应用活跃度持续增长,应用场景得到认可,进入快速获客期.9 2.2 AI 程序员是确定性的强需求.11 2.3 AI 搜索是 25 年最有希望诞生超级 APP 的赛道.12 2.4 AI 为通用型和数据类 SaaS 平台打开增长空间.12 2.5 AI 眼镜是 AI 应用落地的最佳硬件,25 年将迎来发布潮和出货量大增.13 三、算力系统面临“木桶效应”挑战,供给端瓶颈或成主要矛盾.15 3.1 人工智能算力系统面临诸多挑战.15 3.2 单卡算力升级速率落后于模型迭代速率,Blackwell 延后预示系统摩
7、尔进一步降速.15 3.3 数据中心电力消耗呈指数级增长,核电或成最优解决方案.18 四、大模型推理服务大规模部署,如何影响硬件市场?.20 4.1 大模型性能提升,推动推理算力需求加速增长.20 4.2 服务器推理:内存墙难破,HBM 容量仍为竞争要点.21 4.3 端侧推理:单用户推理导致内存端高成本,端云结合将是未来趋势.21 五、AI 设备销量正在提升.23 5.1 AI 手机焦点在于旗舰机.23 5.2 AI PC 的竞争将会越发激烈.26 5.3 AI 设备产业链随着 AI 加入将迎来更新换代.29 六、智能驾驶&机器人行业正在摸索技术路径.31 6.1 智能驾驶:模块化方案与端到
8、端方案之争.31 6.2 具身智能想要放量需要更实用的场景及更低的价格.31 风险提醒.32 行业深度研究(深度)敬请参阅最后一页特别声明 3 扫码获取更多服务 一、AI 模型趋势:大小模型互补,预训练市场快速收敛,Scaling Law 新方向增强推理需求 2024 年大模型厂商推出模型的速度仍在加快,大模型与小模型共存仍是解决模型能力上限和端侧推理的方案,各大模型厂商也会推出几 B 到 TB 级别的模型。随着大型模型训练成本的不断提升,且有更多像 Meta、Mixtral、阿里通义等公司的开源,模型预训练市场的玩家会快速缩小,针对特定任务的微调或者是 Agent 业务将会是更多中小模型厂商
9、发展的重点。在当前算力和数据 Scaling Law 放缓的情况下,找到新的 Scaling Law 方向是明年模型发展的重点。1.11.1 预训练和现实数据触顶,后训练时代将开启新的预训练和现实数据触顶,后训练时代将开启新的 Scaling Scaling LawLaw 方向方向 从 24 年年初开始有论文提出模型能力提升速度随着参数规模的扩大而放缓,到 11 月份OpenAI 前首席科学家 Ilya 在公开场合表示简单地增加数据和计算能力来扩大当前模型规模的时代已经结束。但是,预训练的 scaling law 放缓不代表大模型发展速度和算力需求的放缓,就像是芯片 gate 的实际尺寸停滞在
10、 20nm 并不影响等效 gate 密度达到目前的3nm,广义的摩尔定律甚至比 20 年前更快,大模型也需要找到具有更高的投入回报比的新方向。1.21.2 方向一:用推理代替思考方向一:用推理代替思考 OpenAI 于 2024 年 9 月 12 日发布了新的 AI 模型系列 o1,这是 OpenAI 首个具有逻辑推理能力的模型系列,特别擅长处理复杂的推理任务,尤其是在科学、技术、工程和数学(STEM)领域的问题,在这些领域其评测分数都远远超过 GPT-4o。o1 模型将计算资源从大规模预训练数据集重新分配到训练和推理阶段,增强了复杂推理能力,在费用和成本上也进行了重分配,使用 o1-prev
11、iew 的 API 相比于 GPT-4o 输入 tokens 价格是 GPT-4o 的 5 倍(每百万 tokens$15.00:$3.00),输出 tokens 差距 o1-preview 的价格是 GPT-4o 的 6倍(每百万 tokens$60.00:$10.00)。图表图表1 1:OpenAI o1OpenAI o1 模型测评分数对比模型测评分数对比 来源:OpenAI、国金证券研究所 行业深度研究(深度)敬请参阅最后一页特别声明 4 扫码获取更多服务 图表图表2 2:阿里通义阿里通义 MacroMacro-o1o1 模型的原理模型的原理 来源:Macro-o1 论文、国金证券研究所
12、 在 OpenAI 发布 o1 之后,其他大模型公司包括国内的 Deepseek 和阿里通义也发布了类似通过增强推理阶段的计算资源来提高能力的模型,并且开始有论文揭露底层技术。阿里发布的 Marco-o1 由思维链(CoT)微调、蒙特卡洛树搜索(MCTS)、自反机制和创新性推理策略驱动,专门针对复杂的现实世界问题解决任务进行了优化。同时,阿里在 Open-o1 数据集的基础上进行了筛选,并且使用合成数据方法合成了一个新的 Macro-o1 数据库,用来监督微调。最终,在应用了蒙特卡洛树微调后,模型在评测上实现了大幅超过了基底模型 Qwen2-7B 的成绩。图表图表3 3:阿里通义阿里通义 Ma
13、croMacro-o1o1 模型测试成绩大幅领先基底模型模型测试成绩大幅领先基底模型 来源:Macro-o1 论文、国金证券研究所 Deepseek 也推出了一款名为 DeepSeek-R1,对标 OpenAI 的 o1 模型,同样是采用思维链技术,可以将复杂任务分解为多个步骤逐一解决,在 AIME 和 MATH 两项基准测试中,R1 的表现与 o1 相当或更优,但是仍未公布论文和技术详细信息。行业深度研究(深度)敬请参阅最后一页特别声明 5 扫码获取更多服务 图表图表4 4:DeepSeekDeepSeek-R1R1 在复杂问题测试成绩与其他模型对比在复杂问题测试成绩与其他模型对比 来源:D
14、eepSeek 官网、国金证券研究所 1.31.3 方向二:测试时训练方向二:测试时训练 测试时训练(Test-Time Training)是 24 年 11 月份由 MIT 提出的另一条实现大模型Scaling Law 的路线,这是一种在推理过程中根据测试输入动态更新模型参数的技术。它不同于标准的微调,因为它在极低数据的情况下运行,通常对单个输入或一两个上下文中的标记示例使用无监督或监督目标。相当于对推理过程中的数据进行调整后合成测试时训练数据用来更新模型的参数,这种方法对抽象推理的问题效果较好,MIT 团队在 Llama3 8B 模型上使用这种方法后,相比于 1B 的基础微调模型,准确率提
15、高了 6 倍;在 8B 参数的语言模型上应用 TTT,在 ARC 公共验证集上实现了 45%的准确率,比 8B 基础模型提高了近 157%。但是该方法仍在初期试验阶段,对计算资源要求也很高,所以论文的评估主要在 ARC 公共验证集的一个子集上进行,并没有提交到官方排行榜。行业深度研究(深度)敬请参阅最后一页特别声明 6 扫码获取更多服务 图表图表5 5:测试时训练测试时训练(TTTTTT)合成数据的原理)合成数据的原理 来源:Test-Time Training 论文、国金证券研究所 1.41.4 方向三:合成数据方向三:合成数据 合成数据在 LLM 开发中的应用正在迅速扩大,从预训练到微调阶
16、段都发挥着重要作用。它不仅解决了数据获取和隐私问题,还能有针对性地增强模型在特定任务上的表现。OpenAI的模型训练和 Alignment 项目大量使用合成数据;Anthropic 公司在 Claude 系列模型中采用了 Constitutional AI(CAI)方法,通过合成数据显著提升了模型的稳健性,使得Claude 模型能够更准确地识别和拒绝回答不确定的问题;阿里通义的 Qwen 系列则采取了一种独特的方法,利用早期版本的 Qwen 模型来生成合成数据,用于增强预训练数据集的质量,同时在训练过程中创新性地使用合成数据生成多个候选响应,再通过奖励模型筛选出最优答案;Apple 的 AFM
17、 模型也在这一领域做出了重要尝试,特别是在预训练阶段使用合成数据来延长上下文长度,并且特别关注数学和代码任务相关的高质量合成数据生成。图表图表6 6:大模型训练中合成数据占比不断提升大模型训练中合成数据占比不断提升 来源:Gartner、国金证券研究所 据 Gartner 预测,到 2030 年,合成数据将在 AI 模型中完全超过真实数据的使用,而合成数据的生成过程需要消耗大量计算资源。以使用 OpenAI 的模型为例,使用 GPT-4 生成十万个 JSON 合成数据元素预计成本高达 506 美元,随着现实世界数据被逐渐发掘用尽,合成数据消耗的推理资源会快速上升。行业深度研究(深度)敬请参阅最
18、后一页特别声明 7 扫码获取更多服务 1.51.5 方向四:模型量化逐渐失效方向四:模型量化逐渐失效 量化是把模型里的数字用更少的位数表示,比如用整数代替小数,这样计算更快,占用的空间也更小。在模型推理时使用量化后的模型是主流的节约推理成本的方法,但是在 24年 11 月,哈佛和斯坦福大学等顶尖学府学者发布的Scaling Laws for Precision引起了大模型行业科学家的广泛讨论,研究发现在预训练阶段使用更低精度的参数会会降低模型的有效参数数量,而推理量化后的模型的性能下降会随着模型训练数据量的增加而增加,意味着数据太多反而对推理低精度模型有负面影响。论文还提出了感知量化训练技术,
19、是一种有效的模型量化技术,模型仍然使用高精度(例如 FP32 或 BF16)进行训练,但在每次前向和反向传播过程中,都会模拟低精度量化的操作,感知到降低哪些部分的参数精度对模型效果的影响较小,可以在保持较高推理性能的同时降低模型的计算和存储成本。图表图表7 7:训练后量化和训练时量化效果对比训练后量化和训练时量化效果对比 来源:Scaling Laws for Precision、国金证券研究所 1.61.6 方向五:多模态融合模型发展空间大方向五:多模态融合模型发展空间大 尽管各大厂商如 Meta 和阿里巴巴积极布局多模态大模型领域,分别推出了 Llama 3.2 系列(包括其首个大型多模态
20、模型)以及通义 Qwen-VL 升级版(Qwen-VL-Plus 和 Qwen-VL-Max),在图像推理等能力上取得了显著进展,但在整体架构设计、性能效果以及支持的模态数量等方面,相较于 OpenAI 推出的 GPT-4o 仍存在明显差距,比如 Llama 3.2 仍然是将音频模型叠加到大语言模型上获得的多模态能力,而 GPT-4o 具备的以下能力仍然是多模态模型的标杆:1.多模态理解与生成:支持文本、图像、音频、视频理解,文本、图像、音频生成 2.统一模型:使用单一神经网络处理所有模态,而非多个独立模型的管道 3.端到端训练:跨文本、视觉和音频进行端到端的联合训练 4.实时交互:音频输入响
21、应时间平均为 320 毫秒,接近人类对话反应速度,支持近实时的语音对话和翻译 行业深度研究(深度)敬请参阅最后一页特别声明 8 扫码获取更多服务 图表图表8 8:GPTGPT-4o4o 多模态能力展示,实时逐步指导用户解答习题多模态能力展示,实时逐步指导用户解答习题 来源:OpenAI、国金证券研究所 多模态模型的发展可以给予 AI 应用和 AI 硬件的落地更大的想象空间,比如可以根据上下文来理解和生成不同语气语调的音频;使用语音直接进行图片编辑;在 AI 硬件上直接进行实时对话,将看到或者听到的内容实时翻译成另一种语言;实时逐步的对眼前的题目进行解答等。行业深度研究(深度)敬请参阅最后一页特
22、别声明 9 扫码获取更多服务 二、AI 应用渗透率持续增长,落地场景多点开花 2.12.1 AIAI 应用活跃度持续增长,应用场景得到认可,进入快速获客期应用活跃度持续增长,应用场景得到认可,进入快速获客期 从 AI 应用的日活跃度数据看,ChatGPT 活跃度持续增长,其他 AI 聊天助手应用也保持增长态势,AI 应用渗透率不断提升。从国内市场看,头部应用如 Kimi、文心一言、通义千问、豆包等的活跃度也在不断提高,AI 聊天助手应用场景得到用户认可,进入快速获客期。图表图表9 9:聊天助手类应用周均日活变化聊天助手类应用周均日活变化 来源:SimilarWeb、国金证券研究所 视频模型在快
23、速发展阶段,闭源模型如 Runway 和可灵的活跃度较为稳定,新发模型对应用活跃度仍然有较大的提升。快手的可灵国际版实现了 AI 模型出海,属于现在可用模型中在海外的评价较高的视频生成模型。开源的视频模型也在出现,包括 Meta 的 Movie Gen和 Mochi 1。视频模型对算力需求的提升符合我们的预期,比如未量化版本的 Mochi 需要4 个 H100 才能进行推理。行业深度研究(深度)敬请参阅最后一页特别声明 10 扫码获取更多服务 图表图表1010:视频生成类应用周均日活变化视频生成类应用周均日活变化 来源:SimilarWeb、国金证券研究所 音乐和音频模型应用的市场空间仍有局限
24、,部分新应用昙花一现,在爆发增长后用户没有留存,活跃度持续下滑如语音合成应用 Murf 和音乐生成应用 Udio。但是部分应用如音乐生成应用 Suno 和语音视频融合应用 Heygen 的活跃度较为稳定,用户留存率较高。随着多模态模型的发展,音乐和音频应用的市场空间会被进一步压缩,创意和易用性是这类应用发展和生存的关键。行业深度研究(深度)敬请参阅最后一页特别声明 11 扫码获取更多服务 图表图表1111:音乐和音频模型应用音乐和音频模型应用周均日活变化周均日活变化 来源:SimilarWeb、国金证券研究所 2.2 2.2 AIAI 程序员程序员是是确定性的强需求确定性的强需求 图表图表12
25、12:AIAI 代码生成对不同任务效率的提升代码生成对不同任务效率的提升 来源:麦肯锡、国金证券研究所 行业深度研究(深度)敬请参阅最后一页特别声明 12 扫码获取更多服务 AI 代码生成已经从概念验证阶段进入企业实际应用阶段,并在提升研发效率方面展现出明显价值。根据麦肯锡的调查,使用生成式 AI 进行代码文档编写时,可以节省约 45%到50%的时间;在代码生成任务中,节省时间在 35%到 45%之间;而代码重构的时间节省幅度较小,为 20%到 30%。对于高复杂性任务,生成式 AI 的效果最弱,时间节省不足 10%。整体来看,生成式 AI 在较简单的任务上表现出显著的效率提升,而在处理复杂任
26、务时,优势相对较小。从海内外科技公司来看,AI 程序员的渗透率也在不断提升,Google 在财报会上公布,目前超过 25%的新代码是由 AI 辅助生成的,使用 AI 工具的开发者在软件开发任务上的效率提升了 21%。Meta 内部广泛部署的 CodeCompose 工具为数万名开发者提供代码建议和片段,其建议的接受率达到 22%,约 8%的代码来自于这些建议的采纳。在中国市场,阿里巴巴的通义灵码(Tongyi Lingma)工具获得了 20%的采用率,显著提升了开发效率,特别在测试代码实施方面减少了超过 70%的工作量。百度的智能代码助手 Comate(基于文心一言大模型)更是贡献了该公司 2
27、7%的日常新增代码。2.3 2.3 AIAI 搜索搜索是是 2525 年最有希望诞生超级年最有希望诞生超级 APPAPP 的赛道的赛道 在大模型上加入搜索功能,可以丰富模型的知识库,缓解模型无法获取新知识和幻觉问题的出现,是最有希望诞生超级 APP 的赛道。Perplexity 作为主打 AI 搜索的应用,活跃度数据再不断提升,同时 ChatGPT 推出的 Search 功能助力其活跃度再创新高,说明 AI 搜索市场仍在快速发展期。Google 作为传统搜索引擎厂商,也在搜索中加入了 AI Overview,对搜索结果进行总结,同时在 AI Studio 中也提供了 AI 搜索功能,其日活跃度
28、目前还未受到负面影响,但 AI 搜索工具都在积极替代浏览器默认搜索引擎,我们认为随着 AI 搜索渗透率提高,传统搜索引擎厂商会受到更严峻的挑战。2.42.4 AIAI 为通用型和数据类为通用型和数据类 SaaSSaaS 平台打开增长空间平台打开增长空间 在大模型时代,数据的重要性在快速提高,数据不仅是 AI 训练的基础,更是创新、性能提升和商业成功的关键。数据的管理与安全 SaaS 平台业务迎来高速增长期。例如,Snowflake 产品收入达到 9.003 亿美元,同比增长 29%,产品收入超过 100 万美元的客户相比上一季度的 510 个增加到 542 个,同样保持着高增长的还有 Data
29、dog 和还未上市的Databricks。除了数据类 SaaS 平台,通用类 Horizontal SaaS 平台如 ServiceNow、Salesforce 也积极在业务中加入 AI 功能,比如 ServiceNow 引入了生成式 AI 功能,如 Now Assist 和 Generative AI Controller,这些工具帮助企业提高工作效率,简化项目部署,并提供智能化的用户体验,Salesforce 也发布了 Einstein AI 平台,集成了多种人工智能技术。图表图表1313:不同类型的不同类型的 SaaSSaaS 公司列表公司列表 来源:OpenView、国金证券研究所 我
30、们认为,AI 为 SaaS 公司带来了新的功能和机会,使其能够开发出以前无法实现的解决方案,这种创新能力帮助企业在竞争激烈的市场中保持领先地位,并通过提供更具吸引力的产品来扩大市场份额。对于细分领域定制化的 Vertical SaaS,我们认为机会会远小于通用型 SaaS,垂类 SaaS 应用本身市场空间有限,并且随着 AI Agent 的成熟,其业务会受到更大的冲击。行业深度研究(深度)敬请参阅最后一页特别声明 13 扫码获取更多服务 2.2.5 5 AIAI 眼镜眼镜是是 AIAI 应用落地的最佳硬件,应用落地的最佳硬件,2525 年将迎来发布潮和出货量大增年将迎来发布潮和出货量大增 AI
31、 落地需要硬件载体,目前主要包括 1)传统的消费电子产品,如手机、PC、智能音箱等;2)创新型消费电子产品,如 AI Pin、Rabbit R1 等;3)眼镜形态的 AI 硬件。Al 赋能传统消费电子,基于现有的成熟硬件,推动传统硬件 AI 化,继承传统硬件原有的生态,有助于 AI 应用落地。对于创新型产品,可以探索新的硬件形态,想象力丰富,但需要市场和消费者的验证,无论是基于传统的消费品嵌入电子硬件,还是针对 AI 应用构建 AI 专用硬件,对于用户的使用习惯、接受程度都是一个很大的挑战。图表图表1414:探索过程中的探索过程中的 AIAI 设备类型设备类型 来源:Friend、Limitl
32、ess、Rabbit、AI Pin 官网、国金证券研究所 图表图表1515:AIAI 眼镜技术发展路线眼镜技术发展路线 来源:国金证券研究所 从输入输出方式上看,眼镜是最靠近人体三大重要感官的穿戴设备:嘴巴、耳朵和眼睛。嘴巴是语言输出器官、耳朵是语言接受的器官、眼睛则是人类最重要的信息摄入器官,人类 80%的信息来源于视觉。眼镜是人类穿戴设备和电子设备中最靠近这三大感官的群体,是 AI 最好的硬件载体,可以非常直接和自然的实现声音、语言、视觉的输入和输出。目前具备显示功能的眼镜重量仍然会远远超过日常佩戴的眼镜,但是只具备视觉和音频的眼镜已经可以做到接近日常佩戴眼镜的重量。并且目前大模型发展的方
33、向也是多模态和实时性,作为聊天助手返回的内容主要还是文本,但是可以理解图片、视频、音频,只具备视觉和音频的眼镜提供的交互方式契合大模型的使用方式,为目前 Al 应用最好的载体。行业深度研究(深度)敬请参阅最后一页特别声明 14 扫码获取更多服务 图表图表1616:已经发布的已经发布的 AIAI 眼镜外观和形态眼镜外观和形态 来源:Meta、Rokid、LookTech 官网、国金证券研究所 从具体产品看,Meta 与 Rayban 联名推出的眼镜在 2024 年 4 月开放 Meta AI 功能有已经有放量的趋势,到 2024 年 Q2 有约 80 万的出货量。国内厂商也在积极布局类似形态的
34、AI眼镜,2025 年将进入 AI 眼镜大量出货元年,并且随着光波导技术的成熟和模型多模态和实时性能力的进步,AI 眼镜会有更好的体验。我们预计明年率先大量出货的仍是不具备显示功能的类 Meta Rayban 形态眼镜,随着光波导中光机和波导片成本的下降和体积的缩小,后年具备显示功能的 AI 眼镜有大量出货的机会。图表图表1717:Meta RaybanMeta Rayban 季度出货量(台)季度出货量(台)来源:IDC、国金数字未来实验室、国金证券研究所 行业深度研究(深度)敬请参阅最后一页特别声明 15 扫码获取更多服务 三、算力系统面临“木桶效应”挑战,供给端瓶颈或成主要矛盾 3.13.
35、1 人工智能人工智能算力系统算力系统面临诸多挑战面临诸多挑战 随着人工智能的发展,模型的规模和复杂性呈现出指数级增长,自 2012 年 AlexNet 问世以来,算力需求迅速攀升。AlexNet 作为深度学习在计算机视觉领域的开创性成果,训练时依赖于两块 NVIDIA GTX 580 GPU,耗费约 470 petaFLOP,标志着深度学习时代的来临。而此后模型的扩展速度令人瞩目:2020 年推出的 GPT-3 模型拥有 1750 亿参数,训练消耗约 3.14x108 petaFLOP,GPT-4 进一步升级至 1.8 万亿参数,依赖 25000 个 A100 GPU,计算需求达 2.1x10
36、10 petaFLOP,耗时 90 至 100 天,硬件与能源的需求达到新高度。在最新的超大规模模型Gemini Ultra 上,算力要求再度跃升至 5x1010 petaFLOP。谷歌为此部署了大量 TPUv4 和 TPUv5e 加速器,以应对计算需求和硬件挑战。Gemini Ultra的训练使用了多个数据中心中跨集群的 TPUv4 加速器,配置在 4096 个芯片组成的SuperPod 中。每个 SuperPod 通过高速互联进行数据通信,并利用专用光开关在大约 10 秒内动态重配置为 3D 环面拓扑。图表图表1818:人工智能模型训练所消耗算力需求快速提升人工智能模型训练所消耗算力需求快
37、速提升 来源:Epoch、国金证券研究所 随着超大规模模型对硬件资源的需求不断增加,系统故障率也相应上升,平均故障间隔时间成比例下降。谷歌通过减少抢占和重新规划的比率尽量减少硬件故障的影响,但在如此规模的硬件部署中,故障不可避免。Gemini Ultra 的计算复杂性推动了多模态 AI 架构和大规模硬件集群的极限,尽管当前的硬件性能接近瓶颈,但要满足这种庞大模型的训练需求仍需数月的时间和大量的能源投入。然而,单卡算力、互联性能和能源供应的发展速度已逐渐趋缓。即便硬件性能逐年提升,模型规模的增长速度却更为迅猛,带来了计算瓶颈和能耗压力。因此,AI 模型的未来发展将面临这些硬件和能源限制的制约,解
38、决这些关键短板将成为 AI 系统持续迭代和优化的核心挑战。3.3.2 2 单卡算力升级单卡算力升级速率速率落后于模型迭代速率落后于模型迭代速率,BlackwellBlackwell 延后预示系统摩尔进一步降速延后预示系统摩尔进一步降速 在我们之前的报告中,我们已经指出,当前基于传统摩尔定律的发展速度(即单芯片晶体管数量的扩展速度)已经远远落后于人工智能模型对于算力的需求。最新的 Epoch AI 数据表明,当前一些知名模型的训练所需算力仅需大约六个月就能实现翻倍。我们对这些数据进行了更深入的分析后发现,如今更为主流的多模态大模型(例如Gemini Ultra 和 GPT-4)在算力需求方面的增
39、长趋势更为陡峭。这些模型的算力需求翻倍时间已经缩短到不到六个月。与此形成鲜明对比的是,传统摩尔定律所定义的晶体管数量翻倍周期是 18 个月,这意味着上述多模态大模型的算力需求增长速度已经显著超越了传统芯片晶体管数量增长速度。换句话说,大模型算力需求的增长速度已经明显领先于传统摩尔定律所能支撑的硬件性能提升速度。行业深度研究(深度)敬请参阅最后一页特别声明 16 扫码获取更多服务 图表图表1919:多模态大模型训练所需算力增长速率显著快于普通大模型多模态大模型训练所需算力增长速率显著快于普通大模型 来源:Epoch、国金证券研究所 系统摩尔是业界为应对摩尔定律放缓的解决方案。英伟达最新的 Bla
40、ckwell 架构的核心特性之一是其多芯片模块(MCM)设计,B200 芯片将两个接近光罩极限面积的芯片通过 NV-HBI 技术连接在一起,该技术基于 NVLink5.0 协议,提供高达 10TB/s 的带宽。图表图表2020:BlackwellBlackwell 芯片接近两倍光罩极限面积芯片接近两倍光罩极限面积 图表图表2121:BlackwellBlackwell 出于出于成本考虑采用成本考虑采用 CoWoSCoWoS-L L 封装封装 来源:igorslab、国金证券研究所 来源:anyscilicon、国金证券研究所 从单卡性能来看,以芯片面积增益进行归一化计算后,空气冷却的 B200
41、 在 FP16 FLOPS 性能上每单位芯片面积仅提升了 14%,这与人们对全新架构的期望相去甚远。这是因为大部分性能提升主要依赖于更大的芯片面积和量化优化。由于计算芯片(die)的面积不断扩大,封装所需的中介层面积也相应增加,导致整体成本上升。与采用完整硅中介层的 CoWoS-S 技术相比,CoWoS-L 技术通过在有机基板中局部嵌入硅桥的方式,减少了硅的使用量,从而有效降低了成本。这也是 Blackwell 选择采用CoWoS-L 封装技术的主要原因。但与此同时带来的,是工艺上的新难题,Cerebras 联合创始人指出,此次 Blackwell 延后的核心原因是,GPU 之间以及 HBM
42、和 GPU 之间的局部硅桥的位置校准出现了偏差,尤其是在 Blackwell 所采用的接近两倍光罩极限面积的中介层上,其工艺难度进一步增加,另外,计算 die、CoWoS-L 中局部硅桥、以及 CoWoS-L 中介层中的 RDL 部分三者的热膨胀系数之间的差异也会导致封装结构出现弯曲,影响系统性能。发布会上英伟达表示 GB200 相较于 H200 在 1.8T 参数的 GPT-MoE 模型上的推理性能将提升 30 倍,然而,这一数据是基于一个非常特定的最佳场景得出的。需要明确的是,这一场景在理论上确实可以实现,但并不能完全代表市场中的普遍应用场景。解释 30 倍性能提升的一个关键因素是将 GB
43、200 NVL 在 FP4 下的性能与 H200 和 B200 在 FP8 量化下的性能进行对比,而且比较基准选取的是最不适合 H200 的 64GPU 张量并行,根据行业深度研究(深度)敬请参阅最后一页特别声明 17 扫码获取更多服务 Semianalysis 模拟分析,这一情形下实际性能提升仅有 18 倍,如果在更贴近现实的情况下,性能提升幅度将更低。图表图表2222:发布会上英伟达表示发布会上英伟达表示 GB200GB200 的的 GPTGPT-MoEMoE 推理推理性能能够达到性能能够达到 H200H200 的的 3030 倍倍 来源:英伟达、Semianalysis、国金证券研究所
44、我们认为 Blackwell 因设计问题延迟出货已经反映出了数据中心高性能计算芯片在制造段继续迭代的瓶颈,尽管英伟达可以通过节点内和节点外互联提升总体系统性能,但我们认为单卡算力(计算性能/功耗)的提升仍旧是必要的,节点内 GPU 间通信(NVLink)慢于片上通信,节点间通信(Infiniband/Ethernet)又显著慢于节点内通信,导致并行化带来的算力提升是边际递减的,单卡 PPA 的提升仍是后续系统性能继续提升的关键。图表图表2323:H200H200 张量并行系统中,节点间互联比例越高,整体性能越低张量并行系统中,节点间互联比例越高,整体性能越低 来源:Semianalysis、国
45、金证券研究所 当前市场对英伟达的预期相当充分,根据彭博一致预期,市场预期英伟达 FY2025Q4 至FY2026Q3 毛利率分别为 73.5%、72.2%、72.9%、74.2%,说明市场对未来三个季度 Blackwell研发部署对毛利率的压制是有所认知的,但认为 FY2026Q3 对毛利率的压力将有所缓解。行业深度研究(深度)敬请参阅最后一页特别声明 18 扫码获取更多服务 图表图表2424:英伟达预计将在英伟达预计将在 20262026 年发布并出货年发布并出货 Rubin GPURubin GPU 来源:nextplatform、国金证券研究所 从时间线上来看,FY2026Q3 英伟达或
46、将开始出货 Blackwell Ultra,Blackwell Ultra 即为 Blackwell 的 HBM 升级版本,技术上难度相对 Blackwell 并没有显著提高,市场预期FY2026Q3 毛利率有所回升是合理的。我们不同于市场的观点是,应当警惕下一代产品即Rubin 不能如期发布的风险,对英伟达的下一代产品来说,从芯片制造的角度,我们认为无论是从单位面积晶体管缩放还是先进封装角度,实现大幅度性能提升的难度都不容小觑。3.33.3 数据中心电力消耗呈指数级增长,数据中心电力消耗呈指数级增长,核电或成最优解决方案核电或成最优解决方案 根据 IDC 数据,24 年云服务厂商数据中心容量
47、达到 28240 兆瓦(MW),2028 年将达到 56756兆瓦(MW),CAGR 为 19%。24 年云服务厂商数据中心预计消耗电力约达到 563 亿千瓦时,按全球 23 年发电量 29.92 万亿千瓦时来算,云厂数据中心耗电量占比将达到 0.2%,而如果按全部数据中心耗电量 4170 亿千瓦时来计算,则这一比例达到 1.4%。按 2028 年 8568亿千瓦时用电量来计算的话则占比达到 2.9%。数据中心耗电量的快速上升将会影响到正常生活中的用电。且全球主要数据中心集中在中国、美国、欧洲等地区,这些国家发电量仅为全球的一半左右,但数据中心用电量基本没有减少,数据中心耗电量的比例在这些国家
48、中的还会继续上升。如果再进一步集中到这些国家中数据中心密集的地区,则地区的用电压力还会进一步提升。图表图表2525:全球云服务厂商数据中心容量(全球云服务厂商数据中心容量(MWMW)来源:IDC、国金数字未来实验室、国金证券研究所 为了应对越来越高的能源需求,主要的云服务厂商都打算将能源供应的责任放在核电站上。-5%0%5%10%15%20%25%30%35%01000020000300004000050000600002019202020212022202320242025202620272028数据中心容量(MW)同比增速(%)行业深度研究(深度)敬请参阅最后一页特别声明 19 扫码获取更
49、多服务 独立于居民、工业用电的核电具备许多优势。1)尽管核电站的建设成本历来较高,但其运营成本相对较低,单个反应堆的发电容量通常超过 800 MW。此外,核电站发电过程中不直接排放二氧化碳,对于那些投资高能耗数据中心且试图实现减排目标的科技公司来说,核能具有重要吸引力。2)与住宅或许多其他行业的用电需求不同,数据中心的用电需求在一天中的各个时间段相对稳定。这种持续的用电需求非常契合核电站的运营特点,后者通常无法快速调整发电功率以应对需求波动。核电站持续稳定的发电能力能够确保数据中心在全天候都能获得足够的电力,同时还为其提供了零碳排放的大规模能源来源。3)当数据中心与发电源直接连接时,数据中心可