定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《电子行业AI+系列专题报告(六):DeepSeek重塑开源大模型生态AI应用爆发持续推升算力需求-250205(42页).pdf》由会员分享,可在线阅读,更多相关《电子行业AI+系列专题报告(六):DeepSeek重塑开源大模型生态AI应用爆发持续推升算力需求-250205(42页).pdf(42页珍藏版)》请在薪酬报告网上搜索。
1、请务必阅读正文之后的免责声明及其项下所有内容20252025年年0202月月0505日日电子电子AI+AI+系列专题报告(六)系列专题报告(六)DeepSeekDeepSeek重塑开源大模型生态,重塑开源大模型生态,AIAI应用爆发持续推升算力需求应用爆发持续推升算力需求行业研究行业研究 行业专题行业专题 电子电子投资评级:优于大市(维持)投资评级:优于大市(维持)证券分析师:胡剑证券分析师:胡慧证券分析师:叶子证券分析师:张大为证券分析师:詹浏洋021-60893306021-608713210755-81982153021-61761072010-S0980521080001S098052
2、1080002S0980522100003S0980524100002S0980524060001证券研究报告证券研究报告|请务必阅读正文之后的免责声明及其项下所有内容DeepSeekDeepSeek重塑开源大模型生态,重塑开源大模型生态,AIAI应用爆发持续推升算力需求应用爆发持续推升算力需求lDeepSeekDeepSeek发展突飞猛进,领跑开源大模型技术与生态,发展突飞猛进,领跑开源大模型技术与生态,DeepSeekDeepSeek模型已成为全球现象级模型。模型已成为全球现象级模型。DeepSeek(深度求索)公司成立于2023年7月,是一家致力于实现通用人工智能(AGI)的创新型科技公
3、司。2024年12月,DeepSeek-V3发布,性能对齐海外领军闭源模型。据官方技术论文披露,V3模型的总训练成本为557.6万美元,对比GPT-4o等模型的训练成本约为1亿美元。2025年1月,DeepSeek-R1发布,性能对标OpenAI-o1正式版。在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版。2月1日消息,据彭博社报道,DeepSeek的人工智能助手在140个市场下载次数最多的移动应用程序排行榜上名列前茅。国外大型科技公司如微软、英伟达、亚马逊等已先后上线部署支持用户访问DeepSeek-R1模型。2月1日,华为云官方发布消息,硅基流动和华为云团队联合首发并
4、上线基于华为云昇腾云服务的DeepSeekR1/V3推理服务。lDeepSeekDeepSeek通过通过MLAMLA和和DeepSeekMoEDeepSeekMoE实现高效的推理和低成本训练,构建实现高效的推理和低成本训练,构建DualPipeDualPipe算法和混合精度训练优化计算与通信负载;通过算法和混合精度训练优化计算与通信负载;通过(分阶段分阶段)强化学习实现性能突破。强化学习实现性能突破。多头潜在注意力(MLA)通过低秩联合压缩技术,大幅削减了注意力键(keys)和值(values)的存储空间,显著降低了内存需求。DeepSeekMoE架构采用了更为精细粒度的专家设置,能够更加灵活
5、且高效地调配资源,进一步提升了整体的运行效率和表现。DeepSeek模型对跨节点的全对全通信机制进行优化,充分利用InfiniBand和NVLink提供的高带宽。创新性提出了DualPipe算法,通过优化计算与通信的重叠,有效减少了流水线中的空闲时间。采用FP8混合精度训练技术,不仅极大地加快了训练速度,还大幅降低了GPU内存的消耗。DeepSeek-R1-Zero通过强化学习架构创新实现突破性性能,核心技术创新体现在训练效能优化策略、双维度评价体系、结构化训练范式三个维度。DeepSeek-R1采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样与监督式微调、全场景强化学
6、习等。lAIAI应用爆发在即,算力需求持续攀升,关注应用爆发在即,算力需求持续攀升,关注ASICASIC及服务器产业链。及服务器产业链。Scaling Law与“涌现”能力是大模型训练遵循的重要法则,随着ChatGPT引领全球AI浪潮,国内外科技公司纷纷发布AI大模型,截至24年7月,全球AI大模型数量约1328个(其中美国位居第一位,占比44%;中国位居第二位,占比36%),模型的迭代加速、竞争加剧。同时,AI模型向多模态全方位转变,AI应用百花齐放,企业主动拥抱AI应用市场。因此,模型数量、模型参数、数据总量的持续增长及AI应用需求推动全球算力爆发式增长。在英伟达GPU随着架构的不断演进及
7、算力的成倍增长,于AI大模型训练中得到广泛运用的同时,为了满足CSP客户更高性能和更好功能的需求,定制化芯片ASIC的需求持续提升,牧本钟摆从标准化逐渐摆向定制化。与之相应的算力基础设施持续建设和升级,促使国内外云服务商资本开支持续高速增长,带来AI服务器市场规模大幅提升,预计到26年全球AI服务器出货量将达到237万台,对应2023-2026年CAGR为26%。l重点推荐组合:重点推荐组合:中芯国际、翱捷科技、德明利、工业富联、沪电股份、联想集团、国芯科技、澜起科技、芯原股份、龙芯中科、东山精密、景旺电子。l风险提示:风险提示:宏观AI应用推广不及预期、AI投资规模低于预期、AI服务器渗透率
8、提升低于预期、AI监管政策收紧。请务必阅读正文之后的免责声明及其项下所有内容DeepSeek发展突飞猛进,领跑开源大模型技术与生态0101AI应用爆发在即,算力需求持续攀升,关注ASIC及服务器产业链0202风险提示0303目录目录请务必阅读正文之后的免责声明及其项下所有内容DeepSeekDeepSeek发展突飞猛进,领跑开源大模型技术与生态发展突飞猛进,领跑开源大模型技术与生态请务必阅读正文之后的免责声明及其项下所有内容DeepSeekDeepSeek成立不到两年颠覆开源大模型格局,性能对标海外成立不到两年颠覆开源大模型格局,性能对标海外l DeepSeekDeepSeek(深度求索深度求
9、索)公司成立于2023年5月,是一家致力于实现AGI(Artificial General Intelligence,通用人工智能)的创新型科技公司,专注于开发先进的大语言模型和相关技术。DeepSeek由知名量化资管巨头幻方量化创立,幻方量化创始人梁文峰在量化投资和高性能计算领域具有深厚的背景和丰富的经验。l 20242024年年5 5月,月,DeepSeek-V2DeepSeek-V2发布,成为全球最强开源通用发布,成为全球最强开源通用MoEMoE模型。模型。DeepSeek独创Attention结构MLA(一种新的多头潜在注意力机制)、稀疏结构DeepSeek-MoE在大模型竞技场(LM
10、SYS)位列全球开源模型第一名,依靠创新结构,将推理成本降低近百倍。l 20242024年年1212月,月,DeepSeek-V3DeepSeek-V3发布,性能对齐海外领军闭源模型发布,性能对齐海外领军闭源模型。该模型在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。据官方技术论文披露,V3模型的总训练成本为557.6万美元,对比GPT-4o等模型的训练成本约为1亿美元。l 20252025年年1 1月,月,DeepSeek-R1DeepSeek-R1发布,性能对标发布,
11、性能对标OpenAI-o1OpenAI-o1正式版正式版。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版。同时DeepSeek开源R1推理模型,允许所有人在遵循MIT License的情况下,蒸馏R1训练其他模型。图:图:DeepSeekDeepSeek模型迭代与发展历史沿革模型迭代与发展历史沿革资料来源:DeepSeek官网,国信证券经济研究所整理2023/052023/052023/112023/112024/022024/022024/032024/032
12、024/052024/052024/062024/06DeepSeek(深度求索)成立。DeepSeek Math发布,7B模型逼近GPT-4的数学能力。DeepSeek V2发布,成为全球最强开源通用MoE模型。DeepSeek Coder V2发布,成为全球最强代码开源模型。DeepSeek VL发布,作为自然语言到多模态初探。DeepSeek Coder发布,目前仍是开源代码模型标杆。2024/092024/092024/112024/11DeepSeek-V2.5发布,融合通用与代码能力的全新开源模型。DeepSeek-R1-Lite预览版正式上线,展现了o1没有公开的完整思考过程。2
13、024/12/102024/12/10DeepSeek-V2.5-1210发布,V2系列收官;联网搜索上线官网。2024/12/262024/12/262025/01/202025/01/20DeepSeek-R1发布,性能对标OpenAI-o1正式版。DeepSeek-V3发布,性能对齐海外领军闭源模型。请务必阅读正文之后的免责声明及其项下所有内容DeepSeekDeepSeek模型已成为全球现象级大模型模型已成为全球现象级大模型l DeepSeekDeepSeek下载量占据下载量占据140140多个国家榜首。多个国家榜首。2月1日消息,据彭博社报道,DeepSeek的人工智能助手在140个
14、市场下载次数最多的移动应用程序排行榜上名列前茅,其中印度占据了新用户的最大比例。据Appfigures数据(不包括中国的第三方应用商店),这款推理人工智能聊天机器人于1月26日升至苹果公司应用商店的榜首,此后一直占据全球第一的位置。l 国外大型科技公司已上线部署支持用户访问国外大型科技公司已上线部署支持用户访问DeepSeek-R1DeepSeek-R1模型。模型。1月30日,微软宣布DeepSeek-R1模型已在Azure AI Foundry和GitHub上提供。1月31日,英伟达宣布DeepSeek-R1模型已作为NVIDIA NIM微服务预览版在英伟达面向开发者的网站上发布;同日亚马逊
15、宣布,客户现已可以在Amazon Bedrock和Amazon SageMaker AI中部署DeepSeek-R1模型。l 硅基流动和华为云硅基流动和华为云宣布上线宣布上线DeepSeekR1/V3DeepSeekR1/V3推理服务。推理服务。2月1日,华为云官方发布消息,硅基流动和华为云团队联合首发并上线基于华为云昇腾云服务的DeepSeekR1/V3推理服务。该服务具备以下特点:1)得益于自研推理加速引擎加持,硅基流动和华为云昇腾云服务支持部署的DeepSeek模型可获得持平全球高端GPU部署模型的效果。2)提供稳定的、生产级服务能力,让模型能够在规模生产环境中稳定运行,并满足业务商部署
16、需求。华为云昇腾云服务可以提供澎湃、弹性、充足的算力。资料来源:各公司官网,国信证券经济研究所整理图:微软宣布支持访问图:微软宣布支持访问DeepSeek-R1DeepSeek-R1模型模型图:英伟达图:英伟达宣布支持访问宣布支持访问DeepSeek-R1DeepSeek-R1模型模型图:亚马逊图:亚马逊宣布支持访问宣布支持访问DeepSeek-R1DeepSeek-R1模型模型请务必阅读正文之后的免责声明及其项下所有内容DeepSeek-DeepSeek-V3V3发布,性能对齐海外领军闭源模型发布,性能对齐海外领军闭源模型l 20242024年年1212月月2626日,全新系列模型日,全新系
17、列模型DeepSeek-V3DeepSeek-V3首个版本上线并同步开源。首个版本上线并同步开源。DeepSeek-V3为自研MoE模型,共有671B参数,每个token激活37B,在14.8T token上进行预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o及Claude-3.5-Sonnet不分伯仲。l DeepSeek-V3DeepSeek-V3模型模型生成速度提升至生成速度提升至3 3倍。倍。通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅提高至60
18、TPS,相比V2.5模型实现了3倍的提升,能够为用户带来更加迅速流畅的使用体验。l DeepSeek-V3DeepSeek-V3模型具有更优的模型性能模型具有更优的模型性能/价格比例。价格比例。随着性能更强、速度更快的DeepSeek-V3更新上线,模型API服务定价调整为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元。相比于其他模型性能和定价,该模型具有更优的模型性能/价格比例。资料来源:DeepSeek官网,国信证券经济研究所整理资料来源:DeepSeek官网,国信证券经济研究所整理图:图:DeepSeek-V3DeepSeek-V3等模型执行
19、不同推理任务性能对比等模型执行不同推理任务性能对比图:图:DeepSeek-V3DeepSeek-V3等模型多项评测成绩对比等模型多项评测成绩对比图:图:DeepSeek-V3DeepSeek-V3具有更优的模型性能具有更优的模型性能/价格比例价格比例资料来源:DeepSeek官网,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容DeepSeek-R1DeepSeek-R1发布,性能对标发布,性能对标OpenAIOpenAI-o1o1正式版正式版l 20252025年年1 1月月2020日,日,DeepSeek-R1DeepSeek-R1正式发布,并同步开源模型权重,性能对齐
20、正式发布,并同步开源模型权重,性能对齐OpenAI-o1OpenAI-o1正式版。正式版。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版。l DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型;同时上线API,对用户开放思维链输出;DeepSeek官网与App同步更新上线,用户打开“深度思考”模式,即可调用最新版DeepSeek-R1完成各类推理任务。l DeepSeekDeepSeek蒸馏小模型超越蒸馏小模型超越Open
21、AIo1-miniOpenAIo1-mini。在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时,通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAIo1-mini的效果。图:图:DeepSeek-R1DeepSeek-R1等模型执行不同推理任务性能对比等模型执行不同推理任务性能对比图:图:DeepSeekDeepSeek蒸馏小模型蒸馏小模型等等执行不同推理任务性能对比执行不同推理任务性能对比资料来源:DeepSeek官网,国信证券经济研究所整理资料来源:DeepSeek官网,国信证券经济研究所
22、整理请务必阅读正文之后的免责声明及其项下所有内容DeepSeek-DeepSeek-V3V3通过通过MLAMLA和和DeepSeekMoEDeepSeekMoE实现高效的推理和低成本训练实现高效的推理和低成本训练l DeepSeek-V3DeepSeek-V3以以TransformerTransformer框架为基石,创新性地融入多头潜在注意框架为基石,创新性地融入多头潜在注意力力(Multi-head Latent Attention(Multi-head Latent Attention,MLA)MLA)和和DeepSeekMoEDeepSeekMoE架构。架构。这一设计在维持模型高性能的
23、同时,极大地提升了训练与推理的效率。l 多头潜在注意力多头潜在注意力(MLA)(MLA):在传统的注意力机制中,推理期间的键值(Key-Value,即KV)缓存往往占用大量资源。而MLA则另辟蹊径,通过低秩联合压缩技术,大幅削减了注意力键(keys)和值(values)的存储空间。在生成过程中,仅需缓存压缩后的潜在向量,这一举措显著降低了内存需求,但在性能上与标准多头注意力(Multi-head Attention,MHA)相比毫不逊色,有力地保障了模型运行的流畅性。l DeepSeekMoEDeepSeekMoE架构:架构:该架构采用了更为精细粒度的专家设置,还特别将部分专家设定为共享专家。
24、在每一个MoE层中,都由共享专家和路由专家协同构成。其中,共享专家负责处理所有token的输入信息,为模型提供基础的处理支撑;而路由专家则依据每个token与专家之间的亲和度分数(这一分数通过sigmoid函数计算得出,即token-to-expert affinity)来决定是否被激活。这种独特的设计,使得模型在处理不同类型的输入时,能够更加灵活且高效地调配资源,进一步提升了整体的运行效率和表现。图:图:DeepSeek-V3DeepSeek-V3模型技术架构模型技术架构资料来源:DeepSeek-V3技术报告,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容DeepSee
25、k-DeepSeek-V3V3构建构建DualPipeDualPipe算法算法和和混合精度训练混合精度训练优化计算与通信负载优化计算与通信负载l 对跨节点的全对全通信机制进行优化,充分利用对跨节点的全对全通信机制进行优化,充分利用InfiniBandInfiniBand和和NVLinkNVLink提供的高带宽。提供的高带宽。DeepSeek-V3模型在拥有2048个NVIDIA H800 GPU的大规模集群上进行训练,每个节点配置了8个GPU,并通过NVLink与NVSwitch实现内部高速互联;不同节点间的高效通信则依赖于InfiniBand(IB)网络。l 创新性提出了创新性提出了Dual
26、PipeDualPipe算法,通过优化计算与通信的重叠,有效减少了流水线中的空闲时间。算法,通过优化计算与通信的重叠,有效减少了流水线中的空闲时间。对于DeepSeek-V3而言,由于跨节点专家并行引入的通信开销导致计算与通信的比例接近1:1,因此提出DualPipe(双向管道并行)算法,采用一种新的双向流水线方法,在独立的前向和后向处理块中实现了计算与通信的重叠,从而加速模型的训练过程并降低了气泡效应。为了确保DualPipe的性能最优,定制设计了高效的跨节点全对全通信核心,包括优化的调度和组合策略,减少用于通信的流式多处理器(SMs)资源占用,并通过调优PTX指令集和自动调整通信数据块大小
27、,显著减少了L2缓存的使用及对其他SMs的干扰。l 采用采用FP8FP8混合精度训练技术,不仅极大地加快了训练速度,还大幅降低了混合精度训练技术,不仅极大地加快了训练速度,还大幅降低了GPUGPU内存的消耗。内存的消耗。基于低精度训练领域的成熟经验,开发人员构建了一个适用于FP8训练的混合精度框架,其中大部分计算密集型任务以FP8精度执行,而关键操作则保持原有精度,以确保数值稳定性和训练效率之间的平衡。结合FP8训练框架,能够将缓存激活值和优化器状态压缩至低精度格式,进一步减少了内存占用和通信负载。图:采用图:采用FP8FP8数据格式的整体混合精度框架数据格式的整体混合精度框架资料来源:Dee
28、pSeek-V3技术报告,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容DeepSeek-DeepSeek-R1(-Zero)R1(-Zero)通过通过(分阶段分阶段)强化学习强化学习实现性能突破实现性能突破lDeepSeek-R1-ZeroDeepSeek-R1-Zero:通过强化学习架构创新实现突破性性能:通过强化学习架构创新实现突破性性能。该模型突破性地采用纯强化学习(RL)方法,未经过传统监督式微调(SFT)即达成卓越性能表现,在特定任务基准测试中实现对OpenAI-o1的超越。其核心技术创新体现在三个维度:1 1)训练效能优化策略训练效能优化策略。创新性采用GRP
29、O(群体相对策略优化)算法,该技术继承自DeepSeek-V2的RLHF(人类反馈强化学习)研发成果。与传统方法相比,GRPO通过群体反馈数据分析替代独立评估模型,有效降低计算资源消耗。这种优化策略无需依赖与策略模型规模匹配的独立评估模型,通过动态基线估计显著提升训练效率。2 2)双维度评价体系双维度评价体系。建立“准确性验证+格式规范”的复合奖励机制:前者通过数学符号解析与代码编译测试进行精确度验证,后者要求模型将推理过程严格置于结构化标签内。这种双重设计既保障了技术问题求解的严谨性,又确保了输出内容的可解析性,为自动化评估提供标准化接口。3 3)结构化训练范式结构化训练范式。研发团队设计了
30、标准化指令模板,通过分离推理过程与最终结论的结构化输出要求,既保证了知识表达的清晰度,又保留了内容创作的自主性。该模板仅规范输出框架,避免对具体解题方法或思维路径进行预设性限制。lDeepSeek-R1DeepSeek-R1:分阶段强化学习架构演进:分阶段强化学习架构演进。为克服Zero版本存在的可读性差、语言混淆的问题并提升结果校准能力,该迭代版本采用多阶段强化学习策略:1 1)冷启动冷启动阶段:阶段:通过少量高质量思维链(CoT)示范数据进行模型初始化,有效缓解基础模型在初始训练阶段的波动性。2 2)面向推理的强化学习。)面向推理的强化学习。和DeepSeek-R1-Zero方式相同,但引
31、入了语言一致性奖励,对推理密集型任务进行特别优化。3 3)拒绝采样与监督式微调。)拒绝采样与监督式微调。使用已训练的RL模型来生成新的训练数据,通过构建推理数据和非推理数据提升模型的通用能力。4 4)全场景)全场景强化学习。强化学习。为了同时平衡推理能力和通用能力,将不同类型的奖励机制有机结合,再次进行强化学习。资料来源:DeepSeek-R1技术报告,国信证券经济研究所整理资料来源:DeepSeek-R1技术报告,国信证券经济研究所整理图:图:DeepSeek-R1-ZeroDeepSeek-R1-Zero模型结构化训练模版模型结构化训练模版图:图:DeepSeek-R1-ZeroDeepS
32、eek-R1-Zero训练中针对训练中针对AIMEAIME正确率持续提高正确率持续提高请务必阅读正文之后的免责声明及其项下所有内容采用硬盘缓存技术大幅降低延迟和成本采用硬盘缓存技术大幅降低延迟和成本l DeepSeek APIDeepSeek API以其开创性的硬盘缓存技术,实现了价格的指数级下降。以其开创性的硬盘缓存技术,实现了价格的指数级下降。在大模型API的实际运用场景中,用户输入存在较高比例的重复内容。例如,用户输入的提示词(prompt)常常包含重复引用部分;在多轮对话里,每一轮都需重复输入前几轮的内容。针对这些情况,DeepSeek引入上下文硬盘缓存技术,将预估未来可能复用的内容,
33、缓存至分布式硬盘阵列之中。一旦出现重复输入,重复部分直接从缓存读取,无需重新计算。这一技术不仅有效缩短了服务延迟,还极大地降低了最终的使用成本。1 1)降低服务延迟:)降低服务延迟:对于输入内容长且重复部分多的请求,API服务的首token延迟会大幅降低。以128K输入且大部分内容重复的请求为例,经实际测试,首token延迟从原本的13秒锐减至500毫秒。2 2)削减整体费用:)削减整体费用:最高能够节省90%的费用(前提是针对缓存特性进行优化)。即便不做任何优化,按照过往使用数据统计,用户整体节省的费用也能超过50%。并且,缓存所占用的存储无需额外付费。3 3)保障缓存安全:)保障缓存安全:
34、在设计缓存系统时,DeepSeek已全面考量各类潜在安全问题。每个用户的缓存相互独立,在逻辑层面彼此不可见,从底层架构筑牢用户数据的安全与隐私防线。长时间未使用的缓存会自动清空,不会长期留存,也不会被挪作他用。l DeepSeekDeepSeek可能是全球首家在可能是全球首家在APIAPI服务中大规模应用硬盘缓存的大模型厂商。服务中大规模应用硬盘缓存的大模型厂商。这一成果得益于DeepSeek-V2提出的MLA结构,该结构在提升模型效果的同时,极大地压缩了上下文KVCache的大小,使得存储所需的传输带宽和存储容量大幅降低,进而能够将缓存置于低成本的硬盘之上。图:图:多轮对话场景,下一轮对话会
35、命中上一轮对多轮对话场景,下一轮对话会命中上一轮对话生成的上下文缓存话生成的上下文缓存图:图:数据分析场景,后续具有相同前缀的请求会数据分析场景,后续具有相同前缀的请求会命中上下文缓存命中上下文缓存资料来源:DeepSeek官网,国信证券经济研究所整理表:表:DeepSeek-R1DeepSeek-R1 APIAPI服务定价服务定价图:图:DeepSeek-R1DeepSeek-R1等模型输入输出价格对比等模型输入输出价格对比模型上下文长度最大思维链长度最大输出长度百万tokens输入价格(缓存命中)百万tokens输入价格(缓存未命中)百万tokens输出价格DeepSeek-V364K-8
36、K0.5元2元8元DeepSeek-R164K32K8K1元4元16元注1:表格中所列模型价格以“百万tokens”为单位。Token是模型用来表示自然语言文本的的最小单位,可以是一个词、一个数字或一个标点符号等。公司将根据模型输入和输出的总token数进行计量计费。注2:思维链为DeepSeek-R1模型在给出正式回答之前的思考过程。注3:如未指定max_tokens,默认最大输出长度为4K。可调整该参数以支持更长的输出。注4:表格中展示了DeepSeek-V3模型优惠前的价格。即日起至北京时间2025-02-08 24:00,所有用户均可享受DeepSeek-V3 API的价格优惠。在此之
37、后,模型价格将恢复至原价。DeepSeek-R1不参与优惠。注5:DeepSeek-R1的输出token数包含了思维链和最终答案的所有token,其计价相同。请务必阅读正文之后的免责声明及其项下所有内容AIAI应用爆发在即,算力需求持续攀升,关注应用爆发在即,算力需求持续攀升,关注ASICASIC及服务器产业链及服务器产业链请务必阅读正文之后的免责声明及其项下所有内容Scaling LawScaling Law与与“涌现涌现”能力:大模型训练遵循的重要法则能力:大模型训练遵循的重要法则l ScalScaling Lawing Law:模型效果随模型规模指数增加而线性提高。:模型效果随模型规模指
38、数增加而线性提高。据OpenAI发布的论文Scaling laws for neural language models,模型性能极大依赖训练规模,模型参数、数据集大小以及用于训练的计算量增加可以达到减少模型损失,增加大模型性能的效果。l“涌现涌现”能力:随着训练规模不断增大,大模型将产生质变。能力:随着训练规模不断增大,大模型将产生质变。据Emergent Abilities of Large Language Models,随着模型规模的扩大,语言模型表现出的新的、不可预测的能力。这些新能力在中小模型上线性放大都得不到线性的增长,但在模型规模突破一定阈值时突然出现。“涌现”能力反映了系统行
39、为质的变化,这种变化不能简单地通过观察或分析较小规模模型的性能来预测。图:大模型参数量近年来迅速扩容图:大模型参数量近年来迅速扩容l自1956年计算机专家约翰麦卡锡提出“人工智能”概念以来,在过去的近70年时间里,行业经历了以CNN为代表的传统神经网络模型、以Transformer为代表的全新神经网络模型、以GPT为代表的预训练大模型这三个时代的进阶,在“算力芯片、存储芯片”等硬件技术持续演进的支撑下,伴随模型参数规模超越千亿级,伴随模型参数规模超越千亿级,近年来近年来人人工智能技术得以工智能技术得以“涌现涌现”出更加强大的理解、推理、联想能力。出更加强大的理解、推理、联想能力。资料来源:Ja
40、red等Scaling Laws for Neural Language Models,国信证券经济研究所整理资料来源:Jared等著-Scaling Laws for Neural Language Models-Arxiv(2020)-P3,国信证券经济研究所整理图:模型规模图:模型规模的指数提升线性提高模型性能的指数提升线性提高模型性能资料来源:Information is Beautiful,国信证券经济研究所整理GPT 3.5WebGPTClaudeLuminous SupremePanGu-SigmaBard*AlpacaBloombergGPTCerebras-GPTGPT-4G
41、PT4All-LoRAJurassic-2*StableLMDolly 2.0TitanTongyi QianwenHugging ChatBingChat*PaLM2Vicuna-13BFalcon LLMOpenLLMErnie Bot 3.5Claude 2LLaMa2Bichuan 2Claude InstantIDEFICSJais ChatFalcon 180BDeciLMAceGPTRetro48BErnie 4.0FuyuOrca 2GrokMEDITRONYuan 2.0Claude 2.1Grok 1GPT-4 TurboInflection-2SeaLLMMistral-
42、smallQMistral-mediumGemini UltraGemini Pro 1.5MGIEDeepSeekFuyu-heavyGLM-4Qwen 1.5175B530BMistral-largeMM1Inflection-2.5Claude 305001000150020002022/8/272022/12/52023/3/152023/6/232023/10/12024/1/92024/4/18参数量(十亿)图:图:大模型随参数规模增加所体现的大模型随参数规模增加所体现的“涌现涌现”能力能力请务必阅读正文之后的免责声明及其项下所有内容l 海内外科技公司纷纷发布海内外科技公司纷纷发布
43、AIAI大模型,模型的更新迭代和竞争加剧。大模型,模型的更新迭代和竞争加剧。据中国信通院数据,截至2024年7月,全球AI大模型数量约1328个(包含同一企业、同一模型的不同参数版本),其中美国AI大模型数量位居第一位,占比44%,代表性模型包括OpenAI的GPT、Anthropic的Claude、Meta的Llama、Google的Gemini等;中国AI大模型数量位居第二位,占比36%,代表性模型包括阿里的通义千问、腾讯的混元大模型、百度的文心一言、月之暗面的Kimi、字节跳动的豆包等。l 模型参数规模呈现指数级增长,模型性能持续提升。模型参数规模呈现指数级增长,模型性能持续提升。近年来
44、新推出的大语言模型所使用的数据量和参数规模呈现指数级增长,例如GPT-3模型参数约为17501750亿亿,据Semianalysis推测GPT-4参数量达1.81.8万亿万亿;同时,国内目前公布的大模型参数规模也普遍在百亿至千亿级百亿至千亿级别别。性能方面,据Data Learner数据,GPT-4o在MMLU测评中获得88.7分的高分,分数较GPT-3大幅提高;国产模型中阿里的Qwen2.5-72B取得86.1分的高分,在各大模型中亦取得排名相对靠前的位置。资料来源:DataLearner,国信证券研究所整理注:MMLU是一种针对大模型的语言理解能力的测评,用以评测大模型基本的知识覆盖范围和
45、理解能力。资料来源:斯坦福大学人工智能指数报告,国信证券经济研究所整理05010015020020192020202120222023开源限制访问私有表:主流大模型信息对比表:主流大模型信息对比模型名称参数大小(亿)MMLU分数发布者发布时间开源情况GPT-4o未公布88.7OpenAI2024.5.13未开源Claude 3.5 Sonnet未公布88.7Anthropic2024.6.21未开源Claude 3-Opus未公布86.8Anthropic2024.3.4未开源GPT-4未公布86.4OpenAI2023.3.14未开源Qwen2.5-72B72786.1阿里2024.9.18
46、开源Llama3.1-405B405085.2Meta2024.7.23开源Gemini-Ultra未公布83.7谷歌2023.12.7未开源Qwen2.5-32B32083.3阿里2024.9.18开源Gemini 1.5 Pro未公布81.9谷歌2024.2.15未开源GLM4未公布81.5智谱AI2024.1.16未开源Grok-1.5未公布81.3xAI2024.3.29未开源YAYI2-30B30080.5中科闻歌2023.12.22 收费开源Qwen1.5-110B110080.4阿里2024.4.25开源Qwen2.5-14B14079.7阿里2024.9.18开源Llama3-
47、70B70079.5Meta2024.4.18开源Gemini-Pro100079.1谷歌2023.12.7未开源Claude 3-Sonnet未公布79.0 Anthropic2024.3.4未开源DeepSeek-V2-236B236078.5DeepSeek2024.5.6开源Qwen-72B72077.4 阿里2023.11.30开源Yi-1.5-34B34077.1 零一万物2024.5.13开源GPT-3.5175070.0 OpenAI2022.11.30未开源GPT-3175053.9OpenAI2020.5.28未开源图:全球模型数量激增图:全球模型数量激增Scaling L
48、awScaling Law与与“涌现涌现”能力:大模型训练遵循的重要法则能力:大模型训练遵循的重要法则请务必阅读正文之后的免责声明及其项下所有内容AIAI模型已从大语言模型进化为全方位多模态模型,开启模型已从大语言模型进化为全方位多模态模型,开启AIAI应用新纪元应用新纪元l23年3月以来,OpenAI所发布的GPT-4已经具备了多模态理解和多类型内容生成的能力,使得AI真正具备了重塑人机交互模式、全方位赋能人类生活的可能性。l24年12月OpenAI连续进行新品发布,包括具备多模态推理能力的完整版o1模型,正式发布Sora视频模型,开放并升级写作和编程工具Canvas,将ChatGPT与Ap
49、ple生态深度整合、Siri与Apple Intelligence智能协同,发布了ChatGPT能够进行视频聊天的语音和视觉功能等。l字节跳动自24年5月豆包大模型家族正式发布到12月短短7个月时间,发布了Doubao-pro、Seed-TTS、Seed-ASR、Seed-Music、SeedEdit、视频生成模型、视觉理解模型等多项重磅成果,在语言能力、多模态理解与生成、模型推理、代码生成等方面不断提升。图:生成式图:生成式AIAI市场概览市场概览资料来源:IDC市场概览:生成式AI技术和服务,国信证券经济研究所整理图:中国市场企业生成式图:中国市场企业生成式AIAI应用进度应用进度资料来源
50、:IDC,国信证券经济研究所整理18%15%25%42%已经落地生成式AI应用服务并计划增加投入已经落地生成式AI服务还在验证阶段,并未开始新一轮投资正在投资建设生成式AI应用服务已经做了初步测试验证和POC,但还未有正式投资计划请务必阅读正文之后的免责声明及其项下所有内容AIAI赋能下的赋能下的“场景数字化场景数字化”经济效益显著经济效益显著数字化解决方案的潜在价值对应近数字化解决方案的潜在价值对应近2727万亿美元万亿美元。数字化转型是以价值驱动的,其需求来源于企业即通过数字化来解决业务痛点、创造真实价值。根据华为的数据,制造业、金融保险、零售、能源电力等产业的数字化潜在价值均在2万亿美元
51、以上;以作为支柱性工业的制造业为例,多为重资产企业,且流程复杂,需要在制造、运输、管理等多个环节进行数字化应用以实现降本增效,转型诉求强,数字化创造的潜在价值达6万亿美元。图:图:数字化潜在价值数字化潜在价值资料来源:华为数字化转型,从战略到执行,罗兰贝格,国信证券经济研究所整理图:图:制造业企业数字化演进制造业企业数字化演进资料来源:华为加速行业智能化白皮书、数字化转型,从战略到执行,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容随着企业对数据的需求从收集到理解并进行应用过渡,随着企业对数据的需求从收集到理解并进行应用过渡,AIAI是挖掘数据价值的重要工具是挖掘数据价值的
52、重要工具。根据华为的数据,家电行业的大模型-AI质检系统借助AI能力,质检速度提升了数十倍。通过机器视觉AI的方式实现产品外观质量检测的自动化、智能化,系统能够使得检测速度提升10倍以上,缺陷检出率达到98%,进一步提高了质检质量,提高良品率,并且帮助企业节约因质量问题产生的退换货成本。同时,该系统能够帮助企业大幅减少质检工时,降低了人力成本。图:制造业的图:制造业的数字化转变数字化转变资料来源:华为,国信证券经济研究所整理图:图:家电家电AIAI质检应用案例质检应用案例资料来源:华为,国信证券经济研究所整理AIAI赋能下的赋能下的“场景数字化场景数字化”经济效益显著经济效益显著请务必阅读正文
53、之后的免责声明及其项下所有内容AIAI推动全球推动全球ITIT支出增长,生成式支出增长,生成式AIAI市场规模持续提高市场规模持续提高l AIAI技术在企业端部署和应用推动全球技术在企业端部署和应用推动全球ITIT支出的增长。支出的增长。AI技术的发展驱动企业业务自动化、帮助企业优化资源配置并协助数据分析,从而提升业务流程效率,推动企业的智能化转型需求。个性化服务和智能应用带来了新的市场需求,以AIGC为代表的AI应用需要强大的计算能力和数据存储,推动了高性能计算、数据管理以及云计算的相关投资。随着AI应用的增多,企业对网络安全和合规服务的需求也在增加,推动相关领域的IT支出增长。据Gartn
54、er预测,企业机构将于2024年加快投资于使用生成式AI,2024年全球IT总支出预计将达到5万亿美元,较2023年增长6.8%;中国IT总支出预计将达到3.9万亿元,较2023年增长6.2%。l AIAI技术将产生巨大的经济影响,其投入产出效益显著。技术将产生巨大的经济影响,其投入产出效益显著。据IDC数据,预计到2030年,人工智能对全球经济的累计影响将达到19.9万亿美元,占到预计2030年全球GDP的3.5%。到2030年,每在AI解决方案和服务上花费1美元,将产生4.6美元的经济效益,包括直接影响和间接影响。l 生成式生成式AIAI市场将成为当前最热门的市场将成为当前最热门的ITIT
55、领域。领域。据IDC数据,24年中国生成式AI市场预计将达到33亿美元,预计到2028年将达到135亿美元,2024-2028年复合增长率将达33.4%,同时生成式AI市场规模占到整体AI市场规模的比例将由16%上升到29%。对于企业来讲,对于生成式AI的支出亦将经历不同阶段的重点,例如2024-2025年,支出主要集中在生成式AI基础设施建设;2025-2026年,支出重点用于推进生成式AI平台与解决方案建设;2027年及以后,支出重点着力于生成式AI服务。资料来源:IDCsWorldwideAIandGenerativeAISpendingGuideV2,2024,国信证券经济研究所整理0
56、20406080100120140160202320242025202620272028GenAIserviceGenAIsoftwareGenAIhardware0%5%10%15%20%25%30%050100150200250300350400450500202320242025202620272028GenAIAIGenAI%图:图:2023-20282023-2028年中国生成式年中国生成式AIAI市场市场预测(亿美元)预测(亿美元)图:图:2023-20282023-2028年中国生成式年中国生成式AIAI与整与整体体AIAI市场规模预测(亿美元)市场规模预测(亿美元)图:图:20
57、20-20242020-2024年全球年全球ITIT支出情况支出情况图:图:2020-20242020-2024年中国年中国ITIT支出情况支出情况资料来源:Gartner,国信证券经济研究所整理资料来源:Gartner,国信证券经济研究所整理0%1%2%3%4%5%6%7%8%9%10%38,00040,00042,00044,00046,00048,00050,00052,00020202021202220232024全球IT支出(亿美元)YoY0%2%4%6%8%10%12%14%16%05,00010,00015,00020,00025,00030,00035,00040,000202
58、02021202220232024中国IT支出(亿元)YoY资料来源:IDCsWorldwideAIandGenerativeAISpendingGuideV2,2024,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容智能算力是构建大模型的重要底座智能算力是构建大模型的重要底座,AIAI算力需求持续攀升算力需求持续攀升l 大模型训练、大模型训练、AIAI应用需求兴起,推动全球算力需求快速增长。应用需求兴起,推动全球算力需求快速增长。全球算力需求飙升主要基于以下原因:1)模型能力提升依赖更大的训练数据量和参数量,对应更高的算力需求;2)AI模型的发展方向转向多模态,训练模型的
59、数据从单一文字数据发展到目前的图片、视频数据,均需要更强的算力处理;3)模型种类多样化(文生图、文生视频)以及新推出的模型数量激增,均推动算力需求的增长,以AIGC为代表的AI应用用户数量爆发,推理侧算力需求快速增长。l 全球数据总量大幅上涨,数据中心算力需求快速增长。全球数据总量大幅上涨,数据中心算力需求快速增长。随着人工智能等新技术发展,海量数据的产生及其计算处理成为数据中心发展关键。据IDC数据,全球数据总量预计由2021年的82.47 ZB上升至2026年的215.99 ZB,对应CAGR达21.24%。其中,大规模张量运算、矩阵运算是人工智能在计算层面的突出需求,高并行度的深度学习算
60、法在视觉、语音和自然语言处理等领域上的广泛应用使得算力需求呈现指数级增长。此外,据IDC数据,中国生成式AI日均Tokens处理规模显著增长,预计中国生成式AI日均Tokens调用量到2024年底将达到每天1.12万亿,是2023年底每天35亿规模的320倍。l 智能算力是构建大模型的重要底座,智能算力是构建大模型的重要底座,以以AIAI服务器为代表的全球智能算力需求激增。服务器为代表的全球智能算力需求激增。算力可分为通用算力、智能算力及超算算力:1)通用算力:由基于CPU的服务器提供算力,主要用于基础通用计算;2)智能算力:由基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力,
61、主要用于人工智能训练和推理计算;3)超算算力:由超级计算机等高性能计算集群提供算力,主要用于尖端科学领域的计算。早期通用算力占整体算力的比重达90%以上,随着人工智能技术的发展,智能算力规模迅速增长。据中据中国信息通信研究院预期,国信息通信研究院预期,20302030年全球智能算力规模将达年全球智能算力规模将达52.5ZFLOPS52.5ZFLOPS。据。据IDCIDC预期,预期,20232023年中国智能算力规模达年中国智能算力规模达414.1EFLOPS414.1EFLOPS,至,至20272027年将达年将达1117.4EFLOPS1117.4EFLOPS。图:中国算力规模及预期(单位:
62、图:中国算力规模及预期(单位:EFLOPSEFLOPS)资料来源:IDC,国信证券经济研究所整理图:图:AIAI大模型所需算力平均每大模型所需算力平均每2 2年增长年增长750750倍倍资料来源:riselab,国信证券经济研究所整理010020030040050060020202021202220232024202520262027EFLOPS通用算力规模(FP32)智能算力规模(FP32)图:图:2021-20262021-2026年全球数据总量及预测年全球数据总量及预测19%20%20%21%21%22%22%23%05010015020025020212022E2023E2024E20