• 首页 >  人工智能 >  生成式AI
  • 科智咨询:2025年Deepseek对算力产业的影响报告(27页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《科智咨询:2025年Deepseek对算力产业的影响报告(27页).pdf》由会员分享,可在线阅读,更多相关《科智咨询:2025年Deepseek对算力产业的影响报告(27页).pdf(27页珍藏版)》请在本站上搜索。

    1、CONFIDENTIALDeepseek对中国算力产业的影响2025年2月-2-1DeepSeek的技术突破与市场定位目录CONTENT2DeepSeek驱动算力需求变革3算力产业链的重构-3-DeepSeek爆火-C端:Deepseek全球破圈,成为用户规模增长最快的移动AI应用超级app增长1亿用户所用时间App上线后同样天数DeepSeek与ChatGPT移动端全球DAU对比情况-4-DeepSeek爆火-B端:科技巨头积极拥抱DeepSeek-5-DeepSeek明星产品:DeepSeek的LLM模型分为三个版本:基座模型V3、强化推理版R1-Zero、泛化推理版R1-6-DeepSe

    2、ek爆火的原因:一流的性能表现、大幅降低的算力成本、开源模式DeepSeek的模型架构创新,如MoE和FP8混合精度训练,大幅提升模型性能和训练效率。高性能模型架构创新通过算法创新和硬件优化,DeepSeek以低成本实现高性能,改变AI领域的竞争规则。低成本实现高性能DeepSeek采用开源策略,降低AI技术门槛,促进全球开发者参与,推动技术快速普及和迭代。开源策略推动技术普及-7-一流的性能表现:DeepSeek-V3性能对齐海外领军闭源模型-8-一流的性能表现:DeepSeek-R1性能对标OpenAI-o1正式版 DeepSeek-R1性能比肩OpenAI-o1。DeepSeek-R1在

    3、后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。R1 在 2024 年 AIME 测试中取得了 79.8%的成绩,与 OpenAI o1 的 79.2%水平相当。在 MATH-500 基准测试中,DeepSeek-R1 以 97.3%的成绩略微超越了 o1 的 96.4%。在编程领域,该模型在 Codeforces 平台上表现优异。-9-大幅降低的算力成本:训练算力下降90%DeepSeek-V3和R1模型不仅性能出色,训练成本也极低。V3模型仅用2048块H800 GPU训练2个月,

    4、消耗278.8万GPU小时。相比之下,Llama3-405B消耗了3080万GPU小时,是V3的11倍。按H800 GPU每小时2美金计算,V3的训练成本仅为557.6万美金,而同等性能的模型通常需要0.6-1亿美金。R1模型在V3基础上,通过引入大规模强化学习和多阶段训练,进一步提升了推理能力,成本可能更低。-10-API定价下降89%(V3)、96%(R1)-11-开源大模型:打破OpenAI等闭源模型生态DeepSeek 不仅开源了 R1-Zero 和 R1 两个 671B 模型,还通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项

    5、能力上实现了对标 OpenAI o1-mini 的效果。同时,DeepSeek 还修改了产品协议,支持用户进行“模型蒸馏”,即允许用户无限制商用,鼓励蒸馏(用 R1 输出结果训练其他模型),尽可能降低用户使用壁垒,全球范围出圈和更容易建立起广泛繁荣的用户生态。DeepSeek V3与R1模型实现了开源,采用MIT协议。这产生多方面影响:对大模型发展:这提升了世界对中国AI大模型能力的认知,一定程度打破了OpenAI与Anthropic等高级闭源模型的封闭生态。DeepSeek R1在多个测试指标中对标OpenAI o1,通过模型开源,也将大模型平均水平提升至类OpenAI o1等级。对下游生态

    6、:优质的开源模型可更好用于垂类场景,即使用户针对自身需求蒸馏,或用自有数据训练,从而适合具体下游场景;此外,模型训推成本降低,将带来使用场景的普及,带动AIGC、端侧等供给和需求。-12-1DeepSeek的技术突破与市场定位目录CONTENT2DeepSeek驱动算力需求变革3算力产业链的重构-13-中国智能算力市场规模持续增长,算力中心从训练侧向推理侧转移中国人工智能服务器工作负载预测,2022-202742%59%35%33%30%28%58%41%65%67%70%72%0%10%20%30%40%50%60%70%80%90%100%202220232024202520262027推

    7、理训练中国智能算力规模及预测,(FP16)2604177251,0371,4602,020202220232024202520262027+41%智能算力-14-训练算力头部集中,推理算力爆发式增长头部企业仍持续加码大模型训练,追求更高性能的AGI目标。阿里:未来3年的AI infra投资,超过去10年的infra投资 字节:24 年资本开支 800 亿元,接近百度、阿里、腾讯三家的总和(约 1000 亿元)。25 年,字节资本开支有望达到 1600 亿元,其中约 900 亿元将用于 AI 算力的采购,700 亿元用于 IDC 基建以及网络设备。百度:在2月11日的阿联酋迪拜World Gov

    8、ernments Summit 2025峰会上,百度创始人李彦宏提到,百度需要继续在芯片、数据中心和云基础设施上加大投入,目的是为了开发下一代模型。硅谷四大科技巨头(谷歌、微软、Meta、亚马逊)2025年合计资本开支超3,000亿美元,重点投向AI数据中心建设。训练算力仍有空间和前景 头部企业会持续进行教师模型的训练:模型蒸馏的前提是有一个好的教师模型,字节、阿里、百度等已经明确会持续加大投入;24年H2有些停滞的大模型训练近期已经重启 各模型厂商会借鉴deepseek的优化方法如FP8精度训练、跨节点通信等,与自身模型训练结合,探索更高效的模型训练方法 多模态的模型对算力的消耗会是近十倍的

    9、增长推理算力爆发式增长:杰文斯悖论在推理侧上演,开源模型和较低的推理成本,有助于应用的繁荣,助推推理算力增长“杰文斯悖论”指出成本下降将刺激资源需求更大增长-15-模型轻量化催生端侧算力的崛起DeepSeek通过知识蒸馏技术,将大模型压缩至轻量化版本,使其能够在端侧设备上高效运行。数据安全与隐私计算刚需本地化部署需求(如医疗数据脱敏处理)推动隐私计算技术发展,2024年数据治理市场规模超50亿元。一体机等端侧算力市场扩容国产deepseek一体机疯狂上新:三大电信运营商、浪潮、壁仞、京东云、联想、优刻得、宝德、华鲲振宇、超聚变等均推出基于不同国产芯片的deepseek一体机工业质检、自动驾驶等

    10、场景需求推动边缘AI服务器出货量增长,2025年市场规模预计突破200亿元。-16-从“算力堆砌”到“算效优化”的产业转型DeepSeek提出的“四两拨千斤”的技术路径推翻了统治了2023年-2024年的全球大模型产业的“暴力美学”逻辑,2025年再次进入算法创新阶段算力、数据、算法的三角创新体系,在动态循环中再次进入算法创新阶段:2022年:算法创新为主,ChatGPT发布,引发Transformer架构的风潮迭起2023年:数据创新为主,数据合成、数据标注等成为高质量数据集建设的热点方向2024年:算力创新为主,算力迈向超万卡时代,算力运营商等产业新物种诞生2025年:再次进入算法创新阶段

    11、算力堆砌的传统模式大模型训练和应用依赖于大规模的算力堆砌,通过不断增加硬件资源来满足算力需求算效优化的必要性随着技术发展和应用深化,算效优化成为产业转型的关键方向,通过提高算力的利用效率,降低能耗和成本-17-1DeepSeek的技术突破与市场定位目录CONTENT2DeepSeek驱动算力需求变革3算力产业链的重构-18-DeepSeek通过PTX优化等创新技术,降低了模型训练对NV芯片的依赖,推动国产算力的应用落地CUDA 生态的封闭性导致其跨硬件平台兼容性差,对国产 GPU的适配存在较大困难。PTX 算力优化经验大幅降低了对高端GPU的依赖,对国产 GPU的底层接口适配有一定帮助(需要重

    12、新设计工具链,短期内难以实现无缝迁移)DeepSeek通过PTX手动优化跨芯片通信截至 2025 年 2 月 18日,DeepSeek 已与 18家国产 AI 芯片企业完成适配,包括华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、昆仑芯、灵汐科技、鲲云科技、希姆计算、算能、清微智能和芯动力等私有化部署及端侧小模型大量涌现,为国产芯片在实际场景的应用及试错提供了大量机会,为国产芯片的设计、性能提升等提供空间芯片智算中心大模型AI应用英伟达 H800 芯片互联带宽相比 H100 被阉割,为弥补这一缺陷,DeepSeek 借助 PTX 手动优化跨芯片通信,保障数

    13、据传输效率。PTX 是CUDA编译的中间代码,处于高级编程语言(如 CUDA C/C+)和底层机器码(SASS)之间,起到在 CUDA 和最终机器码之间的桥梁作用。借助 PTX,开发者能够直接对 GPU 的寄存器分配、线程调度等硬件级操作进行控制,实现细粒度的性能优化。在多 GPU 协同训练场景中,可通过 PTX 手动调整跨芯片通信效率,提升整体训练效能。-19-DeepSeek采用FP8混合精度训练取得较好效果,国内芯片企业亟待增强对原生FP8支持 在DeepSeek的训练过程中,绝大多数核心计算核(即通用矩阵乘法GEMM操作)均以FP8精度实现。这些GEMM操作接受FP8张量作为输入,并输

    14、出BF16或FP32格式的结果。如下图所示,与线性算子(Linear operator)相关的三个GEMM运算前向传播(Fprop)、激活梯度反向传播(Dgrad)和权重梯度反向传播(Wgrad)都采用FP8精度执行。对以下模块维持原有精度(如BF16或FP32):嵌入模块(embedding module)、输出头(output head)、混合专家门控模块(MoE gating modules)、标准化算子(normalization operators)以及注意力算子(attention operators)。(尽管FP8格式具有计算效率优势,但由于部分算子对低精度计算较为敏感,仍需保持

    15、更高计算精度)采用FP8数据格式的整体混合精度框架国内AI芯片企业200多家原生支持FP8的3家同时原生支持FP8、BF16、FP32的1家国内芯片对三种计算精度的支持情况DeepSeek采用FP8混合精度训练取得较好效果:GPU训练时间减少40%预训练成本降至仅278.8万H800 GPU小时训练总费用为557.6万美元,比同类模式便宜约10倍目前DS原生训练和推理用的是FP32、BF16和FP8,三种格式,也是DS团队探索出来效率最高的计算方式。如果不是原生支持FP8,而是需要通过其他计算精度的转译,至少损失30%性能和20%的智商目前国内有200多家AI芯片公司,原生支持FP8计算格式的

    16、AI芯片只有3款,同时支持三种计算格式的国产AI芯片公司只有1款。芯片智算中心大模型AI应用-20-智算中心分为三类A类B类C类预训练用于训练超大参数量的原创教师大模型,如移动的九天大模型、阿里的通义千问等万卡以上H200、B200等最先进的芯片或国产高端芯片(针对有强信创需求的企业)后训练用于学生大模型的调优,训练行业化、客制化大模型几十台到几百台为主A100/A800、H100/H800,或者采购部分高端国产卡推理用于推理的算力中心,针对模型在企业端现实场景的实际应用大小不等利旧原有设备或者经营不善的B类3090/4090或910A、910B及其他国产卡定位功能规模芯片芯片智算中心大模型A

    17、I应用-21-推理类智算中心爆发增长,超大规模智算中心建设加快智算中心市场影响A类建设速度不减:头部科技大厂仍计划大量投资;超前建设的需要;下一轮AI技术的涌现(如多模态等)仍需要十倍左右的算力支撑;中美博弈(美国“星际之门”、欧洲“Invest AI计划”等)B类结构性过剩,建设减缓:规模小、位置偏僻、型号旧&性价比低、国产算力等类型的智算中心闲置状况严重新建要看是不是有强主体包销,如果有强主题的3-5年包销合同,依然可以正常建设;如果是弱主体的客户,甚至没有客户的前提下,建设可能会暂缓或者停滞C类爆发式增长:推理算力需求大幅增加,端侧、边缘侧分布式算力部署快速增长,私有化部署110台GPU

    18、服务器的小规模集群需求在内部部署中爆发。算力包销合同主题分强、弱两类,市场上更多的是弱主体:强主体:各个参与方资质和信誉主题都很强。央国企、A股上市公司承建、金融机构垫资、互联网大厂包销,这种主要是H系列为主,风险相对可控,互联网大厂可以用来做B类或C类。弱主体:相对于强主体,出资方、承建方、包销方相对来说资质弱一些,比如包销方是一些AI大模型创业公司、创新型实验室或者,这类24年下半年已经开始毁约,风险非常高,H系列租金每个月68w/台。这类的算力中心风险非常大,需要注意,这类算力使用方,未来多转向C类算力租赁。芯片智算中心大模型AI应用-22-中国大模型主要有两类玩家科技大厂AI创业公司企

    19、业类型典型玩家大模型玩家芯片智算中心大模型AI应用-23-Deepseek发布后科技大厂:拥抱DeepSeek,同时跟进类似的自研产品公司时间动作概况阿里1月29日阿里云 PAI Model Gallery 支持一键部署 DeepSeek-V3 和 DeepSeek-R1 阿里云发布开源的通用千问Qwen 2.5-Max MoE(混合专家模型),它使用了与DeepSeek-R1类似的技术路线百度2月14日百度搜索全面接入 DeepSeek。百度宣布文心一言4月1日起开源免费,并计划推出文心大模型 4.5 系列,于 6 月 30 日起正式开源腾讯/从云平台腾讯云、腾讯云旗下大模型知识应用开发平台

    20、知识引擎、国民应用微信、AI智能工作台ima、主力AI应用元宝全方位拥抱DeepSeek,纷纷宣布接入R1模型华为/鸿蒙系统的小艺助手接入DeepSeek-R1;与硅基流动合作,基于昇腾云服务推出DeepSeek-R1/V3推理服务投资加大:前文已论述产品:科技大厂一方面拥抱DeepSeek,一方面跟进类似的自研产品芯片智算中心大模型AI应用国际大厂也加快了产品的推陈出新OpenAI连续官宣GPT-4.5在几周内上线,GPT-5在几个月内上线,及模型路线规模的调整-24-Deepseek发布后AI创业企业:从参数竞争到进入理性期公司时间动作概况零一万物2月14日与苏州高新区联合成立的产业大模型

    21、基地正式授牌百川智能1月25日发布新模型Baichuan-M1-preview阶跃星辰2月13日联合研发的AI儿科医生在北京儿童医院上岗1月20日发布新语言大模型Step-2-mini和Step-2 文学大师版1月21日升级语音模型Step-Io Audio,上新多模态理解大模型Step-Io Vision1月22日发布视频生成模型Step-Video V2版本1月24日应用端跃问推出跃问AI创意板功能/跃问接入DeepSeek-R12月21日举办首届“Step Up 生态开放日”智谱华章2月11日创立发起人唐杰出席第三届人工智能行动峰会边会“人工智能技术进步与应用”并发言2月11日Agent

    22、ic GLM登陆三星最新款Galaxy S25系列手机/和AI画图捏角色的应用软件捏ta展开系列合作月之暗面1月20日发布Kimi k1.5多模态思考模型MiniMax1月20日升级发布T2A-01系列语音模型,并上线海螺语音产品初创企业大模型六小虎的动作概况AI六小虎的策略变化仍坚守大模型预训练,但技术路线分化:智谱(引入强化学习和多模态,注重B端市场)月之暗面(长文本)阶跃星辰(多模态)转向细分领域:零一万物与阿里合作产业实验室,放弃超级大模型研发 百川智能专注医疗赛道 MiniMax布局海外市场-25-大模型领域迎来“安卓时刻”,大量AI应用将爆发式出现回顾安卓与iOS应用的发展,安卓系

    23、统发布一年后,大量的安卓应用开始出现。现在的deepseek类似当初的安卓系统GitHub 的 Stars 是项目在社区中受欢迎程度的直接指标,Fork 则表示项目累计被用户拷贝的数量,两个指标均代表项目上线至今的关注度和用户喜爱度。DeepSeek V3 和 R1 两个项目上线至今均不足 2 个月,但它们的累计 Star 和 Fork 均与上线时间更早的 Llama 接近,显著高于 24 年 4 月发布的 Llama3,直接反映了开发者对 DeepSeek 开源模型的高认可度。根据GitHub、Hugging Face社区上的开发者实测,经过R1微调的80亿参数小模型可以在个人笔记本中运行,本地化部署门槛显著下降,应用的开发将迎来百花齐放。芯片智算中心大模型AI应用-26-两个关键词:端侧AI、AI Agent 端侧AI芯片智算中心大模型AI应用 AI Agent感谢您的聆听!中科智道(北京)科技股份有限公司