定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《天津大学:2025深度解读DeepSeek:原理与效应(44页).pdf》由会员分享,可在线阅读,更多相关《天津大学:2025深度解读DeepSeek:原理与效应(44页).pdf(44页珍藏版)》请在薪酬报告网上搜索。
1、深度解读DeepSeek:原理与效应天津大学自然语言处理实验室The Natural Language Processing Laboratory at Tianjin University熊德意天津大学https:/dyxiong.github.iohttps:/tjunlp-lab.github.io伏羲传语大语言模型发展路线图0102DeepSeek V2-V3/R1技术原理03DeepSeek效应04未来展望报告目录生成式AI:2014 2024AGI ASIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Tr
2、ansformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生成式求解问题生成问题求解的过程和答案(推理)统计方法1990-2000sNN再兴起2006-生成式AI:2014 2024AGI A
3、SIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生
4、成式求解问题生成复杂问题的答案(推理)统计方法1990-2000sNN再兴起2006-生成式AI:2014 2024AGI ASIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数
5、据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生成式求解问题生成复杂问题的答案(推理)统计方法1990-2000sNN再兴起2006-生成式AI:2014 2024AGI ASIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatGPT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI
6、:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生成式求解问题生成复杂问题的答案(推理)统计方法1990-2000sNN再兴起2006-生成式AI:2014 2024AGI ASIENIAC1945达特茅斯会议1956图灵测试1950ELIZA196620142024生成式AIAttention2014Transformer2017Scaling Laws|GPT-32020RLHF|ChatG
7、PT2022o1/R12024AI寒冬I1974-1980专家系统1980-1987AI寒冬II1987-1990s生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)o Attention:数据依存关系建模o Transformer:数据生成的统一架构o Scaling Laws:数据学习、生成的扩展法则o RLHF:生成与人类价值对齐的数据o o1/R1:生成式求解问题生成复杂问题的答案(推理)统计方法1990-2000sNN再兴起2006-自然语言处理与语言模型自然语言处理:人类语言的智能化处理与分析,使计算机具备听、说、读、写、译等人所具备的语言能力语言模型:自然语言统计
8、建模,简单说,就是预测句子中的下一个单词是什么大语言模型:2018 2024Zhao et al.A Survey of Large Language Models.arXiv:2303.18223大语言模型:技术栈算算力力管管理理数数据据处处理理和和管管理理通通用用模模型型行行业业模模型型资资源源分分配配负负载载均均衡衡任任务务调调度度性性能能监监控控弹弹性性扩扩展展容容错错机机制制质质量量筛筛选选预预训训练练数数据据内内容容过过滤滤数数据据去去重重语语言言检检测测领领域域分分类类版版本本控控制制G Ge en ne er ra al l-p pu ur rp po os se e M M
9、o od de el lD Da at ta a P Pr ro oc ce es ss si in ng g a an nd d M M a an na ag ge em m e en nt tC Co om m p pu ut ti in ng g M M a an na ag ge em m e en nt t硬硬件件软软件件H H1 10 00 0A A1 10 00 0M M I I3 35 50 0M M I I3 30 00 09 91 10 0B B9 91 10 0A A数数据据分分类类网网页页代代码码书书籍籍论论文文百百科科处处理理流流程程对对齐齐训训练练数数据据评评测测数
10、数据据价价值值对对齐齐知知识识能能力力安安全全可可信信专专业业领领域域P Pr ro om m p pt tR Re es sp po on ns se es sA AC CB BD D模模型型评评测测预预训训练练对对齐齐训训练练S SF FT TD DP PO OR RL LH HF FB Be es st t o of f N N s sa am m p pl li in ng gD Da at ta a P Pa ar ra al ll le el lP Pi ip pe el li in ne e P Pa ar ra al ll le el lS Se eq qu ue en nc
11、ce e P Pa ar ra al ll le el lE Ex xp pe er rt t P Pa ar ra al ll le el lZ Ze eR RO OF Fl la as sh hA At tt te en nt ti io on nT Te en ns so or r P Pa ar ra al ll le el l动动态态批批处处理理模模型型量量化化模模型型剪剪枝枝模模型型蒸蒸馏馏算算子子优优化化模模型型部部署署性性能能监监控控模模型型训训练练S Sp pe ec ci ia al li iz ze ed d M M o od de el l应应用用层层自自主主规规划划工
12、工具具调调用用信信息息检检索索智智能能客客服服图图文文创创作作代代码码生生成成A Ap pp pl li ic ca at ti io on n通通用用模模型型行行业业模模型型领领域域微微调调训训练练领领域域对对齐齐训训练练行行业业模模型型部部署署行行业业模模型型评评测测行行业业数数据据行行业业对对齐齐数数据据数据处理预训练后训练应用部署数据治理数据要素知识源头基座模型自监督学习能力涌现对齐模型微调&强化安全可信红队测试商业落地模型压缩o 训练范式 预训练 基座模型 后训练 对齐模型 推理训练 推理模型o 关键 模型架构 训练算法 扩展法则大语言模型:生命周期与范式杀手锏:性能/成本 曲线|性
13、价比扩展法则Sasha Rush and Daniel Ritter.Speculations on Test-Time Scaling.2024大语言模型:后训练范式成本高昂(上千万)少数企业/实验室可做成本较低大部分实验室可做推理语言模型?MCTS过程奖励模型PRMSasha Rush and Daniel Ritter.Speculations on Test-Time Scaling.2024大语言模型发展路线图0102DeepSeek V2-V3/R1技术原理03DeepSeek效应04未来展望报告目录DeepSeek:2023 2023.11DeepSeek V12024.5Dee
14、pSeek V22024.11DeepSeek R1-Lite2024.12DeepSeek V32025.01DeepSeek R1天边的两多云(国内外现状)o 模型架构:大部分企业采用已验证架构(试错成本高昂)【不敢】o 推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI保密)【不知】DeepSeek:技术创新模型架构|V2DeepSeek V2主要创新o DeepSeekMoEo MLADeepSeekMoEo稀疏激活:计算不随规模呈线性增长o相比传统MoE:细粒度专家(共享+路由)o路由&通信改造:Device-Limited RoutingAuxiliary Loss f
15、or Load BalanceToken-Dropping StrategyMLA:低秩压缩,降低KV cache占用空间V2规模:236B total parameters,21B activated parameters,128K context windowDeepSeek:技术创新模型架构|V2杀手锏:性能/成本 曲线|性价比训练开销存储开销生成速度DeepSeek:技术创新模型架构|V3DeepSeek V3主要创新o Infrastructureso Multi-Token Prediction(MTP)Infrastructureso减少流水线气泡o高效节点间All-to-All
16、通信oFP8训练o低精度存储与通信MTP:一次预测多个topkenV3规模:671B total parameters,37B activated parameters,trained on 14.8T tokensDeepSeek:技术创新模型架构|V3杀手锏:性能/成本 曲线|性价比DeepSeek:技术创新模型架构|V3成本杀手锏:性能/成本 曲线|性价比During the pre-training state,training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours,i.e.,3.7