定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《浙江大学:2025年DeepSeek技术溯源及前沿探索报告(50页).pdf》由会员分享,可在线阅读,更多相关《浙江大学:2025年DeepSeek技术溯源及前沿探索报告(50页).pdf(50页珍藏版)》请在薪酬报告网上搜索。
1、1浙江大学DS系列专题主讲人:朱强主讲人:朱强浙江大学计算机科学与技术学院人工智能省部共建协同创新中心(浙江大学)https:/ 2一、语言模型一、语言模型三、ChatGPTOutline四、DeepSeek五、新一代智能体二、Transformer3Language ModelingLanguage Modeling对于任意的词序列词序列,计算出这个序列是一句话的概率概率我们每天都和语言模型打交道:I saw a catI saw a cat on the chairI saw a cat running after a dogI saw a cat in my dreamI saw a c
2、acar语言模型:终极目标4Sheismymom1000010000100001One-hot EncodingOne-hot Encoding只有一个1,其余均为0One-hot Encoding有什么缺点吗?编码:编码:让计算机理解人类语言语言模型:基本任务50.990.990.050.10.990.050.930.090.020.010.990.980.980.020.940.3鲸鱼海豚鹦鹉企鹅游泳飞翔Word EmbeddingWord Embedding用一个低维低维的词向量表示一个词能使距离相近的向量相近的向量对应的物体有相近的含义相近的含义20维的向量用one-hot和word
3、embedding的方法分别可以表示多少单词?编码编码:让计算机理解人类语言6Word EmbeddingWord Embedding结合句子语境我们可以猜测:tezgino是一种由玉米制作的酒精类饮料 A bottle of tezgino is on the table.Everyone likes tezgino.Tezgino makes you drunk.We make tezgino out of corn.(1)A bottle of _ is on the table.(2)Everyone likes _.(3)_ makes you drunk.(4)We make _
4、out of corn.(1)(2)(3)(4)1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 0 1 1 1 1 11 1 1 0 tezginomotor oiltortillaswine两行内容十分相近两个单词含义相近编码编码:让计算机理解人类语言7基于统计的N-gram(1970 after)基于统计的N-gram(1970 after)语言模型:技术演化Before:P(小)P(猫|小)P(抓|小猫)P(老|小猫抓)P(鼠|小猫抓老)3-gram:P(小)P(猫|小)P(抓|小猫)P(老|猫抓)P(鼠|抓老)2-gram:P(小)P(猫|小)P(抓|猫)P(老|抓)P
5、(鼠|老)Transformer(2017 after)Transformer(2017 after)基于神经网络的LSTM/GRU(2000 after)基于神经网络的LSTM/GRU(2000 after)8常见的深度学习模型框架,可用于解决 Seq2Seq 问题可以根据任务选择不同的编码器和解码器(LSTM/GRU/TransformerLSTM/GRU/Transformer)EncoderDecoder我 很 聪 明!I am pretty smart!隐空间RepresentationRepresentationEncoder-Decoder9 9一、语言模型三、ChatGPTOu
6、tline四、DeepSeek五、新一代智能体二、Transformer二、Transformer10Transformer:Transformer:理论架构创新理论架构创新自注意力机制:自注意力机制:支持并行计算/全局上下文的理解能力多头注意力:多头注意力:从多个角度捕捉复杂的语义关系前馈网络前馈网络/位置编码位置编码/层归一化:层归一化:解决了传统模型的诸多局限性大型语言模型简史2017JUN2017JUN1958TransformerTransformer2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22
7、019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1Deep
8、Seek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1https:/ 2017,引用量15万+15万+引入全新注意力机制注意力机制,改变了深度学习模型的处理方式EncoderDecoderEncoderDecoderTransformer:大模型的技术基座Attention Is All You Need12Transformer:(自)注意力机制在理解在理解语言任务语言任务时,Attention 机制本质上是时,Attention 机制本质上是捕捉单词间的关系捕捉单词间的关系The animal didnt cross the street because i
9、t it was too tired/widetired/wideShe is eating a green apple.中国 南北南北 饮食文化 存在差异存在差异,豆花有 南甜北咸南甜北咸 之分。南方人南方人 一般 喜欢 吃 甜豆花甜豆花12313Transformer:(自)注意力机制ImageSketchGradient在理解在理解图像任务图像任务时,Attention机制本质上是时,Attention机制本质上是一种图像特征抽取一种图像特征抽取14Transformer:训练机制场景:场景:你在图书馆想找一本关于“机器学习基础”的书你在图书馆想找一本关于“机器学习基础”的书Query:
10、描述要找的书(精准的需求描述)Key:书的索引编号(高效的书籍定位)Value:内容的抽取(由目标任务驱动)https:/newsletter.theaiedge.io/p/the-multi-head-attention-mechanism15大型语言模型简史预训练时代:预训练时代:大力出奇迹(“暴力美学”)大力出奇迹(“暴力美学”)BERTBERT:B Bidirectional E Encoder R Representations T TransformersGPTGPT:G Generative P Pertained T Transformer自监督算法自监督算法:MLM/NTP/
11、MAE解决海量数据标注问题2017JUN2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARG
12、PT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o316RepresentationGenerationBERT Oct 2018GPT Jun 2018The LLM Era Paradigm Shift in Machine Learning17BERT 2018DistilBER
13、T 2019RoBERTa 2019ALBERT 2019ELECTRA 2020DeBERTa 2020GPT 2018GPT-2 2019GPT-3 2020GPT-Neo 2021GPT-3.5(ChatGPT)2022LLaMA 2023GPT-4 2023RepresentationGenerationT5 2019BART 2019mT5 2021The LLM Era Paradigm Shift in Machine Learning18自监督学习(语言)原话:原话:一辆 列车 缓慢 行驶 在 崎岖 的 山路上预测填空:预测填空:一辆 列车 缓慢 行驶 在 崎岖 的 山路上移除
14、单词:移除单词:一辆 列车 行驶 在 崎岖 的 山路上Masked Langauge Modeling(MLM)Masked Langauge Modeling(MLM)模型会不断地在句子中挖去一个单词,根据剩下单词的上下文来填空,即预测最合适的填空词出现的概率,这一过程为自监督学习自监督学习19自监督学习(图像)Masked AutoEncoders(MAE)Masked AutoEncoders(MAE)通过随机遮盖部分输入数据(如图像)并重建缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。遮盖图像重建图像https:/arxiv.org/pdf/2111.063772
15、0数据是数据是燃料燃料、模型是、模型是引擎引擎、算力是、算力是加速器加速器数据数据:训练中使用了45TB数据、近 1 万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。模型模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。算力算力:ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。MCP神经元PerceptronDNN神经网络早期前向神经网络seq2se
16、q序列学习循环神经网络RNNLSTMWord2vec词向量单词之间关联关系TransformerSelf-supervisedPromptFine-tune语言大模型LLM人类反馈强化学习(InstructGPT)CodeX(CoT,120亿参数)引入Self-attentionChatGPTChatGPT训练 transformer 的通用之力21大模型Large Model大语言模型(LLM)Large Language ModelBERT系列GPT系列3.5/4GPT-4oDeepseek-v3Deepseek-v3科学计算模型Science Model多模态大模型(LMM)Large
17、Multimodal ModelDDPMSAM交互式DemoSoraDALLE3 in ChatGPTAlpha系列AlphaStar魔兽争霸 气象大模型药物分子预测PanguLMMidjourneyGoogle Bard 文心一言AlphaGo围棋 机理技术产品AlphaFold蛋白质预测GPT-o1/o3Deepseek-R1Deepseek-R1大模型脉络22群雄(中美)争霸 OpenAI最新15页报告:DeepSeek缩小中美AI差距 OpenAI最新15页报告:DeepSeek缩小中美AI差距 A Survey on Large Language Models with some I
18、nsights on their Capabilities and Limitations23闭源 vs 开源国际企业微软国际企业微软投资OpenAI的GPT-4.0系列投资OpenAI的GPT-4.0系列闭源自研开源小模型Phi-3 Mini开源亚马逊亚马逊自研Titan系列闭源投资Anthropic的Claude 3.5系列闭源谷歌谷歌Gemini系列闭源Gemma系列开源METAMETALlama3系列Llama3系列开源Mistral AIMistral AIMistral-Large闭源Mistral-Medium开源中国企业阿里中国企业阿里通义千问2.5系列基础模型、行业模型开源Q
19、wen 0.5b-110b系列开源模型开源华为华为盘古系列闭源腾讯腾讯混元基础模型、行业模型闭源混元开源模型开源百度百度文心一言4.0模型闭源DeepSeek以一己之力改变了开源和闭源的力量对比:从612个月的代差缩短到13个月DeepSeek以一己之力改变了开源和闭源的力量对比:从612个月的代差缩短到13个月2412层,每层12个注意头GPT-2做了以下改进:1.增 加 到 4 8 层,使 用1600维向量进行词嵌入;2.将层归一化移动到每个子块的输入,并在最终的自注意块后增加一层归一化;3.修改初始化的残差 层权重,缩放为原来的1/,其中,是残差层的数量;4.特征向量维数从768扩展到1
20、600,词表扩大到50257。GPT-3做了以下优化:1.增加到96层,每层有96个注意头;2.单词嵌入大小从1600增加到12888;3.上 下 文 窗 口 大 小 从 GPT-2 的1024增加到2048,并采用交替密度和局部带状稀疏注意模式。ChatGPT基于GPT-3.5:1.ChatGPT使用来自人类反馈的强化学习进行训练;2.通过近端策略优化算法进行微调,为信任域策略优化算法带来成本效益。模型发布时间参数量预训练数据量模型发布时间参数量预训练数据量GPT-12018年6月1.17亿约5GBGPT-22019年2月15亿40GGPT-32020年5月1750亿45TBChatGPT2
21、022年11月千亿级?百T级?摩尔定律(大模型时代)DeepSeek通过大幅提升模型训练、推理效率,缓解DeepSeek通过大幅提升模型训练、推理效率,缓解(?)了算力需求?(?)了算力需求?2525一、语言模型三、ChatGPT三、ChatGPTOutline四、DeepSeek五、新一代智能体二、Transformer26大型语言模型简史GPT-3:GPT-3:语言模型的转折点语言模型的转折点大语言模型:大语言模型:1750亿参数涌现涌现能力:能力:随着模型规模增大而出现的新能力生成/创造:生成/创造:ArtArtificial Intelligence(人工人工=艺术艺术)2017JUN
22、2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024
23、MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o327大型语言模型简史ChatGPT:ChatGPT:人工智能的IPHONE时刻人工智能的IPHONE时刻2017JUN2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2
24、019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1
25、DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o328OpenAI技术白皮书GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruction tuningRLHFRLHFInstruction tuningCode-davinc
26、i-001Code-cushman-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davinci-002Text-davinci-003ChatGPTDavinci29GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruction tuningRLHFRLHFInstr
27、uction tuningCode-davinci-001Code-cushman-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davinci-002Text-davinci-003ChatGPTDavinciGPT-3 InitialGPT-3 Initial初代 GPT-3 展示了三个重要能力(来自于大规模的预训练)初代 GPT-3 展示了三个重要能力(来自于大规模的预训练)语言生成语言生成:来自语言建模的训练目标(说人话说人话)世界知识世界知识:来自 3000 亿单词的训练语料库(百晓生百晓生)上下文学习上下文
28、学习:上下文学习可以泛化,仍然难以溯源(触类旁通触类旁通)初代 GPT-3 表面看起来很弱,但有非常强的潜力,展示出极为强大的“涌现”能力GPT3 Initial30GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruction tuningRLHFRLHFInstruction tuningCode-davinci-001Code-cushm
29、an-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davinci-002Text-davinci-003ChatGPTDavinciCodex InitialCodex InitialInstructGPT InitialInstructGPT Initial2020-2021 年,OpenAI 投入了大量的精力通过代码训练代码训练和指令微调指令微调来增强 GPT-3。使用思维链思维链进行复杂推理的能力很可能是代码训练的一个神奇副产物使用指令微调指令微调将 GPT-3.5 的分化到不同的技能树(数学家/程序员/)Co
30、dex+Instruct31GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruction tuningRLHFRLHFInstruction tuningCode-davinci-001Code-cushman-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davin
31、ci-002Text-davinci-003ChatGPTDavinciCode-davinci-002Code-davinci-0021)指令微调不会为模型注入新的能力不会为模型注入新的能力(解锁能力)2)指令微调牺牲性能换取与人类对齐牺牲性能换取与人类对齐(“对齐税”)GPT3.532GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruct
32、ion tuningRLHFRLHFInstruction tuningCode-davinci-001Code-cushman-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davinci-002Text-davinci-003ChatGPTDavinci2022.112022.11RLHFRLHFRLHFRLHFRLHF(基于人类反馈的强化学习的指令微调)触发的能力:RLHF(基于人类反馈的强化学习的指令微调)触发的能力:翔实的回应公正的回应拒绝不当问题拒绝其知识范围之外的问题ChatGPT(技术到产品)33大型语
33、言模型简史多模态模型:多模态模型:连接文本、图像及其他连接文本、图像及其他开源:开源:Meta的LLaMA系列(普惠学术领域)GPT-4v:GPT-4v:视觉遇见语言(跨模态)GPT-4o:GPT-4o:全模态前沿(交互能力)2017JUN2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARG
34、PT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o334 GPT-4可提供多模态能力
35、zero-shot及few-shot的能力 GPT-4逻辑推理能力的飞跃 GPT-4的安全性已经大幅提升 更强的专属能力(如编程)处理其它语言的能力 处理更长序列的能力GPT-4v(听、说 看)2023.062023.0635 多模态输入输出(交互能力)响应速度(接近人类响应)数学推理、编程等能力提升 非英文文本性能大幅提升 视觉和音频理解能力 成本优势GPT-4o(文科博士生)2024.062024.0636 推理能力大幅提升:数学和编程能力爆表 更像人类一样思考:全新安全训练方法&更强的“越狱”抵抗力GPT-o1(理科博士生)2024.092024.093737一、语言模型三、ChatGP
36、TOutline四、DeepSeek四、DeepSeek五、新一代智能体二、Transformer38大型语言模型简史推理模型:推理模型:从生成到推理的重心转变从生成到推理的重心转变OpenAI-o1/o3OpenAI-o1/o3:推理能力的一大飞跃DeepSeek-V3/R1DeepSeek-V3/R1:专家模型、强化学习,开源,效率2017JUN2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020M
37、AY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JAND
38、eepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o339DeepSeek-V3 Base(671B/37B激活)阶段阶段1:有监督微调SFT强化学习 GRPO(规则奖励)+语言一致性奖励阶段2的模型生成推理SFT数据推理数据(60w样本)冷启动阶段(DeepSeek-R1-Zero生成少量推理数据)DeepSeek-V3SFT数据DeepSeek-V3 Base(671B/37B激活)COT Prompting非推理数据(20w样本)数据合并(80w样本)DeepSeek-R1-ZeroSFT(2 epochs)Qwen2.5-14BQwen2.5-32BLlama3
39、.3-70B-InstructLlama3.1-8BDeepSeek-R1-Distill阶段阶段3:SFT(2 epcohs)阶段阶段4:全场景强化学习DeepSeek-R1基于规则奖励的大规模强化学习阶段阶段2:基于规则奖励的强化学习模型蒸馏(Distillation)DeepSeek模型并非是颠覆性基础理论创新(Transformer-based),其对算法、模型和系统等进行的系统级协同工程创新系统级协同工程创新,打破了大语言模型以大算力为核心的预期天花板,为受限资源下探索通用人工智能受限资源下探索通用人工智能开辟了新的道路。DeepSeek 技术全景图DeepSeek Step 1:D
40、eepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基础生成模型推理模型初试推理横型大成R1蒸馏小模型40DS-V3对标GPT-4o(文科博士生):DS-V3对标GPT-4o(文科博士生):混合专家模型:混合专家模型:V3基座模型总共有6710亿参数,但是每次token仅激活8个专家、370亿参数(5.5%5.5%)。极致的工程优化:多头潜在注意力机制(极致的工程优化:多头潜在注意力机制(MLAMLA),使用FP8混合精度,DualPipe算法提升训练效率,将训练效率优化到极致
41、,显存占用为其他模型的5%-13%5%-13%。DeepSeek 技术揭秘动态路由机制和专家共享机制动态路由机制和专家共享机制DeepSeek Step 1:DeepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基础生成模型推理模型初试推理横型大成R1蒸馏小模型41DeepSeek 技术揭秘赋予DeepSeek-V3最基础的推理能力:赋予DeepSeek-V3最基础的推理能力:R1-Zero使用DeepSeek-V3-Base作为基础模型,直接使 用 GRPO 进 行 强 化
42、学 习 来 提 升 模 型 的 推 理性能:准确度奖励(Accuracy rewards)格式奖励(Format rewards)人工标注奖励模型奖励规则SFTRLHFGRPO0 或 1引入人类偏好数据将知识抽象为奖励规则通过标注将知识显示化引入人类偏好数据将知识抽象为奖励规则通过标注将知识显示化数据驱动数据驱动+知识引导知识引导DeepSeek Step 1:DeepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基础生成模型推理模型初试推理横型大成R1蒸馏小模型42DeepS
43、eek 技术揭秘DeepSeek-V3 Base(671B/37B激活)阶段阶段1:有监督微调SFT强化学习 GRPO(规则奖励)+语言一致性奖励阶段阶段2:模型生成推理SFT数据推理数据(60w样本)冷启动阶段(DeepSeek-R1-Zero生成少量推理数据)DeepSeek-V3SFT数据DeepSeek-V3 Base(671B/37B激活)COT Prompting非推理数据(20w样本)数据合并(80w样本)DeepSeek-R1-ZeroSFT(2 epochs)Qwen2.5-14BQwen2.5-32BLlama3.3-70B-InstructLlama3.1-8BDeepS
44、eek-R1-Distill阶段阶段3:SFT(2 epcohs)阶段阶段4:全场景强化学习DeepSeek-R1基于规则奖励的大规模强化学习阶段阶段2:基于规则奖励的强化学习模型蒸馏(Distillation)DS-R1对标OpenAI-o1(理科博士生):DS-R1对标OpenAI-o1(理科博士生):阶段阶段1:DeepSeek-R1-Zero生成少量推理数据少量推理数据+SFT=为V3植入初步推理能力(冷启动冷启动)阶段阶段2:根据规则奖励直接进行强化学习(GRPO)训练=提升推理能力(多轮迭代,获取大量推理数据大量推理数据)阶段阶段3:迭代生成推理/非推理样本微调=增强全场景能力全场
45、景能力阶段阶段4:全场景强化学习=人类偏好对齐(RLHF)DeepSeek Step 1:DeepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基础生成模型推理模型初试推理横型大成R1蒸馏小模型43DeepSeek 技术揭秘DeepSeek-R1-Distill模型:DeepSeek-R1-Distill模型:(1)基于各个低参数量通用模型(千问、Llama等)(2)使用DeepSeek-R1同款数据微调(3)大幅提升低参数量模型性能知识蒸馏:知识蒸馏:老师教学生老师教学生:“
46、解题思路”,不仅给答案(硬标签),还教“为什么”(软标签)模型瘦身模型瘦身:大幅压缩参数(如671亿7亿参数),手机也能跑AIDeepSeek Step 1:DeepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基础生成模型推理模型初试推理横型大成R1蒸馏小模型44大模型应用层大模型应用层垂直应用垂直应用教育医疗法律制造客服服务(智能客服)OA类(WIKI等)数据经营分析运营工具(产品、渠道)GPT Agent(基于Prompt的应用,AutoGPT,AgentGPT等)大模型
47、应用开发框架(Langchain)大模型精调训练数据管理与生成精调pipeline基础架构及模型部署GPT4(公有云)LLMA(开源)Stable Diffusion基础模型应用支持微调插件嵌入大模型中间层基础模型层大模型中间层基础模型层通用类通用类DeepSeek 带来的全栈影响4545一、语言模型三、ChatGPTOutline四、DeepSeek五、新一代智能体五、新一代智能体二、Transformer46技术架构技术架构Transformer(2017)Bert/GPT(2018)01020304050607通用LLM通用LLMChatGPT(2022)LLaMA(2023)Vicun
48、a(2023)大模型开发工具大模型开发工具LangChain(2022)LlamaIndex(2023)垂类LLM垂类LLMCode Llama(2023)MathGLM(2023)LawBench(2023)垂类应用垂类应用LLM VSCode(2023)DB GPT-Hub(2023)基于LLM的Agent基于LLM的AgentHuggingGPT(2023)AutoGPT(2023)JARVIS(2024)Agent开发平台Agent开发平台GPTs(2023)Coze(2024)Agent Builder(2024)Agent OS(2024)Kore.ai(2023)Uchat(20
49、24)Deepseek从 LLM 到 Agent47系统1(快速、直觉快速、直觉)和系统2(缓慢、分析缓慢、分析)GPT-4v/4oDeepSeek-V3GPT-o1/o3DeepSeek-R生成大模型系统1系统1到推理大模型系统2系统2SAVING TAX DOLLARS;SAVING LIVES:USING NUDGE THEORY TO ELIMINATE OUTDATED EMERGENCY LOCATOR TRANSMITTERS(ELT)48LLM是Agent的大脑,其核心能力是LLM是Agent的大脑,其核心能力是“逻辑推理”“逻辑推理”系统2系统2Lilian Yung,Dir
50、ector of Applied Research at OpenAIPlanning Skills:对问题进行拆解得到解决路径,既进行任务规划Tool Use:评估自己所需的工具,进行工具选择,并生成调用工具请求Memory:短期记忆包括工具返回值,已完成推理路径;长期记忆包括可访问的外部长期存储等新一代智能体=Agent+LLMLLMsPlanningToolsCodeInterpreter()Calculator()Calendar()Search().moreSubgoal decompositionChain of thoughtsSelf-criticsReflectionActi
51、onLong-term memoryShort-term memoryMemory49时空智能的自主化服务(国自然基金重大课题)时空型GPT记忆规划工具执行空间规划土地利用规划功能区规划.算法模型淹没分析流域分析.基础地理信息知识黄河干流和主要支流最大行洪范围感知模型多传感器对地观测认知模型土地利用分类表达模型耕地保护方案由“由“时空型GPT时空型GPT”作为决策大脑驱动,构成一个闭环多智能体协同系统实现流程”作为决策大脑驱动,构成一个闭环多智能体协同系统实现流程自自组织、任务组织、任务自自执行、内容执行、内容自自生成,即时空智能的生成,即时空智能的自主化构建自主化构建THANKS感 谢 观 看勤 学 /修 德 /明 辨 /笃 实