定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《腾讯云:2025详解DeepSeek: 模型训练、优化及数据处理的技术精髓(23页).pdf》由会员分享,可在线阅读,更多相关《腾讯云:2025详解DeepSeek: 模型训练、优化及数据处理的技术精髓(23页).pdf(23页珍藏版)》请在薪酬报告网上搜索。
1、DeepSeek 是什么 DeepSeek是杭州深度求索人工智能基础技术研究有限公司推出的一款创新大语言模型。公司成立于2023年7月17日,由知名私募巨头幻方量化孕育而生。DeepSeek致力于开发和应用先进的大语言模型技术深度小助手深度小助手聪明且低成聪明且低成本本聪明强聪明强大能大能干干中国中国本土本土AIAI深度思考联网搜索DeepSeek:大语言模型的特点有哪些?内容内容 token token 化化大模型看到的世界与人看到的不太一样训练前需要将文本进行处理,比如切割称为Token的基本单元;比如问ai 一个英文单词 illegal 中有几个字母l,有些指令模型回答为2个;但deep
2、seek r1 推理模型是可以回答正确!模型模型训练训练存在存在endtimeendtime大模型训练语料存在一个截止时间deepseek R1虽然是25年1月发布,但它的知识库截止日期是2023年12月,这就意味着ds可以提供在此日期发布之前的公开信息和常识;需要经过大量清洗、监督微调、反馈强化学习。但对于之后的新闻、事件变化、新事物则无法直接获取或验证。解决办法是开启联网模式或提示词中 补充说明无自我认识无自我认识无自无自我意我意识识网上有个段子是“有人问deepseek你是谁,然后回答是gpt”目前AI 大模型不知道自己是谁,也不知道自己是采用什么模型。除非是厂商在后期再微调、或再训练,
3、如果大家问到类似的问题,可能目前的AI 大模型会回答错误。解决办法是少问 AI是谁、采用什么模型上下文长度限上下文长度限定定记忆力有记忆力有限限AI 大模型目前的记忆力大概是64k 128k目前AI 大模型均有上下文长度限定;deepseek r1 提供64k token上下文长度,对应中文的话大约3万4万字。目前还不能一次性投喂太长的文档给它,比如:一本完成西游记、或者非常长的文档让它翻译,AI 它是没有办法完整读完 解决办法是分成多次投喂回答输出回答输出长度有长度有限限AI 大模型目前的回答4k 8k,20004000字目前AI 大模型无法一次性完成万字长文,也无法一次性输出5千字,均是模
4、型输出长度限制所致;如果是输出长文,可以尝试先让AI 大模型先生成一个目录,然后再根据目录输出对应模块;如果是长文翻译类,则多次输入,或者拆解后多次调用API 解决办法是将任务分解成多次2019年2020年投入投入1010亿亿手握万卡手握万卡2022年3月GPT 3.5发布布局集卡补充1:ChatGPT需要上万张 NVIDIA A100显卡,国内主要玩家:百度、字节、腾讯、阿里、商汤、幻方补充2:nvidia官网 https:/ 发布GPT 4o发布V3 发布2024年底2024年5月Llama-3.1发布2024年7月2025年1月31号R1 登录nvidia 官网DeepSeek 发展由来
5、 来自杭州深度求索公司,系一家成立于2023年。使用数据蒸馏技术,得到更为精炼、有用的数据。由知名私募巨头幻方量化全资孕育而生,专注于开发先进的大语言模型(LLM)和相关技术。DeepSeek 为什么火:一个足够优秀的模型变得人人免费拥有一、技术突破:为什么一、技术突破:为什么DeepSeekDeepSeek的模型值得关注?的模型值得关注?二、开源生态:二、开源生态:DeepSeekDeepSeek如何改变开发者社区?如何改变开发者社区?三、行业落地:三、行业落地:DeepSeekDeepSeek推动的技术范式迁移推动的技术范式迁移四、行业竞争格局:四、行业竞争格局:DeepSeekDeepS
6、eek的的“鲶鱼效应鲶鱼效应 ”1.模型架构与训练效率优化架构改进:MLA多层注意力架构、FP8混合精度训练框架、DualPipe 跨节点通信训练策略:采用混合精度训练(BF16+FP8)和梯度累积策略2.数据质量与领域适配数据筛选:多模态数据清洗领域微调:“领域渐进式微调”(Progressive Domain Fine-tuning)策略1.开放模型与工具链全量开源:DeepSeek开源了完整训练代码、数据清洗Pipeline和领域微调工具包(如DeepSeek-Tuner),极大降低复现和二次开发门槛轻量化部署:提供模型压缩工具(如4-bit量化适配TensorRT-LLM)2.社区驱动
7、创新开发者基于DeepSeek模型快速构建垂直应用金融场景教育场景1.从“通用模型”到“领域专家”传统大模型(如GPT-3.5)依赖Prompt Engineering适配行业需求,而DeepSeek通过预训练阶段嵌入领域知识,减少后期微调成本2.成本革命通过模型压缩和高效推理框架,企业可基于单卡部署专业模型,推理成本降至GPT-4 API的1/50如:某电商客服系统用DeepSeek-7B替代GPT-4,单次交互成本从0.06降至0.001,日均处理量提升10倍。1.倒逼闭源模型降价DeepSeek的开源策略迫使国际厂商调整定价。例如,Anthropic的Claude 3 Sonnet AP
8、I价格在DeepSeek开源后下调2.催化国产AI芯片生态DeepSeek与华为昇腾、寒武纪等厂商深度合作,优化模型在国产硬件的推理性能。例如,DeepSeek-7B在昇腾910上的吞吐量比A100高3.推动AGI技术民主化中小企业和研究机构可基于开源模型快速迭代,无需依赖巨头API。例如,非洲某初创团队用DeepSeek-7B开发本地化农业咨询AI,成本仅为GPT-4方案的1/20技术挑战技术挑战1.长上下文理解:目前最大支持32K tokens,相比Claude 100K仍有差距。2.多模态扩展:尚未开放图像-文本联合模型,需追赶GPT-4V、Gemini。商业化平衡商业化平衡开源模型可能
9、导致企业版变现困难,需探索类似Red Hat的“开源+服务”模式。挑战及未来挑战及未来MLA多层注意力架构原先:每一层有值且内存挨个计算优化:前后合并,使用时再放到内存中FP8混合精度训练框架原先:32位、16位优化:不该精确8位(近似值),需要精确还是32位每128个位,交给会计总账合计保证精度Point1:大大压缩计算量DualPipe 跨节点通信原先:需要等前面stage完成才能干活优化:优化为双路计算流水线,传输、计算同时进行计算+50%、传输+20%无辅助损失的负载均衡策略原先:每个worker干活一样优化:均衡派单,保证worker有活干跨节点全对全通信内核Point2:分布式并行
10、提效Point3:模型大、数全、偏科模型够大参数多Llama3.1:405 BDeepseek:671 B数据全且精优化:精选数据、清洗干净MTP技术(Multi-Token Prediction 多令牌预测)传统:一次预测一个Token优化:预测连续多个TokenR1蒸馏技术R1推理模型,给出计算逻辑推理V3提取推理思路+解题策略用大模型指导小模型训练,降低推理成本DeepSeek 核心哪些创新大幅降低训练成本DeepSeek 核心技术架构1.1.模型架构模型架构2.2.核心技术突破核心技术突破多模态深度Transformer:支持文本、代码、数学符号的统一理解与生成动态稀疏激活机制:采用M
11、oE(Mixture of Experts)架构,实现万亿参数级高效推理超长上下文建模:支持128K+tokens窗口,精准捕捉长程依赖自研训练框架:融合高效分布式训练、混合精度优化与灾难性遗忘抑制技术强化学习对齐:基于人类反馈的强化学习(RLHF),提升结果安全性与实用性3.3.核心优势核心优势4.4.应用场景应用场景高效推理:单卡支持千亿参数模型部署,推理速度提升3倍+多任务兼容:原生支持智能体(Agent)架构,实现工具调用与复杂推理持续进化:支持参数高效微调(PEFT),快速适配垂直领域需求智能问答代码生成数据分析科研计算多模态交互传统传统 VS MoE VS MoE架构架构DeepS
12、eek的核心版本(不同版本功能亮点)持续迭代的工程与创新持续迭代的工程与创新版本原理重要功能特点关键指标提升DeepSeek V1DeepSeek V1将多头查询(Q)分组共享键值(K/V),减少显存占用基本沿用LLaMA奠定基础GQA+多阶段训练训练速度+20%DeepSeek V2DeepSeek V2在潜在空间压缩注意力头维度(如64维32维),通过低秩分解减少计算量 提出DeepSeek MoE MLA压缩kv减少缓存效率革命MoE+潜在注意力推理成本-50%DeepSeek V3DeepSeek V3熵最大化路由:约束路由器输出的熵值,自然分散专家负载梯度掩码:对过载专家暂停梯度更新
13、,促使其“冷却”MoE 负载均衡优化 引入MTP 技术负载均衡新范式无辅助损失均衡专家利用率+24%DeepSeek R1DeepSeek R1动态路由架构:根据输入类型(文本/代码/数学)自动切换模型分支混合精度推理:FP16用于注意力计算,INT4用于FFN层,延迟降低35%冷启动问题的强化学习全能选手动态路由+混合精度综合任务得分+15%MHAMHA和和MQAMQA的原理差异的原理差异GQAGQA和和MQAMQA优化后和原始模型推理速度对比优化后和原始模型推理速度对比参考链接:http:/ MoE 原理图原理图DeepSeek的核心技术(架构示意图)持续迭代的工程与创新持续迭代的工程与创
14、新对Transformer框架内的注意力模块和前馈网络(FFNs)进行了优化,采用了我们提出的 多头多头潜在注意力(潜在注意力(MLAMLA)和 DeepSeekMoEDeepSeekMoE技术技术。在注意力机制方面,多头注意力(MHA)的键值(KV)缓存对大型语言模型(LLMs)的推理效率构成了重大障碍。人们已经探索了多种方法来解决这个问题,包括分组查询注意力(GQA)和多查询注意力(MQA)。然而,这些方法在试图减少KV缓存时,往往会牺牲性能。为了实现两全其美,我们引入了MLA,这是一种具备低秩键值联合压缩功能的注意力机制。实证研究表明,MLA相较于MHA具有更优的性能,同时显著减少了推理
15、过程中的KV缓存,从而提高了推理效率。对于前馈网络(FFNs),我们采用了DeepSeekMoE架构,该架构采用细粒度的专家分割和共享专家隔离策略,以实现更高的专家专业化潜力。与传统的MoE架构相比,DeepSeekMoE架构具有显著优势,使我们能够以较低的成本训练出强大的模型。由于我们在训练过程中采用了专家并行策略,还设计了补充机制来控制通信开销并确保负载均衡。参考文章:DeepSeek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language ModelDeepSeek的核心技术-MLA 减少kv 缓存占用空间不同注意
16、力机制每个不同注意力机制每个 token token 的的 KV KV 缓存比较缓存比较在困难基准测试中,在困难基准测试中,MLAMLA与与MHAMHA的比较的比较DeepSeek-V2的MLA性能优于MHA,但所需的键值缓存(KV cache)量显著减少多头注意力(多头注意力(MHAMHA)、分组查询注意力()、分组查询注意力(GQAGQA)、多查询注意力()、多查询注意力(MQAMQA)和多头潜在注意力()和多头潜在注意力(MLAMLA)的简化示意图)的简化示意图通过将键和值联合压缩到一个潜在向量中,MLA在推理过程中显著减少了键值缓存(KV cache)MLA诞生背景:背景:传统的Tra
17、nsformer模型通常采用多头注意力(MHA),但在生成过程中,其庞大的键值(KV)缓存会成为限制推理效率的瓶颈。为了减少KV缓存,提出了多查询注意力(MQA)和分组查询注意力(GQA)它们需要的KV缓存规模较小,但性能不及MHA。对于DeepSeek-V2,我们设计了一种创新的注意力机制,称为多头潜在注意力(MLA)。MLA配备了低秩键值联合压缩功能,其性能优于多头注意力(MHA),但所需的键值缓存(KV cache)量显著减少。配备多头注意力(MHA)、分组查询注意力(GQA)和多查询注意力(MQA)的70亿参数密集型模型在四个困难基准测试上的评估结果参考文章:DeepSeek-V2:A
18、 Strong,Economical,and Efficient Mixture-of-Experts Language ModelMLAMLA改进改进MHAMHA,从而压缩,从而压缩KVKV缓存,提高推理速度缓存,提高推理速度DeepSeek的核心技术-DeepSeekMoE细粒度分割与共享隔离基础基础 MoE MoEDeepSeek MoEDeepSeek MoEvsvs基础的MoE将原来的每个token的单个FFN层变成多个并行的FFN层(对应多个expert),并根据输入生成一个路由到各个FFN的打分,选择topN个Expert,实现在单token运算量没有显著提升的前提下,扩大模型的
19、参数空间的目的。DeepSeekMoEDeepSeekMoE相比相比MoEMoE有有2 2个核心优化个核心优化1 1、FFNFFN维度调小,增加维度调小,增加ExpertExpert数量数量 (细粒度的细粒度的ExpertExpert分割分割 )将expert细分到更细的粒度,以实现更高的专家专业化程度和更准确的知识获取1 1、增加提取公用、增加提取公用ExpertExpert并共享并共享化,其它化,其它ExpertExpert专注于差异化专注于差异化增加了几个所有token都走的公用Expert,通过让所有token都走这些Expert,让这些Expert提取通用信息,隔离一些共享exper
20、t,以减轻路由专家之间的知识冗余,其他Expert就能更专注于提取差异化的信息。参考链接1:DeepSeekMoE:Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models参考链接2:DeepSeek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language Model细粒度细粒度expertexpert分割,优化路由,分割,优化路由,多级别负载均衡,多级别负载均衡,提升模型性能提升模型性能 为清晰展示,性能以最佳表现为基准进行
21、了归一化处理。所有对比模型的参数数量和激活参数数量均相同。发现:细粒度的expert分割和共享expert隔离都有助于提升整体性能DeepSeekMoEDeepSeekMoE 的共享的共享 expert expert性能研究性能研究 在不同禁用Top路由Expert比例下的堆叠损失。值得注意的是,DeepSeekMoE对禁用Top路由Expert的比例更为敏感,这表明DeepSeekMoE中被路由Eepert之间的冗余度较低。禁用禁用TopTop路由不同比例路由不同比例expertexpert的损失数据的损失数据DeepSeek的核心技术-Multi-Token 预测(MTP)数据来源:Dee
22、pSeek-V3 Technical Report多标记预测(MTP)实现的示意图,保留每个深度的每个标记预测的完整因果链vsvs主流大模型token-by-token生成序列,而每次token生成需要频繁与访存交互,从而因为访存效率形成训练或推理的瓶颈MTP主要将单token的生成,转变成多token的生成,提升训练和推理的性能;MTP使训练信号更加密集,可能会提高数据效率;还使模型预先规划,以便更好地预测未来的TokenMMTP TP 一次预测多个一次预测多个tokentoken,训练更长更多数,训练更长更多数据,提升大模型的训练和推理效率据,提升大模型的训练和推理效率token-by-t
23、okentoken-by-token生成序列生成序列主流大模主流大模型型单单tokentoken 优化为多优化为多tokentokenMTPMTP方法方法DeepSeek的核心技术-DualPipe调度策略+细粒度的混合精度框架数据来源:DeepSeek-V3 Technical Report基础设施方面进行一定优化基础设施方面进行一定优化,提升效,提升效率率一对单独的前向和后向计算块的重叠策略(变换器块的边界未对齐)。橙色表示前向计算,绿色表示“针对输入的后向计算”,蓝色表示“针对权重的后向计算”,紫色表示管道并行(PP)通信,红色表示屏障。全连接分发和管道并行通信均可被完全隐藏。示例:在两
24、个方向上,针对8个管道并行(PP)等级和20个微批次的双管道(DualPipe)调度方案。反向方向的微批次与正向方向的微批次是对称的,为简化示意图,我们省略了反向方向微批次的批次编号。由共享黑色边框包围的两个单元格,其计算和通信过程是相互重叠的。不同管道并行方法中管道气泡和内存使用的比较不同管道并行方法中管道气泡和内存使用的比较双管道显著减少了管道气泡双管道显著减少了管道气泡无论微批次数量如何增加,管道气泡和激活内存都不会增加管道并行算法管道并行算法 DualPipe DualPipe 除了基础架构,DeepSeek还在基础设施方面进行了一定优化。例如设计了一种创新的管道并行算法 DualPi
25、pe,在每一对前向和后向块内重叠计算和通信,提高通信效率、加速了模型训练细粒度的混合精度框架DeepSeek提出了一种用于 FP8 训练的混合精度框架,其中大多数计算密集型操作在 FP8 精度下进行,而一些关键操作则战略性地保持在原始数据格式以平衡训练效率和数值稳定性;训练过程中,采用英伟达 PTX(并行线程执行)汇编级编程替代标准 CUDA 方案,实现了硬件级深度优化,减少了计算冗余,提高了推理速度。通过与在不同规模下的两个基准模型上进行BF16训练作对比,对我们的FP8混合精度框架进行了验证在小规模情况下,我们在1.33万亿个token上训练一个包含约160亿总参数的基准MoE模型在大规模
26、情况下,我们在约0.9万亿个token上训练一个包含约2300亿总参数的基准MoE模型上图展示了训练曲线,并证明了通过高精度累积和细粒度量化策略,相对误差保持在证明了通过高精度累积和细粒度量化策略,相对误差保持在0.25%0.25%以下。以下。BF16和FP8训练的损失曲线对比DeepSeek的核心技术-R1-zero 基础模型上的强化学习R1-ZeroR1-Zero验证纯强化学习(验证纯强化学习(RLRL)对推理能力的提升)对推理能力的提升R1-Zero的特别之处在于,其无需任何监督微调数据即可获得强大的推理能力,反映了模型仅通过强化学习就能有效学习和泛化的能力。尽管R1-Zero模型展现了
27、强大的推理能力,但仍面临可读性差和语言混合等挑战,R1模型则通过冷启动和多阶段训练解决了上述问题。DeepSeek-R1-Zero能够自然地学会利用更多的思考时间来解决推理任务在强化学习过程中,在强化学习过程中,DeepSeek-R1-ZeroDeepSeek-R1-Zero在训练集上的平均响应长度在训练集上的平均响应长度DeepSeek-R1-ZeroDeepSeek-R1-Zero与与OpenAI o1OpenAI o1模型在推理相关基准测试上的比较模型在推理相关基准测试上的比较数据来源:DeepSeek-R1:Incentivizing Reasoning Capability in L
28、LMs via Reinforcement Learning强化学习算法:强化学习算法:采用了群体相对策略优化采用了群体相对策略优化摒弃了通常与策略模型大小相同的评论家模型,而是从群体得分中估算基线最终实现训练集上的平均响应长度持续提升,自然地学会了通过更多的思考时间来解决推理任务奖励建模:奖励建模:准确性奖励、准确性奖励、格式奖励格式奖励训练模板:训练模板:要求先给出推理过程,然后给出最终答案要求先给出推理过程,然后给出最终答案自我思考能力:自我思考能力:自发学会了重新评估其初始回答,更多的思考时间自发学会了重新评估其初始回答,更多的思考时间这种“反思”的特性能够一定程度解决大模型幻觉问题(
29、大模型逐token输出,过去没有机制去纠正已经输出的错误,反而会继续用错误掩盖先前的问题,带来幻觉问题)DeepSeek-R1-ZeroDeepSeek-R1-Zero在训练期间的在训练期间的AIMEAIME准确率准确率对于每个问题,我们抽取16个回答并计算总体平均准确率,以确保评估的稳定性。DeepSeek的核心技术-R1 具有冷启动的强化学习R1-ZeroR1-Zero验证纯强化学习(验证纯强化学习(RLRL)对推理能力的提升)对推理能力的提升背景:背景:尽管DeepSeek-R1-Zero展现出了强大的推理能力,并且能够自主发展出出人意料且强大的推理行为,但它仍面临一些问题。例如,Dee
30、pSeek-R1-Zero在可读性差以及语言混杂等方面存在困难。为了使推理过程更具可读性,并能与开源社区共享,我们探索了DeepSeek-R1方法,该方法利用带有对人类友好的冷启动数据的强化学习。数据来源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning冷启动机制冷启动机制可读性增强性能提升推理强化学习优化推理强化学习优化拒绝采样与监督微调拒绝采样与监督微调蒸馏:赋予小模型蒸馏:赋予小模型推理能力推理能力基于长CoT示例的少样本提示直接提示生成包含反思验证的详细答案整理DeepSe
31、ek-R1-Zero的规范化输出人工标注后处理优化引入语言一致性奖励机制,着重提升模型的推理能力,尤其是在涉及有明确解决方案的明确定义问题的推理密集型任务中,例如编程、数学、科学和逻辑推理等任务推理数据构建对RL训练检查点执行拒绝采样生成推理轨迹非推理数据整合在写作、事实QA、自我认知和翻译等领域,采用DeepSeek-V3流程和部分SFT数据全场景强化学习优化人类偏好对齐,实施第二阶段RL训练,着重提升模型实用性、安全性和推理能力采用DeepSeek-R1生成的80万训练样本,对Qwen和Llama等开源模型进行直接微调,旨在将DeekSeek-R1的推理能力迁移至计算效率更高的小型模型。实
32、验结果表明,这种直接知识蒸馏方法能显著提升小型模型的推理性能。研究选用的基础模型包括:Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-InstructDeepSeek-R1DeepSeek-R1蒸馏模型与其他可比模型蒸馏模型与其他可比模型在推理相关基准测试上的比较在推理相关基准测试上的比较如上表所示,仅仅对DeepSeek-R1的输出进行蒸馏,就能使高效的DeepSeek-R1-7B(即DeepSeek-R1-蒸馏-Qwen-7B,下文类似简称)在各个方面都优于像GPT-4
33、o-0513这样的非推理模型。DeepSeek-R1-14B在所有评估指标上都超过了QwQ-32B-预览版,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超过o1-mini。这些结果展示了蒸馏的强大潜力。此外,我们发现对这些蒸馏模型应用强化学习(RL)能带来显著的进一步提升。我们认为这值得进一步探索,因此在此仅展示简单监督微调(SFT)蒸馏模型的结果。DeepSeek的应用场景零售领域:数据驱动的精准运营零售领域:数据驱动的精准运营教育领域:自适应学习生态教育领域:自适应学习生态AIAI技术驱动的场景化赋能技术驱动的场景化赋能客户需求预测技术方案:融合T
34、ransformer时序模型与外部环境变量(天气、节假日),动态预测区域级商品需求。结合联邦学习技术,保护隐私的同时整合多门店数据,提升预测泛化能力。业务价值:降低预测误差率、降低缺货率;支持动态补货策略,降低仓储成本。智能辅导系统核心技术:多模态交互:语音识别(ASR)+手势识别,支持低龄学生自然交互解题辅导。认知诊断:基于DKT(深度知识追踪)模型量化学生知识状态,动态生成学习路径图谱。落地场景:小学数学辅导场景,知识点掌握度预测准确率超90%;自动批改作文并生成多维反馈(语法/逻辑/创意),节省教师70%批改时间。金融领域:智能风控系统金融领域:智能风控系统医疗领域:影像辅助诊断医疗领域
35、:影像辅助诊断多模态图神经网络+动态对抗训练年损失减少亿元级MoE架构+多模态对齐早期癌症检出率提升DeepSeek的技术发展趋势通用智能与垂直场景的双重进化通用智能与垂直场景的双重进化通用人工智能(通用人工智能(AGIAGI)的渐进式突破,)的渐进式突破,推动科技新变革推动科技新变革垂直领域垂直领域AIAI的深度渗透,的深度渗透,重塑行业格局重塑行业格局大模型持续扩展大模型持续扩展参数规模:千亿级万亿级参数演进,混合专家(MoE)架构提升效率能力泛化:从单模态到多模态统一建模(文本/图像/视频/传感器数据联合学习)自主决策能力增强自主决策能力增强世界模型构建:通过物理仿真与真实数据融合,提升
36、对复杂环境的理解能力因果推理升级:从统计相关性向因果机制建模跨越(如反事实干预推演)人机协作深化人机协作深化具身智能:机器人+AI深度融合,实现物理世界交互(如仓储分拣、实验操作)伦理安全框架:构建价值观对齐与风险可控的AGI系统行业大模型专业化行业大模型专业化领域知识注入(如医疗术语库、零售供应链图谱、教育知识图谱)提升任务精度轻量化部署:模型蒸馏+硬件适配技术推动边缘场景落地实时化与个性化实时化与个性化AI推理加速:端侧实时推理(=DAU=五千万五千万中小型中小型App,App,DAU=DAU=五千万五千万AGI提供通用认知能力2025年底进入快速发展进程比垂直领域AI慢垂直AI通过领域知
37、识增强精准性已进入快速发展进程比通用人工AGI快数据参考:推理成本预降数十倍,2025中国将从“百模大战”转向应用大战与同行技术的比较一、性能对比:效率与精度双突破一、性能对比:效率与精度双突破性能、场景与创新的多维竞争力性能、场景与创新的多维竞争力二、应用场景对比:垂直优化与通用泛化二、应用场景对比:垂直优化与通用泛化三、创新能力对比:开源生态与技术前瞻性三、创新能力对比:开源生态与技术前瞻性架构设计架构设计DeepSeek:采用混合专家(MoE)架构,激活参数仅占模型总量的5.5%(如DeepSeek-R1激活370亿参数,总量6710亿),显著降低计算资源消耗,推理延迟压至10ms级GP
38、T系列:基于纯Transformer架构,依赖全参数激活(如GPT-4约1万亿参数),推理成本高且响应速度较慢Claude系列:强调安全对齐性,但模型灵活性和多任务处理能力受限,推理速度低于DeepSeek任务表现任务表现中文场景:DeepSeek在C-Eval(86.5%)、C-SimpleQA(64.1%)等中文评测中显著优于GPT-4(中文任务偏差率降低30%+)代码生成:HumanEval-Mul得分82.6%,超越GPT-4o(78.2%)和Claude 3.5(80.1%),尤其在函数调用和API集成上表现突出多模态推理:Gemini在多模态任务领先,但DeepSeek通过强化学习
39、后训练(RLHF)在纯文本逻辑推理(DROP 91.6%)上超越同类模型17资源效率资源效率训练成本仅550万美元(GPT-4估算超1亿美元),单位算力能耗降低80%支持FP8量化和动态稀疏训练,边缘设备可部署百亿参数模型(如零售终端AR推荐)模型模型核心优势场景核心优势场景局限性局限性DeepSeek中文任务、代码生成、实时决策(零售库存联调、教育个性化推荐)多模态支持较弱,长上下文处理(64k vs Claude 200k)GPT系列创意写作、长文本生成(法律文档、学术研究)中文语义偏差,部署成本高(API价格超DeepSeek 10倍)Claude系列安全敏感场景(医疗咨询、法律合规)灵
40、活性与创造力不足,推理速度慢Gemini多模态分析(视频描述、跨媒体检索)纯文本任务表现平庸,模型臃肿技术突破技术突破开源战略开源战略未来方向未来方向低成本训练仅用1/11算力(对比Llama-3-405B)实现同等性能,FP8量化技术压缩训练能耗70%完全开源模型代码与训练框架吸引超10万开发者贡献;降低企业AI开发成本AGI基座研发万亿参数MoE架构+垂直领域AI中小公司如春笋般涌现各大模型按总分降序排列数据来源:数据来源:DeepSeek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language Model Deep
41、Seek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language Model DeepSeek-V2与其他代表性开源模型的比较在不同开源模型中MMLU(大规模多任务语言理解评估基准)准确率与激活参数的关系DeepSeek-76B(稠密型)模型和DeepSeek-V2模型的训练成本及推理效率DeepSeek-R1 性能评分数据来源:DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement LearningDeepSeek-R1 蒸馏模型
42、评估DeepSeek-R1 与其他代表性模型的比较蒸馏模型与强化学习(RL:Reinforcement Learning)模型在推理相关基准测试中的比较如何高效用好DeepSeek?(一)Step1:Step1:前提需要先了解清楚大语言指令模前提需要先了解清楚大语言指令模型、推理模型工作原理与局限型、推理模型工作原理与局限Step2:Step2:在和在和DSDS交流时,当它当成是你极其聪明超过交流时,当它当成是你极其聪明超过1010年工作经年工作经验的助验的助理,需要交待清楚你的诉求是理,需要交待清楚你的诉求是什么什么 如果需要分析的是如果需要分析的是2323年年1212月之前的不太需要联网模
43、式;月之前的不太需要联网模式;如果是近期、或实时新闻事件则需要开启联网模式如果是近期、或实时新闻事件则需要开启联网模式指令模型指令模型:open ai的gpt4o、字节豆包,用于遵循指令生成任务;需要较完善的提示词,才能激发模型的表现需要较完善的提示词,才能激发模型的表现 推理模型推理模型:deepseek r1、gpt-o1 专注于逻辑推理问题解决,自主处理多步骤、因果推断或者解决复杂决策的 清晰明确表达你的需求即可清晰明确表达你的需求即可1.1.我的角色我的角色/背景:背景:(例如:我是蜜雪冰城的产品运营)(例如:我是蜜雪冰城的产品运营)2.2.我的问题场景:我的问题场景:(例如:希望通过
44、(例如:希望通过1212个月的周期提升客单价)个月的周期提升客单价)3.3.我的目标:我的目标:(例如:提升客单价至(例如:提升客单价至1515元,同时稳住市场份额)元,同时稳住市场份额)4.4.我的限制条件:我的限制条件:(例如:能接受短期业绩波动)(例如:能接受短期业绩波动)5.5.期望的回答形式:期望的回答形式:(例如:需要具体的执行方案,包括产品升级、套餐设计等)(例如:需要具体的执行方案,包括产品升级、套餐设计等)高效向 DeepSeek 提问模版个人使用建议:如何高效用好DeepSeek?(二)1.1.明确问题背景明确问题背景2 2.提供具体信息提供具体信息3 3.结构化描述问题结
45、构化描述问题将复杂问题拆解为多个小问题,或列出关键点。包括:您的角色(如产品经理、学生、创业者等)。问题的具体场景(如“针对老年人团队的重庆旅游攻略”)。您的目标(如“提升客单价”“设计一个2天行程”)。限制条件(如“预算有限”“不接受过度劳累”)。将复杂问题拆解为多个小问题,或列出关键点。示例:低效提问:“怎么运营一个品牌?”高效提问:“我想运营一个新茶饮品牌,目前有以下问题:如何定位目标用户?如何设计产品线?如何通过社交媒体吸引第一批用户?”示例:低效提问:“重庆怎么玩?”高效提问:“我计划2月初带老年人团队去重庆玩2天,希望行程轻松、避开人流高峰,有什么推荐路线和注意事项?”示例:低效提
46、问:“怎么提升客单价?”高效提问:“我是蜜雪冰城的产品运营,希望通过12个月的周期提升客单价,同时稳住市场份额,能接受短期业绩波动,有什么具体方案?”避免无效向 DeepSeek 提问4 4.避免模糊的指令避免模糊的指令无效示例:给我一些建议。改进建议:明确需要建议的具体方向。有效示例:我想提升工作效率,能给我一些时间管理的建议吗?2.2.提供足够的上下文提供足够的上下文无效示例:帮我写个方案。改进建议:说明背景、目标和限制条件。有效示例:我需要为一家新茶饮品牌设计一个营销方案,目标用户是18-25岁的年轻人,预算有限,希望聚焦社交媒体推广。1.1.避免过于宽泛的问题避免过于宽泛的问题无效示例
47、:告诉我一些有趣的事情。改进建议:明确具体领域或主题。有效示例:能推荐一些适合初学者的编程学习资源吗?6.6.避免使用歧义或模糊的词汇避免使用歧义或模糊的词汇无效示例:给我一些好的建议。改进建议:明确“好”的具体标准。有效示例:我需要一些低成本、易执行的营销活动建议。5.5.避免矛盾或不切实际的要求避免矛盾或不切实际的要求无效示例:帮我写一篇1000字的文章,但只能用50个字。改进建议:确保需求合理且可实现。有效示例:我需要一篇500字左右的文章,介绍如何提升团队协作效率。3 3.避免过于复杂或冗长的描述避免过于复杂或冗长的描述无效示例:一段长达500字、包含多个不相关问题的描述。改进建议:将复杂问题拆解为多个小问题,或聚焦核心需求。有效示例:如何设计一个吸引年轻人的品牌logo?、如何通过社交媒体推广新品牌?7.7.避免重复提问避免重复提问无效示例:多次提问相同或类似的问题。改进建议:如果对回答不满意,可以补充更多细节或调整问题方向。有效示例:关于时间管理,除了番茄工作法,还有其他适合职场新人的方法吗?一起学习,一起交流,跟随技术奔跑,共勉!最后,特别兴奋国产DeepSeek大幅降低训练成本且性能出色让AI进一步融入日常生活,服务大众技术发展进步很快,未来ds不一定是最完美那个,但一定会在AI 历史长河中留下浓墨重彩的一笔