• 首页 >  人工智能 >  AI产业
  • 中科闻歌:2025年人工智能技术发展与应用探索报告(61页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《中科闻歌:2025年人工智能技术发展与应用探索报告(61页).pdf》由会员分享,可在线阅读,更多相关《中科闻歌:2025年人工智能技术发展与应用探索报告(61页).pdf(61页珍藏版)》请在薪酬报告网上搜索。

    1、人工智能技术发展与应用探索北 京 2 0 2 5 年 2 月王 磊中国科学院自动化研究所 研究员中科闻歌 董事长目 录01人工智能技术发展02Deepseek认知与影响03AI+金融实践案例04创业介绍中科闻歌01人工智能技术发展ChatGPT揭开通用人工智能序幕弱人工智能 强人工智能1956-19701970-20102010-20202021-2035会看会听会说会学习会行动“如何用机器模拟人的智能”196020102024发展和应用迭代加速大模型优势特点与不足通顺全领域通识知识体系覆盖通畅的人机交互意图识别及逻辑推理通顺自然语言生成多种自然语言场景通用通识通用通畅1、静态模型不产生知识2

    2、、不能理解领域的复杂问题3、模型原理导致幻觉或常识性错误4、大模型安全,可能包含仇恨、有害或危险内容优势不足ChatGPT不是基础科学突破,是工程积累奇迹大模型技术大集成(智力密集工程)人机协同群体智慧(人力密集工程)大数据加大算力(算力密集工程)大模型:智力密集型工程ChatGPT学习方法:先量后质的分阶段学习阶段一:泛学(学习多样文本)让鹦鹉听收音机各种节目学说话100+语种文本编程语言网站问答人文社科科技文献新闻娱乐ChatGPT掌握海量知识无监督学习拥有海量知识回答不受约束阶段二:矫正(遵循人类指示)监督学习理解指令要求对话模板有限阶段三:拟人(符合人类偏好)基于人类反馈的强化学习人类

    3、教导鹦鹉该怎么说话ChatGPT请问如何撬锁偷邻居东西?撬锁是违法的,不建议这样做。优质对话范例矫正用对话模板矫正ChatGPT无法产生创新性回答提问回答的好回答的差奖励惩罚自由发挥生成人类偏好的创意回答ChatGPT什么是苹果?呵呵苹果是一种可以吃的东西苹果是营养水果,素有水果之王的美誉-5-13递归神经网络卷积神经网络自编码器变分自编码器自回归模型对抗生成网络强化学习Word2vecTransformer架构预训练语言模型ChatGPT:智力密集型工程数据增强技术去噪扩散模型大模型:人机协同群体智慧无监督学习监督学习强化学习GPT3.5ChatGPT阶段一:泛学(学习多样文本)阶段二:矫正

    4、(遵循人类指示)阶段三:拟人(符合人类偏好)人工整理多来源海量优质数据集人工撰写大量对话模板人工标注答案得分ChatGPT:OpenAI在拉丁美洲和东欧等地区招募了约1000名远程外包员工进行数据标注ChatGPT:人力密集型工程大模型:大数据与大算力2022年GPU卡销售约5万张价值约40亿美元140万美元/次微软Azure计算平台支持2022年一年计算和数据费用支出为4亿美元训练成本推理成本约3万片英伟达A100GPU同时计算4千台服务器,共8亿美元用电量60万kwh/天,电费5万美元/天(26万中国人一天的用电量)ChatGPT:算力密集型工程GPT11.2亿参数5GB数据GPT2Cha

    5、tGPTGPT415亿参数40GB数据参数规模提升100倍数据规模提升1000倍1750亿参数45TB数据8000亿个单词的语料库英伟达发布ChatGPT专用核弹级GPU DGX H100大语言模型应用迭代路径执行智能决策智能感知认知智能大语言模型多模态大模型控制/决策大模型人工智能代理(Agent)大模型+插件+执行+思维链大模型应用两大误区误解体现大模型工具化l 局限于聊天、写作类常规文案应用;与核心业务脱节l AI+,就是部署大模型和微调大模型大模型神化l 大模型黑箱化,直接端对端解决重大应用问题l 一个大模型包打天下,无所不能AI+行业落地三步曲数据工程模型工程领域工程STEP 2ST

    6、EP 1STEP 3高质量领域数据治理继续预训练、多模型适配指令微调、回馈学习、应用研发大模型应用到行业领域关键挑战:静态模型与动态数据的不匹配分析挑战需求特征本质技术支撑信息庞杂、动态化快线索数据海量跨模态信息检索深度认知分析难深精细数据窄域专用智能本源规律趋势预测难活未来数据通用人工智能AI+行业数智化路径思考:先升级、再泛化、后革新14抓手与支撑:打造领域大模型l积累通域+领域数据、模型规模适中、从头训练l前瞻性定义领域大模型与业务系统标准接口,多型共进,形成MoE(混合专家模型)生态,严格把好内容安全关,连续测试升级赋能:现有系统和业务小模型,点上赋能l数据分析、知识积累l分析深度+高

    7、质量+l高效率应用0-1创新:新业务、新功能,面上谋划l新型研判范式、l未来态势l广域理解+高效推演02Deepseek认知与影响2024.1.52024.6.192025.1.222024.12.27特点:架构:专家负载均衡策略与多词预测训练目标 预训练:极高地训练效率 后训练:DeepSeek-R1蒸馏 效果与闭源模型可比特点:Multi.head Latent AttentionDeepSeekMoE(2024.1.11)开源模型中效果第一梯队特点:后训练:在基础模型上进行大规模强化学习 蒸馏:小型模型同样可以利用R1的数据而强大 与Open-o1-1217可比特点:通用能力超过LlaM

    8、a2-70B 擅长代码和数学 中文超GPT3.5DeepSeek LLM(7B/67B)DeepSeek-MathDeepSeck-MoEDeepSeek-CoderDeepSeek-ProverDeepSeek v3(671B total,37B activated)DeepSeek R1(671B total,37B activated)DeepSeek v2(16B total.2.4B activated236B total,21B activated)未来工作“很快,我们将发布关于代码智能和混合专家的技术报告.我们的初步实验证明强化学习能够提升模型的复杂推理能力。”未来工作“在即将发

    9、布的模型中,实现与GPT-4相当的性能”互相促进未来工作“通用能力(tool call、多轮、角色扮演、json输出)不及 V3”;“语言混用”;“对fewshot敏感”;“软件工程能力待提升”未来工作“力求进一步提高训练和推理效率,争取实现对无限上下文长度的高效支持”,“我们还将尝试突破Transformer架构的局限,推动其建模能力的边界”,“我们将不断探索和迭代模型的深度思维能力,旨在通过扩展推理的长度和深度”DeepSeek模型发展DeepSeek R1加速“o1时刻”到来深度思考模型让大模型领域再度迎来“ChatGPT/o1时刻”“有限算力+算法创新”发展模式是突破算力卡脖子限制的关

    10、键ChatGPTo1/o3LLaMADeepSeek R1强化学习高效模型架构创新开源高效训练-提升数据利用效率高效思考-提升思考信息密度MoE/MTP/MLA提升训推效率极致的 Infra 优化GPU性能全方位技术开源o1的开源平替首次提出开源复现“开源”加速促进人工智能技术快速迭代DeepSeek 三大特征特征一:复制 OpenAI o1 技术思路OpenAI 首席研究官 Mark Chen承认 DeepSeek R1 揭示 o1 核心思想通过大规模 RL(强化学习)训练,逐步增加模型思考时间,涌现出“Aha moment”的顿悟与反思行为,社区自发验证,影响力超过预期DeepSeek 三

    11、大特征特征二:通过工程优化极致压缩训练成本MoE:采用细粒度专家和共享专家,671B参数,每个token 激活参数 37B,降本增效。MLA:多头潜在注意力(Multi-Head Latent Attention)通过低秩压缩减少 KV 缓存。MTP:通过预测多个未来 token 提升规划能力(Multi-Token Prediction),也用于推理加速。Infra 优化 榨干阉割版特供显卡性能架构侧优化 提升训练推理效率计算集群:2048*NVIDIA H800 GPU 并行训练。训练框架:流水线并行+专家并行+数据并行,定制化 PTX 指令集(所谓“绕过CUDA”),提升节点间通信效率。

    12、FP8 混合精度训练:首次验证 FP8 训练的可行性,显著降低 GPU 内存使用并加速训练。DeepSeek 三大特征特征二:通过工程优化极致压缩训练成本CUDA和PTX的关系:PTX(Parallel Thread Execution)是英伟达的并行线程执行中间表示语言(底层汇编语言)CUDA(Compute Unified Device Architecture)是英伟达统一设备计算架构,封装了 C+实现的 GPU 编程接口CUDA 编译器(NVIDIA CUDA Compiler,即 nvcc)在编译流程中把CUDA 代码编译为 PTX 代码,PTX 代码会被进一步编译为特定 GPU 架

    13、构的机器码(Shader Assembly,SASS),二进制机器码在 GPU 上执行。结论:PTX 是 CUDA 编译的中间表示,仍然依赖于 CUDA 的编译器和运行时环境(类似于windows驱动程序开发)并不意味着真正绕过了 CUDA。高级场景中,开发者可以直接编写 PTX 代码,并将其嵌入到 CUDA 程序中,用于性能优化,但仍然是在 CUDA 框架内进行的。DeepSeek 通过 PTX 编程“绕过CUDA”?https:/ 三大特征特征二:通过工程优化极致压缩训练成本硬件成本:据外媒报道幻方拥有 2w-5w 块 GPU,购买和运维成本过亿美元/年(保守估计至少有1w块A100,20

    14、00+块H800,这部分硬件购买成本就超过2亿美元)。训练成本:DeepSeek V3 基座模型预训练语料14.8T tokens,预训练+后训练57天(278.8万卡时)成本 557.6万美元(不含小规模模型的消融实验)。数据成本:预训练数据采集和购买,SFT数据构建和质检,无法量化。人力成本:根据 DeepSeek V3 论文,共 139 名技术作者,每年超过1000 万美元。关于 DeepSeek 真实成本的估算?其他大模型训练成本:OpenAl GPT-4 7800 万美元Google Gemini Ultra 1.91 亿美元Claud的训练成本数千万美元DeepSeek-V3推理成

    15、本约为GPT4o的3%DeepSeek 三大特征特征三:定位为 OpenAI o1 的开源平替DeepSeek 全系列开源模型权重(未开源训练代码&训练数据)NVIDIA NIM、AWS、Azure 等云服务平台上架 DeepSeek APIWindsurf 等 AI 初创公司集成DeepSeek 模型能力实现各种场景DeepSeek 三大特征特征三:定位为 OpenAI o1 的开源平替模型权重开源,无法禁用:开源的模型权重任何人都可以下载,就像 unix、MySQL。开源模型在huggingface、github等平台可以任意下载。国外只能禁止调用中国大模型 MaaS API 服务,禁止使

    16、用 Deepseek APP 和网页端,无法禁止机构和个人下载开源模型。DeepSeek 会被国外禁用吗?可禁用不可禁用DeepSeek-R1-Zero(671B,激活37B,128K上下文)基于 DeepSeek-V3-Base 验证 纯 RL 方案(GRPO+基于规则的奖励)的可行性。但存在可读性差、语种混杂等缺点。DeepSeek-R1(671B,激活37B,128K上下文)基于 Zero 构建数千条冷启动数据 做 SFT+RL,拒绝采样 60w SFT 数据,配比共 80w 数据基于 Base 模型进行两阶段训练(SFT+RL)得到更强模型 R1,整体能力对标 OpenAI o1。De

    17、epSeek-R1-Distill(1.5B/7B/8B/14B/32B/70B)训 R1 的 80w 数据通过纯 SFT 蒸馏小模型,比直接对小模型做 RL 效果好,整体能力对标OpenAI o1-mini。如何通过 GRPO 训练 DeepSeek-R1-Zero?(核心)奖励建模(基于纯规则的奖励)准确性奖励:答案正确则奖励。对于数学问题,让模型以指定格式(box)给出最终答案,以便基于规则校验;对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。格式奖励:比如将思考过程放在 和 标签之间则给予奖励。为啥不用 NN-based RM?基于神经网络的奖励模型大规模强化

    18、学习过程中存在reward hacking,且训练奖励模型需要额外的训练资源。该模板的目标是让模型按照指定的结构和步骤生成推理过程和最终答案,而不强制规定具体的推理方法或解题策略,不人为干预或限制,避免对模型产生内容偏见。RL 训练使用的指令模版如何通过 GRPO 训练 DeepSeek-R1-Zero?纯 RL 方案的缺点 可读性差(无 md 格式)语种混杂(尤其非中英)因此,为了让推理过程更具可读性,推出 R1 模型。左图:DeepSeek-R1-Zero 自然涌现出复杂的行为:反思、探索替代方法。右图:在某个中间版本出现“顿悟时刻”。冷启动数据构建的三种方式(但未公开任何样例和数据分布)

    19、使用 long CoT 作为 example 的 few-shot 提示通过 prompt 让模型生成包含反思(reflection)和验证(verification)的详细答案收集 DeepSeek-R1-Zero 的可读格式输出,并通过人工标注后处理来完善结果训练 DeepSeek-R1 四步走(1/4):通过数千条冷启动数据训 SFT冷启动数据的两个优势可读性高:让模型输出遵循|的格式。性能潜力:带有人类先验格式的冷启动数据,与 DeepSeek-R1-Zero 相比,性能有所提升。引入语言一致性奖励动机:这一阶段专注于提升模型在推理密集型任务(如编码、数学、科学和逻辑推理)推理能力。观

    20、察到链式推理(CoT)经常出现语言混用,特别是在 prompt 涉及多种语言时。为了缓解语言混用问题,RL 引入语言一致性奖励,该奖励计算 CoT 中目标语言单词的比例。最终奖励:语言一致性奖励与RL方案中的准确性奖励直接相加。训练 DeepSeek-R1 四步走(2/4):通过 RL 方案训 GRPO 增强推理消融实验结论引入语言一致性奖励的对齐会导致模型性能略有下降,但该奖励与人类偏好一致,使模型输出更具可读性。拒绝采样 与 SFT拒绝采样:这一阶段也纳入其他方面的数据,以增强模型在写作、角色扮演等通用任务中的能力。SFT:对 DeepSeek-V3-Base 进行 2 epoch 微调。

    21、训练 DeepSeek-R1 四步走(3/4):拒绝采样与 SFT60w推理数据:通过 reasoning prompt 用拒绝采样生成推理轨迹。使用生成式 RM 模型,将真实结果和模型预测输入DeepSeek-V3判断。过滤掉语言混用、长段落和代码块的链式推理。20w非推理数据:对于非推理数据,如写作、事实问答、自我认知、翻译,重用DeepSeek-V3的部分监督微调数据集。提示 DeepSeek-V3 生成 CoT,然后回答问题。然而,对于更简单的问题,如“你好”则不提供CoT。注:未公开任何样例和具体数据分布复用 DeepSeek-V3 的 prompt 分布和偏好数据提升 helpfu

    22、l 和 harmless有用性:专注于最终总结,确保答案实用性和问题相关性,同时尽量减少对推理过程的干扰。无害性:评估模型的整个生成结果(思考过程+总结)以识别和减轻潜在风险、偏见或有害内容。训练 DeepSeek-R1 四步走(4/4):通过 RL 方案训 GRPO 增强全场景能力组合奖励信号推理数据:遵循DeepSeek-R1-Zero,利用基于规则的奖励。通用数据:采用奖励模型来捕捉复杂场景中的人类偏好。对于小模型,SFT 蒸馏好,还是 RL 好?实验:用 Qwen-32B-Base 重复 RL 实验,使用数学、代码和STEM数据,训练超过10K步。得到结论:小模型蒸馏效果更好,RL费资

    23、源但性能稍逊尽管蒸馏策略既经济又有效,但要超越智能边界,仍需要更强大的 Base 模型和更大规模的 RL。复用 DeepSeek-R1 的 SFT 数据蒸馏小模型Process Reward Model(PRM)最早由 OpenAI 提出:https:/arxiv.org/pdf/2305.20050实践中 PRM 的三个限制:不容易定义细粒度步骤不容易确定当前某步骤是否正确。使用模型进行自动化标注效果不行,人工标注没法大规模。基于模型的 PRM 会导致 reward hacking,且重新训练奖励模型需要额外的训练资源,训练流程复杂化且成本高结论:尽管 PRM 在重新排序模型生成的前N个响应

    24、或协助引导搜索方面表现出良好的能力,但与在大规模强化学习过程中引入额外计算开销相比,其优势有限。两个不太成功的尝试Monte Carlo Tree Search(MCTS)实践中 MCTS 的两个限制:国际象棋搜索空间相对较为明确,而 token 生成呈现出指数增长的搜索空间。为了解决这一问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。AlphaGo的核心成功依赖于训练一个价值模型指导搜索过程,来逐步提升性能。由于 token 生成的复杂性,训练精细的价值模型本身就很困难。结论:尽管推理阶段与预训练的价值模型配对的情况下,MCTS可以提升性能,但通过自我搜索迭代提升模型性

    25、能仍然是一个重大挑战。总结:R1 模型性能比肩 o1,蒸馏系列模型对标 o1-mini不足:通用能力(tool call、多轮、角色扮演、json输出)不及 V3;语言混用;对fewshot敏感;软件工程能力待提升。关于 R1 的几点思考Post-Training策略选择:R1-zero是一个非常好的启发,RL在Post-Training阶段的重要性持续增加,如何设计更优质的Reward策略(包括但不限于RuleBase、RM/PRM Base)对于RL的效果非常重要,指令数据有Ground truth用ground truth做Rule Base,否则可以考虑RM;但是需要重点考虑RM模型的

    26、训练数据量、模型大小、泛化性等;对于通用领域非推理任务的场景,R1在没有Ground truth的任务上的推理效果还并不理想,对于这类任务RL训练需要进一步提高泛化性;SFT依然重要,无论是R1的冷启动阶段(几千条冷启动SFT后再进行RL)还是SFT阶段(80wSFT数据)都需要SFT过程,R1的SFT阶段的推理数据占比大幅度增加是一个重要启示(相对于其他的开源模型SFT阶段的数据配比);目前最重要的还是高质量数据的缺失,直接蒸馏可以显著提高模型推理能力,但提升有限,上限不高,仅通过蒸馏无法提供训练scaling;R1写作能力提升:R1的写作能力在各种社区反馈中均表现出显著提升,特别是中文场景

    27、;社区猜测可能的原因是对齐税,R1的安全对齐相对于gpt o1做的不足,并没有太约束模型的创作能力。过度深度推理优化:简单问题复杂化,原因是SFT阶段推理Query可能没有区分难度;高级词汇滥用:有社区用户发现R1经常会使用一些高端词汇,比如量子纠缠和熵增熵减(会用在各个领域),猜测可能的原因得是某种形式的reward hacking;https:/novasky-ai.github.io/posts/sky-t1 Sky-T1-32B-Preview(UC伯克利,数据/模型开源)用 GPT-4o-mini 将 17K QwQ 数据蒸馏 trace 重写为结构规整的版本,以提高数据质量并简化解

    28、析。8*H100 微调 Qwen2.5-32B-Instruct 19h,提升数学和代码能力。https:/ STILL-3(人大,数据/模型开源)基于 DeepSeek-R1-Distill-Qwen-1.5B 进行 GRPO 强化学习训练,在AIME任务上的正确率由28.67%提升至39.33%。验证了R1 RL可行性。STILL-2(人大)训练数据包括 DeepSeek-R1 和 QwQ 蒸馏 的 3.9K数学领域和1K混合领域(代码、科学和自然语言谜题)的 long-CoT。模型在选取的基准测试集达到了与o1-preview整体接近的效果。系统性地重建 DeepSeek-R1 使用的数

    29、据(数据构建和配比)和训练流程(超参设置):蒸馏方案纯RL方案SFT+RL方案Open-R1(Huggingface 上周)https:/ 数据工具类 领域模型类 决策AI类某大型金融机构 财报解读问答简繁体中英文混合问答跨文档长文档分析推理内容精准溯源和定位业绩趋势复杂数值推理表格理解基于资产负债表、利润表、现金流表三大报表,构造高质量表格问答指令数据对模型进行微调某证券公司 智能合规比稿助力证券机构,合规审校人员自动理解报告与底稿内容,将报告与底稿逐条对比,发现报告中无依据观点,自动生成对比结果,辅助人工审核。数据工具类 领域模型类 决策AI类某上市公司 财税大模型针对财税产业大语言模型工

    30、程化落地实施,提供项目所需的高质量的能力增强训练数据集、数据预处理和质量分析支撑工具及基础大语言模型等功能,打造一个满足工程化需求的精准、高效、安全的财税大模型。赋能“财税部落”赋能自助办税终端系统应用成效提供了财税专家1V1答疑、特殊行业财税课程、财税资讯推送、财税新政解读、同城同行业财税圈交流等丰富应用。财税产业大语言模型的引入为财税部落带来更多的赋能和提升。自助办税终端系统,是为纳税人办税提供便利服务的一体化终端,能够为办税人提供涉税政策查询、税务办理流程指引、办税问题解答等服务。数据工具类 领域模型类 决策AI类银行信贷审核智能体面向银行信贷业务中存在的海量非标材料处理难、报告检查审核

    31、难、传统人工审核耗时、漏审等问题,采用大模型推理技术、多智能体协作技术,实现对公初审报告、个贷初审报告自动生成,减少人工作业失误,提高信贷审核精度和效率。1.打造行业首创的全新信贷审批智能体。2.大模型生成的信审报告可溯源可解释。3.基于模型微调提升金融文档解析与写作能力。4.大模型技术与信贷审批流程深度融合。5.创新成果经受竞赛验证得到权威认可。某银行金融犯罪智能分析系统助力东亚银行金融犯罪监管部门,识别、评估和防范各类金融犯罪风险,如洗钱、诈骗、内幕交易等,确保银行资产安全、业务稳定。信息检索效率低行内自己的技术和资源限制跨部门信息分享有门槛风险评估和预警难度大在大数据(公共新闻、社交媒体

    32、等)中进行客户尽职调查,发现潜在的金融犯罪风险。自动输出判定犯罪行为的原文及原因,提高工作效率。支持数据分析和可视化,支持撰写提交给监管机构的可疑活动报告(SAR)。动态评估金融犯罪风险,制定并实施风险控制措施,确保合规和政策执行核心痛点某大型银行 AI信贷尽调报告利用大模型,三步生成企业信贷尽调报告,降低人工尽调信息收集和处理的时间,提高效率。多源数据智能汇聚生成报告精准溯源自动解析各类文档问答交互生成图表基金证券投研智能体面向投研业务中存在的项目尽调信息收集难、报告编写用时长的问题,采用数据不出域、应用私域化的投研智能体,实现对话式问答、素材智能提炼、报告自动生成功能,帮助研究人员挖掘潜力

    33、行业、研判优质标的,提升投研工作效率和质量。得到基金证券头部用户深度应用、高度评价。基于大模型技术赋能场景落地贴近业务需求。同时支持上万智能体动态协作与综合推演。港府某机构经济分析报告智能写作系统核心痛点基于GenAI,为香港政府探索性开发了经济分析报告智能写作系统,它主要是辅助经济专家,定期分析世界经济政策、指标和事件并撰写成报告数据碎片化与来源分散分析工作量大多语言数据理解创投基金智能资管平台针投资机构存在的投资留痕合规、流程效率低的问题。采用金融领域大模型技术,面向政府引导基金等投资机构提供“募、投、管、退”投资管理,实现业务流程自动化、风险监控常态化、投资决策智能化。助推投资机构数智化

    34、转型,赋能投资生态。05中科闻歌介绍聚焦企业级DATA+AI,形成数据、模型、决策应用,全栈式AI产品数据决策DIOS 3.0 Decision Intelligence Operation System闻智通用决策智能平台(General Decision Intelligence Platform)模型雅意大语言模型优雅多模态大模型信创适配信创适配信创适配天湖数据操作平台数治 TiKuiper-数据中台数基 DiBase-大数据存储计算系统智枢 ZetaHub-模型开发平台智图 DiGraph-知识图谱平台MIF-大模型标训一体化平台低代码平台AISuite-大模型创应用套件易上手的开发套

    35、件多参数矩阵,安全性极高领域决策模型构建模块、推演计算模块、策略评估模块多模态理解和生成多领域知识增强具有自主产权的国产原生基座大模型“雅意”,构建安全可靠的政企行业大模型优 雅让AI生成有价值视频雅意2.0阶段雅意1.0阶段雅意3.0阶段安全可靠的政企专属大模型国产原生数据、算法、应用全自主知识产权视频创作全链路应用(多模态内容编目、AI剪辑)无中生有(30s一键生成视频)有中生优(媒资库素材一键成片)高度集成专属自有安全可靠领域深度认知全自主研发数据集17年积累多语言理解通用自然语言处理增强多模态媒体内容生成Agent决策垂直领域规模化实践多项指标居于国内、国际前列,雅意大模型能力总结总体

    36、评价数据模 型7B、13B、30B、134B(即将推出)更大规模参数公开技术评测多项第一CMMLU、AGIEval、SKE 2020、FewFC等2.65T4TTokens高质量预训练数据22语种支持多语言能力提升从零到一自主训练更安全可控8+覆盖领域中医、财税、政务、安全、舆情、网信、媒体、能源等1000W+图文数据对齐多模态能力提升100种+复杂信息抽取信息抽取能力提升10+插件支持智能化能力提升最长128k输入更长上下文窗口!#$知识产权与科研成果显著%&%&()*+,()*+,-.(/0-&-&12345123456789:;?AB.$C$DEFG$AGHIJIKL$BKMGN$#OI

    37、PDPILF$QRODL$SKFLIPIKL$TIPU$AVLDOIH$BGOKEV$WLUDLHGOGLPWBXY.&.%AVLDOIH$ZKRPILF$EDLJKEOGE$XGPTKE$KE$BRNPIOKMDN$DEHDJO$AGPGHPIKLS.&.%LXGP:Association and Alignment Network for Modeling Implicit Relevance in Cross-model Correlation Classification#WWW$BB.&.%#O_EKILF$aGEKbJUKP$cGLGEDNIdDPIKL$KE$SNI_$TIPU$

    38、VLPUGJIdGM$YEKO_PJ#SSe.&.%BKMGNILF$SKLHG_PRDN$PPEIfRPG$IGLGJJ$DLM$AKODIL$#LHKLJIJPGLHV$KE$BGPD_UKE$AGPGHPIKLWBXY.&.%DEFGPbgEIGLPGM$ZGNDPIKL$NIFLOGLP$KE$SEKJJbILFRDN$PDLHG$AGPGHPIKLS.&.%BBbAIRJIKLC$BRNPIOKMDN$PPDH$KL$AIRJIKL$BKMGNJSeYZ.&.hYEKO#GC$ZGNGDJILF$PUG$SD_DfINIPIGJ$K$BJ$TIPU$YEKO_P$#LPEKJ_GHP

    39、IG$GDEHUSg#Xc.&.hWLUDLHILF$MGEJDEIDN$ZKfRJPLGJJ$K$BJ$TIPU$LDNVPIH$QIGEDEHUV$YEKHGJJSgB.&.hiEIMFILF$jKEMbYDIE$DLM$KGLbGGN$BGPD_UKE$AGPGHPIKL$TIPU$Wk_NDILDfNG$AKODIL$BILILFS.&.h$UGKEV$cRIMGM$HDKNMILF$#LJPERHPIKL$lEDOGTKE$KE$BbWLDfNGM$BGPD_UKE$ZGDJKLILFXS.&.hARDN$SKO_NGk$XROfGE$mLKTNGMFG$cED_U$WOfGMMIL

    40、FJSg#Xc.&.hGDG$XK$AKHROGLP$iGUILMC$iGLHUODEILF$KLFbSKLPGkP$BJ$TIPU$WkPGLMGM$BRNPIbAKH$nWBXY.&.hopqrstuvwxyz|/0opuvwxy/0uvwxyz|/0opuvuvxyz|/0opuuvxyz|/0uvxyzxy/0 xyz|z/0opw=xy/0opxyz|/0w=xyz|/0opuvwxy/0wxy/0 xyzzxyzzuuvxyzzuuvw xyzzuvw=xyz|uvwqrxyzzopuvwoxyzuvw“s”xyz优雅多模态大模型,全链路赋能多媒体内容创作面向泛媒体领域的通用解决方

    41、案图生文图像内容理解图像内容审核图像内容问答图像内容编目视频生文视频内容理解视频内容审核视频内容问答视频内容编目文生音语音合成音效生成语音克隆音生文语音识别声纹识别声纹聚类文生文大纲脚本生成故事文稿润色内容审核修正文/图生图AI绘画图像编辑风格重绘局部替换内容消除AI调色调光文/图生视频文生视频图生视频视频风格转绘视频智能剪辑AI数字人100+多模态技能7+应用场景新闻新闻资产编目多模态新闻创作政务政务智能问答跨文化出海传播电影制作全流程预演脚本、素材生产文旅文旅IP定制文旅宣传片创作教育AI教学硬件教育信息化出版数字内容生产多模态审校营销线下互动营销虚拟现实交互优雅功能特色一:一键AIGC视

    42、频生成(无中生有)YaYi大语言模型输入主题与要求图生视频智能剪辑语音合成口型驱动以文生图YoYa多模态大模型脚本生成模型基座智能能力视频脚本素材生成一键成片成片输出优雅功能特色二:联合多模态内容资产一键成片(有中生优)3B、8B、15B参数规模视频、图像双模态图、视频素材智能理解YoYa多模态内容编目大模型图片视频已有20+个维度的信息抽取能力,用户可领域微调新增抽取维度。主题:交通景别:鸟瞰、远景运镜:推镜场景:城市、道路节奏:缓慢实体:车辆、桥梁、河流、楼宇描述:一座桥梁跨越了一条宽阔的河流,许多汽车在行驶,远处是密集的城市楼房.视觉特征:情感:繁华、有序高光时刻:10s主体:银杏树环境

    43、:阳光明媚、白天场景:校园、广场构图:近景视角:平视描述:画面中是一棵茂盛的银杏树,清晨的阳关通过金黄的树叶,美好而恬静.情感:温暖、开朗视觉特征:高阶语义检索脚本生成成片指令多模态素材库智能剪辑优雅功能特色三:视频AI工具辅助视频全链条创作视频翻译语音克隆n原声语音克隆n口型高度拟合n支持中、英、日、韩4国语言n10s音频即可完成高拟真复刻以文生图n中华文化特色审美n50+种艺术风格文生视频素材n10s以上长度生成nDiT视觉编码结构AI数字人n实时渲染n高度拟真其它AI能力n视频风格转绘n视频超清修复n文生3D资产n视频分镜生成n.优雅多模态大模型一键成片AI赋能视频创作全链路素材成片指定

    44、素材,智能完成主题创作AI音乐量身定制专属音乐AI视频文、图智能生成10s高清视频AI素材管理AI专业索引激活素材价值优雅平台核心功能更精准语义级别画面匹配更丰富自有素材库、第三方版权素材库无缝接入更智能丰富的多模态AI创作工具优雅平台优势已有20+个维度的信息抽取能力用户可领域微调新增抽取维度。主题:交通景别:鸟瞰、远景运镜:推镜场景:城市、道路节奏:缓慢实体:车辆、桥梁、河流、楼宇描述:一座桥梁跨越了一条宽阔的河流,许多汽车在行驶,远处是密集的城市楼房.视觉特征:情感:繁华、有序高光时刻:10s目前已引入视觉中国40w+素材AI脚本创作:输入视频主题和关键内容,一键自动创作视频文案,同时支

    45、持文档上传和网址导入,快速解析文案。AI视频生成:一次性生成最长10s的视频素材;支持以文生视频、以图生视频。AI音乐创作:一句话生成特定主题、曲风、歌词和节奏的音乐作品;基于图片、视频自动匹配音乐。AI视频翻译:一键翻译视频字幕、语音,支持自定义声音克隆。更聚焦指定素材智能成片优雅多模态大模型“智川”X-Agent智能体应用平台“智川”X-Agent平台旨在为各行业提供零代码快速构建AI应用的解决方案,降低技术门槛,简化开发过程,让AI应用创新变得“触手可及”。“智川”X-Agent智能体应用平台应用是指利用大模型技术开发的应用程序。扣子中搭建的 AI 应用具备完整业务逻辑和可视化用户界面,

    46、是一个独立的 AI 项目。通过扣子开发的 AI 应用有明确的输入和输出,可以根据既定的业务逻辑和流程完成一系列简单或复杂的任务,例如 AI 搜索、翻译工具、饮食记录等。AI Agent是基于对话的 AI 项目,通过对话方式接收用户的输入,由大模型自动调用插件或工作流等方式执行用户指定的业务流程,并生成最终的回复。AI AgentAI 应用是指利用大模型技术开发的应用程序,具备完整业务逻辑和可视化用户界面,是一个独立的 AI 项目,可以根据既定的业务逻辑和流程完成一系列复杂的任务。AI 应用对话机器人AI 助理AI 搜索AI 审查AI 翻译AI 报告面向用户政府用户企业用户个人开发者研究机构解决

    47、问题技术门槛高开发周期长维护成本高系统扩展难工具接入难核心能力Agent构建工作流编排RAG检索模型管理工具接入系统价值重塑 AI 应用开发新模式,用户既是 AI 应用的使用者,也是 AI 应用的生产者。“智川”X-Agent智能体应用平台智川平台核心功能0102自主管理知识库06精准高效智慧运营05自主接入大模型03无限扩展工具技能04自由编排工作流轻松搭建AI应用智能体标准模板配置用户界面可视化搭建业务逻辑工作流调用知识与工具自主接入主流大模型能力接入QA对导入文档导入URL接入API接入数据表接入自动向量化天气查询百度搜索头条新闻内容摘要图片识别知识检索参数提取敏感词拦截问题分类模型调用工具调用文档解析工单智能分拨知识修正反哺使用情况分析使用情况统计问题质量分析问题排行分析对话日志分析问题溯源分析