定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《腾讯研究院:2025年AI图景解码50关键词(64页).pdf》由会员分享,可在线阅读,更多相关《腾讯研究院:2025年AI图景解码50关键词(64页).pdf(64页珍藏版)》请在薪酬报告网上搜索。
1、在过去一年,人工智能技术的迅猛发展正深刻重塑着社会的运行方式。从前沿动态追踪到实际应用场景,从教育辅导到科研创新,AI已然成为推动社会进步的重要力量。在AI技术快速迭代的背景下,系统性的信息整合与分析变得尤为重要。为降低信息获取成本,提升学习效率,腾讯研究院开发了一系列专业的AI资讯产品:AI每日速递,一份高度凝练的日报产品,帮助读者用3-5分钟快速掌握AI领域当日十大关键进展,在信息过载的时代,为学习与研究“标注”出最有价值的高质量数据;AI每周50关键词,作为周报产品,基于AI速递内容构建。通过梳理一周热点关键词并制作可交互索引,为研究者提供便捷的“检索增强”工具,助力快速定位所需信息;科
2、技九宫格,一档短视频栏目,以3-5分钟视频形式解读科技热点与关键技术原理。通过可视化呈现,促进读者对前沿技术的理解与讨论,为团队内容优化提供重要“反馈”;这些产品的运营过程,恰如大语言模型的迭代优化持续不断地吸收新数据,萃取新知识,产生新洞见。在此基础上,团队还同步开展了AGI专题分析、AGI线上圆桌、AI&Society高端研讨会与AI&Society百人百问等系列研究探讨。基于全年研究积累的三十余万字AI进展数据库,对当前AI发展进行阶段性总结具有重要意义。为了系统呈现AI发展的关键技术要点和趋势,该报告精选了50个年度关键词,覆盖大模型技术的八大领域:图像处理、视频生成、3D生成、编程助
3、手、Agent、端侧智能、具身智能和基础模型;借鉴大模型的思维特征,创新性序序言言1的通过快思考与慢思考两种维度进行分析,形成了50张AI技术图景卡片。快思考维度呈现印象卡片,采用人机协同方式完成。项目团队研究人员主导提示词工程与价值判断,把握内容方向;AI系统负责执行,最终绘制输出技术定义、图示与总结语;慢思考维度则深入分析技术发展的底层逻辑。重点整合研究团队在圆桌讨论和专题研究中的深度思考,借助AI辅助梳理出逻辑链条、本质洞见与趋势判断,为读者勾勒AI发展的脉络与方向。AI技术呈现持续演进、动态发展的特征。该报告通过50个关键词构建的技术图景,旨在展现AI发展的重点领域,把握未来关键趋势,
4、为各界提供研究与决策参考。腾讯研究院将持续深化AI&Society领域的探索,并诚挚的邀请各界好友一共关注与参与,一起迈向一个智能共生的时代。腾讯研究院院长腾讯研究院院长 司晓司晓23A:Transformer从文本扩展至其它B:DiT架构带来图像生成质的飞跃C:Scaling Law在图像领域开始生效核心观察核心观察1.A 技术演进:下一个字符 下一个像素 突破:序列建模能力迁移2.B 架构优势:替代:U-Net MMDiT(SD3、Flux、混元文生图)提升:-空间关系理解-复杂提示处理-细节还原能力3.A+B C:规模效应 参数规模:800M 12B 涌现能力:-真实度提升-控制力增强-
5、细节完善逻辑链条逻辑链条1.图像生成正从传统扩散模型走向序列化建模2.Transformer不同模态的底层范式可以实现迁移3.图像领域正在复制语言模型的缩放法则与能力涌现本质洞见本质洞见DiT架构结合扩散模型和Transformer的架构,用于高质量图像生成的深度学习模型。扩散变幻,意象成型扩散变幻,意象成型4A:图像控制从文本描述走向精确控制B:控制方式呈现多层次演进C:ControlNet实现精确干预能力核心观察核心观察1.A 控制维度演进:Prompt:文本描述引导 LoRA:低成本模型微调 ControlNet:精确条件控制2.B 技术路径分化:描述控制:语义理解 参数控制:模型微调
6、条件控制:额外输入引导 工作流控制:外部编排3.C 精确控制突破:光影:IC-Light照明控制 轮廓:Paints-Undo创作追溯 构图:Omost自动扩展逻辑链条逻辑链条1.控制正从描述性向操作性演进2.多层次控制机制形成互补优势,图像生成正走向精工制造时代3.AI图像生成正从粗放生成走向精确控制,这将重塑创作生产流程。本质洞见本质洞见图像生成控制通过精确的提示词、参数和约束条件,引导AI模型生成符合预期的特定图像内容和风格。参数为笔,意念成像参数为笔,意念成像5A:AI图像处理已突破1K分辨率门槛B:高分辨率对图像生成具有重要商业价值C:高分辨率对图像理解同样关键D:高分辨率处理仍存在
7、多重技术限制核心观察核心观察1.A B 产业应用扩展 生成模型支持10241024原生分辨率 艺术创作/广告/游戏开发等应用提升2.A C 专业领域突破 医学影像分辨率需求256-1024 模型达到1K处理能力 专业应用可行3.D 技术演进方向 (高分辨率处理)(架构创新 性能优化)例:Pixtral 12B,Eagle系列针对分辨率优化逻辑链条逻辑链条1.1K分辨率是AI图像处理由通用向专业化过渡的分水岭2.AI图像价值实现需要技术与产业的双向驱动,专业需求 技术突破 应用深化本质洞见本质洞见高分辨率图像处理对大尺寸、高精度图像进行分析、增强和变换,以提取信息、改善质量或适应特定应用需求。细
8、微入毫,尺显真容细微入毫,尺显真容6A:生成式AI具有强大的技术能力和流量吸引力B:技术能力需要转化为有效商业闭环C:AI企业被迫进行商业模式转型D:产业整合成为主要出路核心观察核心观察1.A B C 为什么要转型?技术能力 商业价值 流量优势 变现能力 (技术优势 商业化失败)寻求转型2.C D 案例佐证:-Stability AI:技术困境 视效领域融合 -Leonardo.ai:独立运营 平台整合3.(成功转型案例)(产业链整合 场景深耕)-原生技术 工具产品 产业解决方案逻辑链条逻辑链条1.想要跨越鸿沟,要么融入既有产业链,要么能够成功对接具体应用需求2.AI图像生成企业将技术驱动向场
9、景驱动转变,通过产业整合获得商业生态位本质洞见本质洞见AI图像商业化将人工智能图像生成技术转化为可持续的商业服务,实现技术价值与市场需求的良性循环。智造赋能,价值衍生智造赋能,价值衍生7A:图像理解在医疗领域率先实现商业化B:科技巨头深耕医疗AI研发C:学术界取得突破性进展D:行业权威对医疗AI持积极态度核心观察核心观察1.A 产业成熟度与应用价值 图像理解 图像生成 专业应用 通用应用2.B C 技术进步 企业投入:-Med-Gemini系列(2D/3D/基因组)学术突破:-Mirai(预测诊断)-SAT(3D分割)技术突破 临床验证 商业应用 (成功医疗AI)(专业性 实用性 可靠性)3.
10、D 发展趋势 领域专家认可(Hinton、吴恩达等)技术路线可靠性逻辑链条逻辑链条1.多模态识别能力提升,让AI在专业领域理解、分析应用成为可能2.医疗AI的成功得益于其深度对接专业场景,以解决实际临床需求为导向的发展路径 本质洞见本质洞见医疗AI运用人工智能分析医学影像、临床数据,协助医生诊断决策,实现精准治疗增强。慧眼穿透,微显著知慧眼穿透,微显著知89A:视频生成相比图像生成难度提升百倍B:视频生成技术发展出自回归与扩散两大路线C:Sora引领DiT架构成为主流方向D:规模化训练是实现高质量视频生成的关键核心观察核心观察1.问题难度跃升(A)视频生成/图像生成 百倍复杂度:大量连续帧、时
11、序连贯性、主体一致性2.技术路线探索(B)自回归Transformer方案 or 扩散模型 规模化训练3.技术突破与统一(B C D)DiT架构整合:融合Transformer与扩散模型优势 引入时空块编码创新 通过规模化训练实现性能突破逻辑链条逻辑链条1.视频生成的技术演进呈现分散探索路径统一的特征2.规模化训练是解决复杂生成任务的通用范式3.架构创新(DiT)+训练范式(规模化)的组合是突破性进展的关键本质洞见本质洞见规模化训练通过扩大模型参数、数据规模和算力投入,在量变中实现质变的训练范式。以量取胜,跃迁超萃以量取胜,跃迁超萃10A:视频生成模型的核心在于时序特征处理B:DiT架构通过扩
12、散过程处理时序关系C:自回归方案将视频离散为可预测的token序列D:下一帧预测是视频连续性的关键保证核心观察核心观察1.技术路线分化(A)扩散模型:噪声迭代 帧序列生成 自回归Transformer模型:token预测 帧序列构建2.实现机制对比(B C)DiT方案:整体扩散过程、时空特征同步建模 自回归Transformer方案:视频token化、序列化预测3.预测能力(D)连续性保证:时序特征学习+运动规律理解+状态迁移预测逻辑链条逻辑链条1.下一帧预测是视频生成的核心任务,但不同技术路线有不同实现方式2.自回归预测通过将视频离散化,把复杂的时序预测转化为token预测问题3.预测范式的
13、选择直接影响模型的生成能力与效率权衡本质洞见本质洞见下一帧预测基于已知视频帧序列的时空特征,推演预测未来瞬间的画面内容。窥今以知来,推果溯因窥今以知来,推果溯因11A:模型厂商通过工具+社区培育创作生态B:厂商频繁举办各类创作比赛扩大影响C:与艺术家合作已成为行业标配D:艺术家参与可反哺模型训练形成数据飞轮核心观察核心观察1.生态构建路径(A B)打造工具产品 运营社区 举办比赛活动 扩大影响2.艺术家价值链(C D)前端:优质作品展示 中端:专业反馈收集 后端:训练数据优化3.闭环形成(A B C D)工具应用 社区运营 艺术家合作 数据反馈 模型优化逻辑链条逻辑链条1.AI视频生态正在从工
14、具提供向价值共创演进2.艺术家在生态中扮演双重角色:既是内容生产者,也是模型优化的关键贡献者3.数据飞轮成为商业闭环的核心驱动力,将持续提升AI创作的质量边界本质洞见本质洞见艺术家共创人类艺术家与AI模型通过交互式创作,在视频生成过程中实现创意的双向激发与融合。天人合一,机艺双馨天人合一,机艺双馨12A:视频生成模型的交互逻辑比文本模型更复杂B:模型能力支持多样化输入(文本、图片、视频)C:配套工具提供细粒度控制选项D:AI原生创作工具正在向全流程方向演进核心观察核心观察1.交互使用难度差异(A):文本模型(简单)视频模型(复杂)2.能力扩展(A B)文生视频 图生视频 首尾帧控制 视频生视频
15、3.控制增强(B C)精细化控制=运镜控制+运动笔刷+主体选定+.4.范式升级(C D)传统创作工具 AI原生创作平台(多工具集成+工作流适配+专业功能对标)逻辑链条逻辑链条1.视频生成模型的应用正在从单一生成向创作生态演进2.成功的AI创作工具需要在保持AI能力优势的同时,兼顾传统创作习惯3.降低使用门槛与提供专业控制是视频生成模型应用的双重任务本质洞见本质洞见AI原生创作以AI视频生成模型为核心重构视频创作的思维范式与工作流智成影像,创意无界智成影像,创意无界13A:视频生成模型正向游戏世界模拟方向发展B:多个研究团队在游戏生成领域取得突破C:游戏引擎本质是一种受限的世界模型D:从游戏模拟
16、到现实世界模拟存在复杂度跨越核心观察核心观察1.技术演进路径(A B)Oasis:Minecraft式开放世界生成 Genie-2:通用可交互游戏生成基础模型2.概念拓展(B C)游戏引擎 受限世界模型 特征:有限世界尺寸、封闭规则系统、可预测状态转移3.仍待探索(C D)现实世界=复杂度指数级增长+数据收集成本激增+状态空间爆炸逻辑链条逻辑链条1.游戏生成是通向世界模拟的缩微实验场,提供了可控的技术验证环境2.从游戏到现实的跨越不仅是量的积累,更需要在模型架构和学习范式上的质变本质洞见本质洞见生成式游戏通过AI生成技术动态创造游戏内容,实现无限可能的交互叙事与世界构建。无限想象,生生不息无限
17、想象,生生不息14A:多实验室主张视频生成模型是实现世界模拟器的可行路线B:当前视频生成模型存在成本高、模态不全、长视频不稳定等问题C:游戏生成模型在实时模拟方面取得突破性进展D:游戏引擎可视为特定范围的世界模型核心观察核心观察1.现状认知(A B)技术路线已明确 现实困难:成本高、缺模态、不稳定2.游戏生成带来希望(C D)DIAMOND:可交互游戏画面预测 Oasis 开放世界实时模拟3.演进路径(B C 未来发展)游戏模拟 受限世界模拟 通用世界模拟逻辑链条逻辑链条1.世界模拟器的实现路径正在从完整模拟转向分级模拟2.游戏生成模型作为受限环境的世界模拟,为解决视频生成核心问题提供了新思路
18、3.实现真正的世界模拟器需要解决的根本挑战是复杂度控制与数据获取本质洞见本质洞见世界模拟器一个能够模拟现实世界物理规律、因果关系与智能行为的计算机系统虚实之间,万象归一虚实之间,万象归一1516A:各类技术方案快速涌现B:性能与效率大幅提升C:应用场景不断拓展D:技术挑战仍待突破核心观察核心观察1.A 主流技术方案 -Tripo 2.0:DiT+U-Net架构 -GRM:四视图transformer重建 -Unique3D:多视图及法线扩散2.B C 应用价值 (形态还原)(速度 质量 效率)广泛应用:-游戏开发:场景建模-影视制作:特效场景 -工业设计:产品迭代-VR构建:虚拟环境3.D 发
19、展挑战 数据积累 模型优化 产业赋能 当前瓶颈:-训练数据稀缺-泛化能力有限 未来方向:-GANs数据生成-迁移学习优化逻辑链条逻辑链条1.图片、视频的生成均为帧的叠加,3D生成难度加大,须解决空间几何难题2.几何形态还原技术通过持续创新,推动3D生产效率与应用范围双提升本质洞见本质洞见几何形态还原从复杂物体中提取基础几何特征,重建物体的本质形态结构与空间关系。化繁为简,归元返真化繁为简,归元返真17A:纹理生成方法多元化B:核心技术不断突破C:AI赋能加速发展D:应用场景持续扩展核心观察核心观察1.A 基础方法体系 生成路径:-基于图像:纹理映射/无缝拼接 -基于模型:细节增强/PBR渲染
20、-基于深度学习:GAN/CNN架构2.B 关键技术 技术要素:-UV展开与优化-程序化生成算法 -PBR材质系统-纹理合成修复3.C D 发展趋势 算法突破 AI赋能 应用拓展 AI应用:-自动生成/转换-风格迁移/增强 (纹理生成)(自动化 真实感)逻辑链条逻辑链条1.材质还原跟图片生成存在不同,比如存在光影问题,需要针对性解决2.材质生成通过多元技术融合,推动3D内容制作提质增效本质洞见本质洞见材质还原基于几何模型的空间结构特征,生成真实感材质与纹理映射。质感重构,真实再现质感重构,真实再现18A:高斯泼溅是一种实时3D渲染技术B:使用高斯分布描述三维空间点C:具备多项技术优势D:应用场景
21、广泛核心观察核心观察1.A B 技术原理 光栅化 高斯函数描述 精确场景表达 属性:位置 协方差 颜色 不透明度2.C 性能三角:-高品质渲染(NeRF)-实时性能(100fps1080p)-训练效率(单纯压缩规模 则 提升效率 模态叠加逻辑链条逻辑链条1.端侧模型不是越小越好,而是够用更好、好用最好2.设备算力决定了最优模型规模,未来终端需求将呈多样化3.多模态能力是突破通用计算的关键,仍有强需求本质洞见本质洞见39A:大模型发展有两种路线:单一系统(快思考)vs 双系统结合(快+慢思考)B:端侧资源约束要求最优化使用C:Agent 是连接模型与应用的关键核心观察核心观察1.为什么需要Age