• 首页 >  人工智能 >  AI产业
  • RTE 开发者社区&InfoQ:RTE 和 AI 融合生态洞察报告 2024(44页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《RTE 开发者社区&InfoQ:RTE 和 AI 融合生态洞察报告 2024(44页).pdf》由会员分享,可在线阅读,更多相关《RTE 开发者社区&InfoQ:RTE 和 AI 融合生态洞察报告 2024(44页).pdf(44页珍藏版)》请在薪酬报告网上搜索。

    1、R T E A N D A I C O N V E R G E N C E E C O S Y S T E M I N S I G H T S R E P O R TR T E A N D A I C O N V E R G E N C E E C O S Y S T E M I N S I G H T S R E P O R T生态洞察报告RTE融合和AI20242024前言 前言2024 年,AI 与实时互动技术的结合达到了前所未有的高度,推动了行业的发展与变革。5 月,OpenAI 发布了 GPT-4o,并展示了其对话功能,仿佛电影HER中的智能助手走入了现实生活。紧随其后,6 月,a1

    2、6z 发布了关于语音 AI 的展望报告,详细分析了这一市场的巨大潜力,并为未来的语音 AI 发展绘制了蓝图。之后,其他行业领军企业如 Cartesia 和 Bessemer Venture Partners 也纷纷发布了自己的洞察报告,深入探讨了语音AI和实时互动技术的前景。进入 2024 年 10 月,OpenAI 宣布与 Agora、Twilio 等实时互动技术公司展开合作,同时,国内各大科技公司也陆续公布了在对话 AI、多模态 AI、语音 AI 等领域的技术布局和市场战略。这一切都标志着实时互动技术与AI的结合进入了一个全新的发展阶段。随着这两项技术的深度融合,我们已经看到它们在多个领域

    3、和场景中展现出巨大的应用潜力,也赋予了智能体越来越可用的能力,语音助手可以帮助用户打电话、操作终端设备;AI 能为用户提供情感陪伴;而能够纠正语音的口语陪练也让学习更加个性化和高效。这些创新的应用让智能体变得愈加智能、实用和贴近用户需求。在这一背景下,RTE 开发者社区与 InfoQ 研究中心联合发布了本份报告,旨在深入探讨实时互动技术与 AI 结合的现状、挑战与未来趋势。我们希望通过这份报告,为行业从业者、技术开发者以及创新者们提供有价值的洞察,帮助他们更好地理解技术融合的机遇与挑战,推动技术落地与应用创新。本报告专注于探索如何利用实时互动技术与 AI 相结合,来提升用户体验,以及社区是如何

    4、帮助 Voice Agent 生态建设和发展的。我们相信,这些洞察将为行业的持续创新和发展提供重要参考。前言 实时互动(RTE)行业定义回顾 在报告的开头,我们再次回顾实时互动(RTE)的定义。实时互动(RTE)是远程互动、多维沟通、身临其境的交互活动。对互联网技术架构提出更高要求,其特性主要体现在实时性和互动性两个方面。来源:信通院实时互动产业发展研究报告 2022;声网研究院实时万象声网带你探寻实时互动的边界前言 实时互动(RTE)行业定义回顾实时接入实时传输实时交互实时渲染互动网络互动设备互动组件互动场景实时性互动性实时互动(Real-Time Engagement)实时互动(RTE)以

    5、实时性和互动性为核心特点CONTENT实时互动与 AI 行业技术演进观察与分析01应用场景新挑战,造就 VOICE AGENT 新的产业架构02RTE开发者社区架起生态桥梁,加速生态沟通03实时互动智能生态的未来发展预测04实时互动与 AI 行业技术演进观察与分析01实时互动与 AI 行业技术演进观察与分析AI 应用落地时代:重新定义算力、数据与算法的价值,从技术驱动到价值赋能1.1在本轮浪潮的早期,行业的焦点集中在模型的规模与通用性上,尤其是对 AGI 的追逐。然而,随着时间的推移,越来越多的从业者开始转向 AI 的实际应用落地,寻求更具现实意义的创新与突破。AI 1.0 的三驾马车算力、数

    6、据和算法,在这一新时代中展现出新的特征。但在应用落地的关键阶段,它们必须更加强调解决实际应用中的复杂挑战,才能真正推动AI的商业化进程和技术赋能。当前云、边、端的算力资源分布尚未均衡,具体分配需要根据场景和行业特点动态调整。数据算法算力传统 1.0 的三驾马车应用落地下,三驾马车的转变与新特征应用落地算力分布不均,云边端模式仍在探索中数据数量和质量的必要性已经得到普遍认可,但能捕捉行业需求独特性的专有数据,其获取和积累往往面临隐私、安全等多重挑战。仍需要行业和场景的专有数据积累尽管以 Transformer、LSTM 为代表的主流深度学习架构在性能和效率上趋于稳定和成熟,但在实际落地过程中,仍

    7、需结合具体场景和行业需求进行优化,关注落地性能。算法逐渐形成共识,但如何精准把握需求仍是挑战转向追求模型的大规模和全能基础设施层面实时互动与 AI 行业技术演进观察与分析AI 与 RTE 从独立走向交融,共同开启实时互动体验新纪元1.22024 年,AI 和 RTE(Real-Time Engagement,实时互动)这两个长期以来被视为相对独立的领域,正式开启了融合的序幕。最早的CDN服务提供商Akamai诞生AI+RTE 来到全面融合时代1998年 RTEAI音视频编解码工具及开发套件FFmpeg开源2000年音视频实时通话框架WebRTC开源2011年4G商用,为实时音视频的传输环节奠定

    8、基础2013年RTC PaaS服务商声网成立,并于次年举办亚太区首届WebRTC大会2014年5G商用,为低延迟实时传输做好基础设施基础2019年远程办公、云课堂等应用场景激发RTE行业活力2024年5月,支持文本、音频、视觉多模态推理的 GPT-4o 发布10月,OpenAI 发布支持语音实时交互的 Realtime API,并官宣3家合作伙伴 Agora、LiveKit 和Twilio11月,WebRTC 作者之一,Justin Uberti 宣布加入 OpenAI实时互动场景得到进一步延展,情感陪伴、AI播客、AI学伴等场景的交互更加自然和真实2020年语音识别领域着重探索神经网络(DN

    9、N+HMM、LSTM+CTC 等)构建方式,语音识别准确率突破90%2009年起Siri增加语音朗读功能2011年Amazon Alexa 上市2014年深度学习(MEMC、DC、RCNN等)融入视频超分算法2015年起语音合成领域开始探索神经网络构建方式(Tacotron、Transformer TTS、DeepVoice)2016年起语音各领域开始探索完全端到端模型2017年ChatGPT 发布2022年底文生视频模型 Pika、Runway、Sora、可灵、即梦先后发布2023年年底起实时互动与 AI 行业技术演进观察与分析从独立到共生,历经四大阶段,行业正在进入实时互动智能时代1.3在

    10、 AI 和 RTE 逐渐融合的过程中,InfoQ 研究中心发现,AI 的发展后期,为了更好的用户体验,离不开 RTE 技术支撑,而 RTE 技术的进步又能提升 AI 应用的性能,两者相互依赖、共同推动实时互动智能生态的不断升级。AI 与 RTE 双线并行AI 与 RTE 独立发展,各自在算法性能、实时交互等方面不断提升,但尚未形成深度协同RTE+AIRTE 开始主动整合 AI 能力,如利用超分辨率等 AI 算法来优化实时视频画质AI 得益于 RTE 的支持,在终端设备上实现更好的响应速度和交互体验AI+RTE随着 RTE 技术在计算性能和网络传输上的优化,AI算法能够更高效利用边缘计算的数据回

    11、传,加速模型迭代,同时提升多模态和语音AI的吞吐速度,为部署和推理提供更强支撑实时互动智能AI 算法与 RTE 系统协同优化,实时互动与AI深度融合,彼此互为原生,形成密不可分的整体,共同构建更智能、更沉浸式的用户体验01020304实时互动与 AI 行业技术演进观察与分析 交互体验新突破:实时、互动与沉浸的重塑1.4在实时互动智能中,交互体验突破了用户对实时性(毫秒级延迟)、互动性(语音、视频、表情的多模态融合)、沉浸感(AR/VR 真实程度)的感知。超真实的拟人人声和情感表达通过语音合成技术和大模型带来的理解能力,实时互动智能不仅能模拟接近人类的声音,还能根据情境表达丰富的情感,呈现高度拟

    12、人化的语音体验01智能打断,沉浸对话通过 VAD 技术,支持实时智能打断功能,模拟真实对话互动,创造更自然的沉浸式对话体验03嘈杂环境,正常对话噪声抑制、噪音过滤,语音增强,实现在嘈杂环境下的持续对话04极低延迟,极速响应通过采集、传输等环节的优化,实现毫秒级的响应时间,确保语音交互流畅自然02实时互动与 AI 行业技术演进观察与分析技术进步拓展应用边界:从传统场景创新到新兴场景创造1.5通过 AI 和 RTE 技术的不断进步,许多此前存在局限性的应用场景得到了显著优化。这些进步不仅推动了传统场景的创新,也为新兴应用场景的拓展提供了更多可能,带动了社交与娱乐、生活服务、教育与培训、企业与办公等

    13、领域的变革。实时互动智能场景进化社交与娱乐生活服务教育与培训企业与办公AI 宠物AI 队友AI 辅助特效赛事直播社交媒体运营语音聊天AI 陪聊互动游戏电商直播XR 社交虚拟演唱会虚拟展馆情感陪伴游戏语音游戏直播虚拟主播智能 NPC个性化办公助理企业内容专家企业知识顾问互联网法庭视频会议数据分析线上面试虚拟门店/营业厅语音翻译智能编码远程业务办理个性化生活助理智能车机视频客服智能监控远程心理咨询远程问诊健身镜语音客服AI 教学/培训XR 教学/培训AI做题辅导英语口语练习授课直播互动实时互动与 AI 行业技术演进观察与分析高性能、高准确到好体验成为实时互动智能发展的新评价标准1.6基于实时互动智

    14、能对于场景下用户体验的重视,我们认为是时候将用户体验作为应用侧的一项重要评价标准。在这一过程中,不仅要考虑AI本身的性能,更要结合AI所应用的实际场景,评估其在特定环境中的表现。因此,实时互动智能和 AI 大模型的评价标准需要有所差别,特别是在应用场景中的互动质量和用户体验上,必须有针对性的标准来进行评估。高性能要求:代表应用落地在实时互动场景中运行的效率要求,受到云、边、端算力协同调度和合理架构设计的影响高性能高准确要求:代表在特定场景中,对模型的输出精度和判断正确性要求,受场景数据的规模和算法优化程度的共同影响高准确好体验要求:代表应用场景中用户对交互效果、实时性、准确性及沉浸感的感知和期

    15、待好体验实时互动智能新评价标准的三大维度新衡量标准应用场景新挑战,造就 VOICE AGENT 新的产业架构02应用场景新挑战,造就 Voice Agent 新的产业架构Voice Agent 实时互动智能的破局者2.1实时互动智能生态仍处于早期阶段,生态内的关系尚未完全明晰,但各方都在快速探索业务落地的可能性。在这之中,Voice Agent 作为实时互动智能中确定性较高的分支,以其自然直观的交互形式和成熟可靠的技术实现,展现出在特定场景中高效且稳定的优势。Voice Agent 是利用语音AI和实时互动技术,借助语音等多模态的形式进行交互、解决特定场景问题的智能体,代表有情感陪伴、智能外呼

    16、、实时翻译/会议协作等。Voice Agent高性能算力架构:当前实时互动智能应用,尤其是 Voice Agent,对高性能的需求主要集中在毫秒级延迟和实时响应上。这种高性能要求,离不开云、边、端三方算力的高效协同和合理调度设计。随着云端大模型的规模化以及边缘计算能力的增强,Voice Agent 在特定场景中将实现更稳定的性能表现。高准确模型发展:相较于视频等,GPT-4o 等端到端多模态模型的出现、相关 API 的发布简化了语音交互的工作流程,并提高了实时性与语义理解的质量。这些技术进步使得 Voice Agent 在处理复杂对话时更加高效和准确。好体验交互方式:语音交互方式更接近人类自然

    17、沟通,具备天然的语言逻辑和情感表达优势。这使用户不需要适应复杂的操作界面或学习曲线,减少交互中的不确定性,用户体验更佳。应用场景:语音交互通常被限定于特定场景,如语音助手、导航、实时翻译等,其使用路径和目标明确,用户的操作和系统的响应使用户体验更佳。产品生命周期通用和行业玩家正在共建 Voice Agent 产业生态2.2产品增长阶段应用搭建Agent 编排底层Infra和API选择Agent产品商业化产品研发期终端设备智能体游戏AI智能体智能外呼情感陪伴实时翻译/会议协作AI 手机AIPC汽车机器人招聘教育医疗互动播客华为小艺小爱同学蓝心小 V内置语音智能体的垂类应用硬件设备Agents智能

    18、体托管RAG模型提供ModelOPS智能体框架 SIP Provider算力服务RTE(实时互动)API数据服务Amphion语音模型(TTS、STT、ASR、VAD、端到端等)视频模型语音增强/降噪AI智能体平台智能体生命周期管理应用场景新挑战,造就 Voice Agent 新的产业架构Voice Agent 的产业架构现状Voice Agent 产业生态上下游链路较长,跨层协作难度大80%2.3Voice Agent 产品侧仍在早期探索,但产品设计、核心功能与场景适配仍在探索中,缺乏通用性或标准化方案。制约了生态协同效率的提升包含从底层 Infra 和 API 选择到智能体平台的一系列,为

    19、了实现 Voice Agent 最终应用实现的工具及平台上下游链路长、生态协作效率低的问题仍然突出。在现状中,产品侧快速变化的需求难以高效传递至基础设施和中间层,响应速度受限;同时,工具与标准缺乏统一,跨层协作复杂度高,进一步制约了整体生态的联动效能。Voice Agent 的产业架构虽在完善,但现阶段各层级的协同能力仍需提升,以应对更高效、更敏捷的市场需求。以基础设施为核心,产品生态协作效率受阻基础设施及中间层以实时翻译为例,可能涉及的上下游协作:20%包含内置语音智能体的垂类应用和硬件设备产品侧01应用侧快速变化的场景需求,难以通过多层链路迅速反馈到基础设施,放慢了响应速度上下游链条长,导

    20、致响应速度慢02端云协同调度端到端模型优化特定场景和行业专有名词知识库构建翻译智能体框架构建实时翻译应用搭建耳机、翻译笔等翻译设备交互适配降噪/回音消除等设备适配网络环境优化、弱网适配应用场景新挑战,造就 Voice Agent 新的产业架构Voice Agent产品侧面临算力、工具、终端与流量的多重生态协作挑战2.4算力是 Voice Agent 应用落地的核心。云端算力支持高精度模型,但高成本和响应延迟限制了普及;端侧算力延迟低,但能力有限,需依赖云端补充。如何平衡云端与端侧算力分布,实现高性能与经济性的兼顾,成为整个生态的共同难题。在实时互动智能领域,Voice Agent 应用的未来充

    21、满潜力,但目前仍面临算力、终端、流量和工具四大关键挑战。这些挑战不仅影响用户体验的提升,更需要整个生态系统的深度协作来应对。Voice Agent 产品侧面临的端侧和云端算力的协作挑战当前 API 和 SDK 在 Voice Agent 原生场景中的设计适配性不足。交互中的打断处理、语句分割、多轮对话逻辑等需求未能得到有效支持,加剧了开发复杂性。如何围绕 Voice Agent 的场景特性,优化接口设计,提供更专用、更灵活的工具,成为提升开发效率的重要方向。API/SDK与场景的协作挑战产品和流量渠道的协作挑战多终端和多场景的协作挑战4大挑战多样化的设备和场景对终端体验提出了更高要求,例如降噪

    22、处理、弱网对抗和低延迟交互等技术挑战。单凭应用层难以全面适配,亟需硬件厂商、基础设施提供方与开发者协同优化技术方案,提升多终端环境下的适配效率。在用户分散的市场中,Voice Agent 应用难以通过传统方式高效触达目标群体。如何通过数据共享、算法优化和场景协同,实现精准覆盖、减少无效流量,成为生态共建的重要课题。应用场景新挑战,造就 Voice Agent 新的产业架构Voice Agent 产品侧面临算力、工具、终端与流量的多重生态协作挑战2.5Voice Agent 需要格外考虑到云端和端侧的算力分布,这主要来自于语音交互对低延迟和流畅的用户体验的追求。通过云端与端侧算力的智能调度和合理

    23、分配,可以根据应用场景的需求,实时动态地在云端和端侧之间平衡计算任务。这样,既能利用云端强大的算力处理复杂任务,又能在端侧实现低延迟、高效能的实时响应,从而提供流畅、丝滑的用户体验。高效的云端协同成为用户体验的核心云端算力虽然能提供足够的处理能力,能够充分展现模型的能力,却伴随着较高的成本和较慢的响应速度。这种延迟对于需要实时交互的实时互动智能场景而言,会很大程度地影响用户体验。性能高成本高和体验低云上端侧端侧算力具有低延迟和本地处理的优势,能够快速响应用户需求,但其计算能力和存储空间有限,尤其是手机等终端。因此,端侧通常需要云端补充,才能处理高负载任务并确保流畅的用户体验。体验佳资源有限应用

    24、场景新挑战,造就 Voice Agent 新的产业架构Voice Agent 产品面临不专用的 API/SDK 与场景如何协作的难题2.6除了算力分布外,Voice Agent 也需要更好用的、对语音交互场景更有针对性 API/SDK,以将高效连接底层能力与应用场景。更好用的 API/SDK 对实时互动智能 Builder 的正向作用专用API更适配场景需求易用性加速开发过程稳定性与高性能保障流畅体验生态灵活性优化跨环境体验通用的 API 无法满足 Voice Agent场景的特殊需求。因此,API/SDK 需要为 Voice Agent 做特定优化,能够支持复杂的语音交互、自然语言处理和多模

    25、态任务。理想的 API/SDK 应提供低代码甚至无代码的支持,使非技术背景的人员也能通过简单的配置或拖拽实现复杂的功能,减少开发时间和成本。稳定性和高性能不可或缺,尤其在 Voice Agent 场景中,API/SDK 必须确保在高并发、低延迟的环境下,依然能保持流畅的性能表现,避免影响用户体验。API/SDK 的生态灵活性也至关重要。它们应支持多种适配,能够兼容不同的设备、操作系统和网络环境,并支持各种编程语言和框架,方便开发者在不同的平台和技术栈上进行灵活集成和部署。应用场景新挑战,造就 Voice Agent 新的产业架构Voice Agent产品需要考虑应用场景与不同设备终端之间的适配

    26、协作2.7在 Voice Agent 场景下,终端体验从单纯的设备兼容转向更复杂的交互适配,端侧体验的重要性日益突显。这要求开发者优化不同终端的硬件性能和网络适应性,确保在弱网和低延迟环境下仍能保持流畅、稳定的用户体验。同时,在产品交互设计时,考虑到不同终端的操作方式和用户习惯。实时互动智能场景需要实现端侧资源和用户体验的平衡需要适配的终端逐渐增多应用场景随着应用需求变化,降噪、弱网对抗、低延迟处理等问题逐渐影响实时交互的流畅性和稳定性。弱网或设备性能限制下,语音识别、情感表达和反馈准确性成为关键。不同终端的交互方式各异,开发者在适配的过程中也需要认真思考。语音、视频的快速识别与响应流畅的实时

    27、互动体验不同的交互方式和特点端侧设备有限的计算资源有限的存储空间网络、续航等资源交互适配不同终端的硬件差异、操作系统限制、计算能力和存储空间的差距,要求开发者为每种设备设计专门的适配方案。设备兼容用户体验资源消耗AI手机AI PCAI 耳机AI 玩具AI 学习机AI 原生终端应用场景新挑战,造就 Voice Agent 新的产业架构Voice Agent产品要同精准的流量渠道协作,进行产品推广2.8通过更有性价比的流量,Voice Agent 应用能够触达更多潜在用户,积累的数据反过来促进模型优化和用户体验提升,从而建立长期优势。现阶段的开发者正在开发者社区之外探索高效的用户触达渠道:Dify

    28、、Coze 的 MarketPlace各大科技企业的 Agent Store/Space更有性价比的流量对 Voice Agent 产品的助力传导路径新兴渠道崛起,重塑用户连接保持较高的产品竞争力,提高用户忠诚度,最终实现长期的竞争力增长更有针对性的流量有助于产品触达更精准潜在用户,吸引用户深度试用产品。为后续的数据积累和模型优化奠定基础扩大产品用户群体随着用户的深入使用,平台会获得更多的用户数据。对累积数据的分析和学习,可以为后续的体验优化提供数据支持数据累积和模型改进基于积累的数据,AI模型能够变得更加精准和高效,也为产品优化提供了方向,对产品的实用性和互动性有更好的补充模型和产品体验优化

    29、自媒体平台01新型产品平台02应用场景新挑战,造就 Voice Agent 新的产业架构010203加入用户体验后,哪个领域有望诞生下一个Killer App?2.9实时互动智能应用领域分析象限图在重新设定的云端协同应用难度、场景准确性要求以及用户体验要求,三个衡量维度下,InfoQ 研究中心邀请了分析师和多位大模型对实时互动智能应用场景进行了打分,并征询了多位行业专家的建议,最终生成了实时互动智能应用领域分析象限图。交融爆发区:处在该区域内的应用场景具备一定的技术门槛和壁垒,但这些挑战和要求尚未达到难以逾越的程度场景准确性要求场景准确性要求云端协同应用难度云端协同应用难度云端协同应用难度云端

    30、协同应用难度气泡大小代表该应用场景对用户体验的要求社交与娱乐新衡量标准生活服务教育与培训企业与办公XR社交虚拟演唱会情感陪伴互动播客互动游戏游戏直播赛事直播互动语音聊天游戏语音电商直播虚拟主播远程心理咨询语音客服AI做题辅导英语口语练习视频会议虚拟门店/营业厅线上面试企业知识顾问远程业务办理线上内容专家智能编码语言翻译互联网法庭数据分析远程设备专家个性化办公助理授课直播AI教学/培训XR教学/培训视频客服智能车机健身镜远程问诊智能监控个性化生活助理(财务、医疗、票务、出行等)应用场景新挑战,造就 Voice Agent 新的产业架构开发者声音:办公助理、语音翻译和内容创作最可能诞生 Kille

    31、r APP2.102024 年 10 月,我们也在 RTE 开发者大会现场,放置了实施互动智能场景下一个 Killer App 的投票板,超过1000位的开发者在大会现场,投票预测下一个 Killer APP。企业与办公智能营销助手AI 会议助手实时语音翻译AI 办公助理AI 虚拟主播AI 情感陪伴游戏 NPCAI 内容创作AI 口语陪练AI 生活助理AI 问诊与心理咨询AI 健身教练AI 情感陪伴AI 陪伴助手个性化教学规划AI 学习硬件社交娱乐教育与培训生活服务47657362861077866219121826922557750032731620794119社交与娱乐、企业与办公两大场景

    32、:最受开发者关注办公助理、语音翻译和内容创作:Killer APP 最可能爆发应用AI 分身社交、AI 展览、多智能体、具身智能:开发者提名领域020103应用场景新挑战,造就 Voice Agent 新的产业架构10765207121225219946669621197378828647RTE开发者社区架起生态桥梁,加速生态沟通03RTE开发者社区架起生态桥梁,加速生态沟通算力协同新思路:基础设施、产品侧与社区的三方合力3.1在实时互动场景中,算力的云端与端侧协同是实现高性能与经济性兼顾的核心挑战。基础设施通过轻量化模型支持和透明化算力调度.为开发者提供端侧友好的工具链;产品侧聚焦功能需求拆

    33、解与资源管理优化,实现灵活的任务分布和动态模型切换;社区则通过资源整合和合作共建,推动上下游企业协同创新,共同突破云端算力瓶颈。提供交流场合:通过社区力量,共建云边协同相关的技术项目、专题讨论、比赛等,推动上下游企业分享解决方案并探讨合作。上下游资源整合:发挥社区的牵头作用,整合模型压缩工具、轻量化算法等资源,加速产品前期测试。社区基础设施及中间层产品侧轻量化模型支持:为垂类应用提供端侧友好的工具链如支持量化、剪枝和蒸馏的模型优化工具,帮助开发者快速部署轻量化模型。云端协同框架:提供透明化的算力调度方案,支持开发者按需调用云端资源,同时动态调整端侧推理任务。专注功能需求拆解:明确目标场景的核心

    34、需求,合理拆解哪些功能需要高精度(依赖云端)、哪些功能可以在端侧完成。优化资源管理:在硬件允许范围内设计运行时的动态模型切换机制,例如在高负载时启用低资源消耗模式保障用户体验的稳定性。RTE开发者社区架起生态桥梁,加速生态沟通解锁场景适配潜能:API/SDK 协同的三方实践路径3.2激励开发者贡献API/SDK:通过活动激励开发者互相贡献插件,联合开源社区和云厂商、平台伙伴(如 dify、coze)合作推广 API 插件的落地应用。API/SDK场景手册:按产品场景细分(如外呼、教育、情感陪伴等),搭建场景的 API/SDK,帮助场景开发者更快更精准的进行开发选择。社区基础设施及中间层产品侧打

    35、造专用API:围绕典型 Voice Agent 场景需求,设计专用的接口与 SDK,优化如上下文追踪、多轮对话和多模态融合的适配能力。持续改进开发易用性:通过提供灵活的参数化接口或可视化配置工具,让开发者轻松定制符合自身场景的交互逻辑。深挖场景需求:基于具体场景的特性,定义 API/SDK 的功能诉求,例如客服需要重点优化打断处理,教育场景则需要支持长对话逻辑与上下文保持。设计原型验证:快速测试现有API的适配性,反馈改进建议,推动基础设施优化工具与应用场景的对接。在 Voice Agent 应用中,API/SDK 的场景适配性是提升开发效率与交互体验的关键。基础设施通过专用接口设计和易用性优

    36、化,为典型场景提供灵活支持;产品侧聚焦场景需求深挖和快速验证,确保工具与实际应用高效对接;社区则通过插件共建与场景手册,整合资源促进协作,全面释放 API/SDK 的场景适配潜能。RTE开发者社区架起生态桥梁,加速生态沟通弱网、低延迟与多设备:终端适配的协作新思路3.3终端适配专项小组:组织垂直行业工作坊,帮助终端设备明确需求,共同探讨适配语音降噪、弱网抗性和延迟优化的技术。并将相关技术提供商引入对接,总结适配案例集:发布基于 Voice Agent 的多终端适配案例集,供开发者参考学习。社区基础设施及中间层产品侧跨终端兼容支持:提供统一的多终端适配框架,抽象设备差异,简化开发者的适配工作。提

    37、供支持弱网和低延迟场景的基础能力,如分布式网络节点和边缘计算优化方案。交互习惯优化:支持跨设备的用户状态和偏好同步构建支持设备间无缝切换的上下文共享机制。细化场景设计:根据设备特点(如智能音箱的场景化对话、手机的移动性)优化终端交互逻辑,使应用更贴近具体场景的用户需求。终端性能优化:在弱网环境或资源受限的情况下,优先保障核心功能的流畅运行,避免用户体验大幅下降在多终端场景中,Voice Agent 的适配需求从设备兼容转向智能协同。基础设施通过跨终端适配框架和交互习惯优化,构建弱网环境下的低延迟体验;产品侧聚焦场景化设计和性能优化,确保终端交互逻辑与用户需求高度契合;社区则通过案例集分享与专项

    38、小组协作推动行业标准化,共同突破多设备协同的技术瓶颈。RTE开发者社区架起生态桥梁,加速生态沟通重塑流量协同:生态、产品与社区的创新新实践3.4提供原型产品测试机会:通过工作坊、体验活动、社区自媒体推荐等形式,实现Demo 产品快速验证与快速迭代。用户触达新方式探索:协调新兴流量平台和智能体平台与 Voice Agent 产品/解决方案提供商,共同探索用户触达的创新方式。提供产品运营帮助:提供场景化运营指南或陪伴活动,赋能开发者快速打入分散市场社区基础设施及中间层产品侧生态合作机制:提供灵活的生态合作机制,支持第三方应用和硬件厂商在平台上共同推广 Voice Agent 功能精细化用户细分:基

    39、于用户行为和需求分析,设计个性化的产品推荐和定制化的使用场景,以提高用户粘性和转化率。制定精准营销策略:根据不同市场和用户群体的特点定制差异化的营销活动,结合数据分析优化广告投放和促销策略。在流量分散的市场中,生态、产品与社区的协同创新成为 Voice Agent 破局的关键。基础设施通过灵活的生态合作机制,助力第三方应用和硬件厂商共同推广功能;产品侧以场景化营销策略精准触达用户;社区则通过原型测试、流量平台合作和运营支持,帮助开发者快速适应市场,推动流量高效转化。RTE开发者社区架起生态桥梁,加速生态沟通Voice Agent产品需要更多新平台新力量,实现更精准的资源对接社区更新资源对接以帮

    40、助 Voice Agent 产品应对算力、工具、终端和流量挑战3.5在日益独特化的应用场景中,在 Voice Agent 产品快速探索和迭代的今天,原有的开发平台、流量平台等无法实现资源的快速匹配,亟需转变。社区,通过更新资源对接的方式,帮助 Voice Agent 产品更好地应对算力、工具、终端和流量挑战,并创造更优秀的用户体验和产业结构。协助探索更合理的算力架构提供交流场合:通过社区力量,共建云边协同相关的技术项目、专题讨论、比赛等,推动上下游企业分享解决方案并探讨合作。上下游资源整合:发挥社区的牵头作用,整合模型压缩工具、轻量化算法等资源,加速产品前期测试。联合资源开发更专用的 API/

    41、SDK激励开发者贡献 API/SDK:通过活动激励开发者互相贡献插件,联合开源社区和云厂商、平台伙伴(如 dify、coze)合作推广 API 插件的落地应用。API/SDK 场景手册:按产品场景细分(如外呼、教育、情感陪伴等),搭建场景的API/SDK,帮助场景开发者更快更精准的进行开发选择。助力更适配的终端交互体验终端适配专项小组:组织垂直行业工作坊,帮助终端设备明确需求,共同探讨适配语音降噪、弱网抗性和延迟优化的技术。并将相关技术提供商引入对接。总结适配案例集:发布基于 Voice Agent 的多终端适配案例集,供开发者参考学习。提供渠道链接更精准的用户群提供原型产品测试机会:通过工作

    42、坊、体验活动、社区自媒体推荐等形式,实现 Demo 产品快速验证与快速迭代用户触达新方式探索:协调新兴流量平台和智能体平台与 Voice Agent 产品/解决方案提供商,共同探索用户触达的创新方式。提供产品运营帮助:提供场景化运营指南或陪伴活动赋能开发者快速打入分散市场。1234RTE开发者社区架起生态桥梁,加速生态沟通打破短期融合障碍,社区推动实时互动智能人才交流3.6在去年社区的年度报告中,我们发现 RTE行 业本身存在着巨大的人才缺口。而根据人设部的测算,AI 开发者供求比严重失衡,预计到 2025 年人才缺口将突破 1000 万。而这两类本身在开发者中占比就较小的群体,在实时互动智能

    43、这个融合领域内,所面临的人才缺口将会更大。除了面临巨大的人才缺口,RTE&AI 开发者还面临信息壁垒的挑战。这主要源于行业融合时间短、以及跨领域的技术和经验共享不足。来源:实时互动行业人才生态报告 2024 1.提供交流场合目前行业内针对 RTE 和 AI 融合的专门会议或社区较少,开发者难以获取针对性的指导和经验分享,也难以找寻到合适讨论平台2.整合具备易用性的工具链生态目录社区可以整合工具链生态,通过自媒体或使用活动推荐和完整工具链,为开发者提供使用和反馈兼备的完备工具链生态目录。Al BuilderAl BuilderRTE开发者社区架起生态桥梁,加速生态沟通实时互动智能 Builder

    44、 的人才能力韦恩图重塑 Builder 角色:Voice Agent 人才画像的新定义3.7除了面对算力、工具、终端和流量的挑战外,Voice Agent 的产品形态也对实时互动智能 Builder 自身的能力要求发生了转变。新时代的实时互动智能 Builder 需要既懂得选用合适的 LLM,又知道实时互动的工程化落地对于终端体验的重要性,又特别了解特定场景的实际用户痛点。实时互动智能Builder实时互动理解AI 理解场景理解RTE 应用TTS等AI nativeAl AgentAI应用根据业务搭建合适的底层架构选择合适的 API、平衡端云在延迟和体验中平衡达到最好的效果全栈开发、工程化落地

    45、和 QoE 体验精确的选择合适的模型 SKU会微调能够优化模型能耗数据安全和 AI 治理场景化理解和解构需求优先级商业模式闭环客户关系RTE开发者社区架起生态桥梁,加速生态沟通实时互动智能明星项目关键模式拆解技术共建(Github 上项目之间的共同贡献者)云、流量等其他产业化支持(开放 POC 等)交流场合(大会、工作坊、开放日等)云资源云资源初创加速计早期实TTS输出云资源云资源计划计划1357331116232014111033142971412127692144410189412933151088533628DiscordPaddleSpeechSenseVoiceChatTTSGPT-

    46、SoVITSFunASRLangchainLlamaIndexWhisperRAGFlowFish SpeechMoshiStable Diffusion webuiDifyMiniMaxHume AIViduSeed-TTSOpenVoiceedge-ttsEmotiVoice英伟达Lepton AIElevenLabs信号与信息处华为百度TEN FrameworkCosyVoice此场atfieldAgentLivePixelHackAzureAWS计划从社区支持到明星项目拆解:实时互动智能 Builder 需求深挖3.8除了各方合力构建新生态架构外,InfoQ 研究中心也关注实时互动智能

    47、 Builder 在社区中寻找的核心价值。为此,我们深入拆解了 Dify、CosyVoice 等一系列明星项目之间的联系,试图探究这些项目在技术共建、产业化支持和交流场合上的关键模式RTE开发者社区架起生态桥梁,加速生态沟通RTE 开发者社区探索新协作模式,加速 Voice Agent 项目孵化3.9因此,除了围绕算力、工具、终端和流量的挑战提供资源整合和对接外,社区还需要加速促进人才交流与技术共建。根据这些需求RTE开发者社区也在逐渐探索生态内的新协作模型,以加速实时互动智能项目的开发和落地。线上技术大会(RTE大会)和展区线下聚会(RTE Open Day 等)线上直播(RTE Dev T

    48、alk 等)在线社区、工作坊、陪跑计划在线社区技术讨论开源项目孵化分享创意 Demo工作坊挑战和试用提供交流场合鼓励技术共建通过场景实例和解决方案,更快地匹配合适的 API、SDK获得算力、流量等产业化支持加速产品开发通过社区和线下工作坊进行产品推荐和试用调研,更快速获得反馈联合上下游等生态企业算力资源支撑提供优惠1234实时互动智能生态的未来发展预测04实时互动智能生态的未来发展预测实时互动进化:生态协作和应用场景助推下一代多模态交互实时互动智能以空间计算、空间智能为代表的空间技术,对于实时互动智能本身的互动体验、应用场景和生态协作都将带来新的机会。4.1新的硬件类型、基于新硬件而产生的新交

    49、互方式构建开放、统一的空间计算技术框架硬件和算法的互相适配,以达成场景和交互的双重赋能生态协作的再构建应用场景的再拓展空间计算通过融合 AR、VR 等技术,借助新的设备终端,为实时互动智能提供了全新的交互维度。模拟真实环境的交互设备/流程实训打破物理空间限制的创新表达增强现实辅助医疗与远程手术等实时互动体验的再升级新玩家的深度参与更好的理解和感知物理世界打破物理和数字空间边界多模态下一个交互方式语音触控键盘鼠标代码新基础设施的技术标准算法硬件适配123实时互动智能生态的未来发展预测实时互动智能 Killer App 五大潜力场景根据本报告中的场景选择新评价标准和开发者票选结果,选择以下五大潜实

    50、时互动智能Kiler App力场景。4.2国际商务会议 跨国团队协作 外贸企业的实时语音订单协作孤独人群的心理支持 儿童早教互动个人口语练习辅助 语音陪练智能营销外呼客服 语音售后客服重要事项提醒和规划 智能家居实时控制12345算法硬件适配算法硬件适配语音翻译/会议协作情感陪伴口语学习语音客服个性化生活助理(财务、医疗、票务、出行等)实时互动智能生态的未来发展预测打破多方挑战,社区支撑良性生态交流体系共建4.3主动进行知识分享,编写技术博客和实践指南参与/牵头工具链建设,降低普通开发者的入门门槛复合型人才开发者业内企业复合型人才开发者业内企业开源项目开发者社区完善文档和教程,提高工具和代码的

    51、可读性,并提供多样的使用案例及学习资源建立开放的技术支持通道,如论坛、微信群、Slack 群组或 Discord 社区建立专门的技术分享平台,积极推广社区成果,吸引更多开发者和企业参与组织实时互动智能相关的行业峰会、研讨会黑客松和工作坊活动,促进技术交流和创新整合上下游合作伙伴资源,提供更多的产业化资源和交流场合主动进行跨领域知识学习和储备需要积极参与社区讨论与建设需要主动参与项目,积累经验参与国家/行业相关技术标准制定通过实习机会、专项培训等方式培养复合型人才需要加强与社区、企业的合作开发者社区开源项目实时互动智能生态的未来发展预测社区助力培育兼具场景选择和场景适配的明星项目除了场景选择外,

    52、能够适应场景适配也是社区参与培育的明星项目的典型特征之一。4.4场景选择高性能要求高准确要求好体验要求代表应用落地在实时互动场景中运行的效率要求,受到云、边、端算力协同调度和合理架构设计的影响代表在特定场景中对模型的输出精度和判断正确性要求,受场景数据的规模和算法优化程度的共同影响代表应用场景中用户对交互效果、实时性、准确性及沉浸感的感知和期待明星项目在场景选择上的特征场景适配高效开发适配多模态交互包容性沟通明星项目通常会具备良好的API 设计和生态兼容性,并结合特定场景的复杂需求优化开发工具链,包括 API、SDK、语音模型框架等。明星项目将借助多模态数据(语音、文本、视觉等)的融合,提升场

    53、景理解的准确性。支持开发者与场景应用方(如企业客户普通用户)之间的反馈闭环,提升 Voice Agent 产品设计和服务精准度。明星项目在场景适配上的特征RTE 开发者社区由声网及多位资深实时互动社区专家联合发起,是聚焦实时互动领域的中立开发者社区。希望通过社区链接领域内的生态伙伴,激活开发者力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。目前现任主理人团队林旅强(Richard Lin)开源社联合创始人投身开源和开发者生态领域逾 15 年社区发起人:杨慧 社区运营组:傅丰元 孟蕾 陈韵 王尚 白宦成 魏伊培杜金房(Seven Du)FreeSWITCH 中文社区创始人RTS 社区和

    54、 RTSCon 创始人语音 AI 资深专家有声内容 AI 生成大模型数据创业卢恒(Bear Lu)RTE 领域开发者覆盖45000+开发者握手次数200+社区官方微信公众号社区小助手RTE 开发者社区通过陪跑计划,提供更多资源支持为了更深入、更持久、更有针对性的陪伴 RTE Builder(开发者),RTE 开发者社区也发起了陪跑计划,提供创业扶持、技术和家务加速、个人成长和影响力打造等资源支持。01.技术和业务增长陪跑:超音速计划创业导师 1 v 1咨询:针对技术型创业开发者推荐加入超音速计划,加入后可享受技术支持、投融资对接、媒体曝光、行业资源等多方位支持02.技术和产品加速来自产业生态的

    55、多项优惠额度:包含云资源、AI工具免费额度、产品运营短信优惠套餐行业最新开发场景 Demo 展示:RTE Openday用户运营、应用市场等产品运营建议技术共建:Github 上项目之间的共同贡献者04.个人影响力打造主流社区渠道曝光(播客、采访、演讲等)交流连接(黑客松、工作坊、开放日等)03.开发者个人成长各类生态内的线上线下活动和主流技术大会的门票福利社区内开发者之间的链接交流(RTE Meetup,RTE Hack-Day)最新技术趋势洞察:编码人声播客,RTE开发者日报集合上下游社区伙伴过去一年,这些社区伙伴通过 RTE 大会、RTE Meetup、RTE Open Day、超音速计

    56、划等活动参与到 RTE 开发者社区的共建中。(排名不分先后)#5E4FA1#F8991D#FFFFFFFunAudioLLMAmphionSpeechGPT InfoQ 研究中心隶属于极客邦科技双数研究院,秉承客观、深度的内容原则,追求研究扎实、观点鲜明、生态互动的目标,聚焦创新技术与科技行业,围绕数字经济观察、数字人才发展进行研究。InfoQ 研究中心主要聚焦在前沿科技领域、数字化产业应用和数字人才三方面,旨在加速创新技术的孵化、落地与传播,服务相关产业与更广阔的市场、投资机构,C-level 人士、架构师/高阶工程师等行业观察者,为全行业架设沟通与理解的桥梁,跨越从认知到决策的信息鸿沟。商

    57、务合作:内容咨询:技术市场趋势洞察技术市场趋势洞察技术市场趋势洞察市场份额追踪市场规模预测细分市场分析市场分析模型输出用户规模评估用户决策分析用户认知分析用户行为分析技术需求洞察应用规划建议技术实践分析发展趋势研判 极客邦科技,以“推动数字人才全面发展”为己任,致力于为技术从业者提供全面的、高质量的资讯、课程、会议、培训等服务。极客邦科技的核心是独特的专家网络和优质内容生产体系,为企业、个人提供其成功所必需的技能和思想。极客邦科技自 2007 年开展业务至今,已建设线上全球软件开发知识与创新社区 InfoQ,发起并成立技术领导者社区 TGO 鲲鹏会,连续多年举办业界知名技术峰会(如 QCon、

    58、ArchSummit 等),自主研发数字人才在线学习产品极客时间 App,以及企业级一站式数字技术学习 SaaS 平台,在技术人群、科技驱动型企业、数字化产业当中具有广泛的影响力。2022年成立双数研究院,专注于数字经济观察与数字人才发展研究,原创发布了数字人才粮仓模型,以此核心整合极客邦科技专业的优质资源,通过 KaaS 模式助力数字人才系统化学习进阶,以及企业数字人才体系搭建。公司业务遍布中国大陆主要城市、港澳台地区,以及美国硅谷等。十余年间已经为全球千万技术人,数万家企业提供服务。数字人才KaaS 模式学习平台企业InfoQ 公众号InfoQ 视频号AI前线 公众号商务合作:内容咨询:洞察技术创新趋势,推动数字化商业升级 报告编制说明及专家团致谢联合出品方RTE 开发者社区、极客邦科技双数研究院旗下 InfoQ 研究中心报告制作团队杨慧、姜昕蔚、傅丰元、崔白洁相关数据来源a16z、Bessemer Venture Partners、Lightspeed、Letta、海外独角兽、Cartesia社区媒体合作伙伴InfoQ、LitGate、语音之家、LlamaEdge、交互技术前瞻、异步社区、178A 盟专家顾问团陈若非、冯越、halajohn、李天雨、李森、Plutoless、王铁震、武执政、俞佳(按照姓名拼音顺序排序)致谢