• 首页 >  人工智能 >  生成式AI
  • 阿里云:2025年Data+AI:开启数据智能新时代报告(194页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《阿里云:2025年Data+AI:开启数据智能新时代报告(194页).pdf》由会员分享,可在线阅读,更多相关《阿里云:2025年Data+AI:开启数据智能新时代报告(194页).pdf(194页珍藏版)》请在本站上搜索。

    1、 卷首语 在数字化浪潮中,数据与人工智能的融合已成为企业实现智能化转型、提升竞争力的关键。阿里云作为行业的领军者,其 Data+AI 技术体系正引领着无数企业迈向数据智能的新纪元。本书整理了阿里云在 Data+AI 领域的最新实践案例与深度洞察,涵盖电商、游戏、营销、运营等多个行业的成功经验,以及技术专家对数据库与 AI 融合趋势的专业解读。通过理论与实践的结合,我们将共同探索 Data+AI 如何成为企业智能化转型的核心驱动力,帮助每一位读者找到属于自己的数据智能之路。目录页 第一部分:Data+AI 大咖观点.1 1.大咖说|Data+Al:企业智能化转型的核心驱动力.1 2.媒体声音|重

    2、磅升级,阿里云发布首个Data+Al驱动的一站式多模数据平台.9 3.媒体声音|专访阿里云数据库周文超博士:AI 就绪的智能数据平台设计思路.14 4.媒体声音|阿里云王远:一站式数据管理平台的智能化跃迁.20 第二部分:Data+AI 行业应用.25 1.拥抱 Data+AI|破解电商 7 大挑战,DMS+AnalyticDB 助力企业智能决策.25 2.拥抱 Data+Al 丨解码 Data+Al 助力游戏日志智能分析.34 3.拥抱 Data+AI|“全球第一雅迪如何实现智能营销?DMS+PolarDB 注入数据新活力.41 4.拥抱 Data+AI|B 站引入阿里云 DMS+X,利用

    3、AI 赋能运营效率 10 倍提升.51 5.拥抱 Data+AI|DMS+AnalyticDB 助力钉钉 AI 助理,轻松玩转智能问数.58 第三部分:Data+AI 云栖发布.64 1.云栖大会|数据库与 AI 全面融合,迈入数据智能新纪元.64 2.云栖大会|从数据到决策:AI 时代数据库如何实现高效数据管理?.76 3.云栖大会|多模+一体化,构建更高效的 AI 应用.89 4.云栖重磅|从数据到智能:Data+Al 驱动的云原生数据库.100 第四部分:Data+AI 方案实践.111 1.内附源码|头部基模企业信赖之选一一 DMS+Lindorm 智能搜索方案.111 2.Polar

    4、DB-PG Al 最佳实践 1:基础能力实践.119 3.PolarDB-PG AI 最佳实践 2:PolarDB AI X EAS 实现自定义库内模型推理最佳实践.132 4.PolarDB-PG Al 最佳实践 3:PolarDB Al 多模态相似性搜索最佳实践.139 5.GraphRAG:基于 PolarDB+通义干问+LangChain 的知识图谱+大模型最佳实践.153 第五部分:Data+AI 产品及权益.174 1.DMS+X 构建 Gen-AI 时代的一站式 Data+AI 平台.174 2.免费部署 Dify+DeepSeek on DMS.175 3.从数据到智能,一站式

    5、带你了解 Data+AI 精选解决方案、特惠权益.179 第一部分:Data+AI 大咖观点 1 第一部分:Data+AI 大咖观点 1.大咖说|Data+Al:企业智能化转型的核心驱动力 在数字化浪潮的推动下,企业正面临前所未有的挑战与机遇。数据与人工智能的结合,形成了强大的 Data+AI 力量,尤其在近期人工智能迅速发展的背景下,这一力量正在加速重塑企业的运营模式、竞争策略和市场前景,成为适应变化、提升竞争力、推动创新的核心驱动力。本章将讨论企业采用 Data+AI 平台的必要性及其在企业智能化转型中的作用。1.1 人工智能(AI)的崛起和挑战 第一部分:Data+AI 大咖观点 2 人

    6、工智能(AI)诞生于 20 世纪 50 年代,自 90 年代以来随着数据量的爆发式增长以及算力的不断提升,AI 被广泛应用于各行业,为社会带来巨大机遇。AI 提升了企业的决策效率和精准度,驱动创新,优化运营,并助力组织变革和构建竞争优势。麦肯锡调研显示,2022 年全球有 50%的公司部署了 AI,投资超过总预算的 4%。生成式 AI(GenAI)的崛起进一步推动了企业转型,其在流程优化、个性化服务等方面的应用超越了传统 AI。企业正积极探索如何提升 Gen-AI 的 ROI,预计到 2030 年,中国约 50%的工作将实现自动化,标志着 Gen-AI 在推动业务模式转型和价值创造中的关键作用

    7、。AI 虽然为企业带来了前所未有的机遇,但在实际落地过程中,企业面临着一系列挑战,这些挑战影响了 AI 技术在企业中的实际应用和价值实现。1.数据质量和治理问题:AI 的应用依赖于高质量的数据,数据的“自由散漫”问题,即数据的不准确、分散性和新鲜度是制约 AI 落地的重要因素。2.数据资产与 AI 联动问题:企业积累了大量数据资产,这些资产价值的释放不仅依赖数据资产与 AI 的相互联动(数据赋能 AI,AI 赋能数据),还依赖数据资产团队和AI 团队间的协同,企业缺乏高效的联动机制。3.技术门槛、成熟度和可靠性问题:尽管发展迅速,但 AI 落地仍然面临高门槛和应用成熟度的挑战,担心技术尚不成熟

    8、可能影响业务的稳定性和安全性,高门槛影响 AI场景的高效落地。4.成本、人才与组织问题:AI 落地通常需要较高的初期投入,包括基础设施投入、人才培养投入,如果涉及转型还会有业务流程和组织上的变革,企业需要评估 AI 投资回报率,实现降本增效。第一部分:Data+AI 大咖观点 3 1.2 Data+AI 的价值 企业可通过采用 Data+AI 方案,有效应对实施 AI 过程中的挑战。从托马斯斯特尔那斯艾略特提出的DIKW模型(DataInformationKnowledgeWisdom)可知,数据是构建智能的基础。企业要实现 AI 的规模化和高质量应用,必须依赖强大的数据支持,即采用 Data

    9、+AI方案。德勤的调查显示,28%的 AI 领先企业正利用 Data+AI 方案整合数据和 AI,以实现高效、高价值的 AI 应用。Data+AI 是指将数据和人工智能结合起来,以支持从数据收集和准备到模型开发、部署、监控和治理的端到端工作流。有了 Data+AI,企业实施 AI 的挑战将得到有效解决:数据治理和质量提升 Data+AI 能够提供统一的数据治理框架,确保数据的准确性和可用性,从而提高数据质量。数据和 AI 在一个平台高效联动 Data+AI 能够让数据和 AI 团队在一个平台上进行协作,端到端的完成 AI 开发,数据管理为 AI 应用提供高效数据支撑,而 AI 又能反向增强数据

    10、管理的智能化水平(例如基于 LLM 构建 Copilot 等),进而形成 Data 和 AI 相互促进相互提升的良性循环。第一部分:Data+AI 大咖观点 4 有效降低技术门槛、提升 AI 成熟度和可靠性 Data+AI 不仅提供经过验证的 AI 技术和服务,还以可视化、拖拉拽的操作方式降低技术门槛,同时企业借助于 Data+AI 生命周期的管理和运营能够不断提升 AI 成熟度和可靠性,帮助企业提升 AI 生产力水平。减少基础设施、人才培养和组织变革投入 Data+AI 可采用云平台构建,并通过提供成本效益分析和自动化的 AI 应用开发,帮助企业降低成本并提高投资回报。通过简化 AI 的应用

    11、,降低了对专业 AI 人才的依赖,各团队使用同一个平台和单一数据来源来执行其工作,能够促进跨部门合作和知识共享,从而降低人才培养和组织变更投入。1.3 Data+AI 如何帮助企业 目前已有多个行业客户采取 Data+AI 来实现 AI 场景的持续高质量落地,下面是相较于传统 AI 场景落地,借助 Data+AI 在构建不同行业应用时的表现。第一部分:Data+AI 大咖观点 5 提高应用效果 Data+AI 能够实现更高质量的数据供应,进而帮助 AI 产生更准确、更可靠的结果。例如,电商平台通过分析高质量的用户行为数据,可以更准确的预测用户购买习惯和偏好,从而提高转化率和客户满意度。支持高效

    12、决策 Data+AI 能够提供更实时、动态的数据,帮助 AI 快速适应市场动态,提升决策效率。例如在零售行业,通过实时、动态的数据获取,企业能够借助 AI 更及时的发现销售数据中的异常点和趋势,为决策提供支撑。增强个性化服务 Data+AI 能够从分散的数据中获取完善的信息,帮助 AI 提供更准确的个性化服务。例如在游戏行业,根据玩家在各个游戏中的历史反馈和行为模式,AI 能够更精准的识别玩家意图,进而提供对应的游戏服务。提升服务效率 Data+AI 能够提供以业务域、个体等多种维度的数据和知识支撑,能够降低 AI 应用启动门槛,提升服务效率。例如在金融行业,根据平台内的技术元数据和操作元数据

    13、生成可被大模型识别的知识并在大模型服务的过程中持续自动维护,借助于知识能够有效降低冷启动投入并提供更准确的结果输出。优化企业成本 Data+AI 能够实现多模的数据和数据AI 的全链路管理,进而加速 AI 服务过程,第一部分:Data+AI 大咖观点 6 降低过程中的人力、管理、资源成本,实现企业成本优化。例如在汽车行业,通过多模的数据管理结合全链路的 Data+AI 开发,能够在加速智能座舱领域各类 AI 场景的构建,降低研发投入。1.4 企业走向 Data+AI 的关键 Data+AI 能够帮助企业实现高质量、规模化 AI 应用,是企业智能化转型的核心驱动力。结合德勤关于企业人工智能应用现

    14、状报告和阿里云近期的最佳实践来看,企业走向 Data+AI 的核心在于通过统一的平台,实现数据和 AI 的深度整合,从而不断提高企业的数据决策和 AI 应用效率。该平台需要支持以下能力:多模数据管理 AI 应用通常会涉及到结构化及非结构化的数据使用,因此 Data+AI 平台需要具备多模数据管理能力,方便企业在 Data+AI 开发过程中高效利用各种类型的数据。端到端的 Data+AI 开发 Data+AI 开发包括数据处理、模型构建及大模型训练等环节。平台需提供全面的开发工具,并实现从数据到 AI 模型的全流程管理,以确保数据与 AI 的深度融合。同时不同团队能在统一平台上高效协作,有效降低

    15、管理成本,提升开发效率。统一 Data+AI 治理 为确保 AI 应用的高效产出,平台必须兼顾数据的准确性、可用性和安全性,同时注重模型的质量和应用的实际效果。因此,平台需要涵盖 Data+AI 的元数据管理、数据质量、安全性等治理能力。该平台应通过统一的治理方案,实现数据和 AI 的全面管理,以提升 AI 应用的整体性能和可靠性。第一部分:Data+AI 大咖观点 7 多引擎适配 在 AI 领域,由于数据处理和算法需求的多样性,单一引擎难以满足所有 AI 应用。因此,平台需要能够适配多种引擎,以便根据具体需求灵活选择引擎,这对保证 AI 解决方案的效果和效率至关重要。1.5 阿里云 DMS+

    16、X:一站式 Data+AI 平台 在今年 9 月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”。该平台通过 OneMeta 和 OneOps 两大创新,简化了数据管理与 AI 开发。OneMeta统一了跨云的元数据服务,支持 40 多种数据源,实现多云和自建数据源的无缝集成。OneOps 则整合了 Notebook 和 Copilot,提供一体化的 Data+AI 开发环境,包括数据、机器学习模型及大型语言模型开发,可实现 DMS+X 一站式的 Data+AI 全生命周期管理。X 代表任何数据引擎,如云原生数据库 PolarDB、云数据库

    17、RDS、云原生数据仓库 AnalyticDB、云原生多模数据库 Lindorm 等。在 DMS+X 之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。第一部分:Data+AI 大咖观点 8 1.6 未来展望 未来 Data+AI 平台将使数据与 AI 更紧密,推动企业 AI 建设实现飞跃。包括但不限于:智能决策:利用数据和 AI 进行市场预测和客户洞察,支持企业制定更及时、精准的商业策略。个性化体验:AI 处理大数据,提供定制化服务,提升用户满意度。自动化与效率:自动化流程提高运营效率,AI 优化资源配置,降低成本。创新驱动:数据驱动创新,开发新产品,拓展市场。安全性增强:

    18、AI 监控安全数据,预防网络威胁,加强信息安全。决策自动化:AI 模型自动执行决策,提高管理效率。跨领域整合:整合不同领域数据,促进跨领域合作与创新。Data+AI 不仅会改变企业原有运营方式,同时还为企业提供了增长的新途径。企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点,促进智能化转型以保持竞争力和市场领导地位,在未来变化中,更好的抓住机遇,迎接新的机会。第一部分:Data+AI 大咖观点 9 2.媒体声音|重磅升级,阿里云发布首个Data+Al驱动的一站式多模数据平台 9 月 20 日,2024 云栖大会上,阿里云瑶池数据库宣布重磅升级,发布首个一站式多模数据管理平台 D

    19、MS:OneMeta+OneOps。该平台由 Data+AI 驱动,兼容 40 余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户敏捷、高效地提取并分析元数据,业务决策效率可提升 10 倍。阿里云副总裁、数据库产品事业部负责人 李飞飞 “数据是生成式 AI 的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力,以数据驱动决策和创新,为用户提供搭积木一样易用、好用、高可用的使用体验。”阿里云副总裁、数据库产品事业部负责人李飞飞表示。第一部分:Data+AI 大咖观点 10 图阿里云推出多模数据管理平台 DMS:OneMeta+OneOps 当前,近 80%的企业在建

    20、设数据平台时采用多种数据引擎、多数据实例组合的策略,AI 兴起也带来了非结构化数据的指数级增长,给企业对数据的高效检索和分析管理提出了更大挑战。此次,阿里云重磅推出由“Data+AI”驱动的多模数据管理平台 DMS:OneMeta+OneOps,助力构建企业智能 Data Mesh(数据网格),提升跨环境、跨引擎、跨实例的统一元数据管理能力。DMS 创新设计了统一、开放、跨云的元数据服务 OneMeta 及 DMS+X 的多模联动模式 OneOps。OneMeta 首次打通不同数据系统,可支持全域 40 余种不同数据源,提供数据血缘和数据质量的一站式数据治理。第一部分:Data+AI 大咖观点

    21、 11 OneOps 则基于数据开发平台 DataOps 和 AI 数据平台 MLOps,将不同数据库引擎(关系型数据库、数据仓库、多模数据库等)集结到统一平台,让用户“开箱即用”,实现全链路的数据加工和计算能力。自上线以来,DMS 已服务超过 10 万企业客户。借助跨引擎、跨实例管理和开发以及数据智能一体化,DMS 将帮助企业从分散式数据治理升级至开放统一数据智能管理,可降低高达 90%的数据管理成本,业务决策效率提升 10 倍。李飞飞表示:“这是自云原生数据库 2.0 后,阿里云瑶池数据库又一次里程碑式的改造升级。DMS:OneMeta+OneOps 为企业提供了全域数据资产管理能力,让业

    22、务数据看得清、查得快、用得好。”据介绍,极氪汽车采用 DMS+Lindorm 一站式多模数据解决方案,实现 32 万在线车辆上万车机信号数据的弹性处理分析,开发效能提升 2 倍,降低 50%云资源成本。在大模型领域,此方案支撑月之暗面构建 AI 智能助手 Kimi,帮助 Kimi 准确理解用户的搜索意图、整合与概述多种信息源,实现精准和全面的信息召回,提升用户交互体验。第一部分:Data+AI 大咖观点 12 此外,云原生数据库 PolarDB 今年首次提出基于“三层解耦,三层池化”(存储、内存、计算)、AlwaysOn 架构的多主多写和秒级 Serverless 能力,解决了多主架构中冲突处

    23、理和数据融合、以及 Serverless 秒级弹性租户隔离的难题。在高并发场景下,PolarDB 性能为业界同类数据库 3 倍,并凭以上成果成功摘得中国首个 ACM SIGMOD 和 IEEE ICDE 工业赛道“最佳论文奖”。本次云栖大会,阿里云瑶池还正式发布了云原生内存数据库 Tair Serverless KV 服务,是阿里云首个基于 NVIDIA TensorRT-LLM 的推理缓存加速云数据库产品。Tair 采用第一部分:Data+AI 大咖观点 13 NVIDIA TensorRT-LLM 一起进行了深度优化。相比开源方案,该服务可实现 PD 分离/调度优化吞吐 30%的提升,预计

    24、成本可降低 20%*注。*注:基于 Qwen2 7B 模型在长上下文场景构造实验环境数据测试,最终效果以实际产品和场景测试数据为准。第一部分:Data+AI 大咖观点 14 3.媒体声音|专访阿里云数据库周文超博士:AI 就绪的智能数据平台设计思路 在生成式 AI 的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动“Data+AI”融合战略的核

    25、心动因。那么,“Data+AI”对于数据处理究竟意味着什么?从字面意义来理解,Data+AI 是指将数据和人工智能结合起来,支持数据从收集、准备到模型开发、部署、迭代、监控的全流程。与传统数据管理模式相比,Data+AI 更侧重 AI 原生化、一体化、多模化等理念。阿里云数据库产品事业部 AnalyticDB PostgreSQL 及生态工具部负责人 周文超 第一部分:Data+AI 大咖观点 15 从数据工程与业务实践的角度来看,由离线数据处理到实时数据处理,再到今天的Data+AI 时代,数据处理的底层逻辑到底发生了怎样的变化?为何多模处理能力变得越来越重要?我们邀请了在学术界和产业界均有

    26、丰富经验的周文超博士,他现在是阿里云数据库产品事业部 AnalyticDB PostgreSQL 及生态工具部负责人。周文超博士从数据管理平台变化角度出发,结合阿里云 DMS+X 底层技术构建路径,深入分析Data+AI 智能平台构建的现状与未来。他认为,今天的数据处理正在向多模融合方向发展,一站式的多模处理能力将是未来数据管理的标配。3.1 智能升级加速,数据管理平台机遇与挑战并存 生成式 AI 重塑一切,很多工作的生产效率得到了极大提升,当 AI 内容生产和代码生成表现出接近甚至赶超人类的能力时,原有的数据管理模式也面临着巨大变革。与过去相比,今天的数据处理在数据量、数据类型、处理深度,以

    27、及与 AI 计算的融合等方面,都发生了显著的变化。这些变化不仅提高了数据处理的效率和准确性,还为 AI 的创新发展提供了有力的支持。生成式 AI 虽然带来了前所未有的机遇,让企业在流程化、个性化服务创新过程中找到新的路径,但也存在着诸多挑战。面对 Data+AI 融合趋势的数据处理难点,周文超博士概括了三点:第一,数据的多模态化;第二,算力的多元融合;第三,数据处理的实时性。数据的多模态:数据类型不再局限于传统的结构化数据,而是包括了图片、文档、图、时序、交易等多种模态的数据,比如:IoT 设备数据、车机图像数据等,这些多模数据是数据处理和分析的一大挑战。算力的多元融合:算力也朝着多模态和异构

    28、方向发展。过去,无论是在操作系统、数据库、离线数据处理还是实时数据处理中,主要关注的是以 CPU 为核心的算力。然而,随着大模型的出现,GPU、FPGA、ASIC 等硬件逐渐加入到算力矩阵中。特别是GPU,原本用于图形加速和比特币等领域,现在因其能处理更多向量数据,并且可用于矩阵乘法,在算力领域扮演着越来越重要的角色。另外,如何在多样化的算力硬件上合理分配计算任务,以及如何更好地调度和结合不同的异构算力,成为 Data+AI 领第一部分:Data+AI 大咖观点 16 域需要攻克的另一个重要挑战。数据处理的实时性:实时性也是数据处理领域的一个难点。从最初的离线数据处理,到现今的实时数据处理,我

    29、们见证了数据处理走向实时化的过程。过去,数据主要以批次形式处理,一天或一周进行一次分析或训练。后来随着实时分析场景的增加,需要分钟级甚至秒级的数据处理能力,例如:在数据监控平台上,用户希望每秒或每分钟都在更新数据,以便实时了解当前情况。同理,Data+AI 也是相同的逻辑。如果几个月才能进行一次训练,那么最近的数据将如何处理?因此,数据管理平台对实时数据的处理,也成为企业必须要面对的一个重要课题。只有解决了上述问题,Data+AI 的落地场景才会变得更加丰富,数据驱动企业智能化升级才会成为可能。3.2 阿里云 DMS+X 一站式数据管理平台设计原理 准确来讲,Data+AI 所有数据处理的背后

    30、主要源于三个核心要素,即数据、模型与算法、算力,正是这“三驾马车”成为数据管理智能平台能否提升业务效率的关键。换言之,真正满足用户需求的 Data+AI 智能平台具有明显的 Data Gravity(数据重力)倾向。如何理解 Data Gravity 概念?用一句话概括,就是让更多的模型、算法和算力向数据靠近,而不是来回迁移数据。因为,搬数据这件事,成本高昂,不能再像二十年前一样,把不同数据进行聚拢,再进行数据下发。现在,基本都是近存计算、存内计算,计算向存储靠近,向数据偏移。此种背景下,阿里云瑶池数据库推出的 Data+AI 一站式多模数据管理平台做出几个重要改变:一、是一体化,打破数据生态

    31、和部署域的壁垒;二、让数据价值获取的路径变短。所谓“一体化”,是指为用户打造一个统一的数据管理与开发平台,以优化数据资产的可见性和利用效率。首先,通过一个集中化的界面,让用户能够清晰地查看所有分散在不同来源(如 OLTP 数据库、OLAP 数据库、云存储及自有 IDC 等)的数据资产,第一部分:Data+AI 大咖观点 17 从而更有效地管理数据并控制存储成本,同时获得全局性的数据概览,这一理念体现在阿里云在 DMS+X 平台中提出的 OneMeta+OneOps 概念上。其中,OneMeta 实现了数据资产的统一元数据管理,包括数据的来源、表结构等关键信息;而 OneOps强调了开发平台的统

    32、一性,支持从离线到在线、从 OLAP 到 Spark 再到 AI 等多种数据处理场景。通过 OneOps 概念,DMS+X 整合了数据操作、开发运维以及针对大型语言模型等操作,形成一个统一的操作平台,让用户能够在这个平台上完成所有与数据相关的操作,从数据清洗、编排到调用 AI 模型,从而缩短数据价值获取的路径,使数据价值的挖掘变得更加简单和高效。值得一提的是,不同数据生态的打通也是 DMS+X 一大亮点。众所周知,OLTP 数据库和 OLAP 数据库本身数据存储和处理形式不同,中间免不了要进行复杂的 ETL 转换。秉承 Zero-ETL 理念,DMS+X 在数据转换通路上做了很多工作,让用户无

    33、需通过物理复制就能在无感知状态中将 ETL 效率提升 5-10 倍。与此同时,让数据价值它的获取路径变得短,或者说让用户获取价值更简单,也是DMS+X 智能平台提供的一个重要价值。为了将数据适配到 AI 处理的需求,DMS+X还进行了数据的 AI ready 化处理,如向量化等,使数据更易于被大型语言模型等 AI技术理解和处理。此外,DMS+X 还提供了 Notebook、任务编排、以及结合百炼等智能开发平台的一系列功能,帮助用户更容易地生成带有业务属性的数据处理流程,进一步提升数据价值的挖掘效率。从目前应用现状来看,阿里云 DMS+X 的用户主要是互联网、零售、游戏以及泛娱乐领域,这些领域的

    34、企业本身就有核心的数据资产,希望通过数据处理能力的提升拓展AI 边界,构建 AI 原生能力,进而实现数据资产的价值最大化。大体来看,企业智能化升级还处于刚刚起步的阶段,未来随着 Data+AI 融合速度的加快,其他传统领域也一定会全面跟进。当然,部署 Data+AI 融合战略的企业不只阿里云一家。与同类竞品相比,阿里云“Data+AI”驱动的 DMS+X 一站式多模数据管理平台之所以成为各行各业实现数据价值新底座,是“厚积薄发”的结果。比如:生成式 AI 强调的三层架构(底层基础设施层、中间模型层以及上层应用),阿里云很早就已提出 IaaS+PaaS+MaaS 全栈第一部分:Data+AI 大

    35、咖观点 18 产品矩阵。过去几年,不管是 IaaS(计算、存储、网络安全)、PaaS(中间件,数据库,计算平台),还是 MaaS(通义系大模型),都已做到业内领先。具体到数据库,经过十余年的应用实践以及技术迭代,阿里云瑶池拥有业界最全面的数据库产品布局,涵盖云原生关系型数据库 PolarDB、云原生数据仓库 AnalyticDB、云原生多模数据库 Lindorm 等多款明星产品,可满足用户不同业务需要。技术方面,瑶池旗下的自研数据库拥有三层解耦、多主多写、HTAP、Serverless 等全球首创或业内领先的创新能力。其中,PolarDB 已完成全球首个大规模商用、基于共享存储的云原生多主数据

    36、库实践,并凭此成功摘得了中国首个 ACM SIGMOD 和 IEEE ICDE 的工业赛道“最佳论文奖”。3.3 未来:AI 就绪,迎接 Gen AI 时代 尽管在底层技术平台支撑上,人类已经做好了 AI 就绪的准备,但距离真正的 Gen AI时代到来,还有一段距离。周文超博士总结认为,大模型应用层将在未来占据主导地位,尤其是模型的推理应用,其价值将远超训练过程。在此背景下,阿里云瑶池数据库 DMS+X 发展规划也会变得更加清晰,将聚焦于支持更宏大的推理场景,通过提升用户体验和性价比来推动技术进步。具体而言,DMS+X 将致力于让用户在使用过程中更加便捷、高效,并通过资源混部、垂直领域数据的存

    37、储与计算优化等手段,进一步提升资源使用效率。同时,还会更积极地探索如何更高效地使用 CPU、GPU、FPGA 等算力资源,以期在未来技术落地中发挥重要作用。这些努力不仅体现了阿里云瑶池数据库对未来技术趋势的深刻洞察,也彰显了企业在推动 AI 技术发展方面的坚定决心和不懈努力。而从技术人生的视角来看,以周文超博士为代表的研发团队,正以长期主义心态,将战略愿景转化为实际行动,致力于为用户带来更高效、更便捷的智能数据平台体验,推动着 AI 技术的持续进步和应用的快速拓展。第一部分:Data+AI 大咖观点 19 受访人简介:周文超,阿里云数据库产品事业部 AnalyticDB PostgreSQL

    38、及生态工具部负责人,负责云原生数据仓库、数据库工具与管控的研发以及数据库系统与智能方向科研。专注于建设一体化 Data+AI 数据管理平台,支持日益丰富的数据计算需求和更趋异构化的底层架构,利用资源云化提升智能计算效能。清华大学计算机系本科,宾夕法尼亚大学计算机与信息科学博士,国家级领军人才,浙江省顶尖人才。毕业后于美国乔治城大学计算机系任教,后升任终身教授。至今在一流国际学术会议与期刊上发表论文 70 余篇。主要研究方向是计算机系统的设计和实现,涵盖数据库、分布式系统、计算机网络和系统安全等方向。曾获多项重要奖项,包括美国基金委 NSF CAREER Award(杰出教授奖),ACM SIG

    39、MOD 最佳博士论文奖,以及多个学术会议的最佳论文、最佳系统演示奖等。第一部分:Data+AI 大咖观点 20 4.媒体声音|阿里云王远:一站式数据管理平台的智能化跃迁 在 DTCC 2024 大会上,阿里云数据库产品管理与技术架构部负责人王远与 IT168&ITPUB 特约嘉宾薛晓刚就数据库与 AI 技术的融合、云原生数据库的新趋势及向量数据库的支撑能力等热点话题进行了深入探讨。数据库领域专家薛晓刚(左)、阿里云数据库产品管理与技术架构部负责人、PolarDB 开源社区技术委员会主席王远(右)在王远看来,Data+AI 不只是一个概念,而是已经进入实际落地阶段。同时,在新的应用环境下,需要支

    40、撑的场景有很多,单一数据库引擎已经无法满足业务需求,用户更希望通过不同引擎承载不同的工作负载。因此,在整体架构上,需要构建一个像“搭积木”一样便捷的统一数据管理能力,才能满足智能化时代需求。4.1 再谈数据管理“数据、AI、算力是智能时代的三要素,也是一个递进式的数据平台模型。”王远借用 DIKW 经济学模型,形象地解释了从数据到智能化的转化路径。第一部分:Data+AI 大咖观点 21 如果说数据平台是一个类似于“金字塔”的底座,处于最底层的是数据(Data),再往上是信息(Information)、知识(Knowledge),最顶层的是智慧(Wisdom)。其中,数据库所扮演的角色是数据管

    41、理的基石,承载着从数据到信息再到知识的三层交互,而大模型的出现,则把数据管理中上层的知识与智慧之间的鸿沟逐渐填平。然而,数据管理能力的跃迁并不是凭空出现,而是技术发展的结果。人类从有计算机开始,就在进行数据管理,只不过早期的数据管理受制于存储设备限制,容量空间有限,导致数据不能长期保存、数据不能共享。数据管理能力得到跨越式发展,是因为数据库系统的诞生。在 20 世纪 60 年代,随着计算机管理对象的规模越来越大、数据量急剧增长,多种应用进行数据集合的要求越来越强烈,数据库技术顺势而生。数据库的核心作用在于,提供了一种高效、可靠的数据存储与管理方式,并且方便用户访问和查询数据。走到今天,智能化时

    42、代来临,数据库、云原生、人工智能开始真正“握手”,走向深度融合的新时期,以至于数据管理的整个平台架构也跟着发生了微妙变化。4.2 智能底座的进化 在全新的 Data+AI 时代里,发生了三件大事:一、OpenAI 收购了数据库分析公司 Rockset。OpenAI 收购的目的是想构建更坚实的数据底座,而 Rockset 能提供两个关键能力:一个是多维索引,另一个是实时性。这说明,AI 时代,对数据检索的要求不是变弱了,而是越来越强了。二、向量数据库快速发展。向量就是特征,向量数据库的检索和传统数据库精确的检索结合,可以给用户创造更灵活、更贴合业务场景的一种检索模式,甚至是更可理解的检索模式。三

    43、、具身智能的突破。“具身智能”是 AI 里面的行为主义,强调输入和反馈,更需要对海量多模数据管理的提升,包括对环境的快速感知能力,不仅要理解、决策,还要第一部分:Data+AI 大咖观点 22 拿到反馈。这时候的数据平台呈现两个特点:一个是多模,另一个是实时。多模,意味着能在海量数据的基础上处理多种类型的数据;实时,让数据库的应用范围进一步拓宽,同时在查询和体验上能变得更易用。每件事都在从不同角度说明,人类已真正进入了智能化变革期,数据平台的底座迎来了新的跃迁。阿里云数据库产品管理与技术架构部负责人、PolarDB 开源社区技术委员会主席王远表示,智能数据平台的底座可以分为三层:最底层,是基础

    44、设施层,包括存储、计算,这是传统数据库以及云数据库特别擅长的点;最上层,是端到端的智能化服务,目前主要以 RAG 服务为代表,面向用户以及开发者提供模型、算法管理、向量检索能力,特别是需要把向量检索基于 SQL 的检索结合起来。中间层,是智能数据平台的“大脑”,包括数据的统一、现代数据开发、Copilot 智能。从云数据库的发展方向来看,AI 时代的云原生数据库要实现“四化”,即云原生化、平台化、一体化和智能化。本质是希望把各种各样的云资源利用起来,通过一系列的管控以及内核解耦技术,帮助用户降低云数据库的使用门槛、将业务价值最大化。与传统数据库相比,AI 时代的云数据库不再是资源视角,而是能力

    45、视角,用户更关注业务的使用情况,而不是要买多少云服务器,多少 G 的内存。4.3 打磨一站式数据管理平台 为了满足 Data+AI 时代的用户需求,阿里云通过“瑶池”打造整体云数据库品牌,应对智能数据平台的不同场景考验。就具体的产品类型来看,阿里云瑶池数据库分为四大类,包括:OLTP 数据库、OLAP数据库,NoSQL 数据库,以及相关的数据管理工具,包括 DMS 数据管理、DTS 数据传输、数据库备份等。据王远介绍,阿里云瑶池旗下包括 3 款核心的自研数据库,分别是 PolarDB、AnalyticDB,还有 Lindorm。其中,PolarDB 是自研的云原生关系型数据库,主要应对 OLT

    46、P 场景;AnalyticDB(简称 ADB)应对的是 OLAP 场景,与云原生存储进行了深入融合,能提供大数据场景下更具性价比的解决方案;Lindorm 是一款云原生多第一部分:Data+AI 大咖观点 23 模数据库,随着 HBase 的发展在多模方向拓展应用边界,可支持从早期的宽表模型到现在的时序、时空、向量、JSON 等多种数据,不仅可以处理结构化和非结构化数据,同时也集成了 AI 训练和推理能力。提到 AI,我们很自然地会想到向量数据库。目前阿里云瑶池数据库的全系产品均已支持向量能力,但各自技术路线不同。对于开源类产品,如 RDS 系列基本走的是开源路线,最典型的产品是 RDS Po

    47、stgreSQL,集成了 PG Vector 插件,兼容开源生态;自研向量检索引擎 FastANN 主要用于自研数据库产品,比如 AnalyticDB PG、PolarDB PG、Lindorm、Tair 都集成了自研向量引擎。王远表示,由于云上用户较多,应用场景也更多元,单一数据库引擎很难满足所有用户需求。采用不同引擎承载不同的工作负载,并且让用户拥有一站式数据管理平台的使用体验,这是阿里云瑶池数据库产品一直打磨的方向:第一:通过云原生 Serverless,持续降低用户的数据库使用门槛;第二:一体化、一站式。阿里云瑶池拥有庞大的用户群体和业内最丰富的云数据库产品家族。瑶池数据库目标为用户提

    48、供开箱即用的数据库产品,这一理念也指引着我们的技术方向。用户无需关注负载管理、智能路由、数据冷热分层等技术细节,全部可通过“瑶池数据库”一站式完成。这也引申出第三个方向:多模。无论是云厂商,还是经典老牌数据库企业,未来都会向着这个方向探索。向量技术的发展,正逐步走向成熟,目前已能够满足经典应用场景。向量最大的意义是打破了结构化与非结构化数据之间的界限,“万物皆可特征化”。按此逻辑,数据库甚至数据平台,一定会向着包罗万象的方向前进,未来将承接各种各样的数据类型。第四:AI4DB,AI 技术与数据库的结合。之前三个方向讨论的都是数据库技术如何支撑 AI,但 AI 也能为数据库赋能。从资深 DBA

    49、角度出发,可以用 AI 免运维。更高层次的,如数据开发、数据应用、数据服务等都可以通过 AI 降低门槛,这也是未来的方向之一。第一部分:Data+AI 大咖观点 24 在 Data+AI 驱动的云原生数据库发展路线图中,云原生和 AI 将是最给力的“助攻”,帮助用户拥抱 AI 时代。第二部分:Data+AI 行业应用 25 第二部分:Data+AI 行业应用 1.拥 抱Data+AI|破 解 电 商7大 挑 战,DMS+AnalyticDB 助力企业智能决策 1.1 行业趋势 在当今数字化浪潮汹涌澎湃的时代,电商行业正经历着深刻的变革与发展。数据(Data)与人工智能(AI)成为推动电商行业变

    50、革发展的核心力量。海量的数据中蕴含着无尽的价值与机遇,通过对大数据的深入挖掘和分析,电商企业能够精准洞察消费者需求、优化运营流程、提升决策效率。而 AI 的加入为电商领域带来了更强大的智能服务能力,同时在数据价值发现上带来无限的想象空间。在过去几年,电商企业通过构建大数据体系实现数字化转型,然而在享受数据红利背后也发现了现有大数据架构的不足:在信息维度上主要以结构化分析为主,图片、文档等信息有待挖掘;在应用方面缺乏实时和敏捷的分析应用;在运维上多引擎组合极大增加开发和运维成本。随着技术变革,大语言模型和 RAG 已实现多模态分析可拓展更多信息维度,离在线一体引擎可实现了流、批处理及在线分析的场

    51、景融合。在极需创新的当下,如何快速升级成可支撑未来 35 年业务创新的 Data+AI 架构?在拥有更多信息维度下,如何实现更深入和精准的数据洞察?本文将深入探讨如何利用好新的数据与 AI 技术以及数据分析方法论,为电商行业注入新的活力与效能。1.2 技术挑战 随着在线处理、实时分析、智能化决策成为电商行业的刚需,企业技术架构在数据分析能力和 AI 能力构建上同时面临很多挑战:1)数据在线重刷:业务上开放了自定义配置能力,商家修改配置后想要立马看到配第二部分:Data+AI 行业应用 26 置之后的数据。数据仓库引擎需要具备丰富的函数支持、事务以及复杂逻辑处理能力,能够根据配置在线重算历史数据

    52、并且对客提供分析服务。2)实时在线分析:电商业务需要提供实时分析的同时也需要结合历史数据作对比分析,因此需要引擎提供流批一体的能力,满足实时指标、离线指标、累计指标、同环比及趋势分析等指标的加工和复杂运算。3)成本优化:长周期数据分析对商家来说很有价值,但数据仓库引擎需要支持冷/热数据分层来控制长周期数据存储成本,同时在开发和使用上对业务是无感的。4)稳定性提升:由于对外提供付费服务因此需要时刻保障业务的连续性。数据仓库引擎在极端情况需要保障集群性能不降级。5)数据质量和治理:AI 的应用依赖于高质量的数据,数据的“自由散漫”问题,即数据的不准确、分散性和新鲜度是制约电商行业 AI 落地的重要

    53、因素。6)数据资产与 AI 联动:企业积累了大量数据资产,这些资产价值的释放不仅依赖数据资产与 AI 的相互联动(数据赋能 AI,AI 赋能数据),还依赖数据资产团队和AI 团队间的协同,企业缺乏高效的联动机制。7)成本、人才与组织:AI 落地通常需要较高的初期投入,包括基础设施投入、人才培养投入、业务流程、组织变革等,企业需要评估 AI 投资回报率,实现降本增效。1.3 阿里云 Data+AI 解决方案 在今年 9 月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”。该平台通过 OneMeta 和 OneOps 两大创新,简化了数据管理与

    54、AI 开发,实现 DMS+X 一站式的 Data+AI 全生命周期管理。在 DMS+X之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。第二部分:Data+AI 行业应用 27 为了应对业务发展对技术的挑战,电商行业客户可以通过阿里云 DMS+AnalyticDB实现 Data+AI 架构全新升级,构建 AI 原生的仓内智能能力,打造新一代的在线数仓。1.4 面向 Data+AI 的数据架构升级 Zero-ETL 随着电商行业升级,业务规则配置灵活性、报表分析自助性成为刚需。传统基于 ETL和离线调度加工的开发模式越发不能满足商家分析诉求。为应对日益旺盛的分析需求,阿里云瑶

    55、池旗下的云原生数据仓库AnalyticDB PostgreSQL版(以下简称ADB-PG)推出 Zero-ETL 功能,无需配置 ETL 任务即可实现业务数据库的增量同步,结合 ADB-PG 增量实时物化视图实现无调度的任务加工和数据重刷,提升商家分析时效性和灵活性。实时在线分析 在过去流数据和历史数据进行关联分析的成本极高,同时在开发和运维上因为要学习两套引擎语法成本较高。ADB-PG 增量实时物化视图支持丰富语法:多表关联、嵌套第二部分:Data+AI 行业应用 28 子查询、窗口函数等;支持行级数据刷新和级联刷新,不需要业务上来实现数据任务的调度依赖。在 Upsert 下通过 ADB-P

    56、G 分布式直写计算节点能力加持下可达到10W+RPS 的写入吞吐。混合负载资源隔离 集群同时存在高吞吐写入、历史数据重算、实时计算和在线分析服务需求,因此需要支持混合业务的负载。结合 ADB-PG 资源隔离能力构建了不同资源组,根据业务在不同时间段的重要性动态地分配资源,比如在早上需要保障在线分析服务和实时计算的业务连续性,在数据刷新资源时可以调低一些。在凌晨则相反,批处理加工的资源最大,同时也保留一部分资源保障 KA 客户的分析服务。长周期数据归档 在过去由于成本考虑无法为客户提供两年前的历史数据分析服务,同时对于没有分区的表需要业务上手动转冷非常不方便。通过 ADB-PG 实现了长周期数据

    57、的自动归档,可以支持分区级和行级(指导字段)。在使用上可以自动路由到热或冷数据,也可以通过参数控制仅访问热数据。在保障用户能够使用历史数据的同时实现存储成本优化。第二部分:Data+AI 行业应用 29 满足 KA 业务 对 KA 用户需要有独立的资源保障,但同时也要考虑整体的计算和存储成本。对于一些批处理加工的数据,通过 ADB-PG 数据互访能力实现跨实例的数据访问避免数据冗余存储,通过实时物化视图可以对中心数仓和 KA 数仓上的数据进行计算,结果数据留存在卫星数仓。对于一些高频率查询的数据通过 CDC 增量同步到 KA 数仓,提供高性能的在线服务。对计算任务根据资源消耗情况进行费用分摊。

    58、动态资源弹升 数据产品对外提供付费服务,因为需要时刻保障业务连续性。开源 MPP 架构产品虽然能提供高可用能力,但在计算节点依赖的宿主机发生宕机情况下会影响整个集群的性能。为了保障集群性能不降级,ADB-PG 提供了动态资源弹升的能力。第二部分:Data+AI 行业应用 30 1.5 AI 场景实践探索 电商行业客户可在数据仓库之上进行 AI 场景化实践探索,阿里云瑶池数据库提供了智能问数和以图搜图场景的解决方案。1.5.1 智能问数 在当今快速演进的商业环境中,数据已成为企业策略制定的关键资源。无论是优化决策流程还是驱动创新,对数据的精确分析和高效管理至关重要。DMS 是阿里云在 2013

    59、年发布的数据管理服务,能够满足企业一站式数据管理诉求。DMS Data Copilot 是 DMS 基于阿里云大模型构建的数据智能助手,支持用户通过自然语言的方式生成并优化 SQL,降低 SQL 编写门槛,提升开发效率。第二部分:Data+AI 行业应用 31 企业内的数据团队需要为商家研发数据智能产品,并对内部的产品运营团队提供数据分析支持。大量的数据报表并不能完全满足商家,运营和产品的需求,在繁重的开发工作之外还需要频频应对各方的取数需求,这些临时的需求并不足以建设报表来满足,诸如此类的问题每天都在发生,为数据研发工作带来不小的挑战。DMS Copilot 解决方案可以满足各方灵活取数需求

    60、,以自然语言交互方式获取数据,只需提出问题即可获得所需结果,还支持一键生成图表,查看数据变化趋势。第二部分:Data+AI 行业应用 32 对内部提升数据报表开发效率。以一个场景为例,需求方要基于销售大区和合同版本维度统计近7天访问全局概览页面的TOP3商家类目。只需输入这段文本需求 DMS Copilot 即可生成相应的 SQL 代码。根据用户的个性化需求 Copilot 还给出了历史知识库引用进一步提升回答准确度。1.5.2 以图搜图 基于 ADB-PG 一站式 RAG 的 OpenAPI 构建图片上传、向量化(Embedding)、图片检索完整链路,三天即可完成整个图搜技术底座的搭建和优

    61、化,对客提供同源货品推荐服务。第二部分:Data+AI 行业应用 33 1.6 总结与展望 针对电商行业痛点,阿里云瑶池数据库提供完整的 Data+AI 解决方案及落地最佳实践,针对七大挑战提供了创新的技术方案。利用 DMS+AnalyticDB 同时满足数据在线处理、实时分析和智能化 AI 实践,大大降低了企业开发和运维成本。Data+AI 为企业提供了增长的新途径,企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点,促进智能化转型以保持竞争力和市场领导地位,迎接新的机会。电商行业客户进行面向 Data+AI 的升级和转型,对外提供 AI 原生能力,能让 AI 的开发和应用更普

    62、惠。通过循序渐进地探索和落地,期待未来能在电商产品上实现全面智能化。第二部分:Data+AI 行业应用 34 2.拥抱 Data+Al 丨解码 Data+Al 助力游戏日志智能分析 2.1 行业趋势 随着互联网游戏行业的迅猛发展,数据量也在急剧增加。这种增长不仅是因为玩家数量的增多和在线时间的增长,还归因于游戏内集成的丰富数据驱动型功能,如个性化推荐、动态难度调整、虚拟经济系统、实时多人互动以及行为追踪分析等。这些功能提升了玩家的游戏体验,但同时也要求处理和存储更多的数据,给管理和成本带来了新的挑战。尽管海量的数据带来了挑战,但也蕴藏着巨大的价值与机会。除了支持游戏内的各种数据驱动功能外,游戏

    63、公司还能通过数据分析更深刻地理解用户的行为和偏好,从而优化游戏设计,提升用户体验,并通过精准营销增加收入。对数据进行更深入的挖掘,企业还可以识别出影响用户留存的关键因素,找到提高用户参与度的最佳策略,并预测未来的市场趋势和用户行为,进而增强产品的竞争力和市场影响力。面对由海量数据带来的挑战与机遇,如何聚焦于关键数据类型,解决管理与技术上的难题,并持续高效地发掘数据的价值,成为了游戏企业关注的重点问题。本文将详细探讨如何利用阿里云 Data+AI 解决方案来应对这些挑战,并借助 AI 为游戏行业注入新的活力。2.2 技术挑战 在游戏行业产生的海量数据中,日志类数据扮演着至关重要的角色。日志类数据

    64、记录了玩家行为、游戏运行状态及系统性能等关键信息。这类数据通常包括游戏玩家登录与退出时间、游戏角色的成长轨迹(如等级提升)、虚拟物品交易详情、玩家间的互动记录(如聊天或组队)以及游戏内发生的各种事件(如任务完成情况)。此外,还包括了技术侧采集的数据,如服务器响应时间、网络延迟状况等,这些数据可以被广泛应用到用户分析体验、产品功能优化、潜在问题识别、运营策略制定等。第二部分:Data+AI 行业应用 35 随着日志数据量的激增和分析需求的提升,用户需要在性能和成本中做出平衡,寻求更优质的高性价比解决方案。在某头部游戏客户的日志分析场景中,面临以下挑战:数据存储成本高:在玩家的投诉判定、审计合规等

    65、场景中,都可能需要进行日志的回溯,所以游戏产生的日志数据需要全量存储,存储成本随之增加 实时查询性能提升:为了及时响应突发问题,需要从海量日志数据中快速处理和分析,分析性能需要有保障。数据开源开放:游戏企业内部存在多个业务团队,不同业务团队使用的分析引擎可能是不同的,一份全量日志的存储,需要支持上层多种计算引擎访问。结合 AI 增强数据洞察力:传统 BI 分析侧重历史数据的汇总和展示,可帮助决策者了解过去一段时间的业务表现,但不具备预测能力,通常依赖业务方经验来进行未来趋势的判断;结合 AI 进行预测,能有效提升预测准确性,在游戏行业中,常见的有用户行为预测、付费用户预测、付费金额预测、玩家流

    66、失预测等。2.3 阿里云 Data+AI 解决方案 阿里云瑶池数据库提供“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”。该平台简化了数据管理与 AI 开发,实现 DMS+X 一站式的 Data+AI 全生命周期管理。在 DMS+X 之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。针对游戏行业的以上问题,阿里云瑶池数据库 DMS+AnalyticDB MySQL(以下简称ADB MySQL)提供了解决方案。第二部分:Data+AI 行业应用 36 2.3.1 日志数据实时接入 阿里云日志服务(SLS)常用来做应用端游戏日志的采集,下游可再接入分析类引擎做进

    67、一步的处理和查询。阿里云瑶池旗下的云原生数据仓库 AnalyticDB MySQL,提供 SLS/Kafka 日志类数据实时接入内部仓存储/湖存储的能力,自动生成元数据,数据直接可查,简单易用的白屏化操作,用户可按需选择目标端存储,游戏全量日志可选择入湖,以开源 Iceberg 格式写入到内部湖存储,同步性能可达每秒 GB 级吞吐,数据可见延迟小于 5min,存储成本低(与 OSS 对齐),并提供湖管理功能,包含数据文件合并、生命周期管理、缓存设置等,有效降低存储成本,提升湖查询性能。第二部分:Data+AI 行业应用 37 2.3.2 日志数据高效查询 ADB MySQL 有两类计算引擎,分

    68、别是自研的 XIHE 引擎和开源的 Spark 引擎,用户可根据实际需求和场景,选择不同的引擎来进行数据处理和分析。基于 ADB 湖表,通过缓存层进行查询预热,可满足大部分秒级/分钟级耗时诉求;用户也可选择创建仓表,来实现亚秒级的实时分析。2.3.3 日志数据开源开放 ADB 湖存储的数据格式为开源 Iceberg+Parquet,提供 HMS 和 OSS/HDFS 开放接口,外部计算引擎可直接访问数据;同时湖存储和实例不强绑定,不同的湖存储Bucket 可挂载到不同的实例,实现数据共享。第二部分:Data+AI 行业应用 38 2.3.4 AI 场景落地 除了BI分析场景以外,存储在ADB

    69、MySQL中的日志数据,可通过DMS+AnalyticDB 一站式实现数据特征处理、模型训练、评估及预测,落地 AI 模型应用。在 ADB MySQL中仅通过 SQL 语句即可完成端到端的数据处理和模型开发,支持通过 SQL 来导入和训练模型,也支持调用远程推理服务;同时 ADB MySQL 提供全托管的 AI 资源服务,用户无需关心底层资源部署,专注业务应用开发。以下为模型创建和预测的 SQL 语法示例:/*创建模型*/create model bstdemo.bst options(model_type=xx,feature_cols=(event_list),target_cols=(t

    70、arget),hyperparameters=(use_best_ckpt=False,第二部分:Data+AI 行业应用 39 early_stopping_patience=0 )as select event_list,target from bstdemo.test;/*使用普通函数实现模型预测*/SELECT ml_predict(db.model_name:v2,-模型名称&版本 options|NULL,-一些可能的额外配置,例如攒批大小,没有可以为 null -后面是要传递给模型的列,可以是任意合法的 project 表达式,不定长 ,.,)as col_name FROM e

    71、vent_table;结合 DMS 构建完整 Data+AI 方案,可进一步实现数据处理链路和模型训练链路一体化的编排调度,从数据接入,处理到模型训练,上线和推理实现全自动周期运行。通过模型中心统一管理 AI 核心资产,包括模型的效果展示,模型组和模型版本管理。支持模型部署和回滚,模型可以发布为在线推理服务,衔接大模型工具链统一编排实现智能应用体落地。整套方案提供数据资产的全粒度权限管理,支持私有部署在客户VPC 环境,数据和模型不出域,实现全套方案的数据安全,有效保护客户隐私。使用 DMS+AnalyticDB MySQL 游戏日志场景的 AI 平台,提供 AI 节点资源,内置算法模型,可通

    72、过 DMS 界面进行模型开发,用户无需自行搭建机器学习平台,有效降低开发成本。以某头部游戏客户实际落地效果为例,在玩家流失预测和玩家付费预测场景中,模型效果 F1 Score 均从 40%提升到 70%+。第二部分:Data+AI 行业应用 40 2.4 总结与展望 针对游戏行业的日志存储、分析和预测场景,阿里云瑶池数据库提供完整的 Data+AI解决方案及落地最佳实践,可以同时满足数据在线处理、实时分析和智能化 AI 实践,大大降低了企业及开发和运维成本。Data+AI 为企业提供了新的增长途径,企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点,促进智能化转型以保持竞争力和市

    73、场领导地位,迎接新的机遇。ADB MySQL AI 节点也提供多种使用形态,除了上述提到的 MLSQL 以外,还支持Spark on GPU,即通过 Spark MLlib 进行开发等,配合 ADB 现有的分析能力为用户提供 Data+AI 应用的轻量化端到端方案。第二部分:Data+AI 行业应用 41 3.拥抱 Data+AI|“全球第一雅迪如何实现智能营销?DMS+PolarDB 注入数据新活力 3.1 雅迪公司介绍及业务介绍 雅迪电动车是国内电动车行业龙头,销售网络遍布全球 100 个国家和地区,连续 7 年全球销量第一,2023 年销量达 1650 万辆。全球累计用户数量超过 800

    74、0 万,终端门店数量超过 4 万家。公司拥有 1900+项专利,研发人员超过 1000 人,并在民营企业中排名第 259 位。雅迪在全球设有多个生产基地,包括江苏无锡、广东清远、浙江宁波、重庆、天津、安徽金寨、越南北江和印尼基地。雅迪云销通 App 是雅迪科技集团专门为服务商打造的一站式生意解决方案,是支撑服务商业务管理、产品操盘、门店运营、导购赋能的工具。服务商可通过云销通管理销售达成、库存动销、店务检核、人员培训、财务记账等,同时在二网分销协同方面也具备二网五件套,能够提升工作效率、简化日常管理流程。第二部分:Data+AI 行业应用 42 3.2 项目需求与痛点 由于云销通面向 2000

    75、+经销商,是雅迪 4w+门店销售人员最重要的营销辅助工具,实际使用过程中面临以下需求和挑战:1)雅迪云销通拥有超过 50 个域,但当前销售人员只能查看已有的报表数据,无法满足更精确的分析需求。销售人员需要实时的数据分析和洞察能力,且需求多样化,比如精确获取当前最新的销售动态和市场表现,以便根据实时信息快速制定销售策略,在抓住销售机会的同时合理控制资金使用。2)销售人员不具备写 SQL 的能力,更倾向于通过交互式问答的模式实时获取最新数据,因此需要将销售人员输入的自然语言提问转换成最终的结果展示,即满足高并发 ChatBI 需求。3)除了精确的数据分析需求,门店销售人员还存在一些通用的问答需求,

    76、比如门店开业的活动策划和文案推荐,电动车销售技巧推荐等,希望有一个比较统一的问答入口。换言之,雅迪销售人员需要一个实时的、并发程度高、数据准确率高、涵盖内容范围广并且支持自然语言交互的数据分析和问答系统。3.3 阿里云 Data+AI 解决方案 在今年 9 月的云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”。该平台通过 OneMeta 和 OneOps 两大创新,简化了数据管理与 AI 开发,实现 DMS+X 一站式的 Data+AI 全生命周期管理。在 DMS+X之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。第二部

    77、分:Data+AI 行业应用 43 针对以上问题,阿里云瑶池数据库 DMS+PolarDB for AI 提供了一站式 Data+AI 解决方案。PolarDB for AI 是云原生数据库 PolarDB MySQL 版内置的分布式机器学习组件,其基于云原生的体系架构,通过 SQL 语句提供了一系列支持机器学习的 MLOps 功能,包括创建模型、训练模型、查看模型状态、查看模型列表、模型评估和模型推理等能力。同时,它内置了一系列机器学习和人工智能算法,包括分类算法、回归算法和聚类算法等。基于 MLOps 和内置的模型,PolarDB for AI 为数据驱动的智能应用提供了高效、可靠、方便的

    78、数据智能能力,打破了数据库和应用业务之间的系统墙,提供了基于数据智能的一站式 Data+AI 服务。第二部分:Data+AI 行业应用 44 3.3.1 NL2SQL 助力营销数据精准查询 为了让不熟悉SQL语言的用户能方便地从数据库中取数分析,阿里云 DMS+PolarDB for AI 推出自研的基于大语言模型的 NL2SQL 解决方案。PolarDB for AI 会帮助用户将输入的自然语言转换为 SQL 语句,DMS 支持数据源实例低门槛接入和统一管理,并提供白屏化的 NL2SQL 调试和知识库管理页面,支撑用户快速上手调试效果。和传统 NL2SQL 的方法相比,基于大语言模型的 NL

    79、2SQL 在语言理解方面会更强大,生成的 SQL 语句能支持更多的函数,如日期加减等。第二部分:Data+AI 行业应用 45 DMS+PolarDB for AI 通过自然语言驱动数据查询,帮助雅迪销售人员快速高效使用营销数据。销售人员输入自然语言问题后,NL2SQL 对雅迪批发销售、库存、采购、供应链、营销等数据进行精准查询,并支持数据、表格、图表、文字等多种形式进行回答。例如,当销售人员想要了解某月零售额最高的车型时,只需输入类似“上月哪个车型的零售额最高”这样的自然语言问题,系统会自动将这个问题转化为 SQL 语言进行查询,迅速从海量数据中提取相关信息,并生成回答。这些回答不仅以数字表

    80、格的形式准确呈现销量数据,还能结合视觉化的图表展示趋势,使营销人员能够一目了然地洞察市场变化。3.3.2 基于 RAG 的自由问答系统 检索增强生成(Retrieval-Augmented Generation,RAG)是一种结合信息检索和生成模型的方法,旨在提高自然语言生成任务的准确性和信息性。基于 PolarDB for AI的 RAG 具有如下特点:第二部分:Data+AI 行业应用 46 知识库即服务:用户仅需两步就可构建私域知识大脑。写入私域数据。输入问题,得到答案。知识库全自动加工:数据存取、文本分割、向量转换、索引构建、增量处理等数据加工流程,由平台全自动完成。支持全量、增量数据

    81、持续导入,支持数据更新。系统自动完成查询问题向量转换、语义检索,并将问题和语义检索得到的topK 关联内容,填入 prompt,调用 LLM 得到答案,返回给用户。算法模型:默认提供 BERT、text2vec、COROM 等开源 SOTA 模型;支持导入自研及客户的算法模型。向量数据库:自研向量引擎,毫秒级低时延,支持向量检索、全文检索,多路召回。单实例支持千万级向量,可扩展分布式支持亿级向量。多算力:CPU、GPU 算力统一提供、统一管理,弹性扩缩。企业级特性:支持传输加密、安全审计、权限管理、HA、灾备、在线弹性扩缩、监控告警等丰富的企业级功能,保障数据安全,保障系统高可用。版本在线更新

    82、,模型在线更新。雅迪云销通 App 采用基于 PolarDB for AI 的 RAG 构建开放式问答系统。下面是一个基于 PolarDB 的 RAG 的基本流程:1)将雅迪知识库里的文档数据导入 PolarDB 后,执行 PolarDB 内置的 AI SQL,数据会自动被切分和转化成向量。向量的结果会存储在 PolarDB 的向量引擎,文本的内容会存储在 PolarDB 的全文检索中。2)当用户提出问题后,问题一方面会被自动转化成向量,和文档进行向量匹配,另一方面也会在文档中进行分词检索。第二部分:Data+AI 行业应用 47 3)PolarDB 会将多路召回的结果返回,同时利用通义千问大

    83、模型对结果进行总结。由于客户既要求能通过自然语言查询知识库,又希望用自然语言从数据库中获取数据,我们创造性地将二者结合起来,以满足客户的需求。针对以上问答和问数结合的复杂LLM应用场景,DMS托管了开源大模型工具链Dify,并与瑶池数据库生态进行了打通,提供无缝集成的使用体验。未来,客户可以通过 Dify 编排能力,串联起从用户请求到意图识别模型再分发至多个应用执行链路的完整流程。通过判断是否需要问数能力进行问题分发,若为需要,则将问题路由至 NL2SQL 模型,生成 SQL 后查询库表获得数据结果,同时通过问答链路的中文本检索过程,获取回答内容,将数据结果与文本内容结合,生成最终答案并输出。

    84、第二部分:Data+AI 行业应用 48 雅迪的云销通 App 集成了基于 PolarDB for AI 的 RAG,提供自由问答功能,支持为开放式问题提供适用于雅迪员工的标准化策划和文案协助。例如,在新店开业宣传场景中,当用户输入“输出雅迪新店开业朋友圈转发文案”后,自由问答系统即刻生成带有文字、表情、标签的朋友圈标准文案,大大简化了营销人员的物料准备流程,提高工作效率。第二部分:Data+AI 行业应用 49 3.4 总结与展望 阿里云 DMS+PolarDB for AI 推出自研的基于大语言模型的 NL2SQL 解决方案,以自然语言驱动数据查询,帮助雅迪销售人员快速把营销数据使用起来。

    85、通过阿里云瑶第二部分:Data+AI 行业应用 50 池数据库的 Data+AI 解决方案重构雅迪营销管理 APP,客户的 10 万多名销售人员可以基于实时的数据分析和洞察,以数据、表格、图表、文字等多种形式获取信息,从而实现对雅迪的批发、销售、库存、采购、供应链和营销等数据的精准查询,查询准确率超过 90%。Data+AI 为企业提供了新的增长途径,企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点。通过将 Data+AI 融入核心业务,企业能够更好地挖掘数据价值,优化运营流程和决策机制,从而促进智能化转型,增强客户体验,显著提升市场竞争力。未来,通过 Data+AI 驱动的交

    86、互式问答模式,用户能够获取最新数据,并基于实时数据快速制定销售策略,从而全面提升销售管理效率。经过 Data+AI 架构升级后的雅迪云销通 App 将具备更强大的功能,不仅可以为门店提供活动策划、文案推荐和电动车销售技巧等智能辅助,还可以针对开放式问题提供标准化的策划和文案协助,进一步加速订单成交,提高整体销售业绩,为雅迪开辟新的业务增长点。第二部分:Data+AI 行业应用 51 4.拥抱 Data+AI|B 站引入阿里云 DMS+X,利用 AI 赋能运营效率 10 倍提升 4.1 公司及业务介绍 B 站(Bilibili)是一个以中国年轻人为核心的文化社区和视频平台,它最初是专注于ACG(

    87、动画、漫画、游戏)及其相关领域。如今,B 站已经成为中国范围内最受欢迎的视频分享网站之一,内容覆盖了动画、番剧、国创、音乐、舞蹈、游戏、科技、生活、鬼畜、娱乐、时尚等多个领域。B 站从 2016 年就开始与阿里云合作,双方的合作范围非常广泛,从内容的智能分发,让内容和观看需求高效匹配,到资源的弹性伸缩,满足例如全球电竞直播赛事的弹性支撑,再到全托管云原生数据仓库,轻松实现多业务线日志采集、高效的离线及实时分析、机器学习等复杂需求,挖掘数据价值。基于双方长期的合作经验,B 站在多个业务板块使用了阿里云全套解决方案,其中 B站猫耳 FM 业务通过引入阿里云 AnalyticDB MySQL 湖仓版

    88、,替换原有开源离在线数据仓库,大幅降低数据仓库运维成本,并利用分时弹性能力实现资源按需伸缩,实现资源高效利用。目前,猫耳 FM 业务实现数据离在线处理效率从原来的 T+1 或 H+1 大幅提升至毫秒级,支撑打赏榜排名实时刷新,提升用户参与积极性,通过提高广播剧的评论/弹幕活跃度,促进用户停留时长与付费转化。4.2 业务需求和挑战 随着猫耳 FM 整体业务的快速增长,为了进一步提升主播和平台的运营能力,猫耳 FM数据平台团队推出了一系列运营工具,但在实际使用过程中面临以下需求和挑战:1、分析门槛高。大多数主播不具备运营分析能力,也没有专业的运营团队,难以借助数据实现分析和洞察,更无法针对数据情况

    89、做出有效应对。2、数据交付效率低。平台业务变化快,运营需求多样,数据平台团队被各种数据需第二部分:Data+AI 行业应用 52 求折腾得晕头转向,疲于奔命,却仍然有需求累积,无法及时满足业务侧的数据交付要求。3、实时分析与成本的平衡。直播业务实时性分析要求高,虽然已通过 AnalyticDB MySQL 实现在线实时分析,但相当一部分业务分析需求无法实现实时,但这些需求如果都采用数仓承接又会导致成本较高,得不偿失。为了应对上述挑战,猫耳 FM 数据团队积极探索解决方案,随着大模型的兴起,团队发现借助大模型能力实现自然语言分析,能够大幅降低分析门槛,提高数据交付效率,实现业务分析需求实时,从而

    90、满足当下的需求。但大模型在企业中的落地处于探索验证状态,同时需要底层大量基础设施的支持(大模型、算力等),无法保证 ROI。因此猫耳找到阿里云瑶池数据库团队,期望借助于阿里云的 Data+AI 解决方案来实现自然语言分析,提升主播和平台的运营能力。4.3 阿里云 Data+AI 解决方案 在今年 9 月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的 Data+AI 数据管理服务”(X 即云原生数据库 PolarDB、云原生数据仓库AnalyticDB、云原生多模数据库 Lindorm 等多样化的数据存储、分析、计算、AI 引擎)。该平台通过 OneMeta 和 OneOp

    91、s 两大创新,简化了数据管理与 AI 开发,实现 DMS+X 一站式的 Data+AI 全生命周期管理。在 DMS+X 之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。第二部分:Data+AI 行业应用 53 猫耳 FM 目前核心业务数据存储在 RDS 和 AnalyticDB MySQL 中,数据管理统一通过 DMS 实现,因此通过对引擎 AI 节点扩容即可快速实现从数据开发管理到 Data+AI开发管理的升级,轻松获得大模型应用的基础和服务能力。DMS+X 内置了多种基于大模型构建的应用服务供用户选择使用,其中采用大小模型结合的智能问数服务能够解决猫耳 FM 的核心诉

    92、求。第二部分:Data+AI 行业应用 54 DMS+X 为企业提供开箱即用的智能问数服务,无需复杂配置即可通过自然语言获得想要的数据和报表,同时提供调优服务,能够从初始 65%准确率提升至 95%,满足各类问数场景(取数、数据统计、业务运营、线索分析等),猫耳 FM 通过智能问数服务获得以下收益:1、大幅降低分析门槛。智能问数服务支持多轮对话,无论是主播还是平台运营人员都能够轻松获取想要的数据,并且问数服务还能根据历史知识、大模型能力结合实际数据情况提供可参考的处理方案,以及这些处理方案对应需要观测的评估指标,方便相关人员构建问数、建议、监测的运营闭环。2、数据交付效率提升 10 倍。有了智

    93、能问数服务,猫耳 FM 数据平台的开发人员仅需结合领域和场景构建问数 Agent,并根据 Agent 对客的服务反馈来进行知识优化提升准确性即可,无需花费过多的时间在数据准备上,业务侧仅需通过自然语言即可获得准确数据,实现数据交付效率 10 倍提升。3、低成本实现实时分析。智能问数服务可跨越多个引擎,根据历史访问知识自动路由访问路径,无需数据移动即可实现实时分析,降低存储和传输成本,覆盖更多业务实时分析场景。那么 DMS+X 到底是如何构建出准确性如此之高的智能问数服务的呢?接下来为您详细揭晓:第二部分:Data+AI 行业应用 55 4.3.1 能力一:大小模型结合的智能问数服务 智能问数核

    94、心技术架构是通过大模型实现意图、语义、验证相关工作,小模型进行Copilot能力推理,结合DMS主动元数据实现自动化的知识积累,大模型保证Copilot能力下限(65%+)的同时通过小模型不断提升上限(95%+)。大小模型结合使得生成式 AI 的整体成本可控、延迟较低、泛化能力强的同时准确率高。4.3.2 能力二:领域化的知识管理服务 第二部分:Data+AI 行业应用 56 DMS+X 提供强大的知识管理服务,通过对历史用户操作(SQL、功能使用等)、已有知识导入、字段注释等内容进行自动化的解析生成各类知识,实现主动的知识获取,这些知识有场景和领域属性,能够供管理人员进行优化调整,并会结合实

    95、际服务情况进行自动优化,确保知识的准确性和自主维护性,领域知识库为智能问数提供强大的知识支持,冷启动效率提升 5 倍,知识管理成本下降 90%,服务准确性提升 100%。4.3.3 能力三:X 引擎 InDB ML 阿里云瑶池数据库自带 InDB ML 能力,内置模型创建、模型训练、模型状态监测、模型评估和模型推理能力,实现在线数据的模型训练和推理服务,并且内置了一系列机器学习和人工智能算法,包括分类算法、回归算法和聚类算法等。数据实现就近处理,大幅提升模型服务效率和实时性,同时无需数据移动,也能够降低由此产生的存储和传输成本。第二部分:Data+AI 行业应用 57 4.3.4 能力四:可自

    96、定义编排的 LLM 工作流 DMS+X 托管开源大模型工具链 Dify,实现生态打通,提供白屏化的大模型工作流编排,支持用户结合实际诉求对大模型应用进行优化调整,串联从用户请求到意图识别模型再实现分发至多个应用执行链路的完整流程,为智能问数提供了无限可能,比如通过智能问数查询获得数据结果后自动触发后续的监控预警操作、处置动作等。4.4 总结与展望 阿里云 Data+AI 解决方案为 B 站猫耳 FM 实现智能问数服务,大幅降低分析门槛、数据交付效率提升 10 倍的同时实现低成本实时分析,赋能平台主播和运营人员实现自助取数和分析。在 DMS+X 4 大核心能力加持下,智能问数服务不仅实现准确率9

    97、5%+,还能够降低数据存储和传输成本,并且可通过自定义编排的大模型应用实现自主优化,不断提升场景适配能力。未来,借助阿里云 Data+AI 解决方案的可自定义编排的 LLM 工作流以及不断提供的解决方案,不仅能够实现智能问数的拓展应用(各种运营动作触发或建议提供),还能够通过大模型方案解决企业经营的各项问题,从而提升经营效率,加速企业智能化转型,为企业发展带来新的动力。第二部分:Data+AI 行业应用 58 5.拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数 5.1 公司及业务介绍 钉钉是一款由阿里巴巴集团推出的企业级通讯工具,旨在为企业提供一个高效、安全

    98、的移动办公平台。它提供了多种功能,如即时通讯、视频会议、文件管理、考勤打卡等,帮助企业实现跨部门、跨地域的协同办公。在以“我的超级助理”为主题的钉钉7.5 产品发布会上,正式发布了基于 70 万家企业需求共创的 AI 助理产品,该产品的发布进一步推动降低了 AI 的使用门槛,让人人都能轻松创建自己的 AI 助理。钉钉 AI 助理的智能问数功能,在接入业务数据后可以跨越多个应用场景,查询和分析销售、差旅、人事等方面的经营数据。用户可以基于自己在钉钉沉淀的数据进行自由提问,官方预置的指令中心帮助用户低门槛快速上手正确的提问方式。通过对话式数据 AI,结合知识图谱、自然语言理解等能力,智能问数为企业

    99、用户提供智能问答、智能推荐、预警归因等功能,帮助用户方便快捷地查找数据、简单直观地解读数据、智能深入地挖掘数据,实现人人都有自己的专属数据分析师,大幅提高数据查询及分析的效率。AI 助理智能问数场景 第二部分:Data+AI 行业应用 59 5.2 DMS+AnayticDB 支持智能问数场景 5.2.1 向量召回提升模型输出准确率 在智能问数场景中,如何在问答过程中准确定位实体(如分公司名称、部门名称、专有名词等)是一个难点问题。比如,管理者通过自然语言输入“帮我查看华东区域 xx产品第三季度业绩”,华东区域到底包含哪些分公司呢?又比如“查看产品部 Q1 绩效”,产品部在该企业内部全称是产品

    100、设计及管理部。又比如产品 SKU 在企业内部有特殊代号,大模型无法识别这些特殊的代号。总体而言,结合企业专属数据提供贴近企业需求的 AI 服务难度是非常大的。因此,通过 AnayticDB for PostgreSQL 向量检索引擎对 10 亿+核心企业实体(企业名称、部门名称、员工名称、专有名词等)实现向量化,针对企业用户随意输入的问题通过向量检索召回最准确的企业实体,然后再结合大模型提供智能问答、智能问数等服务,大大提升了 AI 助理对实体的识别和大模型准确率。5.2.2 构建企业专属实体知识库 大模型虽然能解答普适性的问题,但在一些垂直领域上无法覆盖企业专属知识以及无法保障数据更新时效性

    101、,导致大模型应用在企业中落地困难。企业可采用 DMS+AnayticDB for PostgreSQL 向量检索引擎构建企业专属知识库,对结构化、半结构化和非结构化数据通过 Embedding 向量化后存储到 AnayticDB for PostgreSQL 中。结合大模型推理服务,将企业私有数据融入到智能问答、智能问数、智能创造等大模型应用中。构建企业专属大模型知识库的步骤大致如下:1)数据预处理:在向量化之前需要对非结构化的文档、图片进行预处理,包括文档/图片解析、切块,预处理的质量会对问答召回和准确率有非常大的影响。2)Embedding:通过大模型的 Embedding 算法对预处理后

    102、的数据块进行向量化,并将结果存储到向量数据库中。第二部分:Data+AI 行业应用 60 3)向量检索:大模型将用户的问题进行向量化后在向量数据库中进行向量检索和近似度计算,同时结合结构化的条件过滤进行权限和范围的限定 4)查询召回:大模型对向量检索的结果进行推理求解最终返回最接近问题的答案,因为语义检索的覆盖面可能不全,因此可以结合全文检索对答案进行补充。构建企业专属知识库 5.3 高度数据安全的 ChatBI 能力 企业可以在公共云上开启 AnayticDB for PostgreSQL 专属实例存储企业专属数据,通过 DMS 构建数据流程编排服务,实现业务逻辑的 ChatBI 编排和私域

    103、精品 NL2SQL模型部署,满足不同企业对数据不出域的最高安全的要求。结合 AnayticDB for PostgreSQL 行/列级权限控制、动态数据脱敏、数据加密、SQL 审计等手段最大化保障企业数据安全。让企业在使用大模型应用服务带来的便捷性同时又无需担心私域数据安全性问题。第二部分:Data+AI 行业应用 61 5.4 DMS+AnalyticDB 优势特点 优势 1:一站式融合分析 用户只需要通过一条 SQL 即可实现结构化数据分析、向量分析和全文检索三者融合,实现多路召回。优势 2:社区合作紧密 AnalyticDB for PostgreSQL 结合 DMS,通过 OneMet

    104、a+OneOps 可以部署并实现数据的全域管理,数据开发,模型推理服务及开源的 dify 框架,进行端到端的Data+AI 流程编排。优势 3:功能完善,性能极致 支持向量数据流式导入,索引压缩,事务,和各类相似度算法。较比同类产品有更高的写入吞吐和查询性能。第二部分:Data+AI 行业应用 62 优势 4:解决方案丰富 DMS+X 提供从文档解析、Chunk、Embedding、向量近似度计算、检索全套OpenAPI 服务,让用户快速落地。提供 DMS 之上的 Data+AI 能力的开箱即用和 Dify 的一键部署方式,在 10 分钟内一键构建企业专属大模型和向量数据库,快速搭建企业级 G

    105、en-AI 应用。支持构建图搜图、文搜图等产品化解决方案。优势 5:精品 NL2SQL 模型 开箱即用:自识别用户数据库元数据,实现开箱自助分析。大小模型融合:创新性地使用大模型分析用户意图,小模型准确 SQL 生成的融合形态,实现更精准的服务。数据私域安全保障:全数据链路及推理服务私域部署,实现数据不出域,保障企业数据安全,DMS 自研 NL2SQL 模型提供了 3 个等级的准确率。效果可持续优化:结合持续学习、历史记录标注、RAG 干预等方式,实现准确率可调优;目前提供了 3 个等级的 NL2SQL 的模型能力。第二部分:Data+AI 行业应用 63 5.5 总结与展望 钉钉 AI 助理

    106、通过采用 AnayticDB 向量检索引擎构建企业专属知识库,结合大模型推理服务,将企业私有数据融入到智能问答、智能问数、智能创造等应用中,并通过 DMS构建数据流程编排服务,实现业务逻辑的 ChatBI 编排和私域精品 NL2SQL 模型部署,满足不同企业对数据不出域的最高安全的要求。钉钉 AI 助理目前已累计服务了上千客户,涉及零售、互联网、物流、交通等多个行业。Data+AI 为企业提供了新的增长途径,企业必须认识到 Data+AI 的重要性,并将其作为战略实施重点。通过将 Data+AI 融入核心业务,企业能够更好地挖掘数据价值,优化运营流程和决策机制,从而促进智能化转型,显著提升市场

    107、竞争力。未来,借助阿里云 Data+AI 解决方案的可自定义编排的 LLM 工作流以及不断提供的解决方案,不仅能够实现智能问数的拓展应用,还能够通过大模型方案解决企业经营的各项问题,从而提升经营效率,加速企业智能化转型,为企业发展带来新的动力。第三部分:Data+AI 云栖发布 64 第三部分:Data+AI 云栖发布 1.云栖大会|数据库与 AI 全面融合,迈入数据智能新纪元 在 2024 年云栖大会 数据库与 AI 融合 专场,来自 NVIDIA、宇视科技、合思信息、杭州光云科技、MiniMax 的知名企业代表和阿里云瑶池数据库团队的产品&技术专家,深入真实场景实践,共同分享了 Data+

    108、AI 全面融合的最新技术进展。1.1 跨云数据管理平台 DMS:构建 Data+AI 的企业智能 Data Mesh 阿里云智能集团数据库产品事业部 AnalyticDB PostgreSQL 及生态工具部负责人 周文超 第三部分:Data+AI 云栖发布 65 阿里云智能集团数据库产品事业部 AnalyticDB PostgreSQL 及生态工具部负责人周文超在演讲中重磅发布 Data+AI 一站式数据智能 DMS 的跨云统一开放元数据OneMeta 和智能开发 OneOps,包含一站式 Data+AI 开发 Notebook 和 Copilot、AI 模型服务 MLOps 等最新能力。深度

    109、解析如何借助跨云湖仓一体化以及数据智能一体化,帮助企业构建跨云 Data Mesh 革新架构,实现数据无缝流动,智能计算和治理的敏捷落地,赋能企业快速步入 AI 驱动的时代。阿里云瑶池推出云数据库运维技术图书 此外,阿里云瑶池数据库团队重磅推出云数据库运维技术图书。该书是面向云数据库用户的专业书籍,覆盖从入门到精通的全面指导。书中从基本概念入手,逐步介绍云计算时代下,数据库运维的核心原理、平台构建、生命周期管理、安全体系、使用策略、管理与稳定性保障、问题诊断、性能优化、灾难恢复、云数据仓库及 NoSQL数据库运维实践,以及数据高速通道实现和智能运维趋势。无论是数据库管理员、开发者还是 IT 经

    110、理,本书均能给予宝贵见解和实用操作指南。第三部分:Data+AI 云栖发布 66 宇视科技运维部部长 陈津扬 随后,宇视科技运维部部长陈津扬介绍了宇视通过 DMS 跨云、多模数据的统一管理,开放、兼容的元数据服务,Data+AI 统一数据治理能力构建新一代数智管理平台,并详细介绍平台中数据地图、数据治理、数据合规、Data Copilot、Data Fabric 等核心功能和技术能力。借助数据管理平台 DMS,宇视实现管理成本下降 90%、平台稳定性提升 10 倍、开发效能提升 20 倍。第三部分:Data+AI 云栖发布 67 1.2 AI 时代下的 PolarDB:In-DB 一体化模型训

    111、练与推理服务 阿里云智能集团数据库产品事业部高级产品专家 贾新华 在AI 时代下的 PolarDB:In-DB 一体化模型训练与推理服务主题分享中,阿里云智能集团数据库产品事业部高级产品专家贾新华介绍了 PolarDB 积木架构,通过启动若干个 AI 节点获得 In-DB 一体化的模型训练和推理服务。PolarDB 支持基于交易数据构建自定义模型(MLOps)和直接使用内置的通用模型(如 ChatBI、通义千问、RAG 等)。MLOps 通过 SQL 即可完成基于数据库内数据的模型训练、评估和推理,降低了 AI 使用门槛和成本,如某游戏公司基于用户行为日志数据训练消费预测模型,广告投量效率提升

    112、 50%+。ChatBI 支持客户基于结构化和非结构化数据建立自己的知识库和智能问答机器人,如雅迪电动车基于 ChatBI开发面向一线销售的智能营销机器人,一线销售以自然语言问询库存、供应链、营销等实时数据,极大地提升了一线销售的工作效率。第三部分:Data+AI 云栖发布 68 合思信息数据库研发总监 刘桐烔 合思信息数据库研发总监刘桐烔在演讲中提到:PolarDB for AI 赋能对话机器人,能够显著提升客户响应效率。合思在业务部署的过程中需要提前收集客户安全问卷数据,以前都需要运营人工填写,工作量大。合思信息通过 Polar for AI 的文本向量化算子、聚类算子,自动填写答案,让智

    113、能机器人成为填写问卷的主要力量,提升效率,释放人力。同时,合思信息利用 PolarDB for AI 的向量检索、全文检索能力和大语言模型推理能力,不依赖其他外部组件的情况下就搭建一套 RAG 系统,在确保数据安全的同时,通过提升其检索和智能分析能力,使得知识充分释放潜在价值,工单响应时长缩短85%。第三部分:Data+AI 云栖发布 69 1.3 AnalyticDB PostgreSQL 版:Data+AI 时代的企业级数据仓库 阿里云智能集团数据库产品事业部资深技术专家 印才华 阿里云智能集团数据库产品事业部资深技术专家印才华分享了 AnalyticDB 高性能实时数仓的整体架构,一站式

    114、 RAG 解决方案的核心技术,In-Database AI/ML 的应用场景以及最新特性能力,全方位解析了 Data+AI 时代的企业级数据仓库 AnalyticDB提供数据分析和 RAG 解决方案背后的关键能力和核心技术。第三部分:Data+AI 云栖发布 70 杭州光云科技 CTO 王祎 光云科技 CTO 王祎介绍了 AnalyticDB PostgreSQL 在电商 SaaS 领域实时数仓和 AI的最佳实践。他表示:“AnalyticDB 承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了 SaaS 场

    115、景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB 研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。”第三部分:Data+AI 云栖发布 71 1.4 Lindorm:基于多模数据服务的一站式智能检索基础设施 阿里云智能集团数据库产品事业部 NoSQL 产品负责人 张为 阿里云智能集团数据库产品事业部 NoSQL 产品负责人张为进行了题为Lindorm:基于多模数据服务的一站式智能检索基础设施的精彩演讲,回顾和分析了 AI 大模型如何推动智能检索的发展,讨论了构建智能检索 RAG 系统所具备的技术特点和挑战,介绍了 Lindorm 一站式智能检索基础

    116、设施,通过提供一站式的数据清洗、多路召回、全文检索、向量检索、AI 推理等特性,帮助 AI 应用开发者构建基于大语言模型的对话类智能检索应用。第三部分:Data+AI 云栖发布 72 MiniMax AI Infra 技术专家 焦恩伟 MiniMax AI Infra 技术专家焦恩伟发表了题为MiniMax Data Infra 在 AI 场景下的探索的深刻演讲。作为一家领先的通用人工智能科技公司,MiniMax 自研了万亿参数的 MoE 文本大模型、语音大模型和图像大模型,展现出其在 AI 技术领域的雄心。基于这些大模型,MiniMax 推出了如星野、海螺 AI 等原生应用,并为企业和开发者

    117、提供开放平台的 API 服务。MiniMax 基础架构基于 Lindorm 海量规模的存储能力、高性能的全文-向量双路召回能力构建了新一代的 AI 搜索基础设施,与数据湖一起构建了一条训练与搜索统一的数据基础设施,是模型训练和对齐过程中的关键环节。第三部分:Data+AI 云栖发布 73 1.5 Tair:基于 KV 缓存的推理加速服务 阿里云智能集团数据库产品事业部高级技术专家 王正恒 阿里云智能集团数据库产品事业部高级技术专家王正恒在现场介绍了云数据库 Tair提供的推理加速服务。该服务是阿里云首个基于 NVIDIA TensorRT-LLM 的推理缓存加速云数据库产品。针对快速增长的大模

    118、型推理需求,Tair 采用 NVIDIA TensorRT-LLM 进行了深度优化。在 In-flight batching、Paged Attention 等技术的基础上,结合 TensorRT-LLM 的Prefill/Decoding 分离技术,并通过存储池化将 LLM 推理过程中占用大量显存资源的 KVCache 卸载到远端,大幅加速超长和重复上下文场景。相比开源方案,该服务通过 KVCache 池化,预计成本降低 20%,PD 分离/调度优化吞吐预计提升 30%,软硬协同优化 Context Cache TTFT(首 token 延时)预计降低 30%*注。第三部分:Data+AI

    119、云栖发布 74 NVIDIA GPU 计算专家团队高级经理 季光 NVIDIA GPU 计算专家团队高级经理季光博士带领大家深入了解 NVIDIA TensorRT-LLM 在推理加速上的工作,介绍了 TensorRT-LLM 的高性能特点,支持多模型,Weight/Activation/Cache 的量化,Tensor 和 Pipeline 的并行调度,In-flight Batching 服务化等多种特性,同时提供开箱即用的能力。*注:基于 Qwen2 7B 模型在长上下文场景构造实验环境数据测试,最终效果以实际产品和场景测试数据为准。第三部分:Data+AI 云栖发布 75 1.6 数据

    120、库自治服务 DAS:云数据库高效运维的最佳拍档 阿里云智能集团数据库产品事业部产品专家 王斌 在数据库自治服务 DAS:云数据库高效运维的最佳拍档主题演讲中,阿里云智能集团数据库产品事业部产品专家王斌重点介绍了数据库自治服务 DAS 的全新定位,通过模型学习人工运维经验,构建数据库智能运维大模型,实现数据库自修复、自防护、自优化的运维云服务,并全新发布了数据库安全检测与运维能力。第三部分:Data+AI 云栖发布 76 2.云栖大会|从数据到决策:AI 时代数据库如何实现高效数据管理?在2024云栖大会 海量数据的高效存储与管理 专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、

    121、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在 OLTP 方向的最新技术进展和行业最佳实践。阿里云数据库产品事业部 PolarDB MySQL 及 PostgreSQL 负责人 杨辛军 在开篇演讲中,阿里云数据库产品事业部 PolarDB MySQL 及 PostgreSQL 负责人杨辛军分享了 PolarDB 多个重要发布。包括:PolarDB 的存储底座再升级,在其PolarStore Deepsea 版本,存储量提升 100 倍至 1 PB,读写性能延迟降低 3 倍至30 微秒,大幅领先普通云盘超 6 倍。提供软硬一体化压缩,平均压缩率到 5 倍。此外,他还详细解

    122、读了 PolarDB 多主多写、Serverless 两个重要功能,这两个功能分别在世界顶级数据会议 ACM SIGMOD,IEEE ICDE 上斩获中国及亚洲第一个工业赛道最佳论文奖。同时,PolarDB 在 AI 浪潮下,也积极提供用户 AI 相关的能力,帮助用户充分利用数据,进行场景化模型的训练和推理,帮助用户进行信息挖掘和有效第三部分:Data+AI 云栖发布 77 决断。FunPlus 运维负责人 刘宗庆 在分享游戏全生命周期上云方法论的过程中,FunPlus 运维负责人刘宗庆从兼容性、极致性能、弹性拓展、备份与恢复、高可用性及容灾等多个角度,详细阐述了 PolarDB 在游戏场景中

    123、的全面优化优势,以及如何支持游戏业务的快速迭代和无缝扩展。目前,Funplus 的多款热门游戏都采用 PolarDB MySQL 作为持久化数据库。凭借分布式存储和多线程技术,PolarDB 提供超大 IO 读写带宽,确保玩家在高峰期能够流畅地进行存档和回档。第三部分:Data+AI 云栖发布 78 太美医疗科技副总裁 黄玉飞 太美医疗科技副总裁黄玉飞在太美医疗:PolarDB 助力医药研发数据安全应用的分享中结合太美自身业务实践,具体形象的阐述了 PolarDB 为太美在技术以及业务领域所带来的提升。在医药研发场景下,除了在技术上需要保证高可用、弹性扩展、完全兼容 MySQL、性价比高等特点

    124、之外,还需要满足临床数据的严格的 ALCOA+规范化要求,以及逻辑核查准确性、业务数据锁库、业务数据回退等行业业务需求。借助 PolarDB 在高性能全局一致性、闪回查询、数据生命周期管理、透明加密、动态脱敏等方面的特性,一方面帮助客户解决了上述业务场景的需求以及数据合规管理的要求,另一方面提供了稳定、高效、高性价比的数据库平台支撑了太美医疗整体业务。在分享最后,黄总也希望未来能够在 Serverless、HTAP 以及全球化应用等方面与PolarDB 有更深入的合作。第三部分:Data+AI 云栖发布 79 阿里云数据库产品事业部资深产品专家 张广舟 阿里云数据库产品事业部资深产品专家张广舟

    125、在PolarDB PostgreSQL 版:商业数据库替换与企业上云首选演讲中,介绍了 PolarDB PostgreSQL 版在 Serverless、性能、成本、多模等方面的特性更新。Serverless 方面,PolarDB 实现了横向和纵向的弹升能力,可以秒级扩展节点资源,同时按需扩展节点数量。性能方面,最近一年OLTP 性能提升 30%以上;借助向量化加速引擎,分析型查询性能提升一个数量级。成本方面,发布了硬件压缩、冷热数据自动分层能力。多模方面,添加了向量、时序及图数据的处理引擎,降低了应用开发成本。另外,PolarDB PostgreSQL 版还增强了 Oracle 兼容性,推出

    126、了轻量化输出形态,符合安全可信要求,可以软件化输出、单台起建,方便客户部署和使用。PolarDB 已经成为越来越多企业客户上云和商业数据库替换的首选。第三部分:Data+AI 云栖发布 80 阿里云数据库产品事业部 PolarDB 分布式版负责人 黄贵 在PolarDB 分布式版:与云融合的分布式数据库发展新阶段主题分享中,阿里云数据库产品事业部 PolarDB 分布式版负责人黄贵表示:“自服务阿里集团核心业务以来,PolarDB 分布式版走过了分布式中间件到一体化分布式数据库阶段,正迈向云原生分布式数据库阶段。集中分布式一体化的能力利用云基础设施的资源池获得充分的弹性,降低用户使用门槛,随着

    127、用户业务的规模伸缩。零售以及电商中台等 SaaS应用更是利用 PolarDB 分布式的资源隔离特性将不同租户动态分配的独立的资源池中,保证互不影响。”PolarDB 分布式提供了默认多可用区容灾的能力,保证 RPO=0 的同时服务秒级切换;支持跨地域的容灾与多活帮助企业级用户跨域业务永不停机的服务能力;引入了实时同步的列存副本加速复杂查询(TPCH 100GB 相对行存 6.5 倍性能提升),透明添加列式只读节点支持事务与分析的一体化服务,利用列存副本的超强压缩能力,与 TTL 行级归档特性,将用户的历史数据进行自动归档,最大可降低存储成本 20 倍。第三部分:Data+AI 云栖发布 81

    128、中国石油化工集团有限公司冠德数智开发部总负责人 杨毅 中国石油化工集团有限公司冠德数智开发部总负责人杨毅在题为数字化转型战略下的新一代零售中台建设思考强调,中台业务之所以必须选择分布式数据库,原因有二:Share-nothing 分布式数据库的整体高可用性是主要考量,由于数据分布在不同节点,每个节点的数据副本部署于不同机房,所以分布式数据库的整体可用性更高;分布式数据库的扩展性能轻松应对海量数据存储与瞬时高并发访问也是中台业务必须选择分布式数据库的原因之一。他列举了石化销售公司围绕打造世界一流“油气氢电服”综合能源服务商的目标过程中使用 PolarDB-X 解决对实际问题,如使用全局二级索引(

    129、GSI)实现异构查询;使用冷数据归档进行海亮存储资源降本等。杨毅在中石化零售中台的展望环节中提到,容灾多活是下一步的建设目标,PolarDB-X 的高级容灾能力是当前的不二选择。第三部分:Data+AI 云栖发布 82 阿里云数据库产品事业部 RDS 及开源 OLAP 负责人 彭祥 会上,阿里云数据库产品事业部 RDS 及开源 OLAP 负责人彭祥分享了云数据库 RDS的最新技术与产品演进,重点聚焦于云原生数据库存储的演进和 RDS 的开放形态。随着云原生数据库架构的持续优化,阿里云 RDS 通过冷温热数据分层存储的理念,推出了 RDS 通用云盘,以支持更高性能、更低成本和更好弹性的产品。同时

    130、,借助对MySQL 和 PostgreSQL 内核的深度改造,并与云基础设施和服务紧密结合,推出了基于对象存储的全量数据管理能力 RDS On OSS,使事务型数据库 MySQL 和 PostgreSQL 能够完全依赖对象存储进行用户数据管理,提供了更具性价比的选择。此外,RDS 的开放形态 RDS Custom 使用户能够更方便地管理云上及云下 IDC 的数据服务,实现用户现有数据架构与 RDS 托管服务的无缝集成,提升了业务架构的灵活性。这一形态的推出不仅提高了用户开发效率,还使企业能够根据自身需求快速迭代和创新。通过这些技术进步,阿里云 RDS 在满足企业对高可用性和可扩展性要求的同时,

    131、也为数字化转型提供了强有力的支持。总体而言,RDS 在技术与产品上的持续演进标志着云数据库未来的发展方向,助力企业实现更高效的业务运营。第三部分:Data+AI 云栖发布 83 平安科技数据库总工程师 汪洋 平安科技数据库总工程师汪洋在分享 金融场景下对于关系型数据库的要求 中提到,金融数据库当前最重要的 4 个要求是:业务连续性、数据安全、可运维性、降本增效,基于平安科技在数据库多年实践,从高可用、系统容灾、数据安全、可观测性、综合成本等多维度深入解读了大型金融机构对数据库的严苛要求。平安科技利用阿里云 RDS、PolarDB 等数据库产品构建了普惠金融系统,实现了业务0 停机迁移和综合成本

    132、的显著下降。第三部分:Data+AI 云栖发布 84 阿里云数据库产品事业部高级技术专家 胡庆达 阿里云服务器研发高级技术专家 汪堃 第三部分:Data+AI 云栖发布 85 阿里云数据库产品事业部高级技术专家胡庆达和阿里云服务器研发高级技术专家汪堃 在软硬联合创新:打造极致压缩比的高性能瑶池数据库演讲中介绍了 PolarDB 在软硬联合创新方面的进展。他表示,PolarDB 通过软硬协同演进,PolarStore 升级为DeepSea,DeepSea在大幅优化了数据库成本的同时显著提升了数据库的性能,并通过云计算的方式,将新硬件新技术分享给客户。例如:新一代SmartSSD 3.0,在Sma

    133、rtSSD 2.0的基础上进一步优化了成本和性能,最高提供 4 倍的硬件压缩比,并支持租户级别的硬件加密能力。基于 SmartSSD 3.0,DeepSea 打造了双层软硬协同压缩方案,基于 DeepSea 的 PolarDB MySQL 和PG,在压缩比和性能方面全面领先于基于 LSM-Tree 的竞品数据库,并提供了 PB 级的存储规模扩展性。新一代持久化内存 AliSCM,在延迟接近传统内存的情况下提供了持久化的能力。基于 AliSCM,PolarDB DeepSea 构建了混合分层内存池,提供了 ECA 弹性缓存加速器的能力,数据库写操作在 AliSCM 形成三副本后即可返回,读操作命

    134、中 ECA 后即可返回,数据读写延迟大幅下降。AMD 服务器产品线高级产品经理 宋学红 第三部分:Data+AI 云栖发布 86 AMD 作为全球领先的半导体公司,专注于打造领先的高性能和自适应计算产品,提供包括 CPU,GPU,FPGA,自适应 SOC 和 DPU,以及专业的软件支持,为云、边缘和终端设备提供领先的 AI 计算平台。AMD EPYC CPU 为 AI 的算力提供有力保障,基于阿里云数据库也在着力从数据到智能的变换,AMD 服务器产品线高级产品经理宋学红在会上发表题为AMD EPYC 全面赋能阿里云数据库的主题演讲,展示了EPYC CPU 的技术演进,领先的技术创新,产品路标,

    135、架构设计,产品规格,更好的性能表现。在第四代 EPYC CPU Genoa 上和阿里云深度合作,借助于新一代 EPYC更高核心密度,更高性能,更安全,全面支持阿里云数据库实现性能大幅提升,从AnalyticDB、PolarDB、RDS 到阿里云瑶池数据库的全面产品支撑,为阿里云瑶池实现从数据到智能的云原生数据库提供更高性能的基础设施。小赢科技运维总监 李斌 小赢科技运维总监李斌在演讲中分享了 PolarDB 在金融科技行业的最佳实践。他表示,金融科技行业数据量大,存在亿级大表 JOIN 复杂分析查询、大存储和弹性伸缩的需求,PolarDB 的列存索引 IMCI 在复杂查询场景性能提升 30-1

    136、00 倍,搭配Serverless 在业务波峰时段可以按需无感弹升,极大的提升了用户体验,也平衡了使第三部分:Data+AI 云栖发布 87 用成本。金融行业对数据一致性有强要求,PolarDB SCC 高性能强一致特性解决了只读库延时导致读不一致的问题,在数据延迟敏感的金融交易业务中性能得到了进一步提升。金融科技行业有海量的历史数据,X-Engine 高压缩引擎+PolarStore PSL4 硬件压缩,相比 MySQL 压缩了 11 倍,而且支持在线实时查询,极大的降低了历史数据存储和使用成本。阿里云数据库产品事业部高级产品专家 许鸿斌 阿里云数据库产品事业部高级产品专家许鸿斌在瑶池数据库

    137、容灾体系:助力数据业务持续在线的主题演讲中提到,瑶池数据库提供了多层级容灾体系,可助力企业快速构建数据级-应用级-业务级的容灾能力。应对机房级故障,阿里云瑶池跨多个可用区部署的实例可提供秒级 RTO 及 RPO=0 的保障;应对机房所在城市发生地域级故障,瑶池提供的跨地域容灾实例,可实现分钟级的 RPO 及 RTO 保障。同时基于瑶池全球多活数据库能力,可快速构建单元化、全球化业务。企业可根据具体业务属性,在瑶池数据库多层级容灾架构上进行灵活选择,支撑数据业务持续在线。第三部分:Data+AI 云栖发布 88 迅雷集团运维经理 陈震宇 迅雷集团运维经理陈震宇在迅雷集团 RDS 异地多活实践的分

    138、享中介绍:“在应用层上,迅雷进行了业务单元化的服务改造,按属性划分了:核心业务单元、共享业务单元、全局单元。在数据层上,针对不同的业务单元,迅雷利用 RDS MySQL 全球多活容灾的产品能力进行了灵活的形态适配,完成了两地三中心架构的全面改造。不仅实现了分钟级的 RTO、高质量的数据保护、业务就近访问,还有效提升了核心系统的连续性和安全性,展示了迅雷在容灾多活建设上的深入探索和创新实践。”第三部分:Data+AI 云栖发布 89 3.云栖大会|多模+一体化,构建更高效的 AI 应用 在 2024 年云栖大会NoSQL 数据库专场,来自极氪汽车、知乎、宜人智科、智慧星光的知名企业代表和阿里云瑶

    139、池数据库团队的产品&技术专家,共同分享了阿里云瑶池旗下的云原生多模数据库 Lindorm、云数据库 Tair、云数据库 MongoDB 和MyBase 的最新技术进展与最佳实践。3.1 云数据库 Tair:从稳定低延时缓存到 Serverless KV 阿里云智能集团数据库产品事业部资深技术专家 朱国云 Tair 是阿里云的高性能分布式缓存和 KV 数据库,它在兼容 Redis 的基础之上具备大量的企业级能力。阿里云智能集团数据库产品事业部资深技术专家朱国云在云数据库 Tair:从稳定低延迟缓存到 Serverless KV中介绍了 Tair 通过多年在缓存和 KV场景的打磨,基于自研内核优势

    140、并结合无感弹性等产品能力,解决了客户在使用 Redis第三部分:Data+AI 云栖发布 90 开源版中遇到的性能瓶颈、超时抖动、运维难度大等痛点。同时,Tair 发布了 Serverless KV 服务,该服务一方面可支撑兼容 Redis 的在线 KV场景,是具备高可靠性及快速弹性能力的数据库;同时可帮助大模型实现推理加速,这也是阿里云首个基于 NVIDIA TensorRT-LLM 的推理缓存加速云数据库产品,针对快速增长的大模型推理需求,Tair 采用 NVIDIA TensorRT-LLM 进行了深度优化。本次发布,也是 Tair 从互联网场景的缓存加速服务到 AI 大模型场景的在线推

    141、理缓存加速的一次重要演进。宜人智科资深研发工程师 王庆华 宜人智科资深研发工程师王庆华在精准投放与降本增效:RTA 广告系统在金融信贷行业的应用的分享中提到,RTA 为高效、支持实时决策的广告系统,该系统对数据库的性能、稳定性、弹性、存储成本均有较高要求。在使用 Tair 持久内存型后,宜人智科的 RTA 系统实现了数据库架构的精简,将缓存搭配持久化数据库的架构简化为仅使用 Tair,实现业务逻辑的优化。基于 Tair 持久内存型的高性价比优势,RTA 系统的特征数据加至 10TB,广告投放的准确度与转化率均得到提升。同时,得益于 Tair内置的扩展型数据结构 Tair Roaring 的高压

    142、缩比及复杂计算的支持,人群圈选系统能第三部分:Data+AI 云栖发布 91 够将大量复杂计算由业务层下沉至 Tair,使整个 RTA 链路的性能得到 50%的提升。3.2 Lindorm:AI 和具身智能时代的海量多模数据服务 阿里云智能集团数据库产品事业部资深技术专家 沈春辉 伴随 AI 和具身智能场景的快速发展,数据库系统面临着新时代的挑战,传统针对时序、轨迹、向量、文本、标签等不同数据使用不同数据库产品的组合方案,不仅架构复杂、维护困难、成本高,更减缓了 AI 业务的创新迭代效率。阿里云智能集团数据库产品事业部资深技术专家沈春辉在Lindorm:AI 和具身智能时代的多模数据服务分享中

    143、提到:基于此,阿里云自主研发了新一代多模数据服务Lindorm,通过云原生、多模融合、分布式的架构设计,以及行存、列存、倒排、向量等全维度的索引技术,使用一个产品实现海量多模态数据的查询、检索和分析需求,可以帮助用户提升 2 倍研发效率,减少 90%成本,已成为极氪汽车、MiniMax 等诸多头部客户构建车联网平台、AI 智搜的关键设施。第三部分:Data+AI 云栖发布 92 智慧星光数据研发与创新平台总经理 朱玉林 智慧星光数据研发与创新平台总经理朱玉林分享了 Lindorm 在智慧星光舆情大数据分析的最佳实践。他表示,舆情监测场景中,需要融合处理、分析和理解多模态数据(如文本、图像、音频

    144、、视频等),行业普遍存在数据难聚合、数据难用好、场景难匹配的痛点。过去,智慧星光主要使用自建开源 ElasticSearch 来满足数据检索需求,但随着数据规模增大,向量检索延迟高、扩容速度慢、运维复杂等成为业务发展的痛点。智慧星光通过 Lindorm 的正排、全文、向量多模融合检索能力,实现一站式存储和处理舆情大数据,向量搜索性能提升4倍,扩容速度提升至秒级,整体性价比提升50%+。第三部分:Data+AI 云栖发布 93 极氪智能科技数字发展中心大数据资深架构师 周豪峰 极氪智能科技数字发展中心大数据资深架构师周豪峰在分享 极氪汽车基于 Lindorm多模一体加速业务创新中提到,基于车联网

    145、典型的上万车辆信号数据、数据多、时效高、成本高、潮汐明显等特征和汽车出海多云部署背景,极氪车联网数据平台(VDP)借助 Lindorm 多模湖仓一体化架构,实现多云异构异源多组件融合和联邦分析,通过构建统一对外数据查询视图以及算子层查询优化加速,屏蔽底层数据组件差异和多云环境差异,最大化复用已有数据资产,实现取数用数效率极大提升,做到一次开发全球发布。同时利用 Lindorm 兼容开源生态的开放存储计算能力,叠加高压缩比、自动冷热分离、Serverless 弹性以及一站式 Zero-ETL,实现成本最优。第三部分:Data+AI 云栖发布 94 极氪智能科技软件及电子中心数字架构技术专家 陈小

    146、宇 来自极氪智能科技软件及电子中心数字架构技术专家陈小宇带来了 Lindorm 多模提效极氪车联网端云协同端云一体化方案的精彩分享。随着整车硬件架构向集中式演变,软件也从“信号导向”向“服务导向”转变,车联业务更加多元化,如:灵活数采、智能诊断等。对云边协同计算提出更高数字化、智能化要求,通过在云端不断创新业务,赋能边端计算。在车端日志&信号数据诊断场景,基于 Lindorm 一体化多模计算、低成本存储、生态兼容、弹性 Serverless 等能力构建车机数据分析共享服务,实现分钟级处理日新增100 亿数据规模,数据开发效能提升 2 倍,云端成本降本 50%,做到业务数据价值不断提升和多云同构

    147、全球化发布,未来将基于 Lindorm AI 能力持续挖掘数据价值。第三部分:Data+AI 云栖发布 95 3.3 MongoDB 云原生化:为企业开发注入高效动力 阿里云智能集团数据库产品事业部高级技术专家 付秋雷 阿里云智能集团数据库产品事业部高级技术专家付秋雷发表了 MongoDB 云原生化:为企业开发注入高效动力 精彩演讲,详细分享了阿里云 MongoDB 如何借助云原生技术为企业提供高效的开发解决方案,从而实现 1+12 的效果。他强调,云原生技术使 MongoDB 具备了更可靠、更灵活、更安全、更强大的备份恢复和智能运维能力等优势,为企业的业务变化提供更好的支撑。阿里云与 Mon

    148、goDB 已联合为互联网、游戏、交通物流、制造、汽车、零售等多个行业的数万名用户提供云服务,助力个人和企业实现高效开发、加速创新,并为业务发展提供强有力的支持。第三部分:Data+AI 云栖发布 96 3.4 知乎:MongoDB 超级集群上云之路 知乎数据库运维总监 代晓磊 知乎数据库运维总监代晓磊详细分享了知乎自建超级分片集群上云之路。他提到,自建 MongoDB 通常会遇到弹性扩容差、数据备份难、开源疑难难解以及运维人力投入大等问题。云原生技术很好的解决了上述问题,借助阿里云 MongoDB,知乎实现了超级集群平滑上云,解决了自运维 MongoDB 过程中的稳定性和备份灵活性等问题,帮助

    149、知乎实现了增效降本。第三部分:Data+AI 云栖发布 97 3.5 MongoDB 8.0 新特性前瞻 MongoDB 专业服务总监 唐峰 MongoDB 专业服务总监唐峰介绍了 MongoDB 8.0 的最新特性及其在关键业务应用中的应用。他强调,MongoDB 始终致力于简化现代应用的开发,尤其是在实时数据处理领域,通过创新驱动平台的持续进化。MongoDB 8.0 预览版的发布标志着 MongoDB 在弹性、可扩展性、安全性和性能方面的又一次重大突破,将为开发者提供强大的工具,助力他们开发关键应用,推动业务持续增长。第三部分:Data+AI 云栖发布 98 3.6 从 Redis 到

    150、Tair:开源工具的最佳实践 阿里云智能集团数据库产品事业部技术专家 杨博东 阿里云智能集团数据库产品事业部技术专家杨博东分享了阿里云为了从 Redis 迁移到 Tair 所准备的一系列开源工具,随着 Redis 的闭源,Tair 成为了阿里云上替换 Redis的最佳产品,Tair 也将持续贡献开源生态,和客户共赢。第三部分:Data+AI 云栖发布 99 3.7 MyBase:打破云边界,构建云边端一体的 DBaaS 服务 阿里云智能集团数据库产品事业部资深技术专家 徐东来 阿里云智能集团数据库产品事业部资深技术专家徐东来介绍了阿里云瑶池数据库旗下的 MyBase One,旨在打破云边界,提

    151、供云边端一体化的数据库 DBaaS 服务。面对多云和混合云的需求,MyBase One 支持将阿里云数据库快速部署到用户 IDC、边缘站点及第三方 IaaS 上,提供与公共云兼容的 API 和图形化管理功能。该产品具备灵活部署、统一资源抽象、可插拔管控和高效引擎接入能力,为客户带来自主可控、主权合规和跨云容灾的价值。通过轻量交付、一键升级和远程运维等功能,MyBase One 助力客户在已有 IaaS 上构建和使用阿里云数据库服务。第三部分:Data+AI 云栖发布 100 4.云栖重磅|从数据到智能:Data+Al 驱动的云原生数据库 在 9 月 20 日 2024 云栖大会上,阿里云智能集

    152、团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE 会士(Fellow)李飞飞发表从数据到智能:Data+AI 驱动的云原生数据库主题演讲。他表示,数据是生成式 AI 的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI 全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。第三部分:Data+AI 云栖发布 101 为满足企业用户在多云多端环境下对元数据统一管理的需求,促进数据自由流动,阿里云瑶池在会上重磅发布由 Data+AI 驱动的多模数据管理平台 DMS:OneMeta+OneOp

    153、s,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达 40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升 10 倍。第三部分:Data+AI 云栖发布 102 4.1 打通底层元数据,打造面向“Data+AI”的一站式多模数据平台 由于灵活性、成本、业务连续性等综合因素,当前近 80%的企业在建设数据平台时开始采用多种数据引擎、多数据实例组合的策略。随着 AI 兴起、非结构化数据的指数级增长,多云数据的管理难度加剧,企业也对数据的高效检索和分析提出了更高的要求,元数据管理能力成为协调跨环境、跨引擎、跨实例资源的核心要素。为此,阿里云瑶池数据库在

    154、会上正式推出由 Data+AI 驱动的多模数据管理平台 DMS:OneMeta+OneOps,以更好地满足大模型时代的用数需求。面向智能营销、企业级RAG 智能大脑和智能搜索等应用场景,该平台可提供规模化、精细化的元数据管理服务,助力构建企业智能 Data Mesh(数据网格)。自上线以来,DMS 已服务超过 10 万+企业客户。借助跨引擎、跨实例管理和开发以及数据智能一体化,DMS:OneMeta+OneOps 将帮助企业从分散式数据治理升级至开放统一数据智能管理,实现革新性的智能 Data Mesh 架构,进而可降低高达 90%的数据管理成本,业务决策效率提升 10 倍。据介绍,DMS 创

    155、新设计了统一、开放、跨云的元数据服务 OneMeta 及 DMS+X 的多模联动模式 OneOps。其中,OneMeta 首次打通不同数据系统,可支持全域 40+种不同数据源,支持他云、自建数据源无缝对接,提供数据血缘和数据质量的一站式Data+AI 数据治理。第三部分:Data+AI 云栖发布 103 OneOps 是基于 Notebook 和 Copilot 的数据开发平台 DataOps 和 AI 数据平台MLOps,可实现 DMS+X 的多模联动模式,将 X(X 即云原生数据库 PolarDB、云原生数据仓库 AnalyticDB、云原生多模数据库 Lindorm 等多样化的数据存储、

    156、分析、计算、AI 引擎)集结到统一平台。企业用户可使用 Notebook 进行数据和模型开发,完成一站式数据和模型任务编排,实现数据加工、特征加工、特征提取、分析计算、模型 Serving 等 DataOps 和 MLOps 全链路的数据加工和计算能力。同时利用各种CPU/GPU 算力,以及面向行业的算法优化,进一步完成计算和模型加速。阿里云智能集团副总裁、数据库产品事业部负责人李飞飞表示:“DMS:OneMeta+OneOps 是阿里云瑶池继云原生数据库 2.0 以来,又一次里程碑式的改造升级。通过 Data+AI 的全面融合,基于统一、开放、多模的数据管理与服务,我们为企业提供全域数据资产

    157、管理能力,让业务数据“看得清、查得快、用得好”,助力企业构建智能 Data Mesh,大幅提升业务决策效率。”以某大型游戏公司为例,其游戏业务的智能推荐场景采用 DMS+PolarDB&AnalyticDB 的一站式 DataOps+MLOps 解决方案,提供基于玩家游戏行为数据的数据挖掘和精准预测。该方案支持一站式 In-DB 海量数据特征提取,数据库内置大模型,让 AI 距离数据更近,从而实现用户数据内循环不出域,整个过程更加高效、安全。此外,一站式 DataOps+MLOps 方案还为业务提供了模型效果实时反馈和加工的海量日志数仓存储与分析,模型算法能够自主优化迭代,成功将其游戏业务用户

    158、付费与流第三部分:Data+AI 云栖发布 104 失预测的准确率提高 30%,大幅提升了游戏推广与运营的 ROI。据介绍,在大模型领域,DMS+Lindorm 的一站式多模数据解决方案支撑月之暗面构建 AI 智能助手 Kimi,帮助 Kimi 准确理解用户的搜索意图、整合与概述多种信息源,实现精准和全面的信息召回,提升用户交互体验。4.2 全面解耦、全栈池化,AlwaysOn 云原生究其本质是资源池化和资源解耦,能够充分发挥出资源池化的架构,才是真正的云原生架构。2021 年起,阿里云瑶池在业界开创性地落地“三层解耦,三层池化”(计算、存储、内存)架构,基于全栈池化技术,将云计算的弹性能力发

    159、挥到极致,助力用户业务提质增效。据悉,利用 AI 与云数据库的深度结合和大模型智能调参,瑶池数据库进一步引领云原生 Serverless 2.0 技术升级,通过旗下核心产品(PolarDB、RDS、AnalyticDB、Lindorm)提供智能无感秒级弹性,实现“弹的更快、更稳、更广、更细”。系统会根据业务负载动态匹配,用户只需专注核心业务,按需付费:1)弹的更快:亚秒级弹升,弹升速度提升 5 倍 2)弹的更稳:纵向伸缩无抖动,横向伸缩事务不中断 3)弹的更广:03000 核资源范围,弹升范围提升 3 倍 4)弹的更细:三层解耦,CPU、内存、存储独立伸缩,成本降低 90%2024 年 6 月

    160、,因云而生的云原生数据库 PolarDB 首次提出基于“三层解耦,三层池化”(存储、内存、计算)、AlwaysOn 架构的多主多写和秒级 Serverless 能力,解决了多主架构中冲突处理和数据融合、以及 Serverless 秒级弹性租户隔离的难题,并完成了全球首个大规模商用、基于共享存储的云原生多主数据库实践。测试数据显示,在 8 节点高并发场景下,PolarDB 性能为业界同类数据库 3 倍。凭以上成果,PolarDB 成功摘得了中国首个 ACM SIGMOD 和 IEEE ICDE 的工业赛道“最佳论文奖”。第三部分:Data+AI 云栖发布 105 目前 PolarDB 用户数已突

    161、破 10000 家,在游戏行业,PolarDB 支持米哈游新游绝区零 全球开服,见证其全球下载量突破 5000 万,登顶 138 个国家和地区下载榜首。针对绝区零大规模的存档数据读写场景,PolarDB 通过分布式存储和多线程能力提供超大的 IO 读写带宽,帮助游戏玩家在高峰期流畅快速存档和回档,平滑支撑海量玩家同时在线的游戏数据处理。云原生数据仓库 AnalyticDB(以下简称 ADB)兼具数据湖的扩展性和数据库的易用性,ADB 支持灵活、多维度的数据分析,可为相关负载节省高达 90%的总体拥有成本。通过自研在线分析 MPP 引擎和 Native 执行引擎,ADB 性能可提升 50%。基于

    162、实例的 CPU/内存负载、查询排队、查询并发数等指标,自动进行 cluster 弹性伸缩,可将弹性时间降至 20 秒。第三部分:Data+AI 云栖发布 106 此外,ADB 还集成了离线处理 Spark 引擎,通过 Native 执行引擎+OSS 数据缓存,对比开源版本,ADB 性能提升 7 倍。同时,ADB 还为用户提供抢占式资源,从而进一步降低资源使用成本。面向 AI 和车联网等创新应用开发场景,阿里云瑶池旗下的云原生多模数据库Lindorm 内置了 AI 推理服务,可加载业务所需的模型处理数据,并提供统一的表视图和 SQL 访问接口,一体化实现数据查询、融合检索、离线分析、交互分析等功

    163、能。Lindorm 还具备云原生多模一体化的数据处理能力,针对车联网超宽列时序数据优第三部分:Data+AI 云栖发布 107 化,已助力支撑极氪汽车的全系车型智能化升级和超 32 万在线车辆、上万信号数据的弹性处理分析。Lindorm 现已应用于国内 65%的车企和 50%的基模公司,驱动汽车应用持续创新。据李飞飞介绍,近年来,阿里云瑶池紧随硬件演进步伐,在数据库系统的架构设计中,充分挖掘和施展硬件的独有优势,通过软硬结合的一体化设计,优化提升数据库系统的技术实力。会上,瑶池数据库正式发布了云原生内存数据库 Tair Serverless KV 服务,该服务是阿里云首个基于 NVIDIA T

    164、ensorRT-LLM 的推理缓存加速云数据库产品。针对快速增长的大模型推理需求,Tair 采用 NVIDIA TensorRT-LLM 一起进行了深度优化。在 In-flight batching、Paged Attention 等技术的基础上,结合 TensorRT-LLM 的Prefill/Decoding 分离技术,并通过存储池化将 LLM 推理过程中占用大量显存资源的 KVCache 卸载到远端,大幅加速超长和重复上下文场景。相比开源方案,该服务通过 KVCache 池化,预计成本降低 20%,PD 分离/调度优化吞吐预计提升 30%,软硬协同优化 Context Cache TTF

    165、T(首 token 延时)预计降低 30%*注。阿里云智能集团数据库产品事业部 NoSQL 产品负责人张为表示,Tair 与 NVIDIA TensorRT-LLM 的技术结合,标志着缓存 KV 技术从支撑互联网时代的访问加速服务第三部分:Data+AI 云栖发布 108 进化到 AI 时代的推理在线加速服务,将为未来飞速发展的商业化 AI 推理需求提供规模化的支撑。4.3 赋能核心业务与 AI 应用实践,让创新触手可及 最新数据显示,阿里云已连续多年位居中国数据库市场份额第一。Data+AI 驱动的云原生数据库已从概念进入到加速落地阶段,服务于千行百业的核心业务及 AI 应用。在 2024

    166、巴黎奥运会的赛事系统中,云数据库 RDS 凭借出色的性能表现和高可用架构,支撑了过万 QPS 的并发响应和超过百万条实时数据处理,平均响应时间保持在毫秒级,为全球观众提供了流畅的实时赛事观看体验。RDS 通过备份恢复、实时监控、容灾切换等产品能力,保障了奥运期间 RPO=0,RTO 1 分钟级别的高可用在线数据库服务,稳定支持了 300 多个赛事项目的管理与结果发布,助力云上奥运稳定运行。为避免各类故障及灾害对核心数据产生影响,瑶池数据库为用户提供了完备的高可用与容灾方案。应对机房级故障,阿里云瑶池跨多个可用区部署的实例可提供秒级 RTO及 RPO=0 的保障;如机房所在城市发生地域级故障,瑶

    167、池提供的跨地域容灾实例,可实现分钟级的 RPO 及 RTO 保障。企业可根据具体业务属性,在瑶池数据库多层级容灾架构上进行灵活选择,支撑数据业务持续在线。第三部分:Data+AI 云栖发布 109 随着大模型技术的迅猛发展,AI 搜索类产品如 SearchGPT 应运而生,彻底改变了传统搜索领域的格局。从最初的关键词搜索到如今的对话式问答,搜索方式的演变意味着新的机遇与挑战。云原生多模数据库 Lindorm 内置的 AI 推理服务为 SearchGPT的开发提供了一站式解决方案,并已落地包括月之暗面、MiniMax 在内的多家大模型企业客户。以月之暗面(Moonshot AI)为例,在其 AI

    168、 检索应用场景下,Lindorm 支持 PB 级别的存储与检索,满足了月之暗面全网海量数据的存储需求。月之暗面 Kimi 搜索技术负责人 Mark 表示:“大模型驱动搜索技术经历深刻变革,从关键词输入转变为更自然的聊天式提问,搜索结果的消费模式也由逐个点击结果链接转变为依赖模型批量理解搜索结果并为用户进行总结,用户愿意接受约 10 秒的延迟,以期获得更智能的回答;这些演变给搜索技术带来了新挑战,如多来源的召回机制、多步骤的搜索流程以及多模型的融合检索。为应对这些挑战,Kimi 借助 Lindorm 一体化多模数据库平台秒级弹性、无缝推理及融合检索等优势,构建全新的 AI 搜索平台。凭借深度压缩

    169、、自适应编码、分级存储以及向量磁盘索引等技术,Lindorm 助力业务整体资源成本下降超过 50%,并支持标签生成、向量生成、重排等多种 AI 任务,大幅提升了应用开发效率,为月之暗面的业第三部分:Data+AI 云栖发布 110 务发展注入了强劲动能。”除了依托自身的研发力量开展前沿技术研究,阿里云瑶池数据库团队与国内产学研界的各大高校和研究机构也有着深入的学术合作。2021 年,由阿里云瑶池与华东师范大学共同撰写的国内首部云原生数据库教材 云原生数据库:原理与实践 正式出版。一经问世,该书便得到了来自高校师生和领域从业者的广泛欢迎。会上,李飞飞宣布今年将再度推出国内首部云原生数据仓库教材云

    170、原生数据仓库:原理与实践,以及面向 DBA 的云数据库运维技术图书,旨在为云数据库相关理论与实践提供系统性的教材引导,助力推动中国云数据库领域的人才发展。*注-数据来源:基于 Qwen2 7B 模型在长上下文场景构造实验环境数据测试,最终效果以实际产品和场景测试数据为准。第四部分:Data+AI 方案实践 111 第四部分:Data+AI 方案实践 1.内附源码|头部基模企业信赖之选一一 DMS+Lindorm 智能搜索方案 1.1 智能搜索成为信息消费的趋势 近两年,AI 大模型的迅速崛起为搜索产品注入了新的活力,这一发展不仅改变了用户获取信息的方式,也为企业和开发者带来了新的机遇。如今,检

    171、索的形式不再局限于关键词匹配,而是朝向更高效、更智能的对话式问答演进。原本用户检索一个专业问题通常需要从多个平台搜集资料,并花大量时间对这些资料进行整合,而智能检索则可以进一步理解用户的搜索意图,帮助用户快速整合提炼信息,大幅提升了信息获取的效率。随着用户信息消费方式的改变,搜索产品的智能化成为提升用户体验、增加用户粘性的重要手段。微软率先在 Bing 中整合 GPT 模型,力求提供更符合用户需求的回答;Google 也推出了 Gemini,直接针对用户提问来生成答复。越来越多企业希望为域内用户提供智能搜索服务,而服务的构建需要面临以下三座大山:1)快速搭建和迭代的需求:当前 AI 行业还处于

    172、快速发展期,企业需要将主要精力集中在核心业务创新上,从头搭建基础设施效率低,涉及组件多,这些组件架构各异、运维方式不同、使用方式不同,对于运维开发人员来说学习成本很高,同时部署或更新模型也需要大量的时间和技术投入。2)数据规模膨胀和成本增加:随着数据规模的不断增长,内存成本和计算资源的需第四部分:Data+AI 方案实践 112 求也会显著增加。传统的检索方案可能无法有效处理大规模数据,导致检索速度下降,同时增加硬件投入和运维成本。3)检索的准确性和灵活性:通用搜索引擎方案的检索对业务全程黑盒,业务难以根据实际效果对架构进行调整。业务需要一套更加灵活的智搜方案,比如能够支持自定义部署微调后的

    173、Embedding、Rerank 模型等。1.2 Data+AI 解决方案 今年 9 月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的Data+AI 数据管理服务”。该平台通过 OneMeta 和 OneOps 两大创新,简化了数据管理与 AI 开发,实现 DMS+X 一站式的 Data+AI 全生命周期管理。在 DMS+X 之上,阿里云将助力企业数据以最快的速度拥抱 AI,落地业务,产生价值。DMS+Lindorm 为广泛的企业群体提供智能搜索应用构建和落地的解决方案,提供强大的 AI Infra 和低门槛的 Data+AI 管理平台,加速企业 AI 应用落地。其中,云

    174、原生多模数据库 Lindorm 作为一款 AI 时代的一体化开发平台,已经支持数第四部分:Data+AI 方案实践 113 家头部基模企业和 AI 独角兽落地部署万亿数据级别的智能检索方案,并沉淀了一套成熟的服务体系。云原生多模数据库 Lindorm 是为 AI 时代而生的多模数据服务,面向海量泛时序、半结构化和非结构化数据提供低成本存储、在线查询和离线分析等一站式数据服务。Lindorm 针对 AI 场景支持正排、全文、向量融合检索和 AI 推理能力,落地场景包括互联网级智能搜索、企业级智能知识库和非结构化数据检索等。1.3 Lindorm 智搜方案为何成为头部基模客户之选 1.3.1 一站

    175、式搭建,实现轻松运维和灵活调整 搭建一个智能搜索平台,首先需要对部署全流程进行拆解:1、数据准备 首先需要对互联网信息和私域数据进行收集、加工和存储,这就需要用来存储大量数据的标量库;2、知识向量化 为了同时支持全文和向量检索,同一份数据要经过切割和向量化处理后存储多份,这就需要一个将各种格式的标量数据转化为精准向量的推理引擎,以及一个用于高效存储向量数据的向量库;3、构建检索系统 接着需要通过检索组件从知识库中检索相关的知识,不仅需要保证召回质量,还需要保证召回速度,这就需要一个高性能、多功能的搜索引擎;4、集成大模型 为了让用户的问题可以被程序理解,让结果具备可读性,还需要调用大模型,以形

    176、成第四部分:Data+AI 方案实践 114 有条理的问答过程,这就需要调用大模型的接口;5、数据流转和安全保障 以上这些组件之间还需要搭建起一套数据流转的链路,以保证数据的一致性。首先,对运维开发人员来说要具备多技术栈能力,包括标量库、检索库和向量库的部署与使用;同时为了保证企业内部的数据的安全性,以上这些数据库都需要建立严谨的数据权限机制;又由于信息数据是动态更新的,各组件之间数据同步和维护的难度会比较高,这些问题无疑增加了开发复杂度,延长了项目周期,对于追求快速迭代的AI 业务来说,是个严峻挑战。Lindorm 作为智能搜索 Infra 支撑 使用多种开源组件进行部署,不可避免会面临架构

    177、冗余、数据处理流程繁琐、数据重复以及接口不兼容等问题。针对这种情况,Lindorm 构建了一个全新的一站式数据平台,内部的多个引擎按需插拔,覆盖数据处理全链路,一体化提供离线批处理、在线分析、AI 推理服务、融合检索(正排、倒排、全文、向量等),数据全程在 Lindorm内部自动流转,无需额外建设和维护同步链路。在模型部署方面,Lindorm 已经集成了主流 Embedding、LLM、Rerank 模型等,对于运维开发人员来说,仅需使用 SQL 语句,即可在数据库内部部署和运行 AI 模型,极大地简化了智搜应用的开发流程。在此基础上,Lindorm 同样支持企业自定义部署微调模型,从而根据实

    178、际效果进行调整和优化。第四部分:Data+AI 方案实践 115 一站式构建智能搜索实操指南 以下指南旨在帮助您高效地利用开源数据集构建一个基于 Lindorm 的一站式智能搜索平台,提供了从模型部署、知识库构建到检索系统搭建的完整部署代码。代码下载地址:https:/ ps:如果您希望使用自己的数据集,可以尝试深入理解 demo 提供的代码逻辑,从而重新进行表结构的设计,并修改创建表、数据写入和查询等相关操作。Dify On DMS 一站式端到端开发 在 Lindorm 作为 AI Infra 支撑的基础上,DMS 托管的社区版 Dify 能够帮助业务进一步简化开发,实现端到端部署智能搜索应

    179、用。在 Lindorm 内部所构建的高质量知识库、检索 pipline 以及大模型,都可以在 Dify on DMS 进行白屏化配置与串联,并轻松完成模型版本管理、API 配置、指标检测等运维工作。Dify 作为一款开源的 LLM 应用开发平台,提供从 Agent 构建到 AI Workflow 编排、模型管理等能力,帮助用户轻松构建和运营 Gen-AI 原生应用。DMS 托管的 Dify 与第四部分:Data+AI 方案实践 116 阿里云生态进行了深度集成,包括通义大模型、瑶池数据库、百炼以及多款自研精品模型等,能够有效支撑客户落地端到端生产级 AI 应用,大幅降低管理成本,交付效率提升

    180、10 倍。1.3.2 降低成本存储,应对不断膨胀的海量数据 搜索平台的数据可达到 PB 级,还要面对未来数据的不断膨胀,数据存储成本将会远超计算成本,是企业的关键考量因素之一。Lindorm 具备极高的存储性价比,在支撑低时延、高并发的检索需求的前提下,帮助企业将极大程度节省成本。1)高压缩比:Lindorm 对 ZSTD 压缩算法进行了深度优化,在多种场景下所需的存储空间仅为 HBase 的 1/2,MySQL 的 1/4。2)自动冷热分离:支持自动冷热分离,既能保证高频数据的查询效果,还能够帮业务节省低频数据的存储成本。3)EC 降幅本技术:Lindorm 的 EC 降副本技术可以在保证数

    181、据可靠性和可用性的前提下,进一步帮助业务节省大量存储空间。第四部分:Data+AI 方案实践 117 1.3.3 检索全流程优化,打造最高性价比 检索质量是构建智能检索平台的另一重点,而知识库加工、embedding 效果、召回模式等都与检索的准确率相关。Lindorm 围绕检索的前、中、后阶段进行优化,相较于 Elasticsearch 开源方案表现出色。1)高质量内容解析:Lindorm 擅长处理各种非结构化数据,以文档结构化为技术底座对 PDF、图片、网页等进行结构化识别与理解,并在内部自动完成 chunking和 embedding,从而保证后续的召回效果。2)多路召回和 MultiQ

    182、uery:Lindorm 对接开源框架,从用户提问到内通召回、再到结果处理,都进行了相应的优化,并且支持用户通过自定义模型、自定义文档质量分等方式对检索效果进行调优。3)数据灵活更新与动态扩展:Lindorm 提供基于磁盘的向量索引技术,在索引构建后依然支持数据实时修改和实时可查,并且支持动态水平扩展。第四部分:Data+AI 方案实践 118 1.4 总结和展望 Lindorm 可以一站式替代多个开源组件的复杂架构,并且在成本更低的前提下,仍然在性能方面优于开源方案。后续,Lindorm 将继续发挥多模的优势,满足企业更多样化的需求。DMS+Lindorm 一站式 AI 搜索解决方案大幅降低

    183、了企业落地智搜应用门槛,是所有企业进行搜索产品智能化转型的不二之选,选择所有头部基础大模型公司之所选,筑造企业 AI 基础设施,把握时代机遇,打造 AI 原生应用带来全新企业价值。第四部分:Data+AI 方案实践 119 2.PolarDB-PG Al 最佳实践 1:基础能力实践 2.1 简介 Polar_AI 是 PolarDB 数据库的一个 AI 扩展,它集成了先进的 AI 模型和算法,架起了数据库与现代人工智能技术之间的桥梁,使得数据库内可执行机器学习和自然语言处理等任务。Polar_AI 目前支持 PolarDB PostgreSQL 版及 PolarDB PostgreSQL(兼容

    184、 Oracle)版数据库。本文档帮助用户理解 Polar_AI 引擎的基本功能,包括如何在数据库中调用 AI 大模型执行文本转向量、情感分类等功能,以及如何通过 SQL扩展自定义 AI 模型,以实现与更多 AI 模型服务的交互。2.2 基本概念 NLP:自然语言处理(Natural Language Processing)是 AI 的一个领域,专注于使计算机能够理解和生成人类语言。这包括文本分类、情感分析、机器翻译、对话系统等技术。Embedding:中文可译为嵌入或嵌入式表示,是机器学习和自然语言处理领域中的一个重要概念。它是指将高维、稀疏的特征向量(如词典中的词语、图像像素点等)转换为低维

    185、、密集的连续向量空间中的向量表示的过程。2.3 优势说明 通过标准 SQL 语言即可轻松实现数据库内部 AI 模型的调用及管理,这种方式具备以下几个显著优势:简单易用性:无需深厚的 AI 专业知识或复杂的编程技能,用户仅需掌握基础的SQL 语法就能完成从模型训练到预测推理结果输出的全流程操作。这极大降低了使用门槛,使得更多非专业人员也能参与到 AI 应用实践中来。灵活可定制化:除了提供预设好的一系列常用 AI 算法外,还支持用户根据自身业务需求快速添加新的模型,只需编写几行简单的 SQL 语句就能实现功能扩展。这样一来,无论是文本分类、图像识别还是时序预测等不同类型的任务都可以在一个统一框架下

    186、得到高效处理。第四部分:Data+AI 方案实践 120 无缝数据融合:传统上,AI 模型产生的输出往往需要经过额外步骤才能被整合进现有的信息系统之中;而在本方案里,所有 AI 计算的结果都能够直接保存于数据库内,并且可以很方便地与其他结构化或非结构化数据进行联合查询分析,从而为决策制定提供了更加全面准确的信息支持。数据安全保障:在整个计算过程中,原始数据始终存放在安全可靠的数据库环境中,避免了因频繁传输而导致的信息泄露风险。同时,借助于成熟的企业级特性如细粒度权限控制、访问审计跟踪以及加密技术等手段,进一步增强了系统的防护水平。卓越性能表现:由于所有的计算任务都在数据库内部执行,省去了数据移

    187、动所带来的额外开销,因此无论是在响应速度还是吞吐量方面都能达到非常优秀的水准。这对于那些对实时性要求较高的应用场景来说尤为重要。企业级服务支撑:全面继承云原生数据库 PolarDB 所拥有的各种高级特性,比如自动故障切换、在线扩容缩容、多租户隔离等等。这些都为企业构建稳定可靠的大规模数据处理平台奠定了坚实的基础。2.4 快速入门 2.4.1 创建扩展 CREATE EXTENSION polar_ai;2.4.2 内置模型介绍 内置模型是指在创建Polar_AI扩展后,预先安装于数据库中的几种常用AI模型。用户无需关心模型部署及参数细节,可直接使用。可通过以下 SQL 命令查看内置模型:sel

    188、ect model_seq,model_id,model_name,model_url from polar_ai._ai_models;-+-第四部分:Data+AI 方案实践 121 1|_dashscope/text_embedding/text_embedding_v2|text-embedding-v2|https:/ 2|_dashscope/text_embedding/text_embedding_v3|text-embedding-v3|https:/ 3|_dashscope/text-classfication/opennlu-v1|opennlu-v1|https:/

    189、(3 rows)当前内置模型主要集成了阿里云灵积模型服务中提供的自然语言处理模型,其功能解释如下:_dashscope/text_embedding/text_embedding_v2:通用文本向量模型,支持将中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语转为向量,输出的向量维度为 1536。_dashscope/text_embedding/text_embedding_v3:通用文本向量模型,在text_embedding_v2的基础上增加了50+种语言,输出的向量维度默认为1024。_dashscope/text-classfication/opennlu-v1

    190、:通用文本理解模型,适用于中文、英文零样本条件下进行文本理解任务,如信息抽取、文本分类等。HuggingFace、OpenAI、Llama 等更多内置模型开发中。2.4.3 如何快速执行文本转向量 本小节以调用内置模型_dashscope/text_embedding/text_embedding_v2为例,仅通过执行二次 SQL 命令就可完成文本转向量操作。_dashscope/text_embedding/text_embedding_v2内置模型输出的向量固定为 real,如需输出更多类型,请参考如何实现批量 Embedding 及向量检索 第四部分:Data+AI 方案实践 122 步

    191、骤一:绑定 Token 在首次调用内置模型时,需要先获阿里云账号的 API-KEY 并绑定到模型,获取方法参考 API-KEY 的获取与配置。绑定 API-KEY 到指定模型中,执行如下 SQL 命令:select polar_ai.AI_SetModelToken(_dashscope/text_embedding/text_embedding_v2,YOUR_API_KEY);-t 步骤二:执行 Embedding 绑定 API-KEY 后,调用 ai_text_embedding 函数,即可完成文本转向量操作。select polar_ai.ai_text_embedding(风急天高猿

    192、啸哀);-0.0049301917,-0.012394876,0.041976027,-0.01943111,0.039707053,-0.030824259,0.036376007,-0.035169102,-0.00021252778,0.0053405385,0.039079465,-0.03019667,-0.0067224405,0.01711386,0.021989742,.,0.019008696,-0.03215185,-0.021820776,0.029520806,0.022677675,-0.0038922566,0.014941438,0.012986258,0.030

    193、003566,-0.008285377,0.0014573333,-0.017584551,-0.038089804,-0.0371967,-0.008629344 第四部分:Data+AI 方案实践 123 2.4.4 如何快速实现文本情感分类 步骤一:绑定 Token 在首次调用内置模型时,需要先获阿里云账号的 API-KEY 并绑定到模型,获取方法参考 API-KEY 的获取与配置。绑定 API-KEY 到指定模型中,执行如下 SQL 命令:select polar_ai.AI_SetModelToken(_dashscope/text-classfication/opennlu-v1,

    194、YOUR_API_KEY);t 步骤二:执行文本情感分类 绑定 API-KEY 后,调用 ai_text_classification 函数,即可对输入的文本进行情感分类。select polar_ai.ai_text_classification(老师今天表扬我了);-积极;select polar_ai.ai_text_classification(这家饭店的菜真难吃);消极;2.5 高级进阶 当内置模型无法满足需求时,用户可通过 SQL 在数据库中扩展 AI 模型,以实现与更多 AI 模型服务的交互。2.5.1 如何实现自定义模型调用 本小节以调用灵积模型服务中的主题分类模型为例,自定义

    195、实现文本主题分类功能。第四部分:Data+AI 方案实践 124 定义模型输入与输出函数 准备工作 了解 OpenNLU 开放域文本理解模型,包括请求 header、输入文本格式和输出结果。获取阿里云账号的 API-KEY,参考 API-KEY 的获取与配置。定义模型输入函数 模型 opennlu-v1 CURL 调用命令中-data部分为:model:opennlu-v1,input:sentence:国足近 5 年首次攻破日本队球门!,task:classification,labels:体育新闻,娱乐新闻 ,parameters:json 中 model 项、input/sentence

    196、 与 input/labels 项为必填项,作为函数入参传入,input/task 项为固定项,模型输入函数可定义为:-model,sentence,labels 项为输入内容,task 项固定 CREATE OR REPLACE FUNCTION my_text_classification_in(model text,content text)RETURNS jsonb LANGUAGE plpgsql AS$function$BEGIN 第四部分:Data+AI 方案实践 125 RETURN(model:|model|,input:sentence:|content|,task:cla

    197、ssification,labels:体育新闻,时事新闻,parameters:):jsonb;END;$function$;定义模型输出函数 Curl 调用输出内容示例:output:text:体育新闻,usage:output_tokens:2,input_tokens:11,total_tokens:13 ,request_id:d89c06fb-46a1-47b6-acb9-bfb17f814969 我们只需要取 output/text 项的部分内容即可,因为输出是一个极简单的词语,且不需要做任何处理,则模型输出函数无需定义。创建文本主题分类模型 准备好输入函数后,调用 ai_crea

    198、temodel 创建模型。-将your-api-key替换成上文准备工作中获取到的 API Key 即可-输入函数为 ai_tongyi_custom_classification_in SELECT polar_ai.ai_createmodel(my_text_classification_model,https:/ 方案实践 126 NLU 开放域文本理解模型,opennlu-v1,author_type:token,token:your-api-key,NULL,my_text_classification_in:regproc,NULL);-(4,my_text_classifica

    199、tion_model,polar_ai,opennlu-v1,t)以 SQL 方式执行主题分类 根据 ai_callmodel 自定义模型调用函数:-创建自定义模型调用函数 CREATE OR REPLACE FUNCTION my_text_classification_func(model_id text,content text)RETURNS text AS$select(polar_ai.AI_CALLMODEL($1,$2):json)-output):jsonb-text):text as result$LANGUAGE sql IMMUTABLE;-执行主图分类 select

    200、my_text_classification_func(my_text_classification_model,国足近 5 年首次攻破日本队球门!);-体育新闻;(1 row)批量主题分类 对于已经在数据库内的数据,可以批量执行主题分类,例如:-创建表 create table my_text_classification_tbl(id integer,content text,class text);-插入数据 insert into my_text_classification_tbl values(1,国足近 5 年首次攻破日本队球门!),(2,中国智慧点亮全球治理的拉美时刻),(3,

    201、王楚钦复仇莫雷加德晋级四强);第四部分:Data+AI 方案实践 127-批量主题分类 update my_text_classification_tbl set class=my_text_classification_func(my_text_classification_model,content);-查看分类结果 select*from my_text_classification_tbl;id|content|class -+-+-1|国足近 5 年首次攻破日本队球门!|体育新闻;2|中国智慧点亮全球治理的拉美时刻|时事新闻;3|王楚钦复仇莫雷加德晋级四强|体育新闻;(3 rows)

    202、2.5.2 如何实现批量 Embedding 及向量检索 本小节以调用灵积模型服务中的通用文本向量为例,实现批量文本转向量功能,并针对返回结果自定义输出内容。定义模型输入、输出函数 准备工作 了解通义文本向量模型,包括请求 header、输入文本格式和输出结果。获取阿里云账号的 API-KEY,参考 API-KEY 的获取与配置。定义模型输入函数 通用文本向量模型 text-embedding-v2 CURL 调用命令中-data部分为:model:text-embedding-v2,input:texts:第四部分:Data+AI 方案实践 128 风急天高猿啸哀 ,parameters:t

    203、ext_type:query 内容中的 model 项及 input/texts 项为必填项,作为函数入参,则模型输入函数可定义为:CREATE OR REPLACE FUNCTION my_text_embedding_in(model text,texts text)RETURNS jsonb LANGUAGE plpgsql AS$function$BEGIN RETURN(model:|model|,input:texts:|texts|,parameters:text_type:query):jsonb;END;$function$;定义模型输出函数 通用文本向量模型 text-em

    204、bedding-v2 CURL 调用输出内容为:usage:total_tokens:7 ,output:embeddings:第四部分:Data+AI 方案实践 129 embedding:0.004930191827757042,-0.008629344325205105,0.041976027360927766,text_index:0 ,request_id:317ba0d4-6c08-9c24-8725-eebd445def51 只需要取 output/embeddings/embedding 项的向量部分内容,并保留 jsonb 格式,则模型输出函数可定义为:CREATE OR R

    205、EPLACE FUNCTION my_text_embedding_out(model_id text,response_json jsonb)RETURNS jsonb AS$select(response_json-output):jsonb-embeddings):jsonb)-0-embedding):jsonb as result$LANGUAGE sql IMMUTABLE;创建自定义文本向量模型 定义了模型输入输出函数后,即可通过 ai_createmodel 函数在数据库中创建模型。-将your-api-key替换成上文准备工作中获取到的 API Key 即可 SELECT p

    206、olar_ai.ai_createmodel(my_text_embedding_model,https:/ 方案实践 130 定义 Embedding 函数 根据 ai_callmodel 自定义模型调用函数:CREATE OR REPLACE FUNCTION my_text_embedding_func(model_id text,texts text)RETURNS float8 AS$select array(select json_array_elements_text(polar_ai.AI_CALLMODEL($1,$2):json):float8 as result$LANG

    207、UAGE sql IMMUTABLE;批量文本转向量 对于已经在数据库内的数据,可以批量执行文本转向量并写入向量字段,例如:-创建向量插件 create extension vector;-创建向量表 create table my_text_embedding_tbl(id int,content text,vec vector(1536);-插入数据 insert into my_text_embedding_tbl values(1,PolarDB 是阿里巴巴自研的新一代云原生数据库,在存储计算分离架构下,利用了软硬件结合的优势,为用户提供具备极致弹性、高性能、海量存储、安全可靠的数据库

    208、服务。),(2,postgresql 是一种开源的关系型数据库管理系统,由PostgreSQL Global Development Group 开发,由 Perl 编写。);-批量生成并写入向量 update my_text_embedding_tbl set vec=my_text_embedding_func(my_text_embedding_model,content);向量检索 将文本生成向量后,可利用向量检索进行快速、准确地检索相似文本。第四部分:Data+AI 方案实践 131-创建向量索引 CREATE INDEX ON my_text_embedding_tbl USING

    209、 hnsw(vec vector_l2_ops);-根据内容进行检索 select content from my_text_embedding_tbl where vec my_text_embedding_func(my_text_embedding_model,PolarDB 数据库架构是怎么样的?):vector(1536)16 Core 内存 64 GB 磁盘 100GB(AUTOPL)版本=14.13.28.0(20241230 发布)3.2.4 实战步骤 本案例以机器翻译模型-CSANMT 连续语义增强机器翻译为例,示例如何使用 EAS 进行模型部署,并通过 POLAR_AI 插

    210、件自定义函数的能力实现数据库内的基于连续语义增强的神经机器翻译。部署模型 开通 EAS 并搭建模型服务,具体步骤可参考 https:/ 部署完成后可通过页面来验证结果是否准确。第四部分:Data+AI 方案实践 135 需要记录 Post 的 URL 地址以及 Headers 中的 token 信息。Token 信息是访问服务的凭证,需要妥善保管。数据库准备 创建扩展 创建 POLAR_AI 扩展 CREATE EXTENSION POLAR_AI WITH SCHEMA PUBLIC;set search_path=$user,public,polar_ai;创建模型 一个自定义的模型包含输

    211、入,输出以及用户使用的三个函数 输入和输出函数 从 EAS 的部署步骤中可知,数据的输入为以下 json:input:text:PolarDB AI function is very easy to use 输出的数据为以下 json:translation:PolarDB AI 非常易于使用 第四部分:Data+AI 方案实践 136 因此,输入和输出函数可以定义为:CREATE OR REPLACE FUNCTION my_translate_in(model text,setence text)RETURNS jsonb LANGUAGE plpgsql AS$function$BEGI

    212、N RETURN(input:texts:|setence|):jsonb;END;$function$;-此处返回的是一个简单 json 对象,out 函数不做任何处理 CREATE OR REPLACE FUNCTION my_translate_out(model_id text,response_json jsonb)RETURNS jsonb AS$select response_json as result$LANGUAGE sql IMMUTABLE;创建模型 创建一个自定义的模型,使用之前定义的 in 和 out 函数。SELECT POLAR_AI.ai_createmode

    213、l(damo/nlp_csanmt_translation_en2zh,-模型名称 http:/-shanghai.pai- Alibaba,-模型提供商 机器翻译模型,-模型分类 iic/nlp_csanmt_translation_en2zh,-调用时模型的名称 author_type:token,token:xxxxxxx,-认证信息 NULL,-header 函数 my_translate_in:regproc,-my_translate_out:regproc);第四部分:Data+AI 方案实践 137 注意:url 地址与 token 需要替换为 EAS 部署时记录的信息 模型调

    214、用 可以通过 CALLMODEL 函数实现对于模型的调用:select(POLAR_AI.AI_CALLMODEL(damo/nlp_csanmt_translation_en2zh,PolarDB AI function is very easy to use):jsonb)-translation):text;创建用户函数 为了使用方便起见,可以把以上调用过程封装为用户函数。封装后业务方无需关心模型服务实际的地址,只需要和通用的 SQL 函数一样进行使用。创建用户使用的函数,此处定义一个 my_translate 函数,支持用户使用该函数实现翻译功能:CREATE OR REPLACE F

    215、UNCTION my_translate(content text)RETURNS text AS$select(POLAR_AI.AI_CALLMODEL(damo/nlp_csanmt_translation_en2zh,$1):jsonb)-translation):text;$LANGUAGE sql IMMUTABLE;函数的输入的 text 是需要翻译的文本,返回的 text 是翻译完成的结果。函数调用 最后,可以使用刚才定义的 my_translate 函数愉快地进行翻译操作了。第四部分:Data+AI 方案实践 138 select my_translate(PolarDB A

    216、I function is very easy to use);-PolarDB AI 函数非常易于使用 select my_translate(PolarDB is a secure and reliable database service that provides auto scaling,high performance,and mass storage.PolarDB is 100%compatible with MySQL and PostgreSQL and highly compatible with Oracle.PolarDB provides three engines

    217、:PolarDB for MySQL,PolarDB for PostgreSQL,and PolarDB-X.);my_translate -PolarDB 是一种安全可靠的数据库服务,提供自动伸缩、高性能和海量存储。PolarDB 与 MySQL 和 PostgreSQL 100%兼容,与 Oracle 高度兼容。PolarDB 提供三种引擎:PolarDB for MySQL、PolarDB for PostgreSQL 和 PolarDB-X。3.3 总结 PolarDB POLAR_AI 模型服务调用插件具备较强的灵活性,结合 EAS 在线模型服务,实现自定义模型的部署,通过定制 S

    218、QL 的方式实现对自定义模型的调用。使用时不需要专业的 AI/ML 背景,无需部署 AI 相关环境,不需要了解模型部署的具体信息,使用时不需要移动数据,仅使用 SQL 即可实现模型调用,满足业务需求。第四部分:Data+AI 方案实践 139 4.PolarDB-PG Al 最佳实践 3:PolarDB Al 多模态相似性搜索最佳实践 4.1 业务场景 在很多业务场景中,时时刻刻在产生多模态数据,如图像、音频、视频等。这些数据通常以文件的方式存在对象存储上,如何在数据库内部对这些多模态的数据进行统一的分析和查询,一直是一个热门的问题。多模态大模型(Multimodal Large Langua

    219、ge Models,MLLMs)是人工智能领域的前沿技术,它们结合了多种数据模态(如文本、图像等),通过大规模预训练,实现了对复杂信息的深度理解和高效处理。这些模型不仅扩展了传统语言模型的边界,更在视觉问答、图像字幕生成、语音识别等领域展现出了强大的应用潜力。数据库结合多模态大模型的能力,实现在数据库中对于多模态数据的查询和分析,一些可能的场景包括:图像识别与分类:根据特定的图像,识别出图片中的对象。比如用户上传了一些餐食的图片,识别出这些图片中包含了哪些食物,并计算出所有食物的卡路里。第四部分:Data+AI 方案实践 140 图像到文本检索:也就是根据给定的图像,从一堆文字中找出最匹配的描

    220、述。这种技术在搜索商品图片时特别有用,可以从图片中找出相关的商品评论。基于文本的图像检索(图像搜索):根据用户详细描述的文本,检索出与文本最相近的图片。这不仅对于用户检索商品图片很有用,对于企业内部查找文档和图片也同样重要。4.2 最佳实践 4.2.1 技术实现 PolarDB PolarDB PostgreSQL 版(下文简称为 PolarDB)是一款阿里云自主研发的云原生关系型数据库产品,100%兼容 PostgreSQL,高度兼容 Oracle 语法;采用基于 Shared-Storage 的存储计算分离架构,具有极致弹性、毫秒级延迟、HTAP 的能力和高可靠、高可用、弹性扩展等企业级数

    221、据库特性。同时,PolarDB 具有大规模并行计算能力,可以应对 OLTP 与 OLAP 混合负载。PolarDB 具备 POLAR_AI 模型服务调用插件,支持使用 SQL 的方式调用模型服务,不需要拥有机器学习经验,不需要拷贝移动数据,不需要学习新的单独的工具,就可以将 AI/ML 的能力添加到数据库中。PolarDB 从底层直接调用模型服务,不经过应用程序层,因此访问延迟低、性能优、吞吐大、安全高,也不会影响到数据库的性能。Embedding 中文可译为嵌入或嵌入式表示,是机器学习和自然语言处理领域中的一个重要概念。它是指将高维、稀疏的特征向量(如词典中的词语、图像像素点等)转换为低维、

    222、密集的连续向量空间中的向量表示的过程。第四部分:Data+AI 方案实践 141 CLIP CLIP 是 OpenAI 在 2021 年发布的一种用于图像和文本联合表示的 AI 模型。其核心思想是通过对比学习来预训练一个模型,使其能够理解图像和文本之间的关系。CLIP使用大规模的图像-文本对数据集进行预训练,例如从互联网上收集的 4 亿个图像-文本对,这些数据集包含了丰富的图像和对应的描述文本,使得模型能够学习到广泛的视觉概念和语言表达。CLIP 通过对比学习来训练模型。具体来说,对于一个批次中的每个图像-文本对,模型会计算图像和文本的特征向量,并使用对比损失函数来优化模型参数。对比损失函数的

    223、目标是使得匹配的图像-文本对的特征向量尽可能接近,而不匹配的图像-文本对的特征向量尽可能远离。4.2.2 查询流程 主要的查询步骤包含以下步骤:第四部分:Data+AI 方案实践 142 1)客户端将 AI 相关的 SQL 发送给 PolarDB 2)PolarDB 从 OSS 中获取要查询的图片数据,进行重采样和编码操作 3)PolarDB 把编码后的数据发送给 CLIP 模型服务 4)CLIP 模型服务进行推理后,将结果进行返回 5)PolarDB 将从服务获取的结果转换为数据库类型,并返回给客户端 4.2.3 建议配置 为了得到良好的体验,建议使用以下配置:项目 推荐配置 PolarDB

    224、 版本 标准版 兼容 PostgreSQL 14 CPU 16 Core 内存 64 GB 磁盘 100GB(AUTOPL)版本=14.13.28.0(20241230 发布)4.2.4 实战步骤 本文以自动驾驶的图片数据为例,介绍如何使用 POLAR AI 的能力进行多模态相似性的检索(文搜图,图搜图)。自动驾驶数据使用的是加州大学伯克利分校发布的 BDD100K 数据集,数据可从此处下载。第四部分:Data+AI 方案实践 143 部署 CLIP 模型服务 CLIP 模型以及衍生模型服务由多种方式进行部署,本教程为了简便起见采用了 CLIP-as-service 作为 CLIP 模型服务。

    225、CLIP-as-service 支持多种部署形态,多种 CLIP 模型以及提供 HTTP,gPRC 等访问协议。CLIP-as-service 部署非常简单:pip install clip-client python-m clip_server 即可启动模型服务。注意:Polar AI 需要使用 HTTP 接口,因此需要允许 HTTP 请求,配置参见 YAML config章节 CLIP-as-service 支持多种 CLIP 模型,运行环境以及输出的向量维度不相同,配置参见 Model support 章节 部署完成后可通过 curl-X POST http:/0.0.0.0:51000

    226、/post -H Content-Type:application/json -d data:text:First do it 来对 http 服务进行测试。从文档可知,CLIP-as-service 的请求数据格式分为两种,文本类型为:data:text:First do it 第四部分:Data+AI 方案实践 144 图片类型支持 base64 编码的图片以及基于 uri 的访问模式:data:blob:base64_string data:uri:https:/clip-as-servie/static/test.jpg 其中图片类型需要转为 base64 编码且不带 mime 类型信

    227、息。返回的结果格式为:header:requestId:8b1f4b419bc54e95abxxxxxxx,status:null,execEndpoint:/,targetExecutor:,parameters:null,routes:executor:gateway,startTime:2022-04-01T15:24:28.267003+00:00,endTime:2022-04-01T15:24:28.328868+00:00,status:null,executor:clip_t,startTime:2022-04-01T15:24:28.267189+00:00,endTime:

    228、2022-04-01T15:24:28.328748+00:00,status:null,data:id:b15331b8281ffde1e9f.,parent_id:null,granularity:null,adjacency:null,blob:null,tensor:null,mime_type:text/plain,text:hello,world!,weight:null,uri:null,tags:null,offset:null,location:null,embedding:-0.022064208984375,0.1044921875,.,-0.1363525390625,

    229、-0.447509765625,modality:null,evaluations:null,scores:null,chunks:null,matches:null embedding 包含在 embedding 这个键值中。数据库准备 创建扩展 创建 POLAR_AI 扩展 CREATE EXTENSION POLAR_AI WITH SCHEMA PUBLIC;set search_path=$user,public,polar_ai;第四部分:Data+AI 方案实践 145 创建模型 一个自定义的模型包含输入,输出以及用户使用的三个函数 输入函数 根据文档,可以定义出相应的输入和输出

    230、函数:文本类型的多模态 embedding -此处输入一个文本串 CREATE OR REPLACE FUNCTION clip_text_embedding_in(model text,setence text)RETURNS jsonb LANGUAGE plpgsql AS$function$BEGIN RETURN(data:text:|setence|):jsonb;END;$function$;图像类型的多模态 embedding 函数涉及到以下三个函数 ai_loadfile 从 OSS 上读取一个文件,以 bytea 的方式进行返回 ai_resizeimage 将图片从采样为

    231、指定的大小 ai_imageasbase64 将图片进行 base64 编码,返回出编码串 此处输入的参数为一个存储在 oss 上的图像文件路径,数据库首先会从 oss 上读取该文件;由于原始的图片分辨率较高,而模型最终需要转换为 336*336 的分辨率,因此将原始图像转换为 336*336 分辨率后降低数据传输量,提升推理性能;最后把重采样后的图片转为 base64 编码。第四部分:Data+AI 方案实践 146-图片类型 CREATE OR REPLACE FUNCTION clip_image_embedding_in(model text,image_path text)RETUR

    232、NS jsonb LANGUAGE plpgsql AS$function$DECLARE url text;BEGIN url=oss:/:/|$2;RETURN(data:blob:|ai_imageasbase64(ai_resizeimage(ai_loadfile(url),336,336),false)|):jsonb;END;$function$;输出函数 输出函数对于文本和图片类型一致,从返回的结果中提取 embedding CREATE OR REPLACE FUNCTION clip_embedding_out(model_id text,response_json jso

    233、nb)RETURNS jsonb AS$select(response_json)-data):jsonb-0):jsonb)-embedding):jsonb as result$LANGUAGE sql IMMUTABLE;创建模型 创建一个自定义的模型,分别定义文本和图片的 embedding 模型 -文本模式 SELECT polar_ai.ai_createmodel(embedding/clip_text,-模型 id http:/10.10.1.x:51000/post,-访问地址 other,-模型提供商 第四部分:Data+AI 方案实践 147 embedding,-模型类

    234、别 clip,-模型名称 author_type:token,token:my_token,-认证信息 NULL,-header 函数 clip_text_embedding_in:regproc,-输入函数 clip_embedding_out:regproc-输出函数);-图片模式 SELECT polar_ai.ai_createmodel(embedding/clip_image,-模型 id http:/10.10.1.x:51000/post,-访问地址 other,-模型提供商 embedding,-模型类别 clip,-模型名称 author_type:token,token:

    235、my_token,-认证信息 NULL,-header 函数 clip_image_embedding_in:regproc,-输入函数 clip_embedding_out:regproc-输出函数);注意:url 地址与 token 需要替换为 clip-as-service 部署时记录的信息 创建用户函数 创建用户使用的函数,分别定义文本和图片两种类型的函数。其中图片类型的函数输入为 oss 的路径地址。-输入文本生成 embedding CREATE OR REPLACE FUNCTION clip_text_embedding(text text)RETURNS float4 AS$

    236、select array(select json_array_elements_text(polar_ai.AI_CALLMODEL(embedding/clip_text,$1):json):float4 as result$LANGUAGE sql IMMUTABLE;-输入图片路径生成 embedding 第四部分:Data+AI 方案实践 148 CREATE OR REPLACE FUNCTION clip_image_embedding(text text)RETURNS float4 AS$select array(select json_array_elements_text(

    237、ganos_ai.AI_CALLMODEL(embedding/clip_image,$1):json):float4 as result$LANGUAGE sql IMMUTABLE;函数返回的结果是基于 float4 数组的 embedding。数据准备 数据上传 使用 oss 工具将 BDD100K 数据解压后进行上传,图片放置到统一目录下。数据库建表 创建如下表结构用于保存文件路径以及对应 embedding CREATE TABLE images(id serial,url text,-图片路径 embedding vector(512),-图片向量);其中 url 记录了图像的相对

    238、路径,如 test_data/bdd100k/images/10k/train/0004a4c0-d4dff0ad.jpg 数据写入 根据数据的目录结构向数据库中插入数据,如:INSERT INTO images(url)VALUES(test_data/bdd100k/images/10k/train/0004a4c0-d4dff0ad.jpg);第四部分:Data+AI 方案实践 149 创建 embedding 路径插入完成后,可以使用前一步创建的图片向量生成函数进行图片 embedding 的创建:UPDATE imagesSET embedding=clip_image_embedd

    239、ing(url):vector(512);创建索引 图片 embedding 创建完成后,可对 embedding 进行索引创建,加速后续的查询 CREATE INDEX ON images USING hnsw(embedding vector_l2_ops);对于向量索引的更多用法参见 PGVector。多模态检索 当完成以上准备工作后,就能进行以下的检索查询:文搜图 使用一段文本,检索与该文本最相近的图片。例如:使用关键词 white truck in a snow day,找出包含以上关键词最相关的 10张图片 SELECT id,url FROM images ORDER BY em

    240、bedding clip_text_embedding(white truck in a snow day):vector(512)DESC limit 10;使用附录中的 notebook 可以预览效果,查看动图:https:/ 第四部分:Data+AI 方案实践 150 检索还可以结合其他的条件过滤,使用的方法与普通的 SQL 条件查询一致,可以与 b树,全文检索,时空等多模态检索进行组合。例如:使用关键词 black car in the night,找出 id 1000 中包含以上关键词最相关的 10 张图片 SELECT id,url FROM images WHERE id 100

    241、0 ORDER BY embedding clip_text_embedding(black car in the night):vector(512)DES Climit 10;图搜图 给定一张图片,检索与该图片在语义上最类似的图片。例如:找出与 id=5560 图片语义上最相似的 10 张图片 SELECT id,url FROM images ORDER BY embedding (SELECT clip_image_embedding(url):vector(512):vector(512)FROM images WHERE id=5560)DESC limit 10;注意:CLIP

    242、从本质上搭建的文本和图片之间的关系,用图片检索图片效果不一定最佳。如有以图搜图的需求,可使用 RESNET 或 VGG 模型,除了模型部署的步骤,其他操作流程与本文一致。4.3 总结 PolarDB POLAR_AI 模型服务具备灵活的特性,通过调用 CLIP 多模态模型服务,定制 SQL 实现多模态数据的 embedding 生成和相似性检索功能。使用时仅使用简单第四部分:Data+AI 方案实践 151 的 SQL 语句,不需要专业的 AI/ML 背景,不需要移动数据,就满足文搜图和图搜图的业务需求。4.4 附录 图片预览代码 import psycopg import io from P

    243、IL import Image import matplotlib.pyplot as plt def connect():try:conn=psycopg2.connect(dbname=dbname,#数据库名 host=localhost,#数据库地址,如果是本地就是localhost port=5432#数据库端口,默认是 5432 )except(Exception,psycopg2.Error)as error:print(连接到 PostgreSQL 数据库时发生错误:,error)return conn def exec_sql(sql):connection=connect(

    244、)try:#创建游标对象,用来执行 SQL 命令 cursor=connection.cursor()cursor.execute(sql)rows=cursor.fetchall();image=None for row in rows:第四部分:Data+AI 方案实践 152 print(str(row0)+:+row2)image=Image.open(io.BytesIO(row1)plt.imshow(image)plt.axis(off)plt.show()cursor.close()except(Exception,psycopg2.Error)as error:print(e

    245、rror)cursor.close()connection.close()my_loadfile 函数需要预先在数据库内创建,用于从 oss 上读取文件并缩放大小到 512 便于显示 CREATE OR REPLACE FUNCTION my_loadfile(text)RETURNS bytea AS$SELECT AI_RESIZEIMAGE(AI_LOADFILE(OSS:/:/|$1),512,0)$LANGUAGE sql IMMUTABLE;#文搜图 sql=SELECT id,my_loadfile(url),url FROM images WHERE url ORDER BY

    246、embedding clip_text_embedding(white truck in a snow day):vector(512)limit 5 exec_sql(sql)第四部分:Data+AI 方案实践 153 5.GraphRAG:基于 PolarDB+通义干问+LangChain的知识图谱+大模型最佳实践 5.1 业务场景 5.1.1 知识图谱 知识图谱(KG)是谷歌提出的一种知识表示形式,它通过互联的节点和实体捕捉知识,以结构化的形式表示关系和信息。知识图谱具有以下优势:结构化信息:知识图谱将信息以节点(实体)和边(关系)的形式组织,使得复杂信息结构化,便于存储和查询。语义理解

    247、:通过明确的关系定义,知识图谱可以帮助系统更好地理解信息之间的语义关系,提升信息检索和自然语言处理的效果。知识关联性:知识图谱能够将不同的知识点联系起来,形成更丰富的知识网络,帮助用户发现隐藏的关联。支持推理:基于知识图谱,系统可以进行逻辑推理,从已知的信息推导出新的信息,提高智能应用的能力。可视化:知识图谱通常可以通过图形化的方式展示,使得复杂关系一目了然,便于用户理解和分析。知识图谱被广泛应用于金融风控,企业知识管理以及社交网络分析等多种业务场景中。第四部分:Data+AI 方案实践 154 5.1.2 RAG 检索增强生成(Retrieval Augemented Generation,

    248、RAG)作为一种强大的技术,它结合了信息检索与生成模型的创新方法,用来解决大语言模型(LLM)的局限性问题。RAG 通过利用从各种来源检索到的相关数据来增强 LLM 提示,来实现更为准确和上下文相关的文本生成。RAG 系统的准确性在很大程度上依赖于它们获取相关、可验证信息的能力。RAG 中信息检索通常使用诸如关键词匹配或语义相似性等技术来实现的。在语义相似性中,例如,数据被表示为由 AI 嵌入模型生成的数值向量,这些向量试图捕捉其含义。前提是,相似的向量在向量空间中相互靠近,然后通过近似最近邻(ANN)搜第四部分:Data+AI 方案实践 155 索获取相似的信息;关键词匹配则更为简单,使用准

    249、确的关键词匹配来查找信息,通常使用诸如全文检索等算法。但是,基于关键词或相似性搜索构建的简单 RAG 系统在需要推理的复杂查询中表现不佳。简单的相似度的检索无法对实体之间的关系进行推理和判断。5.1.3 GraphRAG GraphRAG 是一种 新的 RAG 系统,它结合了知识图谱和大型语言模型(LLM)的优势。在 GraphRAG 中,知识图谱作为事实信息的结构化资源库,LLM 将自然语言转换为知识图谱的查询信息,从图谱中检索相关知识,并生成针对问题的回答。GraphRAG 解决了上述许多局限性,因为它能够对数据进行推理。GraphRAG 具有以下优势:改善信息检索。通过理解实体之间的基本

    250、联系,GraphRAG 可以更准确地识别相关 信息。增强上下文理解。知识图谱为查询理解和响应生成提供了更丰富的上下文。减少幻觉。通过将响应建立在事实知识上,GraphRAG 可以减轻生成错误信息的风险。5.2 最佳实践 本文以一个开源的股票知识图谱为例,介绍如何使用 PolarDB+通义千问+LangChain 搭建一个 GraphRAG 系统。第四部分:Data+AI 方案实践 156 5.2.1 技术实现 PolarDB PolarDB PostgreSQL 版(下文简称为 PolarDB)是一款阿里云自主研发的云原生关系型数据库产品,100%兼容 PostgreSQL,高度兼容 Orac

    251、le 语法;采用基于 Shared-Storage 的存储计算分离架构,具有极致弹性、毫秒级延迟、HTAP 的能力和高可靠、高可用、弹性扩展等企业级数据库特性。同时,PolarDB 具有大规模并行计算能力,可以应对 OLTP 与 OLAP 混合负载。PolarDB 具备高度兼容 apache AGE 的图引擎,支持对知识图谱的存储和查询检索。同时 PolarDB 具备 pgvector 增强插件,支持对向量数据的存储与检索。通义千问 通义千问是由阿里云自主研发的大语言模型,用于理解和分析用户输入的自然语言,在不同领域和任务为用户提供服务和帮助。在 RAG 场景中,通义千问基于用户的查询或上下文

    252、,结合用户兴趣或历史交互相关的信息,生成更加个性化的回复。LangChain LangChain 是一个开源的工具包和框架,旨在简化和加速基于语言模型的应用程序开发。LangChain 的核心在于将强大的语言模型(如 OpenAI 的 GPT 系列、阿里云的通义千问等)与实际应用结合起来,帮助开发者构建诸如聊天机器人、文本生成、知识管理、代码辅助等多种自然语言处理(NLP)相关应用。LangChain 中实现了 apache age 图插件和 pgvector 插件的支持,可以支持对于知识图谱和向量两种检索方式。第四部分:Data+AI 方案实践 157 5.2.2 查询流程 主要的查询流程如

    253、下图所示:用户提出相关问题 RAG 系统在知识图谱中检索相关的答案 RAG 系统把知识图谱的检索结果作为向量检索的相关信息,用向量相似性检索的方式检索相关的文档 RAG 系统将多种结果输入给大语言模型 大语言模型根据输入的信息组织问答结果 RAG 系统将问答结果返回给用户 第四部分:Data+AI 方案实践 158 5.2.3 建议配置 为了得到良好的体验,建议使用以下配置:项目 推荐配置 PolarDB 版本 标准版 兼容 PostgreSQL 14 CPU 16 Core 内存 64 GB 磁盘 100GB(AUTOPL)版本 2.0.14.23.1 5.2.4 实战步骤 准备工作 环境准

    254、备 1)申请阿里云灵积模型 api key(如已有 key 可略过此步骤)进入阿里云官网,注册或登录 搜索灵积模型服务,开通服务 进入产品控制台,创建 api key 该 api key 是访问灵积模型服务的凭证,需要妥善保管 2)环境中安装相关的 python 包 第四部分:Data+AI 方案实践 159 pip install langchain#安装 langchain 环境 pip install langchain-community#安装第三方集成,就是各种大语言模型 pip install python-dotenv#加载工具 pip install dashscope#灵积模

    255、型服务 pip install psycopg#数据库连接 如遇到一些安装失败的问题,需要升级 python 版本 3.7 3)修改 age_graph.py 文件 age_graph.py 位于/site-packages/langchain_community/graphs/age_graph.py 下,需要修改两处地方:LOAD age;sql 语句修改为 select*from ag_catalog.get_cypher_keywords()limit 0;确保 PolarDB 可以正确加载对应的扩展 MATCH()-e-()RETURN collect(distinct label(

    256、e)as labels 修改 MATCH()-e-()RETURN collect(distinct label(e)as labels 加速对图的 schema的获取 数据库准备 创建 AGE 插件 AGE是一个为 PostgreSQL系列数据库打造的扩展,旨在增强其处理图数据的能力。AGE 旨在结合关系型数据库与图数据库的优势,提供一个高性能、灵活且易于扩展的解决方案。create extension age;第四部分:Data+AI 方案实践 160 创建 vector 插件 Vector 是一个 PostgreSQL 的扩展插件,用于高效地处理和查询高维向量数据。vector 插件提供

    257、了高维向量的存储以及基于向量的近似最近邻(Approximate Nearest Neighbor,ANN)搜索功能。create extension vector;数据入库 将数据进行下载。数据分为两部分,一部分为图数据(data/import 目录),包含了人员(Executive),产业(Industry),股票(Stock),概念(Concept)等点以及人员-股票,股票-概念,股票-产业之间的关联关系,这部分数据以图的方式存储到 PolarDB 中。另一部分为每个股票的介绍信息(data/stockpage),原始数据为股票的网页信息,切分后以向量的方式存储到数据库中以提供进一步的信

    258、息。第四部分:Data+AI 方案实践 161 图数据 创建一个名为 stock_graph 的图用于存储该知识图谱 SELECT create_graph(stock_graph);附录 1 中脚本可以将数据转换为 Cypher SQL 脚本,配合客户端工具,如 psql 等可完成数据导入。转换后的 sql 脚本示意如下:SELECT create_vlabel(stock_graph,person);SELECT*FROM cypher(stock_graph,$CREATE(:person person_id:dddbd3ad0f2e3fca80da88296298bb51,name:杜

    259、玉岱,gender:男,age:58)$)as(n agtype);SELECT*FROM cypher(stock_graph,$CREATE(:person person_id:2f867939e123f10437a15a127799248e,name:延万华,gender:男,age:45)$)as(n agtype);SELECT*FROM cypher(stock_graph,$CREATE(:person person_id:e68b3ae7a003c60cd9d50e371cdb3529,name:宋军,gender:男,age:48)$)as(n agtype);.SELECT

    260、*FROM cypher(stock_graph,$MATCH(a:person),(b:stock)WHERE a.person_id=dddbd3ad0f2e3fca80da88296298bb51 AND b.stock_id=601058 CREATE(a)-e:employ_of jobs:董事长/董事-(b)RETURN e$)as(e agtype);SELECT*FROM cypher(stock_graph,$MATCH(a:person),(b:stock)WHERE a.person_id=2f867939e123f10437a15a127799248e AND b.st

    261、ock_id=601058 CREATE(a)-e:employ_of jobs:副董事长/董事-(b)RETURN e$)as(e agtype);第四部分:Data+AI 方案实践 162 SELECT*FROM cypher(stock_graph,$MATCH(a:person),(b:stock)WHERE a.person_id=e68b3ae7a003c60cd9d50e371cdb3529 AND b.stock_id=601058 CREATE(a)-e:employ_of jobs:董事-(b)RETURN e$)as(e agtype);向量数据 文本信息按照一定规则切割

    262、后,以向量的形式存储到数据库中。切分采用 langchain的 RecursiveCharacterTextSplitter 切分器,实际使用中可根据需要进行切分,并使用通义大模型转换为向量。附录 2 中脚本可实现向量数据入库过程。安装使用到的 python 包 pip install BeautifulSoup pip install bs4 数据库中创建了对应的数据表 docs 用于记录文本以及对应的文本向量。CREATE TABLE IF NOT EXISTS docs(id bigserial primary key,title text,content text,-文本内容 toke

    263、ns integer,embedding vector(1536)-向量 );在向量上创建索引,此处使用 hnsw 索引,并使用欧式距离(l2 距离)进行查询。(索引类型和距离计算方式可根据实际需要进行选择)CREATE INDEX ON docs USING hnsw(embedding vector_l2_ops);第四部分:Data+AI 方案实践 163 查询 以问题“李士祎关连的股票信息?”为例进行查询,并对于单独使用向量检索、图检索以及图加向量检索的结果进行对比。单独使用向量检索 定义大语言模型为通义千问,DASHSCOPE_API_KEY 从环境变量中读取 import os D

    264、ASHSCOPE_API_KEY=os.environDASHSCOPE_API_KEY from langchain.embeddings import DashScopeEmbeddings embeddings=DashScopeEmbeddings(model=text-embedding-v1,dashscope_api_key=DASHSCOPE_API_KEY)from langchain_community.llms import Tongyi llm_tongyi=Tongyi(temperature=1)RetrievalQA 是 LangChain 中封装的一个 chai

    265、n,可以实现基于本地知识库的问答。问答大语言模型过程中需要输入相关文档,来进行答案的生成。这里定义了一个 Retriever,通过向量检索的方式来获取相似度最大的 5 篇文档:from langchain.schema import Document from langchain_core.retrievers import BaseRetriever class CustomRetriever(BaseRetriever):def _init_(self):super()._init_()def _get_relevant_documents(self,query:str)-listDocu

    266、ment:relevant_docs=cur=conn.cursor()#Get the top 5 most similar documents using the KNN operator 第四部分:Data+AI 方案实践 164 cur.execute(SELECT content FROM docs ORDER BY embedding LIMIT 5.format(embeddings.embed_query(query)top3_docs=cur.fetchall()cur.close()for doc in top3_docs:relevant_docs.append(Docu

    267、ment(page_content=doc0)return relevant_docs custom_retriever=CustomRetriever()进行问答:from langchain.chains import RetrievalQA#创建 RetrievalQA qa_chain=RetrievalQA.from_chain_type(llm=llm_tongyi,retriever=custom_retriever,verbose=True)response=qa_chain.invoke(李士祎关连的股票信息?)print(response)问答结果如下:根据提供的信息,没有

    268、找到与李士祎相关的股票信息。请提供更多的信息以便我能更准确地回答您的问题。如果无法提供更多细节,那么我将无法给出具体的答案。可见查询结果无法获取正确的答案。从执行过程中可以看到,直接执行向量相似度的执行结果如下:第四部分:Data+AI 方案实践 165 这是因为涉及到的网页材料中与人名关联度较低,主要提供的是上市公司的相关信息,两者关联性不大,因此向量检索模式无法获取答案。单独使用图搜索 LangChain 中图引擎实现了对于 AGE 的支持,使用时需要先定义一个图对象,并获取图的模式。这里图的模式是指点和边的类型信息,用于生产图的查询语言。from langchain.chains imp

    269、ort GraphCypherQAChain from langchain_community.graphs.age_graph import AGEGraph conf=database:xxx,user:xxx,host:pc-,port:1921,password:xxx,graph=AGEGraph(graph_name=stock_graph,conf=conf)graph.refresh_schema()GraphCypherQAChain 是 LangChain 中封装的一个 chain,可以将自然语言转为图查询,实现本地图谱的问答。graphchain=GraphCypherQ

    270、AChain.from_llm(llm_tongyi,graph=graph,第四部分:Data+AI 方案实践 166 verbose=True,top_k=5,)response=graphchain.invoke(李士祎关连的股票信息?)print(response)问答结果如下:根据提供的信息,这里有关于股票的信息:股票名称为酒鬼酒,代码为 799。但是,没有直接提到李士祎相关的具体股票信息。所以,基于给出的数据,我们不知道李士祎具体的关联股票详情。可见基于图的查询虽然查到了李士祎关联的股票为酒鬼酒,且股票代码为 799,但是由于图中并没有存储酒鬼酒的信息,因此也无法给出具体的信息。从

    271、执行的过程中可以看到,langchain 生成了 Cypher 语句并在知识图谱中进行了执行,查询到了酒鬼酒的名称以及股票代码。Generated Cypher:MATCH(p:person)-r:employ_of-(s:stock)WHERE p.name=李士祎 RETURN s.name,s.code Full Context:name:酒鬼酒,code:799 注意:如果 langchain 中生成的 Cypher 不正确,还可以使用 prompt 的方式给langchain 提供示例 Cypher 以帮助生成。当然,也可以自定义一个 Retriever,通过连接数据库的方式执行自定

    272、义的 Cypher 以获得更加准确的回答。图+向量联合搜索增强 以上两种查询的结果都不尽人意,因为向量检索和知识图谱都只存储了独立的内容,第四部分:Data+AI 方案实践 167 无法独自生成问答结果。将以上两种查询方式进行结合,把知识图谱的查询结果作为向量查询的输入信息,通过向量查询获取相关文档后,由 LLM 最终生成更加完整的问答结果。此处定义了一个 prompt 的模版,把知识图谱的查询结果作为向量检索的输入,来获得更为准确的问答结果。from langchain_core.prompts.prompt import PromptTemplate from langchain.chai

    273、ns import LLMChain graphchain=GraphCypherQAChain.from_llm(llm_tongyi,graph=graph,verbose=True,top_k=5,return_direct=True,#此处直接返回查询结果,不需要 llm 来组织回答)template=Task:Generate more detailed information about the raw answer.The question is:question the raw answer from knowledge graph in format:answer pleas

    274、e give more detailed answer about raw answer prompt=PromptTemplate(input_variables=question,answer,template=template)llm_chain=LLMChain(llm=llm_tongyi,prompt=prompt)def dynamic_query(question):#first round use graph cypher qa answer=graphchain.invoke(question)第四部分:Data+AI 方案实践 168 if answerresult=:r

    275、eturn 没有找到答案#格式化输入提示 formatted_prompt=prompt.format(question=question,answer=answerresult0)answer=qa_chain.invoke(formatted_prompt)return answer response=dynamic_query(李士祎关连的股票信息?)print(responseresult)问答结果如下:根据提供的信息,与李士祎相关的股票“酒鬼酒”的详细信息如下:-*公司名称*:酒鬼酒股份有限公司-*股票代码*:000799-*所属地域*:湖南省-*英文名称*:Jiugui Liquo

    276、r Co.,Ltd.-*公司网址*:-*主营业务*:从事生产、销售曲酒系列产品。-*主要产品*:-酒鬼系列 -湘泉系列 -内参系列-*控股股东及实际控制人*:中皇有限公司(持有酒鬼酒股份有限公司股份比例:31.00%)请注意,以上信息是基于所提供的上下文得出的结论,如果需要更详细的财务数据或其他具体信息,请参考官方公告或相关财经网站。该问答结果不但准确地回答出相关的股票为“酒鬼酒”,并且给出了酒鬼酒的相关信息。相比只使用向量查询和图查询,该结果更加符合预期,满足实际应用需求。从执行过程中可以看到,当知识图谱中检索了相应的结果后,问题转换为:第四部分:Data+AI 方案实践 169 Task:

    277、Generate more detailed information about the raw answer.The question is:李士祎关连的股票信息?the raw answer from knowledge graph in format:name_0:酒鬼酒,code:799 please give more detailed answer about raw answer 在向量检索中包含了酒鬼酒的相关信息,使得向量检索的结果更加准确:5.3 总结 如何有效利用私有数据一直是 RAG 系统中面临的重大挑战,其中知识图谱是企业私有数据的重要组成部分。得益于 PolarDB

    278、的可扩展性,PolarDB 数据库中可同时存储向量数据和图谱数据,进行统一的存储和检索。同时相较于传统的向量检索,PolarDB中可将图检索与向量检索相结合,提供更高质量的 RAG 问答结果,满足应用需求。5.4 附录 5.4.1 附录 1 import csv import os def remove_after_colon(input_string):#查找冒号的位置 colon_index=input_string.find(:)#如果找到冒号,返回冒号之前的内容;否则返回原字符串 if colon_index!=-1:第四部分:Data+AI 方案实践 170 return input

    279、_string:colon_index return input_string def convert_vertex_csv(file_path,graph,label):#create vlabel print(-)print(-Create vlabel)print(SELECT create_vlabel(,);.format(graph,label)with open(file_path,r)as csvfile:reader=csv.reader(csvfile,delimiter=,)header=next(reader)for row in reader:p=for h in h

    280、eader:h_name=h.lower()if(h_name is None or h_name.startswith(:):continue;h_name=remove_after_colon(h_name)if p!=:p+=,else:p+=p+=:.format(h_name,rowheader.index(h).strip()if p!=:p+=print(SELECT*FROM cypher(,$CREATE(:)$)as(n agtype);.format(graph,label,p)def convert_edge_csv(file_path,graph,from_type,

    281、to_type):file_name=os.path.splitext(os.path.basename(file_path)0.lower()with open(file_path,r)as csvfile:第四部分:Data+AI 方案实践 171 reader=csv.reader(csvfile,delimiter=,)header=next(reader)for row in reader:p=REL_TYPE=RELTYPE START_ID=END_ID=for h in header:h_name=h.lower()if(h_name is None):continue;eli

    282、f h_name.startswith(:start_id):START_ID=rowheader.index(h).strip()continue elif h_name.startswith(:end_id):END_ID=rowheader.index(h).strip()continue elif h_name.startswith(:type):REL_TYPE=rowheader.index(h).strip()continue if p!=:p+=,else:p+=p+=:.format(h.lower(),rowheader.index(h).strip()if p!=:p+=

    283、print(SELECT*FROM cypher(0,$MATCH(a:1),(b:2)WHERE a.1_id=3 AND b.2_id=4 CREATE(a)-e:6 5-(b)RETURN e$)as(e agtype);.format(graph,from_type,to_type,START_ID,END_ID,p,REL_TYPE)第四部分:Data+AI 方案实践 172#convert vertex convert_vertex_csv(data/import/executive.csv,stock_graph,person)#convert edge convert_edge

    284、_csv(data/import/stock_concept.csv,stock_graph,stock,concept)5.4.2 附录 2 from langchain.text_splitter import RecursiveCharacterTextSplitter from bs4 import BeautifulSoup import os from langchain_community.embeddings import DashScopeEmbeddings import psycopg connection=dbname=xxx user=xxx host=xxx por

    285、t=1921 password=xxxx#DASHSCOPE_API_KEY 从环境变量中读取 DASHSCOPE_API_KEY=os.environDASHSCOPE_API_KEY embeddings=DashScopeEmbeddings(model=text-embedding-v1,dashscope_api_key=DASHSCOPE_API_KEY)conn=psycopg.connect(connection)cur=conn.cursor()table_create_command=CREATE TABLE IF NOT EXISTS docs(id bigserial

    286、primary key,title text,content text,tokens integer,embedding vector(1536);cur.execute(table_create_command)cur.close()mit()def split_doc(file):第四部分:Data+AI 方案实践 173 html_content=None with open(file,r,encoding=GBK)as f:html_content=f.read()soup=BeautifulSoup(html_content,html.parser)text_content=soup

    287、.get_text(strip=True)#去掉多余的空白字符 text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000,chunk_overlap=200)chunks=text_splitter.split_text(text_content)for chunk in chunks:cur=conn.cursor()sql=INSERT INTO docs(title,content,tokens,embedding)VALUES(,).format(os.path.basename(file),chunk.replace(,

    288、),len(chunk),embeddings.embed_query(chunk)cur.execute(sql)cur.close()mit()#打印每个切分后的文档 def get_all_files(directory):file_paths=for root,dirs,files in os.walk(directory):for file in files:file_paths.append(os.path.join(root,file)return file_paths directory_path=/path/stockpage/all_files=get_all_files(

    289、directory_path)for file in all_files:print(file)if file.endswith(.html):split_doc(file)第五部分:Data+AI 产品及权益 174 第五部分:Data+AI 产品及权益 1.DMS+X 构建 Gen-AI 时代的一站式 Data+AI 平台 DMS+X 依托于 OneMeta+OneOps,助力瑶池数据库用户实现在大模型时代下的Gen-AI 能力,构建企业级一站式 Data+AI 数据管理平台 点击此处,查看视频。第五部分:Data+AI 产品及权益 175 2.免费部署 Dify+DeepSeek on

    290、DMS 随着人工智能技术的飞速发展,企业如何高效、低成本地接入 AI 能力,成为了数字化转型的关键。2025 年 2 月 14 日起,阿里云 DMS 携手 Dify+DeepSeek,为您准备了一份特别的心动福利:限时免费试用 Dify on DMS 整整一个月!(*私域部署DeepSeek 单独收费)。这不仅是一次技术的升级,更是企业迈向 Data+AI 时代的绝佳机会。2.1 什么是 Dify+DeepSeek on DMS?Dify on DMS 是阿里云瑶池数据库基于 Data+AI 驱动的数据管理平台 DMS 推出的一站式 AI 应用部署解决方案。通过阿里云 DMS(Data Man

    291、agement Service),您可以轻松地将 Dify 应用部署到阿里云上,并与 DeepSeek、通义大模型、瑶池数据库生态等无缝融合。无论是数据处理、模型训练,还是 AI 应用的快速上线,DMS 都能为您提供低门槛、开箱即用的体验。此外,DMS+X(瑶池数据库)平台支持私域部署 DeepSeek 大模型,Dify+DeepSeek模型在同一专有网络(VPC)内部署,通过客户自购资源部署和专有网络联通使用,数据不出域,安全有保障,服务更稳定!2.2 为什么选择 Dify+DeepSeek on DMS?1、低门槛,开箱即用 Dify on DMS 只需简单几步操作即可一键部署,并与 DM

    292、S Data 能力无缝衔接。无论您是技术专家还是初学者,都可以通过简单的操作,快速部署和管理 AI 应用。没第五部分:Data+AI 产品及权益 176 有复杂的配置,开箱即用,极大地降低了 AI 应用构建的门槛。2、全方位生态融合 除通义系列模型深度融合外,积极拥抱开源模型,支持 DeepSeek 模型私有化部署,构建企业级安全与稳定的 Data+AI 平台。与瑶池数据库生态深度融合,提供高性能向量引擎和 RAG 服务,Dify on DMS 能够为您提供更加智能、高效的数据处理和分析能力,助力企业实现数据驱动的智能化转型。与阿里生态融合,钉钉 AI 助理,高德时空大模型,夸克搜索等全方位生

    293、态能力无缝衔接,一站式企业 AI 平台。3、一键开启企业 Data+AI 时代 Data+AI 是未来企业智能化转型的核心方向。通过将数据与 AI 技术深度结合,企业能够从海量数据中挖掘出更多的商业价值,实现更精准的决策和更高效的运营。Dify on DMS 为您提供了一键开启 Data+AI 时代的能力,将 AI 与 Data 进行相连,AI 与Data 从未如此接近!2.3 Data+AI 驱动企业智能化转型 当今数据驱动时代,AI 与数据的结合已经成为企业智能化转型的核心。Dify on DMS不仅提供了强大的 LLM 应用构建工具,开源强大的模型,还与阿里云数据库服务深度集成,实现了数

    294、据的高效管理与应用。无论是结构化数据还是非结构化数据,Dify on DMS 都能为您提供全方位的支持,帮助您从数据中挖掘出更多的商业价值,应用场景如下:智能问数:以 Text2SQL 技术为核心实现企业数据资产和报表的交互问答。智能客服:通过自然语言处理技术,实现自动化的客户服务,提升客户满意度。第五部分:Data+AI 产品及权益 177 内容生成:利用生成式 AI 模型,自动生成高质量的内容,节省人力成本。个性化推荐:基于用户行为数据,提供个性化的产品推荐,提升转化率。数据洞察:通过 AI 分析海量数据,发现潜在的业务机会和风险,助力企业决策。2.4 活动内容:限时免费试用,福利价值超两

    295、千元!在本次活动期间,您将有机会免费试用 Dify on DMS 整整一个月!活动涵盖的资源包括:Dify 资源:强大的 LLM 应用开发与管理平台,助您快速构建智能应用。RDS-PG:高性能的关系型数据库,确保数据存储与处理的稳定性。Redis:高性能缓存服务,提升应用响应速度,处理复杂数据和构建实时应用。AnalyticDB-PG:企业级数据仓库,提供高性能数据处理和在线分析能力,助力数据分析与决策。这些资源的组合,不仅能够满足您在 AI 应用开发中的各种需求,更能为您节省超过两千元的成本!活动参与方式:第五部分:Data+AI 产品及权益 178 1)点此登录阿里云账号,提交咨询表单申请

    296、福利。(或登录阿里云 DMS 控制台,点击弹窗下方的【活动咨询】,填写表单。)2)数据库小助手将通过电话或者微信等方式联系您,确认权益。3)确认权益后,回到控制台页面点击弹窗中的【一键开启】,选择对应的数据库规格,即可免费开启 Dify on DMS 的试用。4)活动仅限 50 个名额,先到先得,赶快行动起来,抢占属于您的 AI 未来!第五部分:Data+AI 产品及权益 179 3.从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益 从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI 产品服务与实践。点此了解 Data+AI【方案、权益】

    297、一站通。3.1 前言 GenAI 时代下的数据库发展趋势 阿里云瑶池数据库旨在为客户提供智能化的一站式数据管理平台,帮助客户加速业务数智创新。瑶池数据库目前已全面拥抱向量检索能力,包括云原生数据仓库AnalyticDB、云原生多模数据库 Lindorm、云原生数据库 PolarDB 等数据库都加入了向量的能力,不但支持结构化数据、半结构化数据、多模数据,还有向量数据的检索。另外瑶池数据库还打造了大模型构建的数据智能助手 DMS Copilot。阿里云瑶池数据库将更好的为 AI 服务,与 AI 结合,为用户提供更优质的产品和服务。让我们一起见证科技创新的魅力,共同探索数据库在 AI 时代的无限可

    298、能!3.2 Data+AI 解决方案 为满足企业用户在多云多端环境下对元数据统一管理的需求,促进数据自由流动,阿里云瑶池在2024云栖大会上重磅发布了由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达 40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升 10 倍。第五部分:Data+AI 产品及权益 180 自上线以来,DMS 已服务超过 10 万+企业客户。借助跨引擎、跨实例管理和开发以及数据智能一体化,DMS:OneMeta+OneOps 将帮助企业从分散式数据治理升

    299、级至开放统一数据智能管理,实现革新性的智能 Data Mesh 架构,进而可降低高达 90%的数据管理成本。DMS+PolarDB&AnalyticDB:一站式 DataOps+MLOps 解决方案 点此咨询 方案介绍:该方案支持一站式 In-DB 海量数据特征提取,数据库内置大模型,让 AI距离数据更近,从而实现用户数据内循环不出域,整个过程更加高效、安全。此外,一站式 DataOps+MLOps 方案还为业务提供了模型效果实时反馈和加工的海量日志数仓存储与分析,模型算法能够自主优化迭代。DMS+Lindorm:一站式多模数据解决方案 点此咨询 方案介绍:Lindorm AI 数据平台,支持

    300、宽表、搜索、向量、AI 引擎融合使用,多模互通,通过一张表实现 AI 数据的存储、处理、查询、检索,适合 RAG 和非结构化数据检索等场景。DMS+Lindorm,一站式多模数据解决方案支撑客户构建 AI 智能助手,帮助客户准确理解用户的搜索意图、整合与概述多种信息源,实现精准和全面的信息召回,提升用户交互体验。DMS Copilot:基于阿里云大模型构建的数据智能助手 点此咨询 方案介绍:DMS Copilot 是 DMS 基于阿里云大模型构建的数据智能助手。其结合了 DMS 熟练的数据管理、数据使用能力,可帮助开发、运维、产品、运营、分析师和数据库管理员,更高效、规范地使用和管理数据。第五

    301、部分:Data+AI 产品及权益 181 3.3 Data+AI 客户案例 零跑汽车携手阿里云百炼&AnalyticDB 向量引擎,唤醒新一代智能座舱 零跑汽车已于近日实现对 C10 车型(纯电、增程)完成 OTA 重磅升级,并携手阿里云百炼&云原生数据仓库 AnalyticDB PostgreSQL 向量引擎首次在智能座舱场景中增加“语音大模型”功能,用于闲聊、基础知识问答以及文生图等场景。视野数科联合阿里云 Lindorm 多模数据库推动 AIGC 应用在金融领域落地 视野数科和阿里云 Lindorm 数据库通过联合创新,探索出“技术+数据+场景”的解决方案,构筑面向金融行业以自然语言筛选

    302、企业标的需求为基础设计的 AIGC 应用服务。此次合作的实施,阿里云提供支持通用大模型和多模数据处理的一站式 AI 数据平台 Lindorm 等技术资源,支持知识库的自动化加工及语义检索等,用于构筑 LLM+企业知识库整套解决方案,打造上层 AI 应用的数据基础设施。PolarDB for AI 助力菜鸟实现一站式数据智能 菜鸟是全球电商物流行业领导者,全球跨境电子商务物流提供商,也是中国顶尖的电商综合供应链提供商。此次合作采用了 DB4AI 解决方案,使用 PolarDB 数据库 MLOps 能力来替换原有解决方案。PolarDB for AI 拥有一系列 MLOps 和内置的模型,解决了数

    303、据、特征和模型的割裂状态,通过 SQL 来驱动数据、特征和模型,实现了基于数据库的数据智能的一站式服务。DMS 助力钉钉构建智能问数产品 钉钉基于阿里云 DMS 提供的 NL2SQL 能力,构建了智能问数产品。支持用户使用自然语言以问答的形式进行业务数据查询,自动生成 BI 图表。第五部分:Data+AI 产品及权益 182 3.4 Data+AI 动手实践 基于 AnalyticDB 实现“以文搜图”的高效准确检索 多模态检索在电商场景中扮演重要的角色,是满足用户需求、促成点击交易不可缺少的一环。图文检索场景中,通过自然语言形式的检索,从给定的商品图片池中检索出相关图片,衡量模型多模态理解与

    304、匹配的能力。本方案展示了在实际的电商业务中,通过将电商领域商品图片集合向量化结果存储在向量数据库 AnalyticDB 中,实现“以文搜图”的高效准确检索。基于 AnalyticDB PostgreSQL 搭建百炼产品博士应用 产品博士是基于百炼大模型服务平台搭建的自定义应用,它将云原生数据仓库 AnalyticDB PostgreSQL 版与通义大模型相结合,帮助您快速实现问答服务,提高获取知识的效率。本实践教程介绍云原生数据仓库 AnalyticDB PostgreSQL 版产品博士应用以及如何通过产品博士实现快速检索与生成问答服务。AnalyticDB 与通义千问搭建 AI 智能客服 基

    305、于 RAG 技术的 AI 智能客服能够高效地检索企业私域知识库,并利用大语言模型理解问题的上下文和意图,生成准确、贴切的答案。开发者将企业私域知识上传到智能问答系统后,企业业务人员就能通过提问快速获取公司政策、操作流程、专业知识等信息,客户也能快速得到产品知识、售后问题的答案。本方案将使用大模型服务平台百炼的知识索引功能,将应用开发者上传的知识导入向量数据库。当客户在 AI 智能客服中提问时,问题文本会被转为向量,并在数据库检索出相关信息。这些相关信息与客户的原始问题融合,作为 Prompt 输入给大模型,最终由大模型生成答案返回给提问的客户。第五部分:Data+AI 产品及权益 183 Li

    306、ndorm AIGC:十分钟搞定智能问答+多模态检索 Lindorm AI 引擎具备强大的多模态数据融合分析能力。本场景通过 Lindorm 推出的轻量化产品形态AIGC 体验版,让你在控制台内直接上手体验智能问答、文/图搜图的能力,还可以通过简单上传知识库,轻松打造您专属的智能对话服务、多模态检索服务。PolarDB for AI:自然语言到数据库查询语言转义 AI 模型体验 PolarDB MySQL 版推出了自然语言到数据库查询语言转义(Nature Language To SQL,简称 NL2SQL)AI 模型,可将自然语言自动转换成所需的 SQL,从而更方便用户从数据库中取数分析以及

    307、挖掘数据价值。该动手体验将通过构建BI 服务+NL2SQL=NL2BI方案,以可视化图表的形式返回业务洞察结果,降低取数用数的使用门槛,丰富取数用数的交互形式和应用场景。DMS Copilot:大模型构建的数据智能助手 结合了 DMS 熟练的数据管理、数据使用能力,可帮助开发、运维、产品、运营、分析师和数据库管理员,更高效、规范地使用和管理数据。目前已经具备 NL2SQL、SQL 注释、SQL 纠错、SQL 优化、图表推荐五项能力。基于 RDS PostgreSQL 构建由 LLM 驱动的专属 ChatBot 随着 ChatGPT 的问世,人们开始认识到大语言模型(LLM,Large lang

    308、uage model)和生成式人工智能在多个领域的潜力,如文稿撰写、图像生成、代码优化和信息搜索等。LLM 已成为个人和企业的得力助手,并朝着超级应用的方向发展,引领着新的生态系统。本方案将以 RDS PostgreSQL 提供的开源向量索引插件(pgvector)和 OpenAI 提供的 embedding 能力为例,展示如何构建专属的 ChatBot。第五部分:Data+AI 产品及权益 184 通过 PAI 的 EAS 和 RDS PostgreSQL 部署大模型 RAG 对话系统 阿里云人工智能平台 PAI(Platform For AI)的模型在线服务 EAS(Elastic Alg

    309、orithm Service)提供了场景化部署方式,本方案将介绍如何通过 RDS PostgreSQL 构建向量检索库,部署 RAG 对话系统服务,以及进行模型推理验证的具体方法。3.5 Data+AI 精选活动 云端问道陪跑班:百炼融合 AnalyticDB,10 分钟创建网站 AI 助手。本次陪跑班将从一个企业开发者的角度出发,手把手带你用 AnalyticDB for PostgreSQL 的高效向量引擎与阿里云自主研发的通义大模型服务平台百炼,只需 10 分钟即可为您的网站添加一个 AI 助手!活动亮点一:了解 RAG 应用搭建解决方案 活动亮点二:云上数据仓库选型 活动亮点三:技术专

    310、家实践教学 第五部分:Data+AI 产品及权益 185 3.6 Data+AI 爆款产品 数据管理 DMS 产品简介 一款支撑数据全生命周期的一站式数据管理平台。DMS 提供全域数据资产管理、数据治理、数据库设计开发、数据集成(上云迁移、容灾、多活、ETL)、数据开发及数据消费服务等能力,致力于帮助企业高效、安全的挖掘数据价值,助力企业数字化转型。是阿里云面向企业业务团队提供的一站式 Data+AI 开发和管理服务,能够满足企业一站式数据管理诉求。DMS Copilot 是 DMS 基于阿里云大模型构建的数据智能助手。其结合了 DMS 熟练的数据管理、数据使用能力,可帮助开发、运维、产品、运

    311、营、分析师和数据库管理员,更高效、规范地使用和管理数据。目前已经具备 NL2SQL、SQL 注释、SQL 纠错、SQL 优化、图表推荐五项能力。第五部分:Data+AI 产品及权益 186 应用场景推荐:DMS Copilot 智能用数 a.支持 NL2SQL、SQL 续写和知识引用调整,帮助开发人员快速生成 SQL;b.支持交互式对话,通过交互实现知识输入和追问下钻;c.通过对历史行为和客户输入实现领域知识库,用以赋能 Copilot 的准确生成。云原生数据仓库 AnalyticDB PostgreSQL 版 产品简介 企业级能力完备,极具性价比,兼容 PG/Greenplum 开源生态及

    312、Oracle/TD 语法生态;自研云原生存算分离架构,具备秒级弹性和数据共享等国内领先的产品能力;具备高吞吐的实时数据加工及分析能力,打造全 SQL 体验的一站式实时数仓;自研高性能的向量检索引擎,助力企业打造丰富 AIGC 应用场景。应用场景推荐:一站式大模型开发和应用 1)一站式搭建:提供完整的模型训练、微调、评估和大模型应用模板,可以像搭积第五部分:Data+AI 产品及权益 187 木一样轻松完成专属大模型应用的开发。2)企业数据管理:集中管理企业专属知识,企业知识运用于知识库问答及模型 Finetune。云原生多模数据库 Lindorm 产品简介 云原生多模数据库 Lindorm 面

    313、向海量泛时序、半结构化和非结构化数据提供低成本存储、在线查询和检索、离线分析、AI 推理等一站式数据服务,支持 MySQL 协议,兼容 HBase、ES、Hive、Spark、HDFS 等开源标准。提供宽表、时序、向量等数据模型,是互联网、车联网、IoT、广告、金融交易、监控、游戏等场景的首选。第五部分:Data+AI 产品及权益 188 应用场景推荐:车联网多模态检索 1)多模融合:宽表、时序、对象、时空等数据融合,查询、检索、处理、分析等计算融合;2)海量存储:高效压缩、冷热分层、智能转存,冷数据成本下降 80%,热数据毫秒级响应;3)智能开放:AI 赋能,多模态检索,数据价值放大;兼容开

    314、源生态,适配 0 成本。云原生数据库 PolarDB MySQL 版 产品简介 云原生数据库 PolarDB MySQL 版是阿里云完全自主研发的产品,100%兼容 MySQL。产品具有多主多写、多活容灾、HTAP 等特性,交易性能最高可达开源数据库的 6 倍,分析性能最高可达开源数据库的 400 倍,TCO 低于自建数据库 50%。PolarDB for AI 功能通过一系列 MLOps 和内置的模型解决了数据、特征和模型的割裂状态,实现了基于数据库的数据智能的一站式服务。第五部分:Data+AI 产品及权益 189 应用场景推荐:PolarDB for AI 三大场景 场景一:Models

    315、 built upon data(从数据到模型到应用)从数据-算法-模型-使用 场景二:Models imported(从自定义模型到应用)从模型-使用 场景三:Out-of-the-box solution(从内置方案到应用)从方案-使用 云数据库 RDS 产品简介 云数据库 RDS 是阿里云提供的安全稳定可靠、高性价比、可弹性伸缩的关系型数据库,支持 MySQL、SQL Server、PostgreSQL 和 MariaDB 引擎。您只需几次点击,便可获得云数据库 RDS 为您提供的具备容灾、备份、恢复、监控、迁移等方面的全套解决方案,解决您数据库运维的烦恼。更多产品能力可访问产品功能页面

    316、。RDS PostgreSQL 提供的开源向量索引插件(pgvector)和 OpenAI 提供的第五部分:Data+AI 产品及权益 190 embedding 能力为例,可以助力企业构建专属的 ChatBot。应用场景推荐:构建由 LLM 驱动的专属 ChatBot 1)pgvector 插件实现高效的向量化检索 2)先进的开源 OLTP 引擎,使得私域业务的构建更加简单 3)具有良好的生态支持和广泛的应用基础 3.7 Data+AI 免费试用 多款产品可免费试用!Lindorm AIGC 体验服务 AIGC 体验版是免配置、购买即用的集智能问答、文搜图、文生图等 Lindorm AI 能力于一体的体验版本。免费试用到期后,续费仅需 60 元/月。阿里云百炼推荐规格 ADB PostgreSQL AnalyticDB PostgreSQL 是一款分布式向量数据库。提供简单、快速、经济高效的 PB级云端数据仓库和向量检索服务。云原生数据库 PolarDB MySQL 版 100%兼容 MySQL、多主多写、多活容灾、HTAP、交易和分析性能最高分别是开源数据库的 6 倍和 400 倍。免费试用到期后,正式使用享 5 折优惠。