• 首页 >  人工智能 >  AI产业
  • 阿里云:阿里云存储面向AI的能力升级白皮书(2024版)(16页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《阿里云:阿里云存储面向AI的能力升级白皮书(2024版)(16页).pdf》由会员分享,可在线阅读,更多相关《阿里云:阿里云存储面向AI的能力升级白皮书(2024版)(16页).pdf(16页珍藏版)》请在薪酬报告网上搜索。

    1、阿里云存储面向AI 的能力升级白皮书(2024版)随着 AI 算力的指数级增长,云计算进入第三次浪潮,预计未来几年中国的智能算力规模将大幅增加。未来,每一家公司都是 Data+AI 的公司。AI的发展不仅依赖于大量的数据,而且在AI应用中需要快速处理和分析庞大的数据集,这要求存储系统必须具备高效的数据读写能力和低延迟访问。为了应对 AI 发展对数据存储带来的挑战,阿里云提出了“4 Any”概念,提供了高性能、高可用、深度集成、弹性降本的解决方案来适应AI时代对存储系统的多样化需求。与此同时,AI 的演进反向赋能存储能力,阿里云提出了“3 AI”概念,指的是在存储服务中融入AI技术(AI in

    2、Storage),以提升存储系统的智能化水平,具体包括以下三个方面:综上所述,云存储需要向“Storage for AI”演进以支持AI业务的数据处理和存储需求,同时需要“AI in Storage”来提升存储系统的智能化水平,实现更高效、更安全、更低成本的数据管理。这两个方向的演进是相辅相成的,共同推动云存储在AI时代的创新发展。Data+AI 时代,云存储如何进化任意性能(Any Performance):这指的是存储系统能够根据各类场景的性能需求,动态调整存储资源,提供低延迟和高吞吐量的不同性能级别。任意接口(Any Interface):意味着存储系统支持各类数据访问接口,包括文件、块

    3、、对象等,以适应不同类型的AI应用和数据处理流程。任意位置(Anywhere):强调存储系统的数据可以在不同地理位置的数据中心之间灵活迁移,以满足数据本地化和灾难恢复的需求。任意数据(Any Data):表示存储系统能够处理各种类型的数据,无论是结构化数据、半结构化数据还是非结构化数据,都能得到有效的存储和管理。智能修复(AI-Healing):利用AI技术对存储系统中的潜在问题进行预测和自动修复,减少人工干预,提高系统的稳定性和可靠性。智能管理(AI-Management):通过AI算法优化存储资源的分配和调度,实现存储系统的自动化管理,帮助企业管理好存储性能预期、数字资产,提高存储效率和降

    4、低成本。智能生成(AI-Generation):指的是存储系统能够利用AI技术生成智能报告和洞察,帮助用户更好地理解和优化他们的数据存储策略。目录CONTENTSStorage for AI高性能弹性高可用深度集成低成本安全性01AI in StorageAI 智能应用02关于阿里云存储03资源池 Qos实现多业务共池性能隔离多个Bucket 统一资源池,共享吞吐&QPS支持灵活调配,降低不同业务之间影响PreviewConnector for Al/ML全新发布支持Map-style&Iterable-style datasets面向训练集数据高吞吐拉取GA更多地域默认性能提升加速器更高性能

    5、,更低门槛杭州、新加坡支持单个账号默认 100Gbps加速器性能密度提升50%,容量门槛降低99%GAPreviewOSSFS 1.91.3全新发布面向 Stable Diffusion 推理模型快速加载直读模式,CKPT 模型加载性能提升3.6倍GA高性能在AI时代,云存储需要高性能升级以满足大批量数据的快速处理需求、支持大规模AI模型训练和推理、实现低延迟的数据访问,以及适应不断增长的数据存储需求。此外,高性能存储有助于提升数据处理效率,优化AI应用响应时间,保障数据安全和隐私,以及支持存储系统的可扩展性。这些升级对于实现AI技术在各行业的广泛应用和推动数字化转型至关重要。基于此,阿里云对

    6、OSS、CPFS、NAS 三个产品进行了性能方面的升级。对象存储 OSS面向多种计算引擎和 AI 框架,OSS 实现了端到端性能的提升OSS 加速器:进一步提升热数据性能,起步容量降低到50GB,性能密度提升至 300MB/s/TB;客户端和工具优化:OSSFS 模型加载和文件list性能进一步提升,满足交互式开发或容器环境下对读写 OSS 数据需求;Connector for AI/ML:面向训练场景,新推出的Connector for AI/ML在 Pytorch 高吞吐拉取训练集方面较传统 FUSE 客户端可大幅度提升性能;Storage for AIStorage for AI弹性云存

    7、储在 AI 时代需要弹性升级,以适应业务的动态变化、提高资源利用率、降低成本、增强业务连续性,并支持业务的未来发展。ESSD 本次弹性能力升级不仅提升了存储资源分配的灵活性,还通过精细化的成本控制机制帮助企业更好地管理云资源的性价比,同时也为应对业务的不确定性和快速增长提供了强大的技术支持。文件存储 CPFS全链路性能提升,为 LLM 训练提速CPFS 智算版实现了与 OSS 间的数据流动,最高可达 100GB/s 带宽,提供数据流动 QoS 优先级调度,负载均衡调度优化,CRC 一致性验证,跨账号,性能监控等关键技术;同时 CPFS 单文件系统容量上限提升到 12PB,单机容器挂载密度提升至

    8、 40个,满足客户对容量和挂载密度扩展的需求;文件存储 NAS推理场景性能提升,实现访问加速文件存储 NAS 利用弹性文件客户端实现访问加速,单路读吞吐提升1倍,4K小文件打开读提升5倍,AI 训练小文件解压速度提升10倍;利用文件存储 NAS 弹性文件客户端分布式缓存+P2P能力,加速推理场景大规模模型分发和加载。Storage for AI块存储 EBS匹配容器细粒度资源使用模式,提供多种弹性扩展能力ESSD 弹性能力进一步提升,在容量弹性方面,支持 1GB 起售,可搭配 0.25c 的超小 ACS 规格使用,同时具备最大 3000 IOPS 及 125 MB/s 吞吐,这一改变降低了使用

    9、ESSD的入门门槛,使得即便是对存储需求不高的应用也能以极低的成本享受到高性能的云存储服务;在性能弹性方面,可通过性能弹性,最大突发至 100 万 IOPS 及 4GB/s 吞吐,同时具备性能突发费用封顶,既满足了不可预期的业务性能需求,又具备可预期的成本控制;在横向扩展弹性方面,在单可用区支持每分钟并发启动 1 万个 POD,这对于需要快速响应市场变化、处理大量用户请求或者执行大规模部署/更新的应用场景尤为关键。高可用在AI时代,云存储需高可用性升级以确保业务连续性、数据可靠性,应对业务增长和数据量激增,提高数据处理效率,支持AI业务的高效创新,并加强数据安全与隐私保护。2023 年,阿里云

    10、为普惠同城容灾能力,发布更多的同城冗余的存储产品,例如OSS 存量 Bucket 在线升级同城冗余。本次阿里云升级了 Regional ESSD、Tablestore 和云备份高可用能力,为业务连续性保驾护航。1GB起售资源管理更精细ESSD PLO、AutoPL 支持1GB 起售匹配0.25c Pod算力规格GA多种扩展模式,灵活弹性 AutoPL 突发费用支持封顶单盘100万突发IOPS,支持性能突发费用封顶单可用区支持每分钟1万个 Pod 并发启动GA.Vertical PodAutoscalerHorizontal PodAutoscalerPodESSDPodPodESSDPodES

    11、SDPodESSDPodESSDESSD容量:1GB-64TB Burst IOPS:100万性能与容量解耦细粒度的资源供给弹性自适应的性能扩展能力Storage for AIRegional ESSD为云原生应用架构所设计,简化云上高可用部署同城冗余架构:Regional ESSD 基于飞天盘古同城冗余架构,多个副本数据完全分布在不同资源,包括IDC、机柜、电力等,均实现物理隔离,可在某个IDC故障时,保证数据不丢失、保障数据一致性。适合多种业务场景:Regional ESSD 适合多种业务场景,典型的有数据库的高可用、容器的跨 AZ 容灾、中间件的跨 AZ 容灾等等。表格存储 Tables

    12、tore同城冗余规模化商用同城冗余实例替换本地冗余实例,阿里云具备同城冗余条件的客户在表格存储创建的实例默认升级为同城冗余实例,稳定性 SLA 提升到 99.99%,费用不增加。简化运维:Regional ESSD 除了领先的可用性与可靠性外,使用上和其他 ESSD 云盘没有区别,只需简单的操作,即可享受到自动化的数据保护与恢复能力,极大简化了存储架构的设计与维护,加速企业容灾部署的进程。企业级能力:同时 Regional ESSD云盘保留了 ESSD 系列企业级特性,如在线扩容、多重挂载,且即将支持预配置性能和性能突发,满足更多场景需求。Regional ESSD 多个地域发布基于飞天盘古同

    13、城冗余架构,容忍单可用区故障杭州、香港地域发布24年12月覆盖全球主售地域简化跨AZ高可用架构搭建支持多可用区实例共享挂载与访问PreviewECS VM_1ActiveECS VM_2ActiveECS VM_3Sstandby可用区 A可用区 B可用区 C Regional ESSD阿里云 杭州 Rregion 12个9高可靠 99.995%高可用SLO 多可用区实共享挂载与访问 单可用区故障时无需切换为云原生应用架构所设计云上跨AZ高可用能力Storage for AI云备份 Cloud Backup缩短灾难恢复RTO备份点病毒检测,在生产环境遭到勒索病毒攻击后,可快速选择干净的备份点进

    14、行恢复,避免对生产环境的二次污染,缩短灾难恢复RTO,满足合规要求。深度集成AI时代下,存储产品追求Serverless化,以简化管理、降低成本、提高弹性和可扩展性,同时减少技术门槛,让开发者更专注于业务创新。因此,我们提升了 EBS、CPFS、NAS、Tablestore、云备份等产品的深度集成能力,更好服务企业及开发者。块存储 EBSACS&EBS 深度集成,简化资源管理EBS全系产品支持ACS:在 ACS 上面可以使用 ESSD 全系列产品,用户可以根据容器的负载类型选择不同的云盘类型,包括ESSD AutoPL、PL0/1/2/3。预配置Storage Class:支持通过CSI(Co

    15、ntainer Storage Interface)插件和自定义Storage Class、自定义的 Storage Class 简化云盘的使用和管理。通过 CSI 插件,用户可以在Kubernetes中自动化管理云盘的生命周期,包括创建、挂载、卸载和删除。通过自定义Storage Class,用户可以根据需求选择不同的云盘类型和配置参数,优化成本。Storage for AI文件存储 CPFS跨算力平台挂载,支持精细化资源管理在客户使用体验上,CPFS 支持了跨算力平台挂载的能力,一份数据满足多种算力同时挂载使用。同时上线了配额和日志审计的能力,实现 CPFS 资源的精细化管理和运营;表格存

    16、储 Tablestore向量检索查询:即开即用,导入和查询延迟更优AI 智能检索引擎发布,Tablestore 多元索引功能新增高召回、高性能、低成本的向量检索功能。提供全文检索、向量检索、控制检索、多维数值检索的多路召回功能和标量/向量混合检索能力。索引实时构建性能、在线索引查询时延均远高于开源向量引擎,且单表能承载百亿向量。索引算法 DiskAnn 使用内存与硬盘混合索引,更低查询时延,所需内存仅为开源向量引擎的十分之一。文件存储 NAS 全面接入 Serverless 生态,CSI/CNFS/ACS/Fluid 云原生计算无缝对接,全新发布 ACS 集成。EBS 全系产品支持 ACS满足

    17、不同工作负载要求多种规格可随 ACS Pod创建ESSD AutoPL PL0/1/2/3GA预配置Storage Class实现 PV 动态供给提供 alicloud-disk-topology-alltype存储类CSI插件支持通过PVC方式挂载动态存储卷GA面向应用的资源管理模式与K8s 使用界面深度集成以创建一个MySQLPod为例,使用动态存储卷作为持久化存储Storage for AI云备份 Cloud Backup智能备份全托管运行基于标签的资源自动关联备份,一次备份策略创建,自动增减需备份资源,全托管运行。确保企业新增核心数据的及时备份,加速数智化转型。备份周期1备份周期2(自

    18、动移除不再具备标签A的ECS)备份周期3(自动加入新增具备标签A的ECS)备份策略具备标签A的ECSStorage for AI低成本随着业务的发展和数据量的爆炸性增长,降本增效的重要性与日俱增。企业既需要以更低的成本存储更多数据,也需要不断提高挖掘数据价值的效率,并降低使用和管理成本。在存储技术上,想要提升数据存储和调用性能的同时降低存储介质成本,分级存储至关重要。阿里云CPFS、NAS、Tablestore、云备份提供了更加灵活的计费模式,以满足不同客户的需求。文件存储 CPFS生命周期策略助力降本,简化管理CPFS 智算版支持性能层和容量层组成的混闪型文件系统,性能层和容量层之间支持配置

    19、生命周期策略,在降低存储成本的同时,简化冷热数据的管理方式;文件存储 NAS普惠丰富的产品规格及生命周期管理,降低存储成本提供更丰富的通用型 NAS产品规格,新增高级型-全闪规格普惠开发者,对比性能型规格单价下降 54%。通用型NAS生命周期能力升级,全新发布归档存储,费用仅 0.05元/GB/月,降低长期存储成本;支持增删改查,文件可查询、可浏览、可取回,可被实时读取,无需解冻;支持透明访问,自定义生命周期管理策略根据文件访问时间自动转储。表格存储 Tablestore新计费模式,更高性价比VCU 模式叠加 serverless 弹性 VCU,为客户提供更可控的费用支出,更简单的计费模式和更

    20、高的性价比。与 CU 模式横相比,VCU 综合使用成本可以下降 30%左右。Storage for AI安全性安全可靠是云存储立身之本。当企业业务云化之后,云端数据存储仍需要面对勒索、泄露、误删等安全风险,传统数据存储所使用的数据加密、校验等手段在云上也同样适用。AI 时代中,灾备体系依旧是行之有效的数据安全防护手段。因此,阿里云存储面向 AI 应用场景更新了存储产品安全能力,以保护用户数据,包括加密技术、身份认证机制、访问控制和安全审计等。对象存储 OSS多层级细粒度权限管控,提供面向 AI 的原生安全能力阻止公网访问能力支持一键开启,防止流量盗刷;PrivateLink 能力,让跨云访问

    21、OSS 变得安全易用;数据安全再升级,针对“AIGC”场景提供多模态内容安全检测,面向常见病毒提供恶意文件检测。云备份 Cloud Backup近密远疏的特殊保留策略与自动归档分层,协助用户成本节省最大化。Storage for AI云备份 Cloud Backup恶意文件检测,高效备份简化运维云备份还提供不可变备份能力,在出现灾难时有正确的备份数据可恢复;跨账号备份帮助客户统一管理备份恢复,简化运维;文件存储 CPFS:支持云备份提供数据保护,保障用户数据的安全。文件存储 NAS:通用型 NAS BYOK 在国际站/国内站全地域发布,新增极速型NAS接入日志审计。阻止公共访问Bucket 默

    22、认策略键开启公网防护,防止盗刷控制台创建 Bucket 的默认策略选择GA面向组织/角色/资源权限管控Control Policy/RAM Policy/STS PolicyBucket/Object ACL/Bucket Policy原生内容安全恶意文件检测针对“AIGC”场景的多模态内容安全检测快速识别常见病毒,防止恶意文件传播和执行GAOSS 支持PrivateLink简单易用,无需关注底层 IP 地址冲突问题安全可靠,私网连接服务支持双端鉴权GAStorage for AI数据灾备中心 BDRC多种数据保护方案,实时监控,高效管理包括SAAS化服务云备份,IAAS化能力ECS快照,OS

    23、S跨区域复制/版本控制、NAS回收站等;可视化界面:提供多维度、统一的可视化界面让客户快速了解数据保护情况,提升客户的数据保护意识;分层管理:对不同重要程度的业务进行分层管理和保护,持续监控,实时报警,用云更省心,更安全。AI 智能应用在存储服务中融入AI技术,可以提升数据处理能力,降低运营成本,并加速创新应用的开发。AI技术能够智能预测和修复存储系统中的潜在问题,优化资源分配,实现自动化管理,提高存储效率。此外,AI还能帮助生成智能报告和洞察,优化数据存储策略。随着AI工作负载对存储技术提出更高的要求,如数据量的激增和访问速度的需求,存储系统需要融入AI技术以满足这些挑战,确保系统的稳定性、

    24、可靠性和性能。AI in StorageAI in StorageIMM海量非结构化数据的多样化数据处理能力提供智能识别、智能聚类、智能生成、智能检索等 AI 原子能力。数据安全能力面向隐私保护场景,提供盲水印、原图保护、日志审计等功能。PDS 企业网盘基于通义大模型构建网盘多模态 AI 能力AI 知识库:可以根据网盘内的文件内容进行自动归类,大幅度提升内容整理和文件查找的效率;网盘 AI 助手:可以通过多轮对话方式快速做出问题回复,并快速对网盘内海量文件进行查找;文档 AI 助手:可以对网盘的文档进行智能创作,如智能翻译、智能摘要、续写等;而语义搜图可以在网盘内容通过一句话的形式,快速检索网

    25、盘文件,如检索“俯瞰森林”内容的照片。海量用户数据File Meta多路索引User MetaInvert Index智能融合检索、前后过滤&权限检查检索应用(多模态检素、知识库.)特种提取AI应用(AI助手、AIGC.)检索结果LLM任务是根据知识回答问题知识Relevant chunk#1Relevant chunk#2Relevant chunk#3问题NL Query历史Context#1Context#2多模态查询语义重排Vector DB非结构化数据 阿里云是目前国内规模最大的云存储服务商,采用自研飞天大规模分布式存储引擎“盘古3.0”,支撑双11轻松度过吞吐TB/s,IOPS上亿/s的压力,为全球企业提供如磐石的可靠存储服务。阿里云存储团队至今已获得 2017 年中国电子学会科学技术特等奖、2021 年世界互联网大会领先科技成果奖、2023 年中国专利金奖等奖项。2024 年阿里云面向 AI 的云计算基础设施荣获世界互联网大会领先科技奖,成为世界互联网大会史上首个以 AI 基础设施整体获奖的科技成果。在 Data+AI 的时代浪潮中,云存储业务广泛应用于容灾备份、移动应用、在线教育、音视频、图片和素材下载、安防监控等领域,有效帮您解决海量数据存档和在线备份、数据加工处理、内容加速分发、业务数据挖掘分析、违规数据监控等多项业务难题。