定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《Cisco:2024思科AI就绪数据中心白皮书(23页).pdf》由会员分享,可在线阅读,更多相关《Cisco:2024思科AI就绪数据中心白皮书(23页).pdf(23页珍藏版)》请在薪酬报告网上搜索。
1、-思科 AI 就绪数据中心 白皮书 2-目录 2024 思科人工智能就绪指数报告 _ 3 企业部署 AI 的压力 _ 4 企业部署 AI 的挑战 _ 5 面向企业的 AI 就绪数据中心解决方案 _ 7 AI 功能区 _ 7 存储功能区 _ 8 业务应用功能区 _ 8 面向人工智能服务提供商的 AI 就绪数据中心解决方案 _ 10 思科千卡 GPU AI 网络典型架构 _ 12 思科万卡 GPU AI 网络典型架构 _ 12 思科路由光网络:构建十万卡 AI 数据中心互联网络架构 _ 13 行业参考案例 _ 15 制造参考案例 _ 15 金融参考案例 _ 16 教育参考案例 _ 17 社交电商参
2、考案例 _ 19 智能驾驶参考案例 _ 20 大模型服务商参考案例 _ 22 3-思科 AI 就绪数据中心 2024 思科人工智能就绪指数报告 人工智能在过去几年一直是业界主导的主题。它越来越多地出现在战略更新、收益表和几乎所有利益相关方的沟通交流中。以目前的大规模影响水平,人工智能很可能在技术颠覆的程度上超越了云甚至互联网。但是,随着企业对人工智能的了解越来越多,他们开始意识到在如何采用、部署和充分利用其功能等方面并没有像想象的那样做好准备。2024 思科人工智能就绪指数报告是用于衡量企业的人工智能就绪情况,包括六大支柱:战略、基础设施、数据、监管、人才和文化。根据企业就绪分数,将企业分为四
3、个级别:标兵(充分准备)、追逐者(准备充分)、关注者(准备有限)和落后者(毫无准备)。根据指数采访的数据显示,多数企业领导者认为他们在实现人工智能的战略目标方面进展不够理想。企业将大量资金用于人工智能,50%的受访者表示,他们当前的 IT 预算中有 70%专用于人工智能。在我们的调查中,许多受访者坦言,他们的人工智能投资尚未达到预期效果。近 50%的受访者表示,取得的成果低于预期。4-调查结果表明,虽然企业渴望采用人工智能,但是仍然面临部署的压力和挑战。企业部署 AI 的压力。几乎所有公司(98%)都感到过去一年中部署 AI 的紧迫性增加。50%的公司表示,这种紧迫感主要来源于 CEO 和领导
4、团队的推动,高于其他因素。85%的公司认为,他们只有 18 个月的时间来展示 AI 的影响,否则将面临失去竞争优势的风险。超过一半(59%)的公司认为只有 12 个月。然而目前只有 13%的公司完全准备好抓住 AI 的潜力,比一年前的 14%有所下降。鉴于市场的快速演变以及AI预计对企业产生的重大影响,紧迫性和能力之间的差距尤其令人震惊。5-企业部署 AI 的挑战 网络不能满足 AI 的工作负载的要求:o 基础设施就绪程度在计算、数据中心网络性能、网络安全等方面准备不足 o 93%的公司预测,随着AI技术的部署,基础设施工作负载将增加 6-企业在基础设施准备方面的能力:o 缺乏具备构建、扩展和
5、维护所需 IT 基础设施技能的专业人才 o 获取所需技术和解决方案的交付周期较长 企业在防范恶意行为者攻击 AI 应用的风险:o AI 工作负载带来的网络安全风险 o AI 和攻击技术在不断进化,企业可能难以及时识别新型攻击手段 针对企业在部署人工智能过程中面临的多重挑战,思科提供了AI就绪型数据中心解决方案,旨在助力不同行业的客户应对复杂需求。针对不同行业的特殊需求,思科AI就绪数据中心方案提供高度定制化的架构设计,支持从模型训练到推理的全流程优化。无论是制造,金融,汽车等企业级客户,还是大语言模型提供商或AI算力服务商,思科都能提供精准匹配的技术支持。企业不仅能够快速实现AI业务落地,还能
6、以更低的风险和成本加速数字化转型。参考资料:参考资料:1.Cisco 2024 AI Readiness Index https:/ 7-思科 AI 就绪数据中心 面向企业的 AI 就绪数据中心解决方案 生成式 AI 正以惊人的速度发展,2024 年全球生成式 AI 市场预计达到 435 亿美元,同比增长约 79%,其应用覆盖医疗、金融、营销等多个行业,成为推动数字化转型的重要引擎。但 AI、特别是生成式 AI 的投资比较大(8 卡机 200-300 万元,千卡集群光算力就要 2-3 亿元),在没有明确的行业 AI 杀手级应用出现之前,大部分企业的 CxO 一方面因为巨大投入和成本效益的落差而
7、对 AI 持审慎态度,另一方面又担心在 AI 方面的迟疑会导致落后于其他竞争对手。在这两个方面因素的驱动下,一种新型的数据中心AI 就绪的数据中心(AI-Ready DC)应运而生。首先从架构来看,它包括了三个功能区:AI 功能区,存储功能区和业务应用功能区。AI 功能区 企业组织的更注重AI算力的投资回报率,因而趋向更加小型化和集约化 小参数规模、高知识密度的蒸馏模型取得了长足进步,再加上企业通过增强检索生成技术(RAG)挂接本地知识库,能产生出与超大模型近似的优质输出效果,也为这种小型集约化的 AI 架构创造了技术条件 小型集约化架构可以与现有架构融合共用基础设施,进一步降低了初始AI 的
8、投入,并可在将来 AI 向更大规模演进时从现有架构中平滑迁移、弹性扩容 8-存储功能区 AI 训练,微调所需的数据输入和 AI 推理所需的企业实时数据,会对数据存储提出更大的挑战 企业未来分布式存储需要更高的带宽、更低的延时和无损的互连质量 业务应用功能区 大量的新兴AI应用都采用云原生微服务模式,相比传统的应用架构对安全和运维提出了更高的要求 因此 AI 就绪数据中心具有如下三个特征:融入现有架构,与现有架构同构,可以弹性伸缩的高度集约化训推一体的 AI 数据中心架构 高带宽、低延时、无损且可弹性扩容的分布式存储架构 可以对基于云原生微服务架构的AI应用提供可视化和安全的数据中心架构 9-资
9、料链接资料链接:1.Cisco Validated Design for Data Center Networking Blueprint for AI/ML Applications https:/ 2.Cisco Data Center Networking Blueprint for AI/ML Applications https:/ 3.Cisco Data Center Networking Solutions:Addressing the Challenges of AI/ML Infrastructure https:/ 4.RoCE Storage Implementatio
10、n over NX-OS VXLAN Fabrics https:/ 5.Isovalent Enterprise for Cilium enables cloud native networking,security,and observability https:/ AI 就绪数据中心 面向人工智能服务提供商的 AI 就绪数据中心解决方案 思科多年来和国内外众多AI算力服务商和云服务商密切合作,共同致力构建高性能的 AI 算力平台,超大规模的算力中心建设面临众多挑战,这主要包括:基础设施成本和能效:基础设施成本和能效:建设和维护高性能计算基础设施需要巨大的投资,包括硬件采购、设施建设和持续
11、的电力供应。此外,AI 计算通常需要大量的能耗,提升能效以降低运营成本和环境影响是一个重要的挑战。网络延迟和带宽限制网络延迟和带宽限制:为了支持大规模的 AI 计算和数据传输,网络的延迟和带宽成为瓶颈。尤其是在分布式计算环境中,网络性能直接影响AI 应用的效率和响应速度。跨越多个数据中心的超级跨越多个数据中心的超级 AIAI 训练集群训练集群:随着算力需求向 10 万卡 GPU演进,单体机房由于电力等因素的制约,无法容纳大容量 GPU 布放。客户开始构建跨多个数据中心的AI算力集群,而如何为多个算力中心提供充足的互联带宽并确保更低的时延,在高性能和低成本之间找到平衡正在面临严峻的挑战。思科通过
12、自研高性能思科通过自研高性能 AIAI 交换路由芯片,交换路由芯片,AIAI 优化网络设备与架构,优化网络设备与架构,IP+IP+光传输光传输融合的路由光网络等多种技术创新,为客户提供面向融合的路由光网络等多种技术创新,为客户提供面向 AI AI 场景的网络解决方案。场景的网络解决方案。AI 专用 51.2T 和 25.6T 网络芯片以及对应的网络设备可以支持更高的网络带宽,优化的两层AI网络架构可以大规模减少设备与光模块的需求数量,一方面降低了数据中心建设成本,另一方面大幅度的降低功耗,从而降低客户AI数据中心的整体拥有成本。11-面向面向 AIAI 的的 Silicon OneSilico
13、n One 芯片芯片 思科在 Silicon One 上的投入与研发最近取得了全新进展,芯片产品家族又添新成员。全新处理器包括 G202 和 G200,能够实现 25.6Tbps 和 51.2Tbps 的转发性能。两款处理器建立在 Cisco G100 统一架构的技术基础之上实现突破创新。针对高带宽、超大规模数据中心以及人工智能(AI)和机器学习(ML)高性能网络进行了全面优化,构建无损、低延迟和高能效的 AI 数据中心。12-G200 芯片采用业界特有的 512 Radix 硬件设计,相比较其他芯片,G200 可以在两层 Spine/Leaf 的网络架构下支持高达三万两千个 400GE 的网
14、络接口,支持构建三万两千个 GPU 的训练网络。这种独特的架构设计可以减少 40%的交换机和 50%的互联高速光模块,并合计可以节约 1 兆瓦的能源消耗,大幅度的降低 AI 算力中心的建设和运营成本。思科千卡 GPU AI 网络典型架构 思科万卡 GPU AI 网络典型架构 思科在软件层面提供了全栈的开放能力,无论商业的 IOS XR,NX-OS 网络操作系统还是 SONiC 开源系统,都能够提供相应的开放接口以帮助客户满足不13-同应用的可编程网络需求。同时,思科也将芯片开放给其合作伙伴以及客户,帮助他们基于思科芯片进行定制化创新开发。思科路由光网络:构建十万卡 AI 数据中心互联网络架构
15、芯片技术的发展让光传输网络和路由网络合二为一成为可能,思科的路由光网络(Routed Optical Network)是一种创新的网络技术,它结合了光网络和路由网络的优势,实现了光传输和数据路由功能在同一个设备上的集成。该解决方案采用高度集成的 400G/800G 数字相干光可插拔模块(DCO)和高性能大缓冲区的路由器技术相结合。通过将传统光传输系统的波长变换器替换为 DCO 模块,并直接插入 AI 数据中心互联路由器中实现网络架构的简化,将传统 IP+光传输的三层网络架构精简为两层甚至一层。思科路由光网络 AI 数据中心互联解决方案的核心价值包括以下几个方面:提高网络效率和性能提高网络效率和
16、性能:通过集成光学和IP网络技术,减少了网络层级和设备数量,从而降低了延迟并提高了网络性能。这对于AI数据中心的高数据吞吐量和低延迟需求尤为重要。降低运营成本降低运营成本:该网络架构的简化设计减少了对昂贵光传输设备的需求,同时由于消除了中间层的设备/光模块/光纤组件,从而大大减少了功耗14-和机房空间的占用,这大大降低整体拥有成本。同时,简化的网络管理和自动化功能也减少了运营和维护成本。增强可扩展性和灵活性增强可扩展性和灵活性:支持可扩展的带宽增长,通过按需增加新的DCO模块能够灵活适应未来的网络带宽需求。这使得客户可以更从容地应对 AI 应用的快速发展和数据流量的激增。基于 400G ZR/