• 首页 >  人工智能 >  AI产业
  • Cisco:2024思科AI就绪数据中心白皮书(23页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《Cisco:2024思科AI就绪数据中心白皮书(23页).pdf》由会员分享,可在线阅读,更多相关《Cisco:2024思科AI就绪数据中心白皮书(23页).pdf(23页珍藏版)》请在薪酬报告网上搜索。

    1、-思科 AI 就绪数据中心 白皮书 2-目录 2024 思科人工智能就绪指数报告 _ 3 企业部署 AI 的压力 _ 4 企业部署 AI 的挑战 _ 5 面向企业的 AI 就绪数据中心解决方案 _ 7 AI 功能区 _ 7 存储功能区 _ 8 业务应用功能区 _ 8 面向人工智能服务提供商的 AI 就绪数据中心解决方案 _ 10 思科千卡 GPU AI 网络典型架构 _ 12 思科万卡 GPU AI 网络典型架构 _ 12 思科路由光网络:构建十万卡 AI 数据中心互联网络架构 _ 13 行业参考案例 _ 15 制造参考案例 _ 15 金融参考案例 _ 16 教育参考案例 _ 17 社交电商参

    2、考案例 _ 19 智能驾驶参考案例 _ 20 大模型服务商参考案例 _ 22 3-思科 AI 就绪数据中心 2024 思科人工智能就绪指数报告 人工智能在过去几年一直是业界主导的主题。它越来越多地出现在战略更新、收益表和几乎所有利益相关方的沟通交流中。以目前的大规模影响水平,人工智能很可能在技术颠覆的程度上超越了云甚至互联网。但是,随着企业对人工智能的了解越来越多,他们开始意识到在如何采用、部署和充分利用其功能等方面并没有像想象的那样做好准备。2024 思科人工智能就绪指数报告是用于衡量企业的人工智能就绪情况,包括六大支柱:战略、基础设施、数据、监管、人才和文化。根据企业就绪分数,将企业分为四

    3、个级别:标兵(充分准备)、追逐者(准备充分)、关注者(准备有限)和落后者(毫无准备)。根据指数采访的数据显示,多数企业领导者认为他们在实现人工智能的战略目标方面进展不够理想。企业将大量资金用于人工智能,50%的受访者表示,他们当前的 IT 预算中有 70%专用于人工智能。在我们的调查中,许多受访者坦言,他们的人工智能投资尚未达到预期效果。近 50%的受访者表示,取得的成果低于预期。4-调查结果表明,虽然企业渴望采用人工智能,但是仍然面临部署的压力和挑战。企业部署 AI 的压力。几乎所有公司(98%)都感到过去一年中部署 AI 的紧迫性增加。50%的公司表示,这种紧迫感主要来源于 CEO 和领导

    4、团队的推动,高于其他因素。85%的公司认为,他们只有 18 个月的时间来展示 AI 的影响,否则将面临失去竞争优势的风险。超过一半(59%)的公司认为只有 12 个月。然而目前只有 13%的公司完全准备好抓住 AI 的潜力,比一年前的 14%有所下降。鉴于市场的快速演变以及AI预计对企业产生的重大影响,紧迫性和能力之间的差距尤其令人震惊。5-企业部署 AI 的挑战 网络不能满足 AI 的工作负载的要求:o 基础设施就绪程度在计算、数据中心网络性能、网络安全等方面准备不足 o 93%的公司预测,随着AI技术的部署,基础设施工作负载将增加 6-企业在基础设施准备方面的能力:o 缺乏具备构建、扩展和

    5、维护所需 IT 基础设施技能的专业人才 o 获取所需技术和解决方案的交付周期较长 企业在防范恶意行为者攻击 AI 应用的风险:o AI 工作负载带来的网络安全风险 o AI 和攻击技术在不断进化,企业可能难以及时识别新型攻击手段 针对企业在部署人工智能过程中面临的多重挑战,思科提供了AI就绪型数据中心解决方案,旨在助力不同行业的客户应对复杂需求。针对不同行业的特殊需求,思科AI就绪数据中心方案提供高度定制化的架构设计,支持从模型训练到推理的全流程优化。无论是制造,金融,汽车等企业级客户,还是大语言模型提供商或AI算力服务商,思科都能提供精准匹配的技术支持。企业不仅能够快速实现AI业务落地,还能

    6、以更低的风险和成本加速数字化转型。参考资料:参考资料:1.Cisco 2024 AI Readiness Index https:/ 7-思科 AI 就绪数据中心 面向企业的 AI 就绪数据中心解决方案 生成式 AI 正以惊人的速度发展,2024 年全球生成式 AI 市场预计达到 435 亿美元,同比增长约 79%,其应用覆盖医疗、金融、营销等多个行业,成为推动数字化转型的重要引擎。但 AI、特别是生成式 AI 的投资比较大(8 卡机 200-300 万元,千卡集群光算力就要 2-3 亿元),在没有明确的行业 AI 杀手级应用出现之前,大部分企业的 CxO 一方面因为巨大投入和成本效益的落差而

    7、对 AI 持审慎态度,另一方面又担心在 AI 方面的迟疑会导致落后于其他竞争对手。在这两个方面因素的驱动下,一种新型的数据中心AI 就绪的数据中心(AI-Ready DC)应运而生。首先从架构来看,它包括了三个功能区:AI 功能区,存储功能区和业务应用功能区。AI 功能区 企业组织的更注重AI算力的投资回报率,因而趋向更加小型化和集约化 小参数规模、高知识密度的蒸馏模型取得了长足进步,再加上企业通过增强检索生成技术(RAG)挂接本地知识库,能产生出与超大模型近似的优质输出效果,也为这种小型集约化的 AI 架构创造了技术条件 小型集约化架构可以与现有架构融合共用基础设施,进一步降低了初始AI 的

    8、投入,并可在将来 AI 向更大规模演进时从现有架构中平滑迁移、弹性扩容 8-存储功能区 AI 训练,微调所需的数据输入和 AI 推理所需的企业实时数据,会对数据存储提出更大的挑战 企业未来分布式存储需要更高的带宽、更低的延时和无损的互连质量 业务应用功能区 大量的新兴AI应用都采用云原生微服务模式,相比传统的应用架构对安全和运维提出了更高的要求 因此 AI 就绪数据中心具有如下三个特征:融入现有架构,与现有架构同构,可以弹性伸缩的高度集约化训推一体的 AI 数据中心架构 高带宽、低延时、无损且可弹性扩容的分布式存储架构 可以对基于云原生微服务架构的AI应用提供可视化和安全的数据中心架构 9-资

    9、料链接资料链接:1.Cisco Validated Design for Data Center Networking Blueprint for AI/ML Applications https:/ 2.Cisco Data Center Networking Blueprint for AI/ML Applications https:/ 3.Cisco Data Center Networking Solutions:Addressing the Challenges of AI/ML Infrastructure https:/ 4.RoCE Storage Implementatio

    10、n over NX-OS VXLAN Fabrics https:/ 5.Isovalent Enterprise for Cilium enables cloud native networking,security,and observability https:/ AI 就绪数据中心 面向人工智能服务提供商的 AI 就绪数据中心解决方案 思科多年来和国内外众多AI算力服务商和云服务商密切合作,共同致力构建高性能的 AI 算力平台,超大规模的算力中心建设面临众多挑战,这主要包括:基础设施成本和能效:基础设施成本和能效:建设和维护高性能计算基础设施需要巨大的投资,包括硬件采购、设施建设和持续

    11、的电力供应。此外,AI 计算通常需要大量的能耗,提升能效以降低运营成本和环境影响是一个重要的挑战。网络延迟和带宽限制网络延迟和带宽限制:为了支持大规模的 AI 计算和数据传输,网络的延迟和带宽成为瓶颈。尤其是在分布式计算环境中,网络性能直接影响AI 应用的效率和响应速度。跨越多个数据中心的超级跨越多个数据中心的超级 AIAI 训练集群训练集群:随着算力需求向 10 万卡 GPU演进,单体机房由于电力等因素的制约,无法容纳大容量 GPU 布放。客户开始构建跨多个数据中心的AI算力集群,而如何为多个算力中心提供充足的互联带宽并确保更低的时延,在高性能和低成本之间找到平衡正在面临严峻的挑战。思科通过

    12、自研高性能思科通过自研高性能 AIAI 交换路由芯片,交换路由芯片,AIAI 优化网络设备与架构,优化网络设备与架构,IP+IP+光传输光传输融合的路由光网络等多种技术创新,为客户提供面向融合的路由光网络等多种技术创新,为客户提供面向 AI AI 场景的网络解决方案。场景的网络解决方案。AI 专用 51.2T 和 25.6T 网络芯片以及对应的网络设备可以支持更高的网络带宽,优化的两层AI网络架构可以大规模减少设备与光模块的需求数量,一方面降低了数据中心建设成本,另一方面大幅度的降低功耗,从而降低客户AI数据中心的整体拥有成本。11-面向面向 AIAI 的的 Silicon OneSilico

    13、n One 芯片芯片 思科在 Silicon One 上的投入与研发最近取得了全新进展,芯片产品家族又添新成员。全新处理器包括 G202 和 G200,能够实现 25.6Tbps 和 51.2Tbps 的转发性能。两款处理器建立在 Cisco G100 统一架构的技术基础之上实现突破创新。针对高带宽、超大规模数据中心以及人工智能(AI)和机器学习(ML)高性能网络进行了全面优化,构建无损、低延迟和高能效的 AI 数据中心。12-G200 芯片采用业界特有的 512 Radix 硬件设计,相比较其他芯片,G200 可以在两层 Spine/Leaf 的网络架构下支持高达三万两千个 400GE 的网

    14、络接口,支持构建三万两千个 GPU 的训练网络。这种独特的架构设计可以减少 40%的交换机和 50%的互联高速光模块,并合计可以节约 1 兆瓦的能源消耗,大幅度的降低 AI 算力中心的建设和运营成本。思科千卡 GPU AI 网络典型架构 思科万卡 GPU AI 网络典型架构 思科在软件层面提供了全栈的开放能力,无论商业的 IOS XR,NX-OS 网络操作系统还是 SONiC 开源系统,都能够提供相应的开放接口以帮助客户满足不13-同应用的可编程网络需求。同时,思科也将芯片开放给其合作伙伴以及客户,帮助他们基于思科芯片进行定制化创新开发。思科路由光网络:构建十万卡 AI 数据中心互联网络架构

    15、芯片技术的发展让光传输网络和路由网络合二为一成为可能,思科的路由光网络(Routed Optical Network)是一种创新的网络技术,它结合了光网络和路由网络的优势,实现了光传输和数据路由功能在同一个设备上的集成。该解决方案采用高度集成的 400G/800G 数字相干光可插拔模块(DCO)和高性能大缓冲区的路由器技术相结合。通过将传统光传输系统的波长变换器替换为 DCO 模块,并直接插入 AI 数据中心互联路由器中实现网络架构的简化,将传统 IP+光传输的三层网络架构精简为两层甚至一层。思科路由光网络 AI 数据中心互联解决方案的核心价值包括以下几个方面:提高网络效率和性能提高网络效率和

    16、性能:通过集成光学和IP网络技术,减少了网络层级和设备数量,从而降低了延迟并提高了网络性能。这对于AI数据中心的高数据吞吐量和低延迟需求尤为重要。降低运营成本降低运营成本:该网络架构的简化设计减少了对昂贵光传输设备的需求,同时由于消除了中间层的设备/光模块/光纤组件,从而大大减少了功耗14-和机房空间的占用,这大大降低整体拥有成本。同时,简化的网络管理和自动化功能也减少了运营和维护成本。增强可扩展性和灵活性增强可扩展性和灵活性:支持可扩展的带宽增长,通过按需增加新的DCO模块能够灵活适应未来的网络带宽需求。这使得客户可以更从容地应对 AI 应用的快速发展和数据流量的激增。基于 400G ZR/

    17、ZR+的路由光网络解决方案因其大幅节约企业的总体拥有成本而广受市场欢迎,并由于 AI 数据中心互联流量的持续增长,新的 AI 数据中心开始普遍采用路由光网络解决方案来构建其算力互联网络。资料链接资料链接:1.Experience the power of a unified silicon architecture https:/ 2.思科路由光网络显著降低资本支出、运营支出和能耗https:/ 3.Cisco Data Center Networking Solutions:Addressing the Challenges of AI/ML Infrastructure https:/ 1

    18、5-思科 AI 就绪数据中心 行业参考案例 制造参考案例 作为全球电子技术智能制造服务领域的翘楚之一,某集团始终秉持着对自主创新的不懈追求。在当今数字化浪潮汹涌澎湃的时代背景下,构建自主创新平台成为其战略布局的核心目标之一。客户希望构建自主创新平台,积累核心和关键技术,具备广泛的竞争优势,以满足全球客户对复杂数据中心运营的需求,所以客户积极涉足人工智能领域,旨在部署独立的计算资源池,集中提供算力给分公司,用于AI训练。面临的挑战:面临的挑战:客户对 AI 投资比较看重投资回报率,看重成本和效能。客户希望可以采用更加开放的,成熟的解决方案,减少运维难度,同时期望有一套可靠的运维系统可以实现自动化

    19、和实时可视化 AI 网络运行状况。思科解决方案思科解决方案 利用 Nexus 系列交换机构建 Spine-Leaf 的可扩展 AI 数据中心网络架构 采用开放的,高带宽,低延时和无损的 RoCEv2 以太网络技术 使用 Nexus Dashboard 实现网络部署自动化和可视化监控与运维 为客户创造的价值为客户创造的价值 16-智能化生产优化智能化生产优化:通过 AI 实现生产线的自动化与智能化,优化排程、动态调整资源配置,从而提高设备利用率和整体生产效率。预测性维护:预测性维护:AI 通过分析设备数据提前发现潜在故障,降低非计划停机时间和维护成本。质量管理与检测质量管理与检测:利用 AI 技

    20、术实现产品质量的实时监控和瑕疵检测,减少废品率并提高产品一致性。个性化定制个性化定制:AI 支持按需制造,满足客户对定制化产品的需求,从而提升市场竞争力和客户满意度。金融参考案例 在亚洲金融服务领域占据领先地位的某金融集团,自成立以来,凭借其敏锐的市场洞察力与果敢的战略决策,逐步将业务版图拓展至 18 个重要市场,构建起了一个庞大且多元化的金融服务网络,包括个人银行、企业银行和财富管理。以其创新和数字化转型而闻名,致力于通过领先的技术解决方案提升客户体验和运营效率。客户多次获得行业认可,被评为全球最佳数字银行,体现出其在金融科技领域的卓越领导力。面临的挑战:面临的挑战:效率瓶颈效率瓶颈:呼叫中

    21、心对人工操作的依赖使得实现显著的效率提升变得困难。服务质量:服务质量:在没有智能工具的帮助下,提升服务质量和客户满意度具有挑17-战性。思科解决方案:思科解决方案:采用思科 ACI 技术架构构建 Spine-Leaf 的可扩展 AI 数据中心网络架构 ACI 架构出色的可扩展性,自动化运维,丰富的网络安全特性 为客户创造的价值为客户创造的价值 智能客服智能客服:AI驱动的智能客服(如Chatbot)提供7x24小时服务,高效解决客户问题,优化客户支持成本。精准风控精准风控:AI 通过实时分析交易数据、信用历史和外部环境,识别潜在风险,实现精准信用评估和反欺诈检测。投资决策支持投资决策支持:AI

    22、 利用大数据和预测模型,辅助投资经理进行资产配置、市场趋势分析与决策优化,为客户创造更高收益。教育参考案例 某大学作为一所在国际上久负盛名的研究型高等学府,在学术领域独树一帜。其学科设置呈现出鲜明的多元性与前沿性,尤其在科技领域,涵盖了计算机科学、生物科技、材料科学等多个热门且极具深度的学科方向,始终站在科技创新的前沿,不断探索未知,产出众多具有开创性意义的科研成果。以其优美的校园环境和先进的设施,为学生提供18-良好的学习和研究条件。学校致力培养学生的创新能力和国际视野,与全球多家知名机构合作,为学生提供丰富的实践和交流机会。面临的挑战:面临的挑战:该大学现有一套基于 InfiniBand

    23、的 AI 训练网络的算力已经到达瓶颈,需要进行第二期扩容,客户希望可以采用更加开放的解决方案,可以将计算网和存储网融合,减少运维难度,同时期望有一套运维系统可以实现自动化和实时可视化 AI 网络的拥塞管理。经过测试验证后,采用思科 Nexus AI 解决方案,构建了新一代 AI 训练和存储网络。思科解决方案思科解决方案 采用 Nexus 系列交换机构建 Spine-Leaf 的可扩展 AI 数据中心网络架构 采用 VXLAN EVPN Overlay 的高可靠性和扩展性架构 采用 RoCEv2 无损网络技术,避免网路丢包 采用 Nexus Dashboard 实现网络部署自动化和可视化监控与运

    24、维 为客户创造的价值为客户创造的价值 数据分析加速数据分析加速:AI 可处理大规模科研数据,快速完成复杂数据分析、模型训练和实验结果预测,从而显著缩短研究周期。高性能计算高性能计算:AI 支持高校搭建高性能计算平台,为前沿科研(如生物医药、材料科学等)提供强大的计算力支撑。生成创新思路生成创新思路:利用 AI 算法探索潜在的研究方向和解决方案,辅助科研人员提出突破性的理论假设或实验方案。19-社交电商参考案例 在当今数字化浪潮蓬勃兴起的中国市场中,某社交电商作为一家备受瞩目的年轻社交生活平台崭露头角。自创立伊始,它便巧妙地融合了社交媒体与电子商务平台的双重优势,开辟出一条独具特色的快速发展之路

    25、。该平台构建起了一个充满活力与互动性的社交生态系统,吸引了海量年轻用户的踊跃参与。在这里,用户们不仅能够尽情分享自己的购物心得,将每一次消费体验化作生动的文字与精美的图片展示给其他用户,还能大方分享各种生活方式建议,从时尚穿搭、美食探索到旅游攻略、健身技巧等,涵盖生活的方方面面。更为便捷的是,用户无需跳转至其他应用,即可直接在平台内完成购物流程,实现了社交分享与购物消费的无缝衔接,极大地提升了用户的购物效率与消费体验。平台利用AI大模型,深入分析用户行为和兴趣,提供个性化的内容推荐,利用 AI 完成内容制作,通过 AI 对话助手实现客户服务。面临的挑战面临的挑战:企业在初创期采用云服务的形式开

    26、展业务,随着业务的快速发展,云服务的成本迅速增长,同时越来越多的敏感数据面临安全合规的风险。企业启动了自建数据中心和 AI 算力平台的项目以降低整体成本。思科解决方案:思科解决方案:采用 Nexus 系列交换机构建了云服务网络和 AI 无损高性能网络 20-采用 Cisco 8000 系列路由器构建高性能数据中心互联网络,未来采用400G ZR 路由光网络实现数据中心高性能互联 为客户创造的价值:为客户创造的价值:精准内容推荐精准内容推荐:通过 AI 算法分析用户行为和偏好,实时推荐商品、直播或短视频内容,提高用户的购买转化率和留存率。个性化互动个性化互动:AI 驱动的聊天机器人和语音助手为用

    27、户提供 7x24 小时个性化服务,快速解答疑问并引导购物决策。智能客服与售后服务:智能客服与售后服务:利用 AI 自动化处理海量用户咨询和订单问题,减少人工客服压力并提升服务响应效率。数据驱动营销数据驱动营销:AI 分析用户社交数据和购买行为,帮助品牌制定精准的营销策略,如动态定价、促销推荐和活动策划。社交裂变放大:社交裂变放大:AI 挖掘用户社交网络中的潜在高价值客户,推动社区团购、拼单等模式的裂变传播,实现用户增长和销售提升。智能驾驶参考案例 某企业专注于提供前沿的自动驾驶方案。目前,该企业正聚焦于通过构建先进的 AI 训练集群,全力打造面向乘用车高级辅助驾驶(ADAS)和高阶自动驾驶(A

    28、D)的一体化解决方案。该解决方案通过 AI 模型训练实现21-环境感知和决策优化,实现自动驾驶/辅助驾驶。模型训练会利用大量驾驶数据,让AI识别交通标志、障碍物和道路条件,提升系统准确性和安全性。AI模型训练至关重要,因为它确保系统具备应对复杂交通场景的能力,减少事故风险,优化交通流和驾驶体验,从而实现更智能和可靠的自动驾驶解决方案。面临的挑战面临的挑战:该企业现有 AI 训练网络的算力已经到达瓶颈,急需进行升级,同时原有网络中在大数据量通讯时存在丢包问题,严重影响AI训练的速度与效率。思科解决方案:思科解决方案:采用 Nexus 系列交换机构建 Spine-Leaf 的可扩展 AI 数据中心

    29、网络架构 采用 eBGP 作为路由协议保障网络运行的高可靠性和扩展性 采用 RoCEv2 无损网络技术,避免网络丢包 采用思科面向 AI 创新的新型流量负载分担技术提升整体网络的运行效率 采用 Nexus Dashboard 实现网络部署自动化和可视化监控与运维 为客户创造的价值为客户创造的价值 实时环境感知实时环境感知:AI 通过融合传感器数据(如激光雷达、摄像头和雷达),实现对车辆周边环境的高精度感知,识别行人、障碍物和道路标志,提升驾驶决策的可靠性。智能驾驶决策智能驾驶决策:AI 算法基于实时数据进行动态路径规划和碰撞规避,显著降低交通事故发生率。自动化车队管理:自动化车队管理:通过 A

    30、I 驱动的车队调度与路线优化,实现物流车辆的高效运营,降低油耗、缩短配送时间。22-降低研发成本降低研发成本:AI 加速虚拟仿真和场景测试,减少物理测试需求,从而降低研发周期和成本投入。大模型服务商参考案例 全球著名的大模型服务商需要构建超大规模的 10 万卡 GPU 的算力中心以实现万亿参数的大模型训练工作,这对于连接 10 万卡 GPU 的网络提出了巨大的挑战,主要包括高带宽、低延迟和网络传输稳定性。由于模型规模巨大,训练过程涉及大量的数据传输。网络需要提供高达 10 万个 400G/800G 的端口以线速转发从而确保各个计算节点之间的高效数据同步。此外,网络的延迟需要保持在微秒级,以减少

    31、 GPU 集合通信等待时间,从而提高训练效率。10 万卡的网络由于设备线缆众多,发生故障是新常态,如何快速检测并解决网络故障也是一个重大的挑战。为了满足这些需求,客户采用思科基于 Silicon One G200 芯片的 51.2T 交换机构建高性能,超大规模的 AI 训练集群。交换机采用联合研发的业务模式,由思科根据客户的需求完成交换机的硬件设计和生产制造,思科和客户共同面向AI 训练流量的特点完成了多项增强型数据负载均衡的联合创新,如:基于 RoCEv2 Queue Pair 的 ECMP,根据集合通讯 All-Reduce 的23-拓扑结构实现 ECMP 流量路径的静态定义,配合客户自研

    32、网卡实现逐包负载均衡等多项面向 AI 的新型解决方案。思科负责交换机硬件和底层软件开发,并通过服务抽象接口(SAI)与客户自研操作系统实现无缝集成。整体网络还利用 G200 芯片中基于硬件的链路故障规避技术,可以在微妙级别实现链路的故障发现与切换,从而使 AI 训练网络具备高容错性和稳定性。为客户创造的价值为客户创造的价值 丰富产品功能丰富产品功能:使大语言模型服务商能够支持更多创新应用场景,如内容创作(文本、图像生成)、代码生成、个性化推荐和智能客服等,帮助客户拓展业务边界。行业定制化方案行业定制化方案:助力大语言模型服务商为特定行业(如教育、金融、医疗等)提供针对性的模型能力,帮助服务商吸引更多垂直领域客户并提升市场竞争力。