定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《中国信通院:智算中心综合评价报告(2024年)(53页).pdf》由会员分享,可在线阅读,更多相关《中国信通院:智算中心综合评价报告(2024年)(53页).pdf(53页珍藏版)》请在薪酬报告网上搜索。
1、智算中心综合评价报告智算中心综合评价报告 (2022024 4 年年)中国信息通信研究院云计算与大数据研究所 2024年9月 版权声明版权声明 本报告版权属于中国信息通信研究院,并受法律保护。本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应转载、摘编或利用其它方式使用本报告文字或者观点的,应注明注明“来源:中国信息通信研究院来源:中国信息通信研究院”。违反上述声明者,本院。违反上述声明者,本院将追究其相关法律责任。将追究其相关法律责任。前前 言言 当前数字化时代,人工智能等新一代信息技术飞跃式发展,智能算力逐渐成为科技产业技术创新、成果转化与
2、应用落地的关键驱动力。我国正积极应对这一技术变革,加强智能算力的布局、研发和应用,以提升国家竞争力。2024 年 3 月,“人工智能+”首次被写入政府工作报告。同年 9 月,工信部等十一部门发布关于推动新型信息基础设施协调发展有关事项的通知,再次强调逐步提升智能算力占比。智算中心正面临着前所未有的发展机遇与挑战。构建一个全面覆盖技术先进性、安全性与可用性,又重点突出服务能力及可持续发展能力的综合评价体系,显得尤为重要且迫切。综合评价体系旨在通过科学的量化分析与客观的价值判断,评估智算中心的发展水平,前瞻性地引领其未来的发展方向。通过综合评价体系,我们期望为智算中心的建设者提供决策依据,助力其优
3、化资源配置,提升建设质量;为运营者指明管理方向,促进其提升运营效率与服务水平;同时,也为使用者制定透明、可信赖的选择指南,确保数据价值得以最大化实现。促进整个智算生态的良性互动与协同发展,推动智算中心从单一技术设施向集成化、全方位赋能的平台转型,为数字经济的蓬勃发展注入源源不断的动力。因时间和能力所限,报告内容有所疏漏在所难免,烦请各界不吝指正。如有意见或建议请联系 。目目 录录 一、智算中心发展背景.1(一)智能算力成为经济发展新引擎.1(二)智能算力需求多层面快速扩张.2(三)国家引导智算中心高质量发展.3 二、智算中心发展现状.4(一)智算架构不断丰富,评价体系由硬向软演进.4(二)算力
4、结构不断优化,智能算力规模逐步扩大.5(三)国家引导布局优化,持续扶持智算中心发展.6(四)企业成为重要主体,积极推进智算中心建设.7(五)通算智算齐头并进,应用场景日趋多元丰富.8 三、智算中心发展挑战.9(一)智算规模持续扩大,倒逼底层技术加速变革.9(二)算力应用门槛较高,普适普惠水平有待提高.10(三)智算业务灵活部署,算存运能力需全面增强.11(四)AI 服务器功率骤升,绿色低碳发展面临挑战.13(五)软硬件一体化融合,智算中心追求提质增效.15(六)建设经营多元发展,统一评价体系有待构建.16 四、智算中心综合评价体系.17(一)综合评价体系构建.17(二)算力.19(三)存力.2
5、2(四)运力.26(五)安全性.28(六)可用性.30(七)绿色低碳.32(八)服务能力.37(九)智能运营.42 五、智算中心发展建议.45 (一)强化创新引领,提升自主研发能力.45(二)推动标准制定,促进技术规范发展.45(三)开展测试服务,助力评价体系完善.45(四)构建智算生态,推动全产业链协同.46 图图 目目 录录 图 1 GDP、数字经济及算力总规模的发展趋势.2 图 2 我国智算中心相关政策演进阶段.4 图 3 智算中心总体架构.5 图 4 2023 年我国算力行业应用分布情况.10 图 5 制冷技术 PUE 发展趋势.14 图 6 基础设施&物理资源管理范畴.15 图 7
6、智算基础设施特征.18 图 8 智算中心综合评价体系.19 智算中心综合评价报告(2024 年)1 一、智算中心发展背景 随着人工智能技术的日新月异,特别是在大规模模型训练与应用领域取得突破性进展后,当前算力需求呈现出增长态势。党的二十届三中全会明确提出加快推进数字经济与实体经济深度融合,推动数字产业化、产业数字化,为智算中心的发展提供了更为广阔的发展空间和机遇。智算中心不仅成为支持人工智能、大数据等技术在制造业、服务业中的深度应用平台,也是在新型工业化进程中助力产业升级、实现高端化、智能化、绿色化的重要基础设施。在政府政策的积极引导和技术创新的持续驱动下,智算中心建设得到了强有力的支持。同时
7、,市场对高效、稳定算力服务需求的激增,加之开源软件如Kubernetes、Nomad 等技术的日益成熟,智算中心在产业智能化、企业数字化转型中的作用愈发重要,推动了其持续快速发展。(一一)智能算力成为经济发展新引擎)智能算力成为经济发展新引擎 智能算力是数字经济时代新的生产力,带动数字经济发展和GDP增长。数字经济以数据为关键要素,以算力为核心生产力。智能算力支撑人工智能应用简化复杂任务,实现个性化服务,提升生产力水平。当前,算力正从互联网、电子政务等新兴领域向服务、金融、制造、教育等传统行业延伸,赋能传统行业数智化转型,激发经济增长新动能。此外,智能算力的发展也在一定程度上影响着 GDP 增
8、长。从发展趋势看,算力规模与经济发展水平呈现出正相关,数字经济规模和地区生产总值较高的省份,算力发展水平也较高。同时,算力对经济具有辐射带动作用。截至 2023 年底,我国算力规模达到 230 EFLOPS,智算中心综合评价报告(2024 年)2 算力总规模近 5 年年均增速近 30%,GDP 增长 5.2%。来源:信通院、网信办、国家统计局 图 1 GDP、数字经济及算力总规模的发展趋势(二)智能算力需求多层面快速扩张(二)智能算力需求多层面快速扩张 宏观上,智能算力的发展是新的时代要求。在数字经济时代,让算力真正成为像水电一样的服务,使用户实现一点接入、全算贯通。大国博弈在算力、数据、算法
9、等方面的竞争日益白热化,据不完全统计,自 2017 年起共有 50 余国家发布人工智能战略。习近平总书记强调,要把科技的命脉牢牢掌握在自己手中,在科技自立自强上取得更大进展。微观上,算法模型愈加复杂,数据量急剧增长,应用不断延伸,智能算力需求快速扩张。算法模型上,机器学习、神经网络等技术显著进步,算法复杂度和精度不断提高,大模型参数规模呈现指数级增长。从 GPT-3 到 GPT-4 大模型,参数量实现了从 1750 亿到 1.8万亿的跨越。数据量上,我国数据规模持续扩大,2023 年数据生产总智算中心综合评价报告(2024 年)3 量达到 32.85 泽字节(ZB)1,同比增长 22.44%,
10、非结构化数据爆发式增长,通用算力已经难以完成视频编解码、游戏渲染等新型应用背后的大量非结构化数据处理。应用场景上,人工智能在各行业应用程度不断加深,应用场景愈发广泛。自动驾驶、智能家居、医疗影像诊断等新兴场景对智能算力的需求日益旺盛。(三)国家引导智算中心(三)国家引导智算中心高质量高质量发展发展 政策引导力度逐渐加大,推动智算中心高质量发展。2020 年,国家发改委将智能计算中心纳入新基建范畴。2021 年,国家相关部门发布了“十四五”数字经济发展规划、新型数据中心发展三年行动计划(2021-2023 年)等多项规划,提出加快部署、统筹建设高性能智算中心,推动智算中心有序发展。2023 年,
11、数字中国建设整体布局规划和算力基础设施高质量发展行动计划相继出台,提出优化算力基础设施布局,引导通用数据中心、超算中心、智能计算中心等合理梯次布局,逐步合理提升智能算力占比。当前,国家对于智算中心从鼓励建设转向规划布局,政策引导逐步深化,指引方向更加明确。在今年的两会上,“人工智能+”被首次写入政府工作报告,提到适度超前建设数字基础设施。9 月 4 日,工业和信息化部等十一部门重磅发布 关于推动新型信息基础设施协调发展有关事项的通知,提到打造具有影响力的通用和行业人工智能算法模型平台,部署区域性人工智能公共服务平台。1 全国数据资源调查报告(2023 年)智算中心综合评价报告(2024 年)4
12、 来源:中国信息通信研究院 图 2 我国智算中心相关政策演进阶段 二、智算中心发展现状(一)智算架构不断丰富,评价体系由硬向软演进(一)智算架构不断丰富,评价体系由硬向软演进 在传统数据中心中,业界更多关注底层的风火水电等硬件设施。随着人工智能技术的不断发展,智算中心的概念逐渐明晰,其架构也在不断完善和进化,从关注硬件扩展到更加注重软件与硬件的协同设计与优化。工信部等十一部门在 9 月发布的关于推动新型信息基础设施协调发展有关事项的通知 将智算中心定义为基于人工智能理论,采用人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的一类算力基础设施。在智算中心发展阶段,供电、制冷等底
13、层设施仍是关注的基础,同时业界的焦点逐步拓展至软件层和模型层。在硬件层,从过去单纯地关注算、存、运单个系统的运行转向 AI计算子系统、存储子系统、网络互连子系统的协同建设;在软件层,智算中心综合评价报告(2024 年)5 除了操作系统、数据库、中间件等底层软件,AI 开发框架和软件加速库进入研究视野。随着 GPT-3 的出世,大模型的发展也是日新月异,大模型演进路径从通用模型(L0)演进至行业模型(L1)及垂直领域(L2)模型。智算中心展现出不同于传统数据中心的新变化,并且行业发展尚处于百家争鸣的阶段,这不仅要求评价体系从硬件向软件演进,同时业界期望通过标准化体系去判断各种产品或框架发展水平的
14、高低。图 3 描绘了智算中心的总体架构,在关注硬件基础设施的传统评价体系的基础上增加了智算中心新框架的描述。来源:中国信息通信研究院 图 3 智算中心总体架构(二)算力结构不断优化,智能算力规模逐步扩大(二)算力结构不断优化,智能算力规模逐步扩大 算力结构上,智能算力需求日益增长,我国加快智算布局,智能算力的比例逐步提高。算力正从单一向多元化、智能化方向全面优化与演进,体现了信息技术的创新与进步。随着人工智能技术的发展,智能算力占比显著提高,并呈现出稳定的增长趋势。截至 2023 年底,我国智能算力规模达到 70EFLOPS,增速超过 70%,智能算力占算力智算中心综合评价报告(2024 年)
15、6 总规模比重超过 30%。算力结构优化不仅提升数据处理的速度与效率,还增强计算系统的灵活性和可扩展性,为各行业的数字化转型和智能化升级奠定了坚实基础。算力规模上,智算中心建设经历了从百卡到十万卡的阶梯式发展。在智算中心发展的初期,市县级智算中心以百卡规模起步,地方政府秉持“小步快跑,不断尝试”的原则,积极推动百卡集群小规模智算中心的落地,如南京、武汉等地率先探索几十 P 至百 P 规模满足数字政务需求。千卡集群主要分布在省会城市的智算中心,运营商出租算力和大型央国企自用算力,例如工行、招行、深交所等建设千卡集群算力规模在百 P 到千 P 之间。随着调度技术的成熟和 AI 技术的广泛应用,智算
16、中心步入万卡及十万卡集群,主要集中在 AI 企业和运营商,用于企业数字化转型自用、大模型和服务出租。OpenAI 和微软联已建成 10 万卡集群、Meta 发布了 1.6 万卡、2.4 万卡集群,特斯拉/xAI在 2024 年 7 月搭建了壮观的 10 万卡的超级集群。国内企业紧随其后,腾讯、阿里也发布了超万卡集群。字节跳动搭建了一个 12288 卡集群,研发 MegaScale 生产系统用于训练大语言模型。科大讯飞在2023 年建成了首个昇腾万卡算力平台“飞星一号”。(三)国家引导布局优化,持续扶持智算中心发展(三)国家引导布局优化,持续扶持智算中心发展 在布局方面,国家不断出台相关政策对智
17、算中心在内的算力基础设施进行优化部署。2021 年,新型数据中心发展三年行动计划(2021-2023 年)发布,引导新型数据中心集约化、高密化、智能化建设,推动形成数据中心梯次布局。2023 年 10 月,算力基础设施高质量智算中心综合评价报告(2024 年)7 发展行动计划 提出完善算力综合供给体系,优化算力设施建设布局,促进东西部高效互补和协同联动。同年 12 月,国家发改委等五部门发布深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见,提出了包括构建全国一体化算力网、算力的一体化布局、东中西部算力的一体化协同等在内的重点工作部署,以推动新增算力向国家枢纽节点集聚。(四)企业成为
18、重要主体,积极推进智算中心建设(四)企业成为重要主体,积极推进智算中心建设 在政府的积极引导下,电信运营商勇担使命,建设部署取得积极成效。三大基础电信运营商将智算中心与算力网络建设作为发展方向,并融合技术、应用等优势,加快落实布局东西部算力基础设施建设。中国电信通过建设全国“2+3+7+X”公共智算资源池,特别是在京津冀、长三角地区建设的液冷单集群万卡智算池。中国移动则依托算力网络“4+N+31+X”资源布局体系,统筹规划“N+X”智算中心布局。中国联通则致力于打造面向算力供给的数智新底座,加速推进智算中心建设升级,在数据中心“5+4+31+X”基础上打造“1+N+X”智算集群。三大运营商均致
19、力于通过技术创新和服务升级,推动算力成为像水电一样“一点接入、即取即用”的社会级服务,为数字经济发展注入新动能。第三方数据中心服务商紧跟“东数西算”布局规划指引。秦淮数据积极融入“东数西算”国家级零碳工程示范项目,依托甘肃庆阳丰富的可再生清洁能源,布局建设零碳数据中心产业基地,服务京津冀、长三角、粤港澳大湾区等区域的算力需求;万国数据充分利用西部地智算中心综合评价报告(2024 年)8 区“风、光、天然气”等优势资源,打造绿色智能数据中心;世纪互联逐渐向西部地区扩大业务布局,计划用地 200 亩于乌兰察布建设云计算中心,并提升绿色能源使用比例。(五)通算智算齐头并进,应用场景日趋多元丰富(五)
20、通算智算齐头并进,应用场景日趋多元丰富 通算与智算两种形态并存,共同构筑了现代计算的新格局。在数智化转型和智算中心建设的浪潮中,以智算为代表的算力规模稳步增长,但同时各类应用场景对不同算力的需求也日趋多样化和复杂化。2023 年 10 月,工信部等六部门印发的算力基础设施高质量发展行动计划强调了多元供给和优化布局的重要性。随着智算中心建设的不断深化,建设方逐渐认识到能力和目标单一的智算中心区域性和行业性依赖强,难以应对复杂多样的应用场景,无法充分发挥智算中心价值。在此背景下,“一中心双引擎”(智算中心同时提供智算和通算资源)、超算中心的 AI 升级改造、云计算中心标配智算云服务等新建设场景不断
21、涌现。新场景呈现出如下特点:互补性,通算、智算和超算合理配比并有机组合,使计算中心能够提供更灵活、全面和高效的算力服务;协同性,在某些复杂应用中,将通算、智算和超算的能力结合起来,以实现最优的性能和效率;灵活性,算力中心能够根据多样化的算力需求变化动态调整、灵活调度资源分配,甚至定制需求的算力资源;可扩展性,算力中心在特定算力不足的情况下,能够快速实施工程扩容或线上动态扩容,保证充足的算力资源。智算中心的多样化算力发展是响应不断变化的算力需求和经济挑战的必然结果,智算中心综合评价报告(2024 年)9 有利于智算中心投资规划的理性化回归,有利于加速智算中心向大型化、智能化、绿色化方向的发展,有
22、助于数字经济和社会的持续发展。三、智算中心发展挑战(一)智算规模持续扩大,倒逼底层技术加速变革(一)智算规模持续扩大,倒逼底层技术加速变革 AI 应用场景对冷却的要求较高,风冷难以消解局部热点。大规模训练对于计算资源、存储能力及散热效率的要求尤为苛刻。一方面,在进行深度学习模型、大数据分析等复杂计算任务时,高强度的数据处理和运算会导致硬件设备产生大量热量,高温环境将严重影响硬件的性能稳定性和使用寿命,甚至可能引发系统故障。另一方面,智算中心业务流量峰谷波动显著,业务高峰期服务器集群需要满负荷甚至超负荷运行,局部热点问题突出。风冷技术受限于空气的热传导效率及风流组织的均匀性,难以快速且精准地应对
23、服务器内部复杂的热量分布,局部热点难以有效消除。此外,风冷系统对于环境温度变化的响应速度相对较慢,难以实时匹配业务负载变化带来的热量波动,这在对温度敏感的高性能计算任务中尤为明显。液冷技术可利用液体高导热性,实现热量的快速吸收和转移,从而更有效地消除局部热点。智算中心功率密度的不断提升,供电架构日益复杂。与传统数据中心相比,一方面,AI 芯片运行功耗峰谷特性明显,算力需求高时功耗达最高设计值,低算力需求时功耗较低。且大模型训练时间长,工作负载可以在峰值功率下,运行数小时、数天甚至数周。另一方面,智算中心对业务连续性要求高,供电系统平稳运行仍直接关系到智算中心核心功能的实时响应和执行效率。弹性供
24、电系统可采用大容量、智算中心综合评价报告(2024 年)10 模块化的高效不间断电源,形成电力资源池,配备储能系统,通过释放存储的能量来管理电力需求高峰,实现扛峰增载。(二)算力应用门槛较高,普适普惠水平有待提高(二)算力应用门槛较高,普适普惠水平有待提高 算力应用以互联网为主,推动算力全行业普及应用尚存空间。据中国算力发展报告(2024 年)数据显示,截至 2023 年底,我国算力行业应用主要分布在互联网、企业、政务、金融等行业,占比分别为46.3%、21.3%、11.3%、7.8%,互联网占比持续上升,政务占比进一步下降。其中互联网主要可细分为公有云、网站、视频、AI、电商、游戏、支付等领
25、域,占比分别为 16.2%、3.5%、7.4%、3.3%、4.8%、1.3%、0.9%。算力应用正从互联网、电子政务等传统领域,向服务、电信、金融、制造、教育等多个行业拓展。随着智能算力在更多行业的应用前景不断显现,智能驾驶、影视渲染等典型领域有望充分发挥智能算力在提升效率与决策能力中的优势,应重点关注典型行业智能化转型需求,以点带面,助力全行业实现智能化升级。来源:中国信息通信研究院 图 4 2023 年我国算力行业应用分布情况 智算中心综合评价报告(2024 年)11 中小型企业亟需成本优化以促进商用算力的深度应用与发展。一方面,智算中心的前期建设和后期运维成本高,还配备了高价值的 AI服
26、务器、高性能芯片和液冷系统等,总拥有成本居高不下。高成本通过价格传递机制导致智能算力租赁市场价格高。另一方面,尽管我国中小型企业有智能化升级的需求,但是目前追求降本增效更为迫切。而且大部分中小型企业处于行业价值链中低端,普遍存在专业人才缺乏、营收较低、抗风险能力弱等特点。对于中小企业而言,投入高算力成本进行智能化升级,难以带来足够收益,达到预期效果。(三)智算业务灵活部署,算存运能力需全面增强(三)智算业务灵活部署,算存运能力需全面增强 1智算深挖芯片潜力,算力调度与管理待优化 集群扩展对模型利用率(MFU)指标带来挑战。MFU 描述了在给定集群规模条件下,模型训练时有效利用计算资源的性能指标
27、。一般来说,随着集群规模的扩大,MFU 是呈现次线性的。在超大集群中,通信带宽不平衡,随着集群扩大无法掩盖的集合通讯占比会增加,导致 MFU 逐渐降低。同时集群规模变大后,其稳定性、可用性降低会导致 MFU 下降。当前,以 GPU/NPU 为代表的通用加速芯片不断更新架构工艺、持续升级性能,同时专用加速芯片仍在不断发展。算力资源的全局调度和高效管理有助于提高算力利用率。从集中式计算系统到分布式计算系统,算力调用方式经历了从固定资源到动态资源、从本地到云端的转变。这一演进不仅提高了计算资源的利用效率和任务性能,还为企业和组织提供了更加灵活、可扩展的计算服务解决方案。通过虚拟化技术,可以将物理资源
28、转化为虚拟资源,实智算中心综合评价报告(2024 年)12 现资源的动态分配和灵活调度。随着人工智能技术的不断发展,混部技术和 AI 弹性容量的智能化程度将不断提升。例如,中国移动智算中心(青岛)通过引入自研智算平台和先进算法,优化算力调度,可以更准确地预测应用负载和资源需求,从而实现超大规模训练场景下的精细化资源管理,有效提升计算效率,荣获算力性能 4A 等级认证。2AI 大模型算力需求大,存储能力需同步升级 全闪存储、分布式存储、冷热数据分离存储等技术,推动智算中心的存储向高效化和智能化发展。随着数据类型由单模态向多模态和全模态转变,数据量爆发增长。同时,大模型的训练过程需要随机读取海量小
29、文件,以及快速保存模型数据集。高频词的读写使数据存储系统必须提供高达 100M IOPS 的读写能力和上百 GB/s 的带宽。过去广泛采用的共享存储搭配本地 SSD 盘的存储架构,因受限于容量不足、易受计算节点波动影响以及缺乏容灾备份机制等缺陷,已难以适应当前大模型发展的需求。而全闪分布式存储可扩展至上百节点,单集群存储容量可达数百 PB 以上,单个存储节点能达到数百万至上千万 IOPS,10-20GB/s 带宽,一般 10-20 个全闪存储节点即可满足 AI大模型下的性能要求,同时提供完善的数据保护机制和安全防护措施,实现数据在多个计算节点间的共享访问,且管理运维简便高效。3网络性能需求提升
30、,技术创新刻不容缓 智算集群中计算节点的海量数据传输亟需高性能、超低延迟且支持无损传输的网络互联技术。为处理大规模智算集群带来的海量计算任务,多维度并行被广泛应用,包括数据并行、流水线并行、张量并智算中心综合评价报告(2024 年)13 行和专家并行。通过多个 GPU/NPU 节点构建超大规模的计算集群,这几种并行方式将数据或者模型切分到不同 GPU/NPU 训练,并行数据需要在各个节点之间高速传输,以确保计算任务的高效完成。张量并行通信量是流水线并行和数据并行的 50 倍以上,业界通常采用机内定制的高速总线技术承载。流水线并行和数据并行需要跨多节点通信,通过超宽无损的网络提供超大的带宽和超快
31、的数据传输速度,从而确保数据在各个节点之间流畅地传输。大规模 AI 计算要求有效利用和高效分配网络资源。传统网络的资源分配不均衡可能导致部分节点过载,从而降低整体网络性能。随着 AI 大模型应用的普及,多节点协同进行模型训练的频率和数据计算规模将显著增加,集群规模扩展使得网络资源负载不均的问题变得更加突出。高利用率的网络能更好地管理和分配资源,确保每个节点充分利用,从而提高整体计算效率。提升网络的资源感知能力将有助于更好地分配计算和网络资源,实现网络级负载均衡,提高整个集群的计算训练效率,从而处理更多的计算业务,减少资源浪费和成本。(四)(四)AI 服务器功率骤升,绿色低碳发展面临挑战服务器功
32、率骤升,绿色低碳发展面临挑战 芯片 TDP 不断攀升和集群部署方式导致总功耗不断增加,能耗成为智算中心迫在眉睫的问题。一方面,AI 计算任务的复杂性和数据量的爆炸性增长,要求 AI 芯片具备更强的处理能力和更高的运算效率。AI 芯片设计不断向更高集成度、更多核心数、更高频率的方向发展,提升计算能力的同时也带来了功耗的显著增加。另一方面,为了降低网络时延,智算服务器需要以集群的方式进行部署。将多台服智算中心综合评价报告(2024 年)14 务器连接在一起,形成一个统一的计算平台,从而大大提高数据处理的速度和效率。据 Digital Information World 发布的报告,智算中心为训练
33、AI 模型产生的能耗将为常规云工作的 3 倍,预计到 2030 年,智算中心的电力需求将以每年 10%的速度增长,而这对双碳背景下的智算中心能效提升带来了巨大的挑战。液冷技术作为智算中心的高效制冷方案,可显著提升散热效率并降低电能使用效率(PUE)。采用风冷直膨散热冷却方式的数据中心PUE 一般在 1.5 左右。左右。因液体的热导率较气体可提高一个数量级,目前全球高密集度、高供电功率的超大型数据中心已逐渐引入液冷设备。自然冷却也是一种具有巨大潜力的节能技术,能适应不同气候条件和地区需求。例如,在南方炎热地区,可采用高温大温差并联冷水机组的方式来降低数据中心的温度。在北方寒冷地区,可以采用直接空
34、气自然冷却的方式,提高能源利用效率。来源:中国信息通信研究院 图 5 制冷技术 PUE 发展趋势 智算中心综合评价报告(2024 年)15(五)软硬件一体化融合,智算中心追求提质增效(五)软硬件一体化融合,智算中心追求提质增效 人工智能服务场景中,快速部署成为关键需求,智算中心面临的建设和交付挑战日益增加。用户对交付时间的要求不断缩短,复杂的组网与设备调试进一步加大了项目实施的难度,集群系统的性能、能效、可靠性、安全性等各方面都提出了更高要求。此外,如图 7 所示,智算中心涉及的 L1 层(基础物理设施层)和 L2 层(网络、存储及虚拟化层)也面临严峻挑战,尤其是 L2 层的集成需求变得日益复
35、杂,需要更高效的预制化建设模式。当前,集成过程的工具化不足,缺乏统一的高效集成工具平台,导致项目从规划到实施再到上线的周期被大大拉长,集成效率显著降低,这不仅增加了企业的运营成本,也限制了 AI 服务快速响应市场变化的能力。来源:中国信息通信研究院 图 6 基础设施&物理资源管理范畴 软硬一体化融合架构具备多方面技术优势,将提升智算中心服务能力的质量和效率。在硬件层面,按照计算、存储、网络等资源类别的差异,整合硬件资源,形成同类资源池,实现 CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)、NPU(Ne
36、ural Processing Unit)、FPGA(Field-Programmable Gate Array,智算中心综合评价报告(2024 年)16 现场可编程门列阵)、ASIC(Application-Specific Integrated Circuit,专用集成电路)等多种异构算力的按需重组,能够满足不同场景中的应用需求。在软件层面,推进硬件资源自适应重构,实现资源动态调整、灵活组合和智能分配,响应多应用、多场景需求。软硬件融合架构发挥资源管理和调度系统的应用感知能力,建立起智能化融合架构,使软件层面的全部资源在可调度的范围内实现动态组合,能够满足多种应用场景的智能化需求。(六)(
37、六)建设经营建设经营多元发展,统一评价体系有待构建多元发展,统一评价体系有待构建 智算中心建设多元发展,评价体系碎片化,亟需构建统一标准,促进技术创新与产业升级健康发展。在当今数字化转型的大潮中,智算中心作为支撑人工智能、大数据等前沿技术的关键基础设施,其建设与经营正呈现出百家争鸣的繁荣景象。各地政府、企业及科研机构纷纷投入资源,探索符合自身需求的智算中心建设路径,推动技术创新与产业升级。在制冷方面,液冷包含了冷板式液冷和浸没式液冷等多种方案,冷却液介质也存在氟化液和硅基油等多种选择。在供电方面,企业也对供电冗余提出了多种技术路线,根据实际情况采用 N+X冗余、2N 或者其他的冗余供电方式。除
38、了底层的基础设施,上层网络等随着节点数量的增加有各种组网方式。此外,出于成本或者是可用性的考量,智算中心的各个系统的布局也存在差异。然而,这种多元化的发展模式也带来了评价体系的碎片化问题。不同主体在智算中心的建设标准、运营效率、技术创新能力等方面存在显著差异,缺乏统一、科学的评价体系来衡量其综合效能。这不仅智算中心综合评价报告(2024 年)17 增加了市场比较的复杂性,也可能导致资源错配和重复建设,影响行业的健康可持续发展。构建一套统一、权威的智算中心评价体系可以引导行业健康发展,促进技术交流与合作,推动形成优势互补、协同发展的良好生态。四、智算中心综合评价体系(一)综合评价体系构建(一)综
39、合评价体系构建 目前我国算力评价主要可分为规格算力评价和算力综合评价两大类。前者主要关注硬件设备的计算性能,后者对算力系统进行多元的性能测试和分析。但是两者的共同点都是聚焦在硬件基础设施上,对上层软件的考量较少。然而,随着技术的快速演进和业务需求的复杂化,在应对人工智能应用场景,现有评价体系未能对软硬件设备提供全面的考量。在原有评价体系的基础上,本报告的综合评价体系不仅涵盖了智算中心软硬件总体架构,还综合考量了智算中心的特征。与传统数据中心相比,智算中心具有高算力、大存力、高运力、高安全、高可用、高能效、智运营、优服务等特征。高算力、大存力、高运力构成了智算中心的算力底座。智算中心集成前沿的技
40、术元素,如人工智能算法、存算分离、大数据分析及高速网络通信等,还配备高性能的计算硬件,应对大数据分析、深度学习、图像处理等复杂多变的计算需求。同时,智算中心融入了绿色节能理念,通过采用先进的能效管理系统和节能设备,实现了计算资源的高效利用与能源消耗的显著降低,展现出了高能效的特点。此外,在数据安全与隐私保护方面,智算中心构建了多层次的安全防护体系,包括数据加密、访问智算中心综合评价报告(2024 年)18 控制、安全审计等,全方位保障数据资产的安全性与用户隐私,体现了其高安全性的显著优势。在业务连续性方面,智算中心通过全面的冗余设计、自动化的故障恢复机制等措施确保服务的高度可用性,即使在面对突
41、发故障时也能迅速恢复。通过深度整合从底层硬件资源到上层应用软件的全栈技术能力并辅以先进的运营理念,智算中心能够全方位地为用户赋能,提供高度定制化、灵活可调的优质服务体验。来源:中国信息通信研究院 图 7 智算基础设施特征 构建一个全面、科学、前瞻性的智算中心综合评价体系不仅是对智算中心现状的一次全面审视,更是对其未来发展潜力与方向的一次深刻洞察。对应“5+3+1”特征2,报告从算存运能力、安全可用性、绿色低碳、智能运营以及服务能力等多个维度出发,甄选了具有代表性的关键指标,旨在从多层次对智算中心进行综合评价,甄别智算中心的优势与不足,为其后续的优化升级提供明确方向;还能够促进智 2 1 是指风
42、火水电,3 是指高算力、大存力、高运力,5 是高安全、高可用、高能效、智运营、优服务。智算中心综合评价报告(2024 年)19 算中心之间的良性竞争与合作,推动整个行业的健康发展。来源:中国信息通信研究院 图 8 智算中心综合评价体系(二)算力(二)算力 算力是衡量智算中心处理能力的核心指标,直接关系到数据处理的速度与效率。算力是支撑“人工智能与大数据”产业蓬勃发展的重要“底座”,也是驱动经济数字化转型的新引擎。算力水平对智算中心整体服务水平起着决定性的作用。理论算力,即 AI 芯片的各类性能参智算中心综合评价报告(2024 年)20 数的标称值,奠定了性能上限。但在实际的运行中,算力发挥不仅
43、取决于芯片本身的计算能力,还受到显存容量与带宽、互联技术以及系统架构设计等多方面因素的影响,往往发挥不出全部的算力性能,有效算力低于理论算力。对业务模型场景的支持能力也是考验智算中心的重要标准,体现了智算中心适应不同应用需求、快速响应市场变化的能力。这不仅要求硬件平台具备广泛的兼容性,能够支持多种框架和算法的运行,还要求软件生态能够提供丰富的算子库、预训练模型及工具链,以便用户能够快速部署和优化自己的模型。以商汤科技人工智能计算中心为例,该中心提供大规模弹性算力,支持超大参数的大模型训练,旨在满足上海和长三角地区对低延迟、高效能 AI 服务的需求。创新的低时延网络设计和 RDMA 高速通信网络
44、,进一步提升了训练和推理的效率,推理服务的性价比提升了 3 倍,展现了较优性价比的 AI 服务效果,为智能制造等多个行业提供了坚实支持。此外,中国联通上海临港智算中心配备 1.5 万架机架,是联通“1+N+X”高等级算力集群的核心枢纽节点,基于统一联通云底座构建多卡并行、多元共生、训推一体的智算集群,实现了万卡算力供给,荣获智算中心算力性能 5A 等级认证。1.AI 芯片单卡峰值算力 AI 芯片的单卡峰值算力是衡量其性能的关键指标,它决定了芯片在处理人工智能任务时的最大计算能力。智算中心往往运行计算量大、数据海量密集的人工智能任务。而支撑任务运行的算力,最重要的组成部分是 AI 芯片,峰值算力
45、越高,表示芯片理论上能更快地完智算中心综合评价报告(2024 年)21 成复杂的计算任务,如更快的响应实时应用的处理,尤其是在 AI 训练和推理过程中需要处理的大量数据和并行运算。2.模型利用率(MFU)模型利用率指模型一次前反向计算消耗的矩阵算力与机器理论算力的比值,反映 AI 芯片的规划、管理与使用情况。高模型利用率意味着更高效的资源使用,减少对额外硬件的需求。模型利用率可以反映出整体算力利用效率。3.线性度 线性度是衡量一个系统或模型输出与输入之间线性相关程度的指标。它表示系统在一定范围内,输出与输入之间的比例关系保持稳定的程度。线性度好的系统,其输出能够较为准确地反映输入的变化,呈现出
46、较为明显的线性特征;而线性度差的系统,输出与输入之间可能存在较大的偏差或非线性关系。在智算场景中,线性度为单卡训练扩展到多卡,单机拓展到集群的效率度量指标。线性度的取值范围为01,数值越接近于 1,其性能指标越好。4.集群有效算力 智算中心通过集群方式对外提供服务。集群有效算力是指智算集群实际能提供的最大算力和理论最大算力的比值,表征智算中心的实际算力表现。在一个由多个计算节点组成的 AI 集群中,实际可用于执行人工智能任务(如模型训练、推理等)的计算能力的总量不仅取决于单卡峰值算力,还依赖于整个集群的网络配置、规模和算力利用率。有效算力更能反映集群在实际工作负载下的性能。智算中心综合评价报告
47、(2024 年)22 5.模型训练能力 智算中心对多元化训练场景的高效支持能力,是衡量其算力适应性广度的关键指标。由于人工调参的差异,AI 芯片适用的业务场景有偏好。智算集群应满足多种模型在各个应用场景的训练以及配套性能,比如,应能够支持计算机视觉、语音识别、机器翻译、推荐算法、大模型等应用场景下的代表性模型训练与数据集处理。6.模型推理能力 推理也是智算中心的关键应用领域。从场景看,智算中心应能够实现处理计算机视觉、语音识别、机器翻译、推荐算法等常见模型的推理任务,支持包括文本、图像、声音等多模态数据的处理以及跨模态推理任务。通过实际应用场景的效果进行验证,并确保其能够在真实世界问题中提供有
48、效决策支持多模态推理;此外,在从新信息中学习和适应的能力方面,应能够展示出在少量样本或零样本学习情景下的推理的灵活性和适应性。(三)存力(三)存力 存力关注的是智算中心的数据存储与访问能力,是数据持久化与高效利用的重要支柱。党的十九届四中全会首次提出将数据作为生产要素参与分配,数据已成为重要生产要素和资产。伴随着计算走向异构化、复杂化,AI 模型走向巨量化,存储层面面临着海量数据的采集、存储、传输、管理等一系列挑战与问题,存储集群的容量需足够庞大以支撑海量数据存储。此外,在数据成为核心资产的背景下,安全可靠性成为了不可忽视的基石。在呼吁绿色低碳的当下,存储设备智算中心综合评价报告(2024 年