定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《益企研究院:2025年AI时代的存储基石(80页).pdf》由会员分享,可在线阅读,更多相关《益企研究院:2025年AI时代的存储基石(80页).pdf(80页珍藏版)》请在薪酬报告网上搜索。
1、 1AI 时代的存储基石张广彬 张翼 王海峰 I 著AI时代的存储基石 2目录 CONTENTS前言:存储是人工智能的关键基座 04第一章:AI 与存储技术 开启未来数据新纪元 09典型 AI 应用带来的存储增长趋势 12大模型场景下的以存强算 12自动驾驶 3.0 时代的数据循环 14边缘 AI 存储成为热点 17存储技术的挑战与机遇17存储系统的智能化 18算力与存力高效协同 19计算存储协同促进 AI 落地 19第二章:AI 应用场景与存储需求 21准备数据22训练过程24检查点及其作用 24数据量与读写压力 25检查点的保存 27检查点的恢复 29推理过程33KV Cache 及容量需
2、求 33RAG 与向量数据库 35内容生成37生成式 AI 促进数据生产 39边缘侧计算和存储能力增长 40数据留存与复用 41小结42 3AI 时代的存储基石第三章:AI 应用中的存储层级 43存储层级架构44HBM 与 SRAM 45存储容量46HDD 47SSD 49存取性能52顺序读写 52随机读取 53随机写入 54耐久性 55分层存储56第四章:技术演进与生态59容量趋势60硬盘 60SSD 62性能趋势64多磁臂 65FDP 67统一生态68绿色节能 71功耗水平 72增长趋势 72液冷选项 74长效节能 74硬盘再生 76结语:AI 重新定义数据存储的量与质 77 4因“数”而
3、变,以存强算存储是人工智能的关键基座自 2022 年底通用大模型技术取得突破以来,人工智能领域进入发展快车道。2024 年 2 月发布的多模态生成式模型,标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据,实现更接近人类认知的复杂信息处理能力,在医疗、交通、工业制造和气象预测等领域展现出显著应用价值。近期,得到广泛采用的开源大模型通过系统性优化,在保持高性能的同时大幅降低训练成本,引发行业广泛关注。而另一技术方案则通过大规模算力集群的部署,验证了算法效率与算力规模协同发展的重要性,为行业提供了多样化的技术路径参考。从 2018 年始,希捷参与了益
4、企研究院发起的数字中国万里行活动。几年来,数字中国万里行团队足迹遍布“东数西算”八大枢纽节点,考察了云计算、自动驾驶、高教、金融、制造等相关行业上百个数据中心,见证了云计算、人工智能高速发展下的技术应用趋势和架构演进。Jason Feist 希捷科技市场营销高级副总裁前言 I 因“数”而变,以存强算 存储是人工智能的关键基座 5AI 时代的存储基石2024 年,希捷科技再次联合益企研究院,针对不同行业场景深入调研和解读。我们发现算力和存力的紧密结合,正推动着数字经济高质量发展。基于本次调研,我们认为以下三个方面值得在更大的范围内进行探讨。首先,随着数据的爆炸式增长,生成式 AI 应用走向普及,
5、更丰富的内容、更频繁的复制以及更持久的数据留存,带来了更多的数据创建和存储需求。根据市场研究机构 IDC 的预测,到 2028 年,全球预计将产生 394ZB 数据。而现代数据中心存储的所有数据中,有80%90%是非结构化数据,包括文本文件、图像、视频和电子邮件等,它们无法规则地纳入到传统数据库中。在 AI 赋能业务的过程中,企业利用数据的能力提升,带动数据存储、管理、使用的需求增长。用户越来越关注数据存储容量、数据访问速度、设备与系统的能效等方面。IDC:全球生成的数据中,只有不到 5%会被保存下来。预计到 2028 年,存储在云端的数据约 10ZB(具体构成如上图,HDD 占比约 80%,
6、是 SSD 的 6 倍多),企业端约6ZB,消费端约 4ZB 6更重要的是,高质量数据是构建可信人工智能的支柱。数据的准确性、完整性、一致性和时效性直接影响着 AI 模型的训练效果和决策的可靠性。不准确的数据可能导致模型产生错误的预测和判断。反之,良好的数据管理,跟踪模型历史和数据脉络不仅可以帮助企业实现精准决策,还确保企业遵守人工智能法规。同时可以避免企业依赖于单一来源或者商业利益驱动下的专有数据,使 AI 模型更加全面准确地反映现实世界情况,确保推理的可确定性。其次,AI 工作负载在不同阶段需要不同特点和类型的算力、存力支撑。在大型数据中心部署中,AI 相关数据在使用和创建的无限循环中流动
7、。工作流程的每个阶段都需要不同组合的内存和存储设备。AI 数据从源数据到训练模型、创建内容、存储内容、保留数据、重复利用数据的无限循环AI 相关数据周而复始的无限循环从定义、查找和准备数据开始。通过网络访问的存储便于共享和扩展,其中硬盘(HDD)能够长期保存原始数据并提供数据保护,固态盘(SSD)则充当可即时访问的数据层。在模型的训练过程中,先要快速地从存储中加载数据到 HBM(高带宽内存)、DRAM 以及本地固态盘以供后续的计算密集型前言 I 因“数”而变,以存强算 存储是人工智能的关键基座 7AI 时代的存储基石操作使用。网络硬盘和固态盘存储检查点,以保护和优化模型训练。推理过程中的内容创
8、建主要依靠 HBM、DRAM 和本地固态盘或硬盘完成。随后,内容被存储起来,以便不断进行优化。硬盘用于存储并保护内容的副本。在这一系列步骤之后,数据被妥善保存下来,成为构建可信赖 AI 的基础。最后,数据会被重新利用,为 AI 模型提供反馈信息。网络硬盘和固态盘在不同的地理位置存储 AI 数据。对模型训练来说,为了能够快速恢复训练,需要频繁创建检查点。大容量、高性能的 AI 存储系统能够显著节省训练所需的时间,并确保 AI 集群计算能力的高可用性。数据的持续生成带来更多存储需求,而后者反过来又推动了数据生成和人工智能的进化,形成了一种良性循环。在大型数据中心部署中,大多数 AI 相关的数据最终
9、都存储在大容量对象存储中随着人工智能基础设施的更新,AI 工作负载在性能、容量和能耗方面对数据中心和边缘计算的存储提出了严峻挑战。数据的处理和存储在整个 AI 业务流程和生态系统中扮演着重要角色,而存储与计算共同构成了 AI 落地的关键基础设施。最后,在 AI 相关的数据中心,对存储容量要求大幅增长,不同的存储介质在性能和可扩展性方面各具优势。希捷的热辅助磁记录技术突破了硬盘面密度的增长瓶颈,有效提升了硬盘容量、性能和能效。8基于魔彩盒 3+(Mozaic 3+)技术的希捷银河新一代企业级硬盘,已经在超大规模数据中心部署。以希捷为代表的机械硬盘厂商与服务器厂商、最终用户紧密协作,不断扩展存储能
10、力,构建高可靠、高价值存储方案与服务,以保证整体解决方案的性能和稳定性,有效地激活数据价值。结论AI 时代,存储比以往任何时候都更为重要,因为它支撑着最核心的资产数据。在 AI 迅速发展的当下,数据成为了推动人工智能进步的关键要素。存储作为数据的载体,其重要性不言而喻。为了充分抓住 AI 带来的机遇,企业需要进行长期的、战略性的存储容量和性能规划。只有这样,才能满足 AI 对海量数据的存储需求,为人工智能的发展提供坚实的基础。AI 生态系统的重构对计算、存储、网络等多种组件提出了更高的要求。存储作为人工智能大模型的关键基座,不仅提供了数据存储和管理的基础支撑,还推动了生态互通。大模型缩放定律面
11、临着算力、存力、能效等方面的挑战,计算与存储高度融合,才能不断加速 AI 应用落地的步伐。前言 I 因“数”而变,以存强算 存储是人工智能的关键基座 9AI 时代的存储基石AI 与存储技术 开启未来数据新纪元AI 时代的存储基石 10AI 与存储技术 开启未来数据新纪元人工智能(Artificial Intelligence,AI)技术自诞生之初,便开启了从理论探索到实践应用的发展历程。初期,以专家系统为代表的 AI 技术,尝试模拟人类专家的决策过程,为特定领域提供智能支持。随着技术的不断进步,机器学习(Machine Learning,ML)、深度学习(Deep Learning,DL)等更
12、为先进的AI技术相继涌现,推动了自然语言处理、计算机视觉等领域的飞速发展。伴随着大模型的爆发和人工智能技术的快速迭代,计算架构、算法框架、数据供给正面临深刻变革,生成式 AI 正在重新定义存储的内涵。人工智能将推动总潜在市场(TAM)增长率达到更高的水平(来源:希捷 OCP)以 ChatGPT 为代表的大语言模型(Large Language Model,LLM)是 AI 创新从量变到质变长期积累的结果,也是 GenAI(Generative AI,生成式人工智能)发展的重要里程碑。从 GPT-4 开始,超大规模预训练模型展示了一条通向通用人工智能的可能方向,人们通过输入提示词和多模态内容,便
13、可生成多模态数据。更重要的是,它可以用自然语言方式生成任务描述,以非常灵活的方式应对大量长尾问题和开放性任务,甚至是一些主观的描述。整个 IT 行业正处于为 AI 和 GenAI 重塑基础设施的关键转型期。“大模型+大算力+大数据”成为迈向通用人工智能的一条可行路径。CHAPTER 1 I AI 与存储技术 开启未来数据新纪元 11AI 时代的存储基石算法突破、算力紧俏的背后,是数据需求的激增。数据、算法、算力,并称人工智能“三驾马车”。在深度学习时代,高质量的数据能够为人工智能模型提供准确的学习样本和标签,使得模型能够从中提取有效的规律和特征。例如,在图像识别领域,大量清晰、标注准确的图像数
14、据是训练高性能模型的关键。只有通过对这些数据的学习,模型才能逐渐掌握不同物体的特征,从而准确地识别出各种图像中的内容。在自然语言处理中,丰富多样的文本数据能够帮助模型理解语言的结构、语义和上下文关系,从而实现准确的语言翻译、文本生成等任务。随着大语言模型的爆发,公众的注意力常常集中在算力规模(如 GPU 卡数量)上,但业内先驱们早已认识到数据才是最难补齐的短板。根据 OpenAI 在 2020 年论文中展示的大语言模型扩展法则(Kaplan scaling laws),每个参数需要 1.7 个文本 Token,175B 大语言模型需要 300B Tokens。而 DeepMind 在 2022
15、 年提出的霍夫曼扩展法则(Hoffmann scaling laws)认为,要获得理想的模型质量,每个参数需要大约 20 个 Token 进行训练。一个 10B 规模的模型需要约 200B Tokens,若每个 Token 是 FP32 数据格式,那就意味着 800GB 的数据。DeepMind 的论文预测,10Trillion(10 万亿)规模参数需要 216T Tokens。这个数字大约是人类迄今所生产的文本信息总量的十倍。另外,模型规模每增加 10 倍,运算量需求增加 100 倍。10T 规模的模型需要当前百 B 级模型的千倍甚至万倍的算力或训练时间。出 自 DeepMind 发 表 的
16、 论 文Training Compute-Optimal Large Language Models,2022 年 3 月 12大模型场景下的以存强算简而言之,有效数据匮乏已经成为当前预训练阶段的主要矛盾。虽然模型参数仍在继续增加,但由于数据的限制,更大规模的模型在实现通用人工智能(AGI,Artificial General Intelligence)的道路上存在训练不足的隐患。如何摄取、整理、处理、存储超乎想象的巨量数据成为 AI 时代最关键的问题。典型 AI 应用带来的存储增长趋势按照霍夫曼扩展法则,模型的规模和训练数据的规模是决定模型能力的关键因素,超千亿参数的大模型研发不仅仅是算法问
17、题,而是囊括了底层庞大算力、网络、存储等诸多领域的复杂系统性工程,需要有超大规模数据中心的 AI 算力来支撑。而在当前算力成本高昂的背景下,提升算力利用率成为了有效提高系统性能和降低整体成本的关键。因此,面对算力成本急剧上升和优化算力利用率的迫切需求,存储系统的构建也越来越重要。大模型的全生命周期主要可以分为三个阶段,包括数据的采集、训练/微调、推理。微软总结的 AI 模型生命周期,中间三个都属于模型的训练阶段,而数据采集、预训练和微调是对存储层要求较高的环节在数据采集环节,企业面临着诸多存储挑战。大模型训练需要海量的原始语料数据,模型从单模态到多模态,出现数百亿的小文件,多模态大模型所需的训
18、练数据量是传统单模态小模型的 1000 倍以上,数据预处理时长占 AI 数据挖掘全流程的 30%,对算CHAPTER 1 I AI 与存储技术 开启未来数据新纪元 13AI 时代的存储基石力消耗巨大。存储系统需要高效地存储和调度大规模的数据,包括结构化和非结构化数据,可能包含文字、图片、视频、音频等多种多样的数据类型,用户迫切希望拥有一个大容量、低成本、高可靠的数据存储底座。例如,在自然语言处理领域,为了训练一个强大的语言模型,需要收集来自书籍、文章、网页等各种渠道的大量文本数据。这些数据不仅数量庞大,而且格式各异,包括纯文本、HTML、PDF 等。存储系统需要具备足够的容量来容纳这些数据,同
19、时还要保证数据的安全性和可靠性,防止数据丢失或损坏。在数据清洗过程中,需要对大量的数据进行去重、过滤、标准化等操作,将低质量数据变成高质量数据。这些操作需要消耗大量的计算资源和存储资源。因此,存储系统需要与计算资源紧密结合,实现高效的数据处理。在模型训练环节,训练数据集加载慢、易中断、数据恢复时间长等问题是大模型训练中的常见难题,存储系统必须足够快速地为 AI 算力芯片提供训练所需数据。为了解决这些问题,需要实现海量小文件数据集快速加载,降低 GPU 等待时间,以及快速读写检查点(checkpoint)文件,降低恢复时长,提高训练效率。首先,对于海量小文件数据集的快速加载,可以采用分布式文件系
20、统和数据缓存技术。分布式文件系统可以将数据分散存储在多个节点上,提高数据的并行访问能力。同时,数据缓存技术可以将频繁访问的数据缓存在内存中,减少存储 I/O 操作,提高数据加载速度。其次,对于快速读写检查点文件,可以采用高性能的存储设备和优化的存储架构。大容量、高性能的 AI 存储系统能够极大缩短断点续训时间,保障 AI 集群的算力可用度处于较高水平,提升算力应用效率。模型推理是与 AI 应用关系最为直接的环节。如果说 2024 年是多模态市场成为现实的关键一年,2025 年将开启生成式 AI 应用的崭新时代。结合大语言模型、智能代理和多模态模型,AI 将被用于分析和整合非结构化数据,例如文本
21、、叙事和洞察,与定量数据融合,提供更全面的分析结果。这将颠覆传统的基于数字和结构化数据的分析模式,为企业决策提供更丰富的背景和更动态的洞察。更多的数据、更大的模型以及更长的上下文窗口能够带来更高效的人工智能应用范式。模型的推理过程是一个复杂的存储系统工程,关键是需要能够存的多、传的快、性价比高。数据的不断生成促成了更多的数据存储,而更多的数据存储又进一步推动数据生成和人工智能的演变,形成一个良性循环。14此外,存储成本也是企业需要考虑的重要因素。随着数据量的不断增长,存储成本也会相应增加。因此,企业需要寻找一种低成本的存储解决方案,既能满足数据存储的需求,又能控制成本。大模型的存储还需考虑数据
22、的安全性和隐私性。由于大模型通常涉及敏感的训练数据和商业机密,因此存储系统必须提供严格的数据加密和访问控制机制,以防止数据泄露和非法访问。自动驾驶 3.0 时代的数据循环自动驾驶作为 AI 技术在汽车行业落地的重要形式,正在引领着汽车产业的深刻变革。从行业趋势来看,由硬件与软件驱动的自动驾驶 1.0 与 2.0 时代已近尾声。由数据驱动的 3.0 时代正式开启。自动驾驶 1.0 时代为硬件驱动,主要依靠激光雷达和人工规则的认知方式提供自动驾驶方案。但在 100 万公里后,硬件不再是决定自动驾驶技术发挥的下限。自动驾驶 2.0 时代则是软件驱动,特点是传感器单独输出结果,用小模型和少数据的模式提
23、供自动驾驶方案。挖掘算力潜能,让 AI 真正发挥价值。在 AI 算力升级后,很多自动驾驶企业加大了对算法模型的应用,这使得其产品最终能够落地,让自动驾驶“走”了起来。自动驾驶市场规模发展趋势 2023 2033(来源:Precedence Research)CHAPTER 1 I AI 与存储技术 开启未来数据新纪元 15AI 时代的存储基石伴随智能网联汽车传感器数量的快速增加,ADAS 和自动驾驶车辆数据的生成量也呈现指数级增长,从 GB 到 TB、PB,传统数据存管模式无法应对大规模复杂数据的快速处理、各种传感器数据及外部数据的适配接入。从 Precedence Research 的数据来
24、看,2023 年全球自动驾驶汽车市场规模估计为 1583.1 亿美元,预计到 2033 年将达到 27528 亿美元左右,从 2024 年到 2033 年将以 33%的复合年增长率(CAGR)增长。2023 年美国自动驾驶汽车市场价值 599.2 亿美元。从 2024 年到 2033 年,亚太地区的复合年增长率预计将达到 35%。在过去两年的调研中,数字中国万里行团队发现大模型的发展思路给自动驾驶带来了更多启发,从道路信息感知到路径规划决策,从智能驾驶的开发效率到用户驾驶体验,智能驾驶企业正采用多模态传感器联合输出结果,用大模型大数据的模式提供自动驾驶方案。在自动驾驶 3.0 时代,数据闭环是
25、核心要素,即从车端数据采集,到处理后形成有效数据集,再通过云服务器进行存储、运输,经过算法模型训练、验证后,将有效数据成果部署上车,各环节相互连接,形成自动驾驶数据循环。自动驾驶的数据循环路径以具有国内合规采集资质的吉利汽车为例,基于用户车队及集团内运营车辆资源,目前吉利一辆车每个月的合规数据采集量是几个 GB 的量级,星睿智算中心每天的采集 16数据增长量达到了 TB 水平。特斯拉为了训练基于端到端技术路线的 FSD V12,向系统内输入了 1000 万个经过筛选的、熟练司机的驾驶视频。特斯拉在全球各地约 200万辆的车队,每天也会提供约 1600 亿帧视频用于训练。端到端自动驾驶存在与其他
26、大模型应用相同的问题:难以修正错误。基于规则的系统可以通过修改程序或者数据库修正错误,而大模型只能重新训练/微调。针对不同任务,设置多个头部、部署不同的模型可以隔离不同任务训练时对其他能力的影响。但在重新训练过程当中,依旧可能无法彻底解决问题,或出现新的问题。譬如 FSD V12 在马斯克直播当中出现了闯红灯问题,到 2024 年底的 FSD V13.2.2 当中,仍会出现闯红灯、逆行、乱停车等行为。这说明大模型在训练当中“领悟”的规则与交规不符。人类司机的行为本身就会存在大量违反交规的行为,无法一概而论这些行为是善意、被迫或者故意。这些数据对学习效果的影响难以评估,训练结果难以测量。按下葫芦
27、浮起瓢的反复训练模式会极大消耗算力和数据资源。实现高等级自动驾驶的难点在于覆盖尽可能多的极端场景、长尾场景。这类场景的采集难度极大,需要收集大量的数据。特斯拉有意识地收集自动驾驶模式中人为介入的场景。解决数据不足的思路还包括合成数据、强化学习等。CHAPTER 1 I AI 与存储技术 开启未来数据新纪元 17AI 时代的存储基石自动驾驶还需要处理来自多种类型传感器的多模态数据,包括但不限于图像、视频流、点云等。此外,还需要应对复杂的天气条件、交通状况以及各种长尾场景下的数据采集与分析。这些数据在结构、大小和访问频率上都存在差异。因此,存储系统需要具备灵活的数据管理能力,能够适应不同类型数据的
28、存储需求,并提供高效的数据检索和分析功能。另外,自动驾驶技术对边缘侧的数据存储可靠性也有着极高的要求。自动驾驶事关生命安全,因此任何数据丢失或损坏都可能带来严重的后果。存储系统必须采用多种数据冗余和保护机制,确保数据的完整性和可用性,即使在面临硬件故障或自然灾害等极端情况下,也能保证数据的可靠存储。边缘 AI 存储成为热点数字平台在不同领域的扩展产生了大量数据,特别是由于物联网(IoT)设备等互联设备,产生了大量的数据集。如今,AI 的进步催生了新的数据采集形式,这些形式不再与模型构建者试图训练的精确策略直接相关。生成性 AI 的兴起,引发了对基准测试、偏好数据、安全性及红队测试的新关注不再局
29、限于标注和收集精确的策略数据,而是向价值链上游延伸,涉及更复杂、更昂贵和更具挑战性的任务。比如在智能制造领域模拟到现实的合成技术、模块化机械臂附件等方式,开展大规模机器人数据采集。这些方法有助于收集基础规模的数据,以支持现实世界中的通用机器人。然而,收集数十亿或数万亿个机器人数据 Token 需要大容量存储设备进行后续的处理,边缘 AI 的存储也成为另外一个热门场景。存储技术的挑战与机遇在 AI 技术迅猛发展的背景下,存储容量和性能的提升显得尤为重要。AI 应用所产生的数据不仅规模庞大,而且类型多样,包括结构化数据、非结构化数据以及流数据等。这些数据的存储和管理对存储系统提出了更高的要求。为了
30、应对这一挑战,新型存储技术应运而生。分布式存储技术通过将数据分散到多个节点上存储,提高了系统的可扩展性和容错性。这种技术不仅能够满足 AI 应用对大容量存储的需求,还能够提供高并发访问和数据共享功能,为 AI 应用的训练和推理过程提供有力支持。18云存储技术则是另一种重要的解决方案。通过将数据存储在云端,云存储技术实现了数据的集中管理和按需访问。云存储具有弹性扩展、高可靠性、低成本等优势,能够满足AI应用在不同阶段对存储资源的需求。同时,云存储还提供了丰富的数据服务,如数据备份、恢复、迁移等,为 AI 应用的数据管理提供了极大的便利。总的来说,存储容量和性能的提升是 AI 技术发展的重要支撑。
31、随着新型存储技术的不断涌现和应用,我们有理由相信,未来的存储系统将更加智能、高效、可靠,为AI 应用的发展提供更为强大的动力。高速、低延迟的存储性能对于确保 AI 应用的顺畅运行和实时响应至关重要。传统存储技术,尽管在过去的数十年中发挥了重要作用,但在面对 AI 应用带来的数据洪流时,却显得力不从心。优化存储性能是确保 AI 应用高效运行的关键环节。通过采用新型存储介质、优化存储算法和架构等多元化手段,我们可以有效地提升存储系统的性能表现,满足 AI 应用对高速、低延迟存储的迫切需求。这不仅有助于提升 AI 应用的用户体验和业务效率,还将为整个 AI 产业的持续发展和创新注入新的活力。在 AI
32、 技术的迅猛发展下,存储技术的创新步伐也日益加快。机械硬盘(HDD)与固态存储如 SSD 如何分工合作,满足 AI 应用对高性能、大容量、低功耗存储的需求?存储系统的智能化随着人工智能技术的深入发展,其对存储系统的影响日益显著。智能化存储系统作为这一趋势的重要产物,正逐渐改变着传统存储方式的面貌。通过集成先进的机器学习算法和深度学习模型,智能化存储系统能够实现对海量数据的智能分析与挖掘,进而优化存储性能,提升数据处理的效率。智能化存储系统的核心在于其具备的自我学习和自我优化能力。系统能够通过对历史数据的分析,识别出数据的访问模式和特征,从而预测未来的数据需求。基于这些预测结果,智能化存储系统可
33、以自动调整存储策略和布局,以确保数据能够以最优的方式被存储和访问。这种动态调整的能力不仅提升了存储系统的性能,还有效降低了运营成本。CHAPTER 1 I AI 与存储技术 开启未来数据新纪元 19AI 时代的存储基石除了优化存储性能外,智能化存储系统还在数据备份和恢复方面展现出强大的实力。传统的数据备份方式往往需要人工干预,且恢复过程繁琐易错。而智能化存储系统则能够根据数据的重要性和优先级,自动制定备份计划,并在必要时迅速恢复数据。这种智能化的备份和恢复机制不仅提高了数据的安全性,还大大减少了因数据丢失而造成的损失。智能化存储系统还在容灾方面发挥着重要作用。在面临自然灾害、人为错误或恶意攻击
34、等潜在威胁时,智能化存储系统能够迅速响应,自动将数据迁移到安全的存储位置,确保业务的连续性和数据的完整性。这种高度的自动化和智能化水平,使得智能化存储系统成为现代企业不可或缺的重要基础设施之一。算力与存力高效协同数据规模的增长对存储技术的性能、容量和可靠性提出了更高要求。尤其在大模型训练和推理过程中的数据调度、边缘侧与云端数据的存储,需要大容量、高速、低延迟的存储系统以支撑实时数据处理和分析,大容量的存储技术解决方案成为支撑整个 AI 生态系统的关键。在整个生成式 AI 落地过程中,企业如果希望充分利用 AI能力,需要首先建立一套高效、可靠的数据存储与管理系统,确保数据价值被充分发掘且高效利用
35、算力。譬如,针对非结构化数据的处理,向量数据库成为 AI 大潮当中的热点。计算存储协同促进 AI 落地AI 应用需处理和分析的数据规模日益庞大,使得算力不断增加。但算力规模增加的同时,集群的可用性明显下降,数据的存储与访问速度对系统性能和效率产生直接影响。此外,随着 AI 应用数据规模和复杂性的持续增长,对存储技术的容量、速度和可靠性提出了更为严苛的要求。越来越多的应用场景开始将 AI 算法与存储介质紧密结合,以实现更为智能化的数据处理和存储管理,提升集群的可用度。根据 Precedence Research 于 2024 年 7 月发布的研究报告,全球 AI 驱动存储市场预计将从 2024
36、年的 287 亿美元,激增至 2034 年的 2552 亿美元,年复合增长率(CAGR)相当喜人。越来越多企业正在积极寻求更智能、更灵活的数据管理解决方案。20 AI 驱动存储市场规模发展 2024 2034(来源:Precedence Research)大模型场景下,数据存储面临的挑战,将不仅仅是传统意义上容量增加、性能提升的线性挑战,计算和存储相互协同,或直接基于GPU架构,或与GPU服务器密切协同,专为 AI 数据处理而优化,可以提升训练集群可用度,降低推理成本,提升用户体验。CHAPTER 1 I AI 与存储技术 开启未来数据新纪元 21AI 时代的存储基石AI 应用场景与存储需求A
37、I 时代的存储基石 22CHAPTER 2 I AI 应用场景与存储需求AI 应用场景与存储需求GPU(或 AI 加速器,下同)是 AI 集群的核心,也是最昂贵的部分,优化其使用率以缩短训练时间及获得更好的投资回报(ROI),是网络和存储架构设计时必须重点考虑的因素。AI 工作负载可以分为准备数据、开发模型(训练)和部署模型(推理)三大阶段,对存储的访问贯穿其中,需求上也各有侧重,组合使用不同的存储技术,才能取得较好的效果。GPU 服务器通常内置有限的本地存储,以 NVIDIA 的 8GPU 机型 DGX A100/H100 为例,它标配 8 个 3.84TB 的 U.2 规格的 NVMe S
38、SD 作为数据缓存(Data Cache)盘,总容量约 30TB。新一代的 GB200 NVL72 是每 4 个 GPU配置 8 个 E1.S 规格 SSD,每个 GPU 对应的本地存储容量并没有很明显的增长。左边是配备 8 个 U.2 SSD(中下部区域)的 8U GPU 服务器,右边是 8 个 1U GPU 服务器(节点),每节点配备 8 个 E1.S SSD(中部区域),后者明显更节省空间,但容量上限也相应下降网络存储如文件存储和对象存储,在共享、扩展和故障恢复等方面都优于(服务器)本地存储,适合存储持久化数据。网络存储通常包括闪存(如 SSD)层和硬盘(HDD)层。现在 SSD 和 H
39、DD 的单体容量都可以达到 20TB 以上,但在性能和成本等方面各具优势。准备数据采集(生成/获取)、积累源数据是个相对长期的过程,除了结构化数据,更多的是非结构化数据,从文本到图像、视频等,文件尺寸越来越大,累积下来总数据量通常 23AI 时代的存储基石可达 PB 级,并且规模还在不断增长。相对而言,性能上的要求不算很高,顺序写入可以进一步降低存储介质端的压力,HDD 在单位容量成本上的优势较为明显。AI 数据在 CPU 和 GPU、不同存储层之间的流动(来源:微软)在模型训练开始前,要将数据加载到服务器的内存中由CPU进行预处理,进行解码、格式转换及数据增强等操作,将原始数据转换为 GPU
40、 可处理的张量格式,再批量送往GPU。数据加载是个顺序读取的过程,数据量在数百 GB 到 TB 级,单台服务器的读带宽可达数 GB/s 到数十 GB/s。顺序读对 SSD 和 HDD 都是最为舒适的场景,有足够的网络带宽与合理的存储系统架构支持,根据数据类型和模型的特点不同,从存储读取数据不一定成为瓶颈。例如,处理文本数据(供语言模型使用)时,只需进行分词,预处理时间较短;而处理图像或视频数据集时,预处理时间就可能成为主要瓶颈。数据加载涉及存储 IO 和转换流水线(来源:SNIA)24以 MIT 在 2023 年发表的一篇论文为例,一个 ImageNet 训练过程中,数据加载(读取 Image
41、Net 数据集到内存中并处理)所需的时间,是仅读取数据集的 16 倍以上,也远超实际训练过程的时长。通过将数据集预处理为更适合高吞吐量加载的格式,并用优化的数据加载器在训练时加载数据,可以大幅减少数据加载所需的时间。理想的情况是将读取和预处理数据的过程与训练过程并行,把准备数据的时长“隐藏”起来,消除GPU/加速器空闲等待(数据)的现象。当然,如果训练过程很快就结束,这一点也很难成立。MIT 在 2023 年 发 表 的 论 文FFCV:Accelerating Training by Removing Data Bottlenecks中指出,ImageNet 训练所花费的时间里,图片处理阶段
42、占比最高训练过程在正常的训练过程中,只有少量的读访问,顺序和随机都有,训练结束后得到的模型被写入存储,这个数据量也不算大。然而,训练过程恰恰是给存储系统访问压力最大的环节,因为 AI 集群在高强度的训练过程中出现异常是常态,存储系统肩负“起死回生”的重任。检查点及其作用大规模 AI 训练集群结构复杂,组件众多,如上千台服务器、上万个 GPU/加速器、网卡和数量更多的光模块,而训练的同步性质使其对故障的容忍度较低单个GPU、网卡或光模块的故障就可能需要重启整个作业。Meta 的 Llama 3 405B(4050 亿参数)模型在多达 16000 个 NVIDIA H100 GPU上进行训练,对应
43、 2000 台 Meta 的 Grand Teton AI 服务器平台。在 54 天的预训练CHAPTER 2 I AI 应用场景与存储需求 25AI 时代的存储基石期间,经历了共 466 次作业中断,其中 47 次是计划内的中断,另外 419 次是意外的中断。大约 78%的意外中断归因于确认的硬件问题,如 GPU 或主机组件故障。Llama 3 405B 预训练 54 天期间意外中断的根本原因分类,大约 78%的意外中断归因于已确认或怀疑的硬件问题训练过程中定期保存检查点可以在需要时恢复训练,或用于模型评估和推理。检查点(Checkpoint)保存模型训练过程中的当前状态,通常包括模型的参数
44、(权重和偏置)、优化器状态和其他相关的训练信息。训练时间越长,模型权重的价值就越高,使用检查点可以从最后一个保存的检查点继续训练,而不必从头开始。检查点对于保障训练进度至关重要,如果每次故障后都需要从头开始重新运行训练任务,有些大型任务可能永远无法完成。数据量与读写压力检查点的保存和恢复是两个相反的过程:保存:暂停在 GPU 上运行的模型训练作业,将模型状态从 GPU 内存拷贝到 CPU 的内存(系统内存),进行序列化,形成检查点数据,写入到持久存储;26恢复:发生故障或需要恢复时,从存储中读取(相应的)检查点数据到系统内存,反序列化,还原模型状态,拷贝回 GPU 内存。检查点的内容包括模型权
45、重(已学习的参数)、优化器和训练状态,可以理解为当时系统运行状态的一个“快照”,其大小仅取决于模型大小,与(训练用)数据集的大小、GPU数量或其内存大小无关。因为要暂停训练任务以保存检查点,计算(上)和存储 I/O(下)周期性的交替进行(来源:NVIDIA)模型参数通常按 2 个字节(BF16 或 FP16)计算,在混合精度训练中,为了减少累积误差、提高训练稳定性,也可以保留一份 FP32 精度(4 个字节)的模型参数。每个模型参数自身 2 个字节,优化器和其他状态信息按 12 个字节计算,共 14 个字节,这样就可以得出不同模型的检查点大小,如 GPT3 的 1750 亿(175B)参数,对
46、应的检查点数据量约为 2.4TB。对存储系统而言,保存检查点(Checkpointing process)是个(顺序)写入过程,从检查点恢复(Restore from a checkpoint)是个(顺序)读取过程。两个过程的差别不仅于此,数据量和执行频度等要求也不同,都会影响存储系统的架构与实现。CHAPTER 2 I AI 应用场景与存储需求 27AI 时代的存储基石检查点对应的数据量与 GPU 数量无关,因为并不(一定)需要所有的 GPU(或加速器)都参与检查点的生成。较大型的 AI 训练集群会采用多种并行策略,如数据并行(Data Parallelism,DP)和模型并行。在数据并行的
47、多个模型实例中,每个实例都持有完整的模型副本并处理不同数据批次,所以只需要其中一个实例对应的 GPU 参与保存检查点,每个 GPU 转移其模型参数数据,而检查点文件始终由单个线程顺序写入。从检查点恢复时,就需要所有 GPU 从存储系统读取检查点数据。每个模型实例都需要恢复到检查点保存的状态,所以恢复过程读取的数据量,随着数据并行度而成倍放大。更大的模型会产生更大的检查点,而更多的 GPU 意味着出错的可能性更高,这些都会转化为对存储系统的压力。检查点的保存保存检查点的目的是保护 GPU 的工作成果,但是,又不能让这个过程的加入,严重影响 GPU 的正常工作。检查点操作所耗费时间应尽可能的短,这
48、样可以增加检查点的频率,以最大限度减少浪费的训练时间并确保进度。检查点文件的写入数据量是固定的(来源:SNIA/益企研究院)28因为保存检查点之前要将 GPU 的正常(训练)工作暂停,如果 GPU 的这种空闲(idle)状态持续到保存检查点完成,就意味着有效训练时间的相应减少。而且保存检查点花费的时间过长,也会限制保存检查点的频次,反过来影响检查点的实际效果检查点之间的间隔拉远,恢复时丢失的工作进度就会增加。回到前面的Meta Llama 3模型预训练案例,平均不到3小时就会经历一次作业中断,意味着起码 2 个小时就要保存一次检查点。按有效训练时间 90%计算,平均到每次作业中断后恢复的时间开
49、销不到 17 分钟,这里面包含了作业启动和(不止一次的)检查点时间,其中留给每次保存检查点的时间只能是一小部分。Dell 在 SNIA 分享的AI 训练和检查点的存储需求主题演讲中,以 2 小时保存一次检查点估算,如果只用其中 1%的时间(72 秒),五千亿参数级别的大模型,写入带宽需要达到 100GB/s 的水平。Meta 在 2022 年发表的论文中,其用于训练深度学习推荐模型(DLRM)的检查点系统 Check-N-Run,默认每 30 分钟保存一次检查点。这就要求保存检查点所花费的时间,必须达到分钟级,甚至秒级。模型参数检查点大小(GB)72 秒2 小时 1%180 秒2 小时 2.5
50、%360 秒2 小时 5%540 秒2 小时 7.5%720 秒2 小时 10%30 亿420.583 0.233 0.117 0.078 0.058 70 亿981.361 0.544 0.272 0.181 0.136 130 亿1822.528 1.011 0.506 0.337 0.253 330 亿4626.417 2.567 1.283 0.856 0.642 700 亿98013.611 5.444 2.722 1.815 1.361 1400 亿196027.222 10.889 5.444 3.630 2.722 1750 亿245034.028 13.611 6.806 4
51、.537 3.403 4050 亿567078.750 31.500 15.750 10.500 7.875 5300 亿7420103.056 41.222 20.611 13.741 10.306 表 1:不同时长限制下检查点需要的写入带宽(GB/s)CHAPTER 2 I AI 应用场景与存储需求 29AI 时代的存储基石一种方法是全链路上强度,并行化检查点写入,可以成倍缩短耗费的时间。这种方法将检查点创建分配给多个数据并行的 GPU,因为每个模型实例持有相同的检查点数据,每个 GPU 可以仅写入检查点文件的一部分,整个 AI 训练集群内的 GPU 都可以参与进来。检查点保存从更多并行存
52、储 I/O 中受益,性能和效率得到提升,显然也对存储系统的并行 I/O 能力提出了更高的要求。Meta 为其 Llama 3 集群提供了 7500 个配备 SSD 的服务器,支持 2TB/s 的可持续吞吐量和 7TB/s 的峰值吞吐量,以应对在短时间内饱和存储网络的高突发性检查点写操作。另一种方法的思路与准备数据阶段的分析类似,不是简单的把数据读写的压力全部丢给存储侧,而是从计算侧入手,可以更快的把 GPU 从检查点生成任务中解放出来因为在 CPU 处理检查点操作时,GPU 实际上处于闲置状态。Check-N-Run 采用了解耦的思路,变同步为异步:训练仅在内存中创建模型参数副本时暂停,GPU
53、 将其内存(显存)中的数据复制到系统内存后(模型快照就绪),便可继续进行训练工作;CPU 接手模型快照的处理,由专用的进程在后台负责创建、优化和存储检查点。按照 Meta 论文中的数据,对分布在 16 个节点(总计 128 个 GPU)上的典型模型在 GPU 显存中的快照操作,在 CPU 内存中完成快照的时间不足 7 秒。在 30 分钟检查点间隔下,暂停时间所占比例不到 0.4%,可忽略不计。目前微软、字节跳动等企业都已采用了类似的解决方案。以微软 Nebula 异步保存为例,需要一些内存来存储检查点,须确保系统内存至少大于检查点的三个副本。此种做法的核心思路是最小化检查点期间 GPU 的暂停
54、时间,尽快让宝贵的 GPU 回到高价值的训练工作中去,但在客观上也降低了(前端)网络和存储系统的压力。当然,这个写入存储的过程还是要尽快完成,以降低在此期间遭遇故障导致丢失该检查点的风险。检查点的恢复训练作业中断后,需要将所有的 GPU 恢复到之前保存的某个时间点的工作状态,然后继续运行。这意味着读取检查点的操作涉及到 AI 训练集群中的所有 GPU(和服务器),而不像写入时只需要其中一个模型实例对应的 GPU 参与,带宽需求要高 N 倍。30 恢复检查点的读取数据量与数据并行度正相关(来源:SNIA/益企研究院)这个 N 就是模型实例的数量,取决于数据并行度。换言之,从检查点恢复时读取的数据
55、量,不仅取决于模型大小,也与集群中的GPU数量有关,AI训练集群的规模越大,读取数据量可能就越大。尽管恢复操作不会有检查点那么频繁,时间窗口的要求不必那么苛刻,但在乘以模型实例的数量之后,总读取带宽的要求仍然相当可观。以 5 分钟恢复检查点为例,大模型叠加高数据并行度的乘数效应,需要的总读取带宽依然高达 TB/s。CHAPTER 2 I AI 应用场景与存储需求 31AI 时代的存储基石NVIDIA 与斯坦福大学、微软研究院在 2021 年发表的论文基于 Megatron-LM 的GPU 集群高效大规模语言模型训练中,以 3072 个 GPU 训练 1 万亿参数模型为例:检查点为 13.8TB
56、,数据并行度为 6,存储系统需提供 1.64 TB/s 的读取和 280 GB/s的写入带宽,才能实现 50 秒的最优恢复时间。除了采用全闪存存储之外,分层存储也可以化解这种高带宽需求。因为检查点对应的存储容量并没有改变,只是有更多的 GPU(及其服务器)需要这些数据,从而提高了读取带宽的门槛。分层存储可以把大部分的检查点都保存在单位容量成本较低的 HDD存储层上,SSD 存储层只保存比较新的检查点,或者用于临时加载需要访问的特定检查点(相当于缓存热点数据),获得更好的投入产出比。微软 Azure Blob 对象存储采用 SSD 与 HDD 分层的方式存储检查点模型参数检查点大小(GB)181
57、6326412830 亿420.140 1.120 2.240 4.480 8.960 17.920 70 亿980.327 2.613 5.227 10.453 20.907 41.813 130 亿1820.607 4.853 9.707 19.413 38.827 77.653 330 亿4621.540 12.320 24.640 49.280 98.560 197.120 700 亿9803.267 26.133 52.267 104.533 209.067 418.133 1400 亿19606.533 52.267 104.533 209.067 418.133 836.267
58、1750 亿24508.167 65.333 130.667 261.333 522.667 1045.333 4050 亿567018.900 151.200 302.400 604.800 1209.600 2419.200 5300 亿742024.733 197.867 395.733 791.467 1582.933 3165.867 表 2:不同模型实例数量对应的 5 分钟恢复检查点的总读取带宽需求(GB/s)32在计算侧优化的思路同样适用于缓解恢复过程中的存储带宽压力。字节跳动和北京大学在 2024 年 2 月发表的论文MegaScale:将大型语言模型训练扩展到超过 10,00
59、0个 GPU中,提出了一种优化的数据检索策略。多个 GPU 工作节点通常共享相同的状态分区,例如同一数据并行组中的工作节点。因此,MegaScale 指定组内的单个工作节点从 HDFS 读取共享状态分区,随后将状态分区广播给所有共享相同数据的其他GPU 工作节点。这种方法可以线性减少负载,有效缓解了 HDFS 的带宽限制,显著缩短了恢复时间。保存期限与价值需要注意的是,检查点不仅可以用于恢复中断的训练,还有其他几种用途:任务迁移:将训练任务迁移至不同的 AI 节点或集群,以优化资源利用、进行维护或处理硬件问题等。增量学习:为后续的增量学习和迁移学习提供基础,利用先前训练模型的状态从中间阶段继续
60、训练,提升不同模型的训练效果。进度管理:调用检查点对模型进行离线评估,是否朝着正确的方向发展。模型调优:需要重新调整超参数或者跳过部分数据(如出现尖峰)时,可以回到之前的检查点进行调整。推理应用:利用检查点发布快照,即训练结果,供后续推理服务使用。检查点有如此之多的用途,以至于 SNIA 在 WebinarAI 存储:存储在优化 AI 训练工作负载中的关键作用中提到:检查点在整个训练过程中保留,有时保留的时间更长;模型可以恢复到任何一个之前的版本,而不仅仅是最近的检查点。4050 亿参数的模型按每半小时做一次检查点计算,54 天的预训练周期内全部保留,大约需要 15PB 的存储容量。以 Met
61、a 为 Llama 3 集群提供的 240PB 存储空间来说,这只用去 6%出头的一小部分,还有充足的空间满足其他存储需求。CHAPTER 2 I AI 应用场景与存储需求 33AI 时代的存储基石当然这么财大气粗的用户终归是少数,有相当数量的用户只保留最近的几个检查点,滚动覆盖可以节省大量存储空间,达到中断恢复的基本条件。即便是 Meta,其 DLRM的检查点系统 Check-N-Run,也尝试了通过检查点量化、差分/增量检查点等手段压缩检查点的大小,可以将平均写入带宽减少最多 17 倍,存储容量减少最多 8 倍;预期会发生超过 20 次故障,平均带宽仍能减少 6 倍,最大存储容量减少超过
62、2 倍。但是,检查点量化有可能降低训练准确性,差分或增量检查点则在检查点之间建立了依赖关系,必须评估对恢复过程的不良影响。检查点的较长期保存,也需要考虑 HDD等单位容量成本较低的存储方案。推理过程大模型(LLM)的推理分为两个阶段:Prefill 阶段主要处理来自用户的输入(如提示词),是计算密集型;Decode 阶段要生成大量的 Token,相对算力而言对内存带宽要求更高,是内存密集型。两个阶段对资源的要求截然不同,可以分别进行专门的优化,即 PD 分离。2024 年 12月下旬发布的 DeepSeek-V3 模型,在实现中针对 SLO(服务级别目标)使用了 PD分离策略,有助于提高分布式
63、推理的效率和服务质量。可以看出,对内存的使用和优化在推理过程中的重要性。前面在数据准备和训练过程中多次提到计算侧优化对存储侧的帮助,下面我们会看到内存和存储如何助力计算。KV Cache 及容量需求基于 Transformer 架构的大语言模型在推理过程中,需要在 GPU 或 CPU 的内存(即显存/内存)中加载模型权重,以及持续缓存注意力计算的中间状态。模型权重所占用的内存空间为参数数量及精度的积,注意力计算的中间状态(Key 和Value)缓存即为 KV Cache。推理解码每生成一个 Token,都要依赖之前 Token 的结果,缓存可以减少新的 Token 对参数矩阵的重复计算。以 G
64、PT3-175B 为例,1750 亿参数、FP16 精度,需要消耗 350GB 内存;加上 KV Cache,需要的显存空间还要再多一半。34虽然单个 GPU 的显存容量在持续增长,但还没有达到这一水平。通过 ScaleUp(纵向扩展)的方式高效连接多个 GPU 可以获得成倍的显存;而 GPU 与 CPU 之间的高速链路(如 NVLink-C2C)也可以让 GPU 直接访问 CPU 管理下的大容量内存。缩减参数规模和精度,可以降低显存/内存的占用。譬如 7B(70 亿)参数量的模型在使用 FP16 或 BF16 精度时,大约占用 14GB 的显存/内存空间;通过量化为较低的精度,如 FP8,那
65、么占用的显存/内存也相应地得以缩减为 7GB。端侧推理由于内存有限,还会使用 1.3B(13 亿)等更小参数量的模型。随着推理服务愈发重视长 Token 的输入,KV Cache 容量增长速度超过模型规模而成为主要矛盾。更长的上下文、更长的思维链(Chain of Thought,CoT)是推动 KV Cache 飙升的主要动力。为了控制 KV Cache 的容量增长,典型的应对方法是滑动窗口的注意力机制,简单说就是只缓存最近若干 Token,或根据最近 Token 重建 KV 状态,以大幅度降低实际参与运算与缓存的 Token 数量。KV Cache 也可以量化为较低精度,缩减存储容量的需求
66、。KV Cache 的量化策略主要可分为动态量化和静态量化。动态量化通过在模型运行时确定量化参数,能够更好地适应数据分布的动态变化,但这种实时运算需要更大的计算开销。静态量化采用预先确定量化参数的方式,能够提供更优的性能表现,但需要额外的校准数据集支持。另一种方法是寻找“外援”,将模型权重、KV Cache 卸载到 CPU 内存(系统内存)甚至NVMe SSD中,让原本有限的显存可以运行更大规模的模型,或接受更长的输入、加载更大的批次。由于(系统)内存速度较慢,卸载会增加延迟,但考虑到计算本身也有时间消耗,尤其是对于非顶级推理卡而言,其算力落差大于显存容量的差距,部分权重或 KV Cache
67、从内存中加载并不一定严重影响吞吐量。一些 AI 框架也将卸载与量化/反量化结合,以更大幅度地提升推理性能。除了主机内存,CXL 内存、SSD 也可以参与卸载。有一些 SSD 厂商推出了 SLC NVMe SSD 承载显存卸载的需求。CXL 内存与 GPU 直接通讯也是新的研究课题。CHAPTER 2 I AI 应用场景与存储需求 35AI 时代的存储基石RAG 与向量数据库大语言模型应用中最让用户反感的是“无知”,例如幻觉、正确的废话等,缺乏最新的资讯和某些专业领域的知识。再训练可以改善大语言模型在某些专业领域的表现,但依旧不能及时更新知识,需要重复进行训练。RAG(Retrieval Aug
68、mented Generation,检索增强生成)通过集成外部知识库来解决大语言模型无法嵌入更多、更新语料的缺陷,并使用上下文学习以改进大语言模型生成信息的质量。除了专业性和时效性更高,RAG 还有部署门槛低、风险可控的优点。大语言模型依靠的知识是通过内嵌参数存储的,而 RAG 将知识存储与推理能力分离。相比预训练和微调,RAG 消耗的计算资源更低。RAG 的知识存储不依赖于模型参数,可以使用更为轻量化的模型,除了可以降低云端部署的成本,还可适用于边缘侧、端侧,对企业和个人更为友好。对于有保密性需求的专有知识,RAG 的知识库也更可控。可控性还体现在 RAG 的知识库可以逐步更新,而无需重新训
69、练生成模型。这对于企业分阶段处理长期沉淀的海量数据非常重要,可逐步扩展被 RAG 覆盖的范围,也更有实践意义。RAG 的核心流程分为知识库建立、检索、生成等关键阶段。知识库是将精炼后的信息构建为向量数据库。检索模块接受基于自然语言的提示词输入,相关提示会被转换为向量嵌入,并接着使用向量搜索在预先构建的知识库中检索相似信息。生成模块对检索所得进行总结、组合或扩展,以生成内容丰富且上下文相关的输出。向量数据库作为知识库的适宜载体,向量数据库在 RAG 中扮演着至关重要的角色。向量数据库是一类专为执行相似性搜索而定制的数据管理系统。与传统数据库按行或列组织信息不同,向量数据集使用数据的嵌入(embe
70、dding)作为表示,并基于嵌入的相似性进行检索。构建适用于 RAG 应用的向量数据库需要经历几个阶段:数据收集:整理、精炼、补全期望用于知识库的文档,使其信息具有代表性。重复、冗余、错误的内容会提高成本和降低输出质量。由于专业内容往往需要大量的背景知 36识,专有名词、潜规则等难以理解,会导致知识遗漏。文档应以文本形式为主,大多数 RAG 更擅长处理基于文本的来源,但难以有效地集成和理解多模态内容。图像和表格可以通过特定的工具转换为文本信息。数据处理:利用特定 RAG 管线从之前收集的文档中提取文本、格式化内容,并将数据分块成可管理的大小。块(chunk)的划分对输出质量影响较大,太小的块可
71、能导致正确答案被切分,导致检索时遗漏关键信息;太大的块可能引入过多的噪声,还可能超过大语言模型的上下文窗口尺寸。针对不同类型的文档应当使用不同的划分方式。向量化:通过嵌入模型处理数据块,将文本转换为向量,可包括用于丰富上下文的元数据。选择合适的嵌入模型对于检索速度、质量有很大的影响。不同的嵌入模型的维度有数百至数千不等,也意味着索引大小、检索计算量会有十倍以上的差异。存储:将向量化数据存储在可扩展的向量数据库中,以便进行高效检索。由于嵌入了高维度的向量信息,数据库相对原始文档及相关元数据的容量有明显的增加,会达到数倍甚至十倍以上,常常可以达到 PB 级。数据量的急剧增长带来了存储方面的挑战,包
72、括性能和容量。通常使用分布式对象存储来提供足够的吞吐量和容量,还可以使用 DPU 以进一步降低主机占用率和网络时延。检索检索阶段接受的通常是自然语言输入,需要理解用户意图,并对查询进行优化。查询优化包括改写、纠错、说明等,是重要的大语言模型推理工作。改写是指对用户输入的查询语句进行修改或重写,包括调整结构、添加或删除关键词、通过近义词替换来扩展检索范围等;纠错通常是指尝试修正用户输入当中可能的拼写或语法错误;说明是修正或分解用户输入中不明确或模糊的内容,使系统更好地理解并执行相应的检索,有助于避免歧义。CHAPTER 2 I AI 应用场景与存储需求 37AI 时代的存储基石检索既可以通过一次
73、检索获得最终结果,也可以是多步推理,包括迭代检索、递归检索和自适应检索等。迭代检索允许模型参与多个检索周期,从而增强获得信息的深度和相关性,为生成内容提供更全面的信息;递归检索可以将之前的检索输出作为后续的检索输入,通常用于需要渐进式收敛到最终答案的场景,如学术研究、案例分析等;自适应检索是一种动态调整机制,根据不同任务和上下文的特定需求定制检索过程。向量数据库的检索是整个 RAG 流程中消耗计算、存储资源最多的阶段,通常使用近似最近邻搜索(ANNS,Approximate Nearest Neighbor Search)算法。典型的ANNS 算法是内存型,随着数据库规模的扩大,尤其是向量嵌入
74、的高维度,需要大量的系统内存来容纳从对象存储中提取的向量和索引,这导致了高昂的成本,并限制知识库的大小。改良的 ANNS 算法可以将数据库索引存储在 SSD 中,将量化后的向量保存在内存中,在保持接近内存型的性能前提下,显著提升成本效益。甚至有更激进的方案将向量和索引都尽量存储在 SSD 中,以进一步降低成本。生成生成是 RAG 流程的最终阶段。这一阶段将检索到的相关信息与原始输入合并,形成更丰富的上下文信息。利用大语言模型上下文信息即可生成符合用户需求的回答。对于企业而言,RAG 可以更充分发挥专业领域知识和私有数据的价值,以满足商业分析、智能客服、研发等方面的需求,是训练、微调私有大语言模
75、型的有力补充。对于拥有多种数据集、众多用户的大型企业而言,对加速计算、网络和存储基础设施进行全面投资是有效部署 RAG 应用的关键,以应对大规模的并发、多轮次的查询需求。内容生成训练开始前要加载数据,推理开始前要加载模型。当模型首次部署到 GPU 服务器上时,会把模型权重从持久化存储(如硬盘或网络文件系统)加载到 GPU 内存中。这一步骤主要是顺序读取操作。38CHAPTER 2 I AI 应用场景与存储需求模型初始化期间,可能会有一些随机读取活动来配置环境、加载配置文件或预热缓存。在推理过程中,模型会根据输入数据动态访问其参数和中间计算结果。这些访问模式通常是随机的,取决于具体的输入序列和模
76、型架构的设计。例如,自注意力机制会导致对不同位置的激活值进行非连续访问。RAG 对(外部)存储更为依赖,会产生额外的 I/O 活动。因为 RAG 不仅依赖于内部参数进行预测,还需要与外部知识库进行交互以检索相关信息。这些 I/O 活动包括:检索器查询:RAG的检索器组件会在接收到用户查询后,向外部知识库发出请求,以查找最相关的文档片段或信息。这一过程涉及到网络通信以及可能的数据库查询,从而增加了 I/O 负载;缓存管理:如果使用了 KV Cache 或其他形式的缓存来加速检索过程,那么缓存命中率低的情况下也会导致更多的实际 I/O 活动,因为系统需要频繁地从原始数据源获取最新信息;数据预处理:
77、为了使检索到的数据适合用于后续生成步骤,通常需要对其进行一些预处理,比如文本清洗、分词等。这部分工作也可能涉及到额外的文件读写操作;日志记录与监控:在生产环境中,为了跟踪性能指标和服务健康状况,通常会对每次检索和生成操作进行详细的日志记录。这也意味着会有一定的存储写入活动。RAG 带来的这些 I/O 行为,在成本、性能、扩展性等方面提高了对存储的要求。在生成式 AI(GenAI)的 RAG 部署中,随着向量数据库的大小增长到超过数千万个向量,放入 GPU 内存的成本高得令人望而却步。如果将向量数据库存储在服务器的本地存储上,性能、效率和规模等方面都会受到限制。当有多个文档存储和成百上千个 AI
78、 用户时,RAG 增强的 LLM 将跨多个 GPU 服务器运行,共享可扩展的存储能够更好的满足训练/嵌入和推理/检索等需求。一些服务器嵌入和索引新文档,而其他服务器同时检索文档并执行 LLM 查询,需要存储在多种模式下都有较好的性能表现,以支持来自许多服务器的不断读取和写入。39AI 时代的存储基石 一套存储方案支持多种不同类型 AI 应用的全生命周期(来源:WEKA)与在每个 AI 服务器中使用本地存储相比,使用网络存储解决方案还可以提供更强大的数据保护、更好的数据共享、更轻松的管理和更灵活的配置。在嵌入大型文档存储并为其编制索引时,网络存储还可以提供更好的性能。生成式 AI 促进数据生产生
79、成式 AI 极大提高了内容的生成效率,只言片语便可生成音乐、图片甚至视频,这使得即使是普通人也可以快速创作富媒体内容,在专业人员手中更是如虎添翼。以Adobe 的 Firefly 为例,它一年创造的图片已经达到 80 亿张。游戏开发者可以利用多模态内容工具构建更丰富的对话并适配口型、语音,更快速地建模、生成分镜等。运维人员可以用生成更详实的日志、故障报告、风险分析等。另外,转录、翻译音视频也是让富媒体数据量裂变的一种应用。福布斯在 2024 年 3 月预计,到 2028 年,利用 AI 模型创建的图像和视频数量将增加 167 倍。虚拟助手、智能客服、智能推荐、知识库,也是生成式 AI 的典型应
80、用。由于交互更为自然、功能更为强大,这类应用的使用频次、时长均会获得明显增长。40 承载多个处于不同阶段的 AI 应用,对网络存储系统的能力提出了全面的要求,需要结合不同存储介质的优势,达成更好的效果(来源:WEKA)生成式 AI 应用的普遍化使得大量模型被部署于云端,并逐渐向边缘侧、端侧渗透。广泛部署的大模型除了消耗更多的算力,存储需求也水涨船高。边缘侧计算和存储能力增长边缘侧的推理应用有显著的实时性要求,这种需求在大语言模型落地之前便已经非常清晰。早期的推理应用主要基于卷积神经网络为代表的深度学习模型,典型应用是机器视觉,广泛应用于安防、质检等领域。这类应用的算力需求不高,主流 FPGA、
81、经过优化的 CPU、GPU 核心即可满足,也有一些专用的 ASIC。这类需求需要不间断地采集视频、图像、音频、温湿度等信息流,并存储起来。在 2020 年代,深度学习中的多模态输入开始受到更多的重视。多模态数据的学习有许多挑战,譬如不同模态信息的映射、对齐等。大语言模型降低了多模态数据的处理门槛,任何人都有机会利用基础模型和自有数据微调、训练自有模型。在近一年中涌现了大量“垂直行业大模型”正是这一特点的表现。这种转变显著提升了过去难以利用的数据的价值,也促进了更多样化的数据采集。自动驾驶是传感器激增、数据量激增的一个典型例子。在 L4 等级自动驾驶的愿景面前,数据采集的瓶颈并不仅在于传感器的成
82、本,更在于算力的限制。这也反映出人类CHAPTER 2 I AI 应用场景与存储需求 41AI 时代的存储基石在追求 AI 能力不断泛化的过程中,对现实世界数据采集的无限渴求,对计算、存储、传输都会带来巨大的压力。边缘侧采集的数据并不全部向云端转移。其中包括实时性、稳定性、传输带宽/成本、数据安全/合规的约束,去中心化更符合边缘侧推理的要求。大多数数据在边缘侧处理和存储,由此带动了边缘侧算力和存储空间的增长。业界预测边缘存储的增长速度是核心存储的 2 倍。数据留存与复用生成式 AI 产生的内容会有或长或短的生命周期。譬如对话机器人生成的内容可能会作为后继交互的上下文信息而短暂保留,大多数不符合
83、用户预期的生成内容被抛弃,包括文本、图像、音视频等。也有大量的内容被保留下来,不论是出于合规的需要(如智能客服的对话文本、录音等),抑或是用户认为有用。后一种内容还有可能被多次复制、分发,被上传至多个设备、平台。快速生产配合移动互联网的裂变式传播,生成式 AI 带来的数据量巨大,除了在基础设施层面上导致传输、存储的压力激增,还在科学、法律、伦理方面带来了巨大的审查压力。技术是一把双刃剑,生成式 AI 可以提升生产力,也促进了虚假信息的泛滥:不但被用来应付作业、论文作假等,互联网上甚至出现了大语言模型加持的机器人批量“灌水”。AI生成的内容在人类看来可能是准确的,可能是正确的废话,也可能是错误的
84、,如幻觉、偏见等,还存在人类尚难以察觉的其他问题。这类信息除了对社会带来困扰,也对 AI 本身的发展带来影响。如果AI生成的数据进入大模型的训练,可能会导致模型中毒、崩溃。2024年7月,自然 上发表了OpenAI联合创始人Ilya Sutskever为作者之一的论文,其核心内容是:如果在训练中不加区别地使用 AI 生成的内容,模型就会出现不可逆转的缺陷。AI 生成的数据如果污染了下一代模型的训练数据集,大语言模型就会错误地感知现实。中毒的模型生成的内容如果继续污染后继的数据集,如此往复,多代模型将退化。这也难怪即使是 2025 年最新、最热门的大语言模型(如 DeepSeek-V3),其训练
85、数据仍停留在 2023 年。考虑到 AI 生成内容之便捷、数量之庞大、审查之困难,人类如何使用“ChatGPT 时刻”后的人类知识继续训练未来的大语言模型成为一个严峻的问题。Ilya 甚至在 2024 年下半年多次公开表达了“预训练已死”的观点,其核心论据便是高质量训练数据已经几乎穷尽。42需要强调的是,生成式 AI“近亲繁殖”导致模型崩溃的问题,主要影响的是预训练阶段,也就是基础大模型。对于微调/后训练阶段,AI 生成的内容(包括合成数据)其实是可以用于推理模型的训练迭代的。以自动驾驶为例,如果要进行极端场景的训练如暴雨、浓雾、狂风等,或者针对性场景的训练如鬼探头、加塞等,使用合成数据的效率
86、肯定要比“偶遇”要高的多。早期的这类训练是以监督学习为重要手段,通过确定的规则生成符合要求的训练样本。随着 DeepSeek-R1 推理大模型的爆红,也宣告强化学习可以用于推理模型的训练。强化学习意味着只需要为训练设定奖励,而不再需要对训练数据进行标注。与预训练需要的周期长、成本高不同,微调/后训练的周期更短、成本更低,会反复进行,以匹配不同的用户需求、验证不同的基础模型等。这导致数据的重复利用,也推升了数据的价值。传统业务模式中,绝大多数数据在产生后不久就逐渐冷却、沉淀。而微调模型的需求会唤醒沉睡的数据,甚至在多次微调当中反复利用,或分阶段地利用不同部分的数据。譬如,客服电话录音,在传统上只
87、是为了合规要求而保存,如无意外发生将被归档、等待销毁。但在大语言模型支持下,这些录音可以用于训练企业专属的智能客服,“理解”、“总结”出话术、知识库,甚至能够进一步掌握情绪、语气等原本“只可意会不可言传”的信息与技能。再譬如,智能驾驶领域,有一定规模的车企会热衷于宣传其智驾模型训练迭代的频次是以月,甚至以周计算。而对于数据量较小的用户,譬如内容创意者,在一天之内反复训练、迭代一组图像或视频是非常普遍的事。小结AI 对数据生命周期的影响非常深刻。传统的数据在产生后,不论是被立刻遗弃,还是逐步冷却后归档,最终“难逃一死”。而为了获得更实用、更适用的大语言模型,人们需要比以往任何时候都要努力地搜集数
88、据。不仅归档数据被发掘出价值,就连“错误”的数据都可以被监督学习所利用。在每一次训练迭代当中,都包括了“源数据训练模型生成内容复制数据保存数据复用数据源数据训练模型”这样一个循环。这种循环不论对于模型大小均是适用的,不论是基础模型还是推理模型,循环周期可能是以小时计,也可能是数年。AI 时代的信息世界当中会不断涌现出无数个这样的大大小小的循环。CHAPTER 2 I AI 应用场景与存储需求 43AI 时代的存储基石AI 应用中的存储层级AI 时代的存储基石 44CHAPTER 3 I AI 应用中的存储层级AI 应用中的存储层级存储层级架构随着技术的演进和应用需求的细化,经典的存储金字塔层级
89、也日渐丰富。当然,这么丰富的层级,是易失性的内存(Memory)类和非易失性的存储(Storage)类,两相叠加的结果,交界处有兼具内存的性能和存储的持久性的存储级内存(Storage Class Memory,SCM)承上启下。经典的存储金字塔层级(来源:希捷)存储介质的分层,自上而下,性能逐级下降、容量逐级递增、成本逐级递减。访问频繁或者随时变更的数据会保留在较高的存储层,而鲜少访问或需要长期保存的数据将移动到较低的存储层。SCM 是介乎于内存和外部存储之间的角色,可以向上或向下融合:SCM 可以与DRAM 组合应用,从逻辑上看上去是内存设备;SCM 也可以与 SSD、硬盘配合,从逻辑上看
90、上去是外部存储设备。SSD也可以与硬盘搭配使用,通常是与一组硬盘组合,典型的即是混闪存储阵列。硬盘存储阵列可以提供可以与 TLC SSD 匹配的顺序读写吞吐 45AI 时代的存储基石量,TLC SSD 可以承载较高的随机访问需求。在数据进入较高性能存储介质,再转入较低性能存储介质的过程当中,SCM 或 TLC SSD 可以做适当的优化而非只是简单的做二传手。浅层的优化是较大容量的缓冲可以承受数据的变化,一些临时性的数据没有必要向下一层传递,预测为热门的数据还会尽量长时间保持在缓冲内。深层的优化主要是写整形和条带化,充分发挥容量层介质不善于随机访问但适合连续写入的技术特点。缓存和分层存储是现代计
91、算机系统中典型的策略,用以协调与综合不同类型存储介质的性能、成本和容量特性,以优化整体系统的性能、成本效益,但也带来了更复杂的数据管理。HBM 与 SRAM内存又可以细分为 SRAM 和 DRAM,因这一波人工智能浪潮而供不应求的 HBM(High Bandwidth Memory,高带宽内存)其实也属于后者。以推理过程为例,GPU 和 AI 加速器的内存(简称显存)带宽对输出 Token 的速度有直接的影响。在生成每个 Token的时候,需要加载模型内的所有权重和读取 KV Cache。生成速度的上限是显存/内存带宽除以权重的容量,因此,推理使用的 xPU 的算力与存储带宽应当匹配。NVID
92、IA 从 H100 到 B200,代际间实现了算力和存储容量、带宽的同步提升。不过,中间还有个 H100 的升级版 H200,芯片算力不变,“仅仅”升级了 HBM 的容量(1.76 倍)和带宽(1.43 倍),在 Llama2 和 GPT-3 的推理性能就有 1.4 1.9 倍的回报。GPU算力(FP8)HBM 容量HBM 带宽B20010 PFLOPS192GB HBM3e8 TB/sH2003,958 TFLOPS141GB HBM3e4.8 TB/sH1003,958 TFLOPS80GB HBM33.35 TB/s表 3:英伟达 Hopper 与 Blackwell 架构 GPU 的算
93、力与带宽 46 H200 相比 H100 的大模型推理性能提升(来源:NVIDIA)但是总体而言,由于 DRAM 提速的步伐远低于摩尔定律,即使是以高带宽为名的HBM,也还未能完全跟上 GPU 的理论算力增长。另外,由于 HBM 通过 2.5D 封装与GPU 互联,受限于中介层的尺寸,GPU 可搭配(扩展)的 HBM 堆栈数量也不能随意增加,进一步限制了 HBM 容量和总带宽的增长速度。为了获得更高的带宽,也有一些推理芯片使用大容量 SRAM,但这个“大”是相对的,容量比 HBM 相差可达三个数量级。例如:Groq 的大模型推理芯片 LPU(Language Processing Unit)配
94、置了 230MB SRAM以替代 DRAM,片上内存带宽为 80TB/s;Cerebras WSE-3 是一颗面积 46225 平方毫米的巨型芯片,其片上 SRAM 容量为44GB,整体内存带宽高达 21PB/s。存储容量标准 DRAM 及以上的内存类介质(HBM、SRAM)等都属于易失性介质,断电后就会丢失信息。它们的优势是速度快,缺点是成本较高、容量有限。能够长期保存信息的非易失性介质包括闪存、硬盘、磁带等,也包括一些新兴的存储介质。非易失性介质的容量大、成本低,但性能相对 DRAM 低得多。CHAPTER 3 I AI 应用中的存储层级 47AI 时代的存储基石HDD硬盘驱动器(Hard
95、 Disk Drive,HDD),简称“硬盘”,在经过多年的发展之后,已经收敛到 3.5 英寸、7200RPM 的技术路线上继续迭代。大容量硬盘普遍采用氦气密封技术,氦气的低密度低阻力特性使盘片可以更顺滑平稳的转动,便于在同样的高度内堆叠更多盘片。以希捷的 Exos 系列硬盘为例,约 1 英寸的厚度,能容纳多达 10 张 3.5英寸盘片。所以硬盘容量持续提高的关键还是提高单张盘片的容量。在盘片尺寸保持不变的前提下,其实就是怎么提升面密度(Areal Density)。硬盘的数据记录在磁道上,这是一个个以主轴为圆心的同心圆。面密度可以分解为两个互相垂直的分量,即圆周方向上的记录密度(Record
96、ing Density),和径向上的磁道密度(Track Density):记录密度指沿着单个磁道上单位长度内可以存储的数据位数,通常以每英寸位数(Bits Per Inch,BPI)来衡量,主要受读写磁头技术、信号处理算法和介质材料的影响;磁道密度指每英寸磁盘表面可以容纳的磁道数量,通常以每英寸磁道数(Tracks Per Inch,TPI)来表示,主要受磁头的定位精度、磁盘表面的平滑度和平整度等因素影响。BPI 与 TPI 的乘积为 bpsi(bits per square inch,每平方英寸的比特数),用于衡量 48面密度。同样尺寸的盘片,单碟容量基本与面密度成正比,以希捷 Exos
97、X24 SATA 版产品为例:单碟容量 2.4 TB记录密度 2552 KBPI(最大)磁道密度 512 KTPI(平均)面密度 1260 Gb/in(平均)传统磁记录(Conventional Magnetic Recording,CMR)技术,磁道间是独立而有间隙的,没有依赖关系。叠瓦式磁记录(Shingled Magnetic Recording,SMR)正如其名,形似屋顶上层叠排列的瓦片,允许相邻磁道部分重叠,提高了磁道密度,能够在相同的磁盘表面上存储更多的数据。譬 如,22/24TB 的 CMR 盘,转 换 为 SMR 后 容 量 可 以 各 增 加 4TB,提 升 到26/28TB
98、,幅度达 16%18%。但是,SMR 的提升路线不可持续且有性能代价,需要软硬件协同优化,应用场景受限。HAMR 技术发展通过磁头和介质的共同努力,从根本上获得面密度的持续提升,才是 HDD 技术发展的主要方向。希捷研发多年的 HAMR(Heat-Assisted Magnetic Recording,热辅助CHAPTER 3 I AI 应用中的存储层级 49AI 时代的存储基石磁记录)技术,量产品已经达到单碟 3TB、全盘 30TB,单碟 4TB 和 5TB 也已经在路线图上,有望显著改变此前单碟容量增长缓慢的局面。2025 年 1 月,希捷宣布,在基于 HAMR 技术的魔彩盒 3+(Moz
99、aic 3+)平台加持下,现可在十碟片的高效设计中提供高达 36TB 的容量点。希捷已率先将硬盘单碟容量提高至 3.6TB,并有望实现单碟容量 10TB 的目标。SSD固态盘(Solid State Drive,SSD)可以提供更高的性能(带宽,IOPS),主要承担追求高吞吐量、低时延的业务。SSD 主要基于 NAND 闪存介质,成本较高。SSD 可以从多个维度上促进存储容量的提升:3D NAND:在垂直方向上堆叠多个存储层来显著增加存储密度。20142024年,3D NAND 堆叠层数从 24/32 层,一路上升至 200 多层,已在向 300 层以上迈进。增加堆叠层数能带来存储密度的成倍提
100、高,这也是过去十年间 SSD 容量持续增长的最主要驱动力。裸片堆叠(Die Stacking):在单个封装内堆叠多个 Die,通常在数个、十数个的水平,或者更多,但还是比NAND堆叠的层数要低一个数量级。当然,这也已经很可观了。多层单元:每个 Cell 内的比特数从 1 个(SLC)增加到 2(MLC)、3(TLC)、4(QLC)个,相邻两者间的存储容量增长收益从 100%依次递减为 50%和 25%。这种增长还会给性能和寿命带来不利的影响,综合投入产出比,越往后越困难,譬如五层单元的PLC NAND 还没有产品化。目前基于 TLC NAND 的 SSD 是主流,QLC SSD 具有更高的容量
101、密度和相对较低的单位存储成本,市场份额正在逐步提升。但是 QLC SSD 不会复现 TLC SSD 取代 SLC/MLC SSD 的情况,因为其相对 TLC 的存储密度提升幅度不如前两次迭代那么大,成本优势并非特别明显。QLC NAND 还有两个明显的缺点:较慢的编程操作和较低 PE。这些缺点导致QLC SSD写入速度尤其是随机写入表现明显逊于TLC SSD,耐用度也较低。在数据中心领域,部分 QLC SSD 选择与 TLC SSD 差异化的发展道路,以突出存储 50密度优势,降低性能权重,并逐步采用异于传统的管理方式(如 FDP 等)。TLC 和QLC SSD将会长期共存,分别应对不同的业务
102、场景。TLC SSD主要满足高性能存储、读写负载均衡的需求,QLC SSD 主要满足高密度存储、读多写少的需求。在前述多种技术的组合下,2.5 英寸 SSD 的最大容量已经超过了 60TB,约为 HDD 最大容量的 2 倍,122TB 的 QLC SSD 已经于 2025 年 3 月推出。不过,60TB 及以上容量的 SSD 要得到很广泛的应用,还要面对一些现实的挑战:爆炸半径:单盘容量太大,上面承载的数据和应用过多,一旦出现故障,受影响的范围太广,对软硬件架构是很严峻的考验。AWS 在其历年的 re:Invent 大会上就多次指出,受各种条件的制约,单个硬件设施(如存储服务器、数据中心园区)
103、的规模不宜太大。单位容量性能:现在 3.84TB 的 SSD 读性能就足以跑满 PCIe 5.0 x4 接口的带宽,多个 SSD 并发,网络带宽也会成为瓶颈。在 15TB 往上,增加的只是容量,IOPS/GB 的性能将直线下降。当然,尽管如此,SSD 的单位容量性能,仍然不是 HDD 可以相比的。成本:HDD 的多组盘片和磁头共享同样的马达、壳体、PCBA 等“基础设施”,最大容量版本的单位价格有优势,而大容量 SSD 中 NAND 是成本的绝对大头,总体成本会随着容量而直线上升。在 20 30TB 的容量区间,SSD 与 HDD 的单位容量成本,还 根据 TrendForce 和 IDC 的
104、数据估算,如果生产足够的 NAND 以填补 HDD“退出”的容量空白,需要付出巨大的代价CHAPTER 3 I AI 应用中的存储层级 51AI 时代的存储基石不具备可比性;至于 60TB 及以上的超大容量 SSD,价格更是令普通用户望而却步。希捷基于 TrendForce NAND Flash Platinum Datasheet 和 IDC Global StoageSphere Forecast,2023-2027 Doc.#US50851423,June 2023 的 分 析,说 明 生 产 足 够 的NAND 来替代硬盘驱动器的需求是成本过高的。另一个阻碍是单位容量的成本($/TB)
105、,QLC仍然没有达到大多数客户期望的水平,也还不是所有主要厂商发力的重点,而企业级 TLC 未来每 TB 的成本仍将是企业级 HDD 的 6 倍以上。在追求容量密度和性能的场景,SSD 的优势明显。但是,放眼整个存储市场,HDD 仍然是存储容量的最大供给者。以 Trendfocus 统计的 2024 年第三季度数据为例:HDD 出货总容量达 340EB,其中近线(NL)容量盘环比增长 19%达到创纪录的286EB,出货量环比增长 15%达 1570 万个,三家供应商的近线盘平均容量分别为17.5TB、19.8TB 和 15.0TB;SSD出货总容量达99.187EB,环比增长10%,总出货量环
106、比下降8%达6244.3万个,其中企业级 PCIe SSD 总容量环比增长 25%达 55.654EB,出货量环比增长 29%达到创纪录的 1095.4 万个。算下来,企业级 PCIe SSD 平均容量 5.08TB,不到近线 HDD 的三分之一。出货总容量的差距就更为悬殊,企业级 PCIe SSD 不到近线 HDD 的五分之一。显然,在相当长的一个时期内,SSD 全面替代 HDD 是不现实的,我们可以从两个层面来判断:首先,以 NAND 的产能状况,很难填补硬盘退出留下的容量空白;其次,即使能够不惜成本的扩产,加上 HDD 也还远不能满足市场需求。根据 IDC 的预测,到 2028 年,全球
107、数据圈(Datasphere)的规模将达到 2023 年的三倍,产生的数据接近 400ZB(394ZB),其中能被存储下来的数据不到 5%(近20ZB)。52硬盘是应用最广泛、历史最悠久、兼容性最好的非易失性存储介质。数据中心中 90%以上的数据存储在硬盘当中。硬盘具有仅次于磁带的容量价格比,短期内也不会出现其他商业上成熟的技术方案替代硬盘的容量优势。在可预见的未来,对 SSD 和 HDD 的容量需求都将继续增长。存取性能不论容量大小,SSD 相对于 HDD 的第一优势点,还是性能。性能主要分为顺序/随机、读取/写入两个基本维度,共四种组合。顺序读写接口规格可以部分反映 SSD 与 HDD 在
108、顺序读写性能上的差距。目前高性能 SSD 普遍采用PCIe 5.0 x4接口,理论带宽是HDD所用SATA接口的25倍以上。实际情况是,SSD顺序读基本能把 PCIe 5.0 x4 接口带宽跑满,而 HDD 的最大顺序读取速率仅为 SATA接口带宽的一半左右,差距进一步拉开到四五十倍。HDD 的结构决定了其最高顺序读写性能主要取决于(主轴)转速、盘片直径和记录密度,如果前两者不变,而后者又只是面密度的一个分量,那么 HDD 的顺序读写性能多年来没有大的突破,就是必然结果。以当前 24TB 的 CMR 硬盘为例,最大持续传输率已经接近 300MB/s(以 MiB/s 计会略低)。最大持续传输率只
109、是 HDD 顺序读写性能的一个切面,实际的顺序读写性能还受磁道所处位置的影响,越靠内圈的磁道,顺序读写性能越低。最内圈的持续顺序传输率通常在最外圈的一半左右,以 Oracle 服务器配备的一款 22TB SAS HDD 为例,这两个数据分别为 151MiB/s 和 257MiB/s,即内圈略超外圈的六成。以全盘顺序读/写一遍来算平均值,20TB+HDD 的顺序读写性能可以达到 200MB/s 以上。除了没有机械运动“拖后腿”,SSD 的高性能还得益于多通道、NAND 多 plane 等多重并发机制,也正因如此,SSD 在低并发度访问时发挥难免受限,而 HDD 反而在小数CHAPTER 3 I
110、AI 应用中的存储层级 53AI 时代的存储基石据块单队列顺序读的场景下有不错的表现。以 QD 为 1 的 4KB 顺序读为例,HDD(如希捷 Exos 20)可以达到近 90MB/s 的水平,与一些 SSD 的表现不相上下。在顺序写入方面,情况略有不同。(不考虑SMR)HDD的写入与读取性能基本相当,特别是顺序写入。SSD 因为写入操作更为复杂,顺序写入的速度会下降三分之一或更多,QLC SSD 还更低但仍有数 GB/s 的水平。随机读取盘片旋转+磁头寻道所需的时间构成了 HDD 的时延(latency),7200RPM 产品的平均值在 11 14ms(毫秒)的范围内,对应的读 IOPS 在
111、 90 上下,把队列深度加到 16(QD16)可以获得接近翻倍的 IOPS,加到 32(QD32)之后甚至可以超过 200 IOPS。不过,再怎么努力,在小数据块(如 4KB)随机读取的场景下,HDD 的输出骤降至1MB/s 以下,不及顺序读取时的百分之一,与 SSD 的差距也迅速拉开。主流的 TLC SSD 具有较好的性能,在保证并发度的前提下,(小数据块)随机读取的IOPS 很高,可以达到 300 万以上,换算成 MB/s 相比顺序读取下降不多,甚至可以超过顺序写入的水平。SSD 的时延可低至数十微秒(s)级,也遥遥领先于硬盘。硬盘的机械特性决定了其不擅长随机访问,时延比基于半导体技术的其
112、他介质(NAND、DRAM)要大得多。随着 SSD 的兴起,硬盘已不再通过提高转速的方式来降低随机访问的时延,导致大多数硬盘的随机访问性能(IOPS)没有提升。希捷的多磁臂(Multi-Actuator)技术是近年来提升随机访问性能最大的突破,实现了 IOPS 的倍增。4KB 数据块读写IOPSMB/s随机读 QD=1870.348随机读 QD161680.672随机读 QD322120.848随机写 QD16,WCD5502.200随机写 QD32,WCD5652.260读写各半 QD42200.880表 4:7200RPM CMR HDD 随机访问性能的典型指标 54在硬盘存储方案中,如果
113、对 IOPS 有一定的要求,传统上会使用较多的盘位来实现目标,附带一些保留容量、存储密度方面的损失。随着多磁臂技术的出现,可以使用新型硬盘来满足提升 IOPS 的需求。而对于 IOPS 不太敏感的应用,继续使用传统的单磁臂硬盘可以获得更好的容量价格比。对于不需要经常改写数据的应用,如归档、视频监控等,还可以使用 SMR 技术的硬盘以进一步提升存储密度、降低存储成本。随机写入SSD 的随机写入和顺序写入都与容量有一定的关系,小容量 SSD 因为 NAND 数量少一些,IOPS 也相应低一些。区别在于,随机写入的 IOPS 往往比随机读取低一个数量级,QLC SSD 甚至会低至二十分之一以下。与随
114、机读取有所不同,HDD的随机写入可以在缓存的帮助下获得成倍的性能提升,550左右的 IOPS 写入 4KB 数据块,输出水平约为大数据块顺序写入的百分之一。传统的 DRAM 作为写缓存,有掉电时丢失数据的风险,硬盘制造商们想出了用非易失性存储如 NVM 或盘片上的特定区域来缓存写入数据的办法,在禁用写缓存(Write Cache Disabled,WCD)的模式下,可以获得与启用写缓存(Write Cache Enabled,WCE)相当的性能。一个大容量、非易失的缓存层或者说中间层,对 SMR 硬盘尤为重要。因为 SMR 硬盘的原理决定了其不能像 CMR 硬盘那样直接写入单一的数据块,否则会
115、破坏相重叠磁道 Conventional(传统)和 Shingled(叠瓦)分别对应了 CMR 和 SMR,两种磁道可以在同一个碟片上出现,划在不同的分区(Zone)(来源:微软 OCP)CHAPTER 3 I AI 应用中的存储层级 55AI 时代的存储基石上的数据完整性,造成数据丢失。SMR在原本相互独立的磁道之间建立起了关联性,这种磁道结构只适合顺序写入,或者说是按顺序在后面追加(append)数据。对 SMR 分区(zone)的随机写必须转变为顺序写,最好能在前面提到的缓存层中进行必要的重新排序、达到一定数据量后成批顺序写入。如果连续的磁道中间需要改写部分数据,那就要先连同后面磁道上的
116、数据都读入缓存,更改对应的数据后再整体重写。这种“随机写”带来的写入放大不仅会造成性能下降,还会影响SMR硬盘的寿命和可靠性。耐久性顺序读取是最友善的访问方式,对存储设备几乎没有伤害,输出带宽也最高:PCIe 5.0接口的 SSD 已经超过 10GB/s,在绝大多数场合不会成为瓶颈;主流(单磁头)硬盘的 200 300MB/s 对流媒体应用、监控等用途也已经足够。HDD 的顺序写入性能与顺序读取相当,SSD 的顺序写入和随机读取也比顺序读取下降不多。随机读写是 HDD 的命门,性能会急剧的下降,SMR 盘甚至不能直接接受随机写入。随机写入对 SSD 也很不友好,性能与寿命都会受到影响。SSD
117、的耐久性通常以 5 年期的 DWPD(Drive Writes Per Day,每日全盘写入次数)来衡量,TLC SSD 可以提供 1 3 DWPD,QLC SSD 在 0.5 左右或更低。SSD 的容量和 DWPD 指标共同决定了每天持续不停(随机)写入时能达到的输出水平,以下表为例:容量7.68 TB6.4 TB61.44 TBNAND 类型TLCTLCQLCDWPD130.58随机写 IOPS30 万 4KB50 万 4KB4 万 16KB理论带宽1200 MB/s2000 MB/s640 MB/s每天可写入量7.68 TB19.2 TB35.64 TB可用持续带宽88.9 MB/s22
118、2.2 MB/s412.4 MB/s表 5:SSD 的峰值与持续写入性能 56TLC SSD 具有极高吞吐量,但其耐久度还不足以支撑持续地写操作。即使在顺序写情况下控制了写放大,耐用度可以提升至 35 倍,也不可以承受满负荷写入的场景。耐久度实际上限制了 TLC SSD 的性能发挥。TLC SSD 的峰值性能和耐久度的矛盾使得其更适合潮汐式、峰谷分明的业务模式。以高性能 GPU 节点使用 TLC SSD 作为缓存盘为例,在本地缓存检查点(Checkpoint)数据再异步至网络存储集群是典型负荷。但随着检查点间隔从小时计逐步缩减为以分钟计,使用 TLC SSD 缓存检查点即使在性能角度可行,在质
119、保角度也面临风险。如第二章介绍过的,将GPU显存(通常为HBM)内的状态数据复制到主机内存(DRAM),再异步至存储集群的技术方案,可以承受更为频繁的检查点操作。QLC SSD具有巨大的容量,以及有限的写入性能(页编程速度慢)。由于写入性能限制,单盘上百 TB 的 QLC SSD 在理论上不会被写穿质保限制。考虑到写整形、数据放置等改善写放大的手段,大容量 QLC 的耐久度还会更高。因此,在一些对总容量规模要求并不巨大(PB 级)的应用和新建基础设施,譬如微调、推理,使用 QLC SSD 构建单层存储在性能和可靠性方面是可行的,并可节省空间和总体功耗预算。但对于更大规模的数据容量,QLC 全闪
120、方案的性能相对硬盘集群的优势不够明显,而成本差距仍然过大。一些大容量企业级 HDD 也会提供如每年 550TB(550TB/year)的最大额定工作负载(Maximum Rated Workload)指标。年化工作负载率以 TB/年或 TB/8760 小时为单位,计算方式为传输 TB (8760/记录通电小时数)。超过年化工作负载率可能会降低硬盘(驱动器)的 MTBF(Mean Time Between Failures,平均故障间隔时间)并影响产品可靠性。分层存储鉴于随机写入对性能和寿命的“破坏性”,将随机写入的数据经过写整形和条带化处理,再顺序写入 SSD 或 HDD,可以显著优化存储系统
121、的性能和存储介质的寿命。特别是QLC SSD和SMR硬盘。QLC SSD不仅随机写入性能相对TLC SSD比较有限,耐用度也更低,需要控制写入放大以保护 QLC SSD 令人不安的耐久度。尤其对使用与LBA 不匹配的 IU 尺寸的大容量 QLC SSD 而言,写入放大问题会更为突出。CHAPTER 3 I AI 应用中的存储层级 57AI 时代的存储基石规避容量层存储弱点的最根本方式就是将随机写入尽量转化为顺序写入。在顺序写入时,QLC SSD 和磁盘阵列的性能与 TLC SSD 相比落差并不算大,而 SMR 硬盘的随机写性能损失、QLC SSD 的写入放大问题都可以被有效规避。GPU 与不同
122、存储的“距离”实际业务中,写入时存在不同大小的数据块,譬如近似于顺序写入的大数据块,或是随机写入的小数据块以及可能与 SSD 页面尺寸不匹配的数据块。不论这些数据块是否适合直接写入 HDD 或 QLC SSD,缓存层可以将这些数据块进行聚合与整理,最终以整条带的方式写入容量层(QLC SSD、磁盘阵列)。条带的大小可以根据容量层的特点而定,可在数 MB 到数十 MB 不等。这个缓存层使用的存储介质需要具备优异的写入性能和耐久性,容量和成本最好优于DRAM,SCM(Storage Class Memory,存储级内存)不仅满足上述条件,还具备非易失性。SCM 介于内存和外部存储之间,属于非易失性
123、存储器,但提供接近 DRAM的速度,尤其是极低的延迟。SCM的代表性产品当数英特尔傲腾(Optane),被认为是一种相变存储器(PCM),具有高读写 IOPS、极高耐用度的特点。部分英特尔至强可扩展处理器可以把傲腾当做 58内存使用。理论上具有非易失性、高性能、高耐用度的技术路线还有磁变随机存储器(MRAM)、阻变随机存储器(ReRAM)、碳纳米管随机存储器(NRAM),但仍处于商业化早期阶段,容量较小、成本较高。随着傲腾停产,相应的需求由 SLC、MLC SSD进行替代虽然它们的耐久度并非无限,但依旧高于TLC SSD一两个数量级,时延也较低。SCM 通常用于需要极高速度和低延迟的应用场景,
124、如大型数据库,弥补主机内存容量的局限。或者利用SCM高IOPS、高耐久度的特点,作为其他较低速存储介质的缓冲,如SCM 与 QLC SSD 搭配使用,可以弥补后者随机写入性能的弱点,并减少后者的写入放大损耗,提高耐久度。对于高性能存储阵列,SCM 还可以作为对象存储阵列的元数据缓存,降低访问时延。虽然元数据缓存可以完全放置在内存当中,但会受到内存容量的限制。使用 SCM 有利于在保持性能的前提下扩展容量。随着 CXL 技术的发展,新的技术形态会丰富 SCM 的类型。如 DRAM+TLC NAND 组合在一个 CXL 内存模块当中,被主机视作是一种内存设备,其随机访问速度高于传统SSD,成本低于
125、传统 SCM。CHAPTER 3 I AI 应用中的存储层级 59AI 时代的存储基石技术演进与生态AI 时代的存储基石 60技术演进与生态容量趋势存储容量的增长终归要依靠存储密度的提升,而存储密度的提升手段可以分为持续性的和一次性的。可持续的手段能够以倍数级迭代多轮,譬如硬盘(HDD)的 HAMR 和固态盘(SSD)的 3D NAND;一次性的手段提升幅度通常不会超过一倍,而且往往要付出性能上的代价,譬如硬盘的 SMR 和 SSD 的 QLC/PLC。硬盘SMR 对存储密度的提升幅度低于 QLC,而造成的性能损失和应用场景限制则远过之。因此,从本源上提高磁记录密度才是硬盘容量继续增长的正途。
126、HAMR 提升单碟容量为满足数据迅速增长的需求,以及保持单位容量成本能够逐步降低,提升硬盘的单盘容量是根本性的解决方案。经过数十年的发展,目前 3.5 英寸硬盘的外形尺寸已经固定,盘片数量以及盘片面积在这个有限的立方体空间内已经难以取得进展,不断提升磁盘的面密度几乎是唯一的解决方案。HAMR(Heat-Assisted Magnetic Recording,热辅助磁记录)工作原理说明CHAPTER 4 I 技术演进与生态 61AI 时代的存储基石面密度(记录密度和磁道密度)的增加导致放置每比特信息所能占用的磁性颗粒面积变小,颗粒之间的相互磁影响也会越来越大。为了保持信息稳定,避免相邻信息颗粒的
127、干扰,高密度磁盘需要使用高矫顽力的颗粒。但这在改写信息时,需要磁头施加更强大的磁场变化,这可能意味着更长的操作时间和更多的干扰,导致性能或可靠性的下降。业界的解决方案是写入前对目标区域施加额外能量,让磁性颗粒的极性变得更容易被改变。目前已经正式商用的技术是希捷的 HAMR(Heat-Assisted Magnetic Recording,热辅助磁记录),通过等离子写入器精确地加热目标区域的超晶格铂合金介质,瞬间升温至 400以上,临时降低矫顽力以辅助写入,然后在不到 2ns 的时间内迅速冷却。HAMR 技术的关键组件HAMR 技术中,纳秒级的激光加热时间对硬盘的性能没有负面影响,因为在目前的磁
128、盘转速下,磁头每次读写操作的时间窗口是微秒级的加热时间仅占千分之一量级。激光器的引入还会增加成本,但考虑到 HAMR 技术的面密度增加潜力(倍增以上),随着单盘容量提升,存储的单位容量成本将会很快被摊薄至传统技术之下。HAMR 的另一个顾虑是增加了硬盘内的热源(激光器本身热量及盘片局部受热),热量的增加会带来可靠性方面的隐患。随着大型互联网企业完成验证和导入 HAMR 硬盘,证明可靠性方面的疑虑已经被消除。从产品参数看,Exos M 30TB 和传统的 Exos X22 企业盘在最大操作功耗方面没有什么区别。62目前已经批量上市的魔彩盒 3+平台单碟容量已经达到 3TB,还有很大的增长空间。根
129、据希捷透露的研发情况,第三代 HAMR 技术样品在 2021 年已经实现了 4TB 单碟容量的目标,23 年达到 5TB,24 年在实验室内已达到 6TB。现阶段 4TB 单碟容量的硬盘已经可以量产。根据建模分析,HAMR 技术有望实现 10TB 单碟容量。SSD与 HDD 相比,SSD 受外形和尺寸的限制较少,提高存储容量的维度也更多。NAND Die 存储密度提升提升NAND闪存容量或存储密度的技术路线主要有三种方向:垂直扩展(3D堆叠)、横向扩展、逻辑扩展。垂直扩展即 3D 堆叠,从早期的 24 层、32 层,逐步增加。目前市场上主流产品使用的 3D NAND 在 160 192 层的水
130、平;200 余层的 3D NAND 也已经陆续导入市场;300 层以上的样品已经试产。500 层的产品预计在 2 年内实现,乐观估计在 2030 年代到来之前有机会达到 1000 层。层数的增加会提升制造成本,主要是线性地增加了沉积的步骤,并提高了蚀刻工艺的要求,生产时间也会有所延长。但在同样容量下,芯片面积减小可以相应降低光刻成本。考虑到光刻仍是半导体制造成本的大头,继续垂直堆叠仍具有经济效益。表 6:Exos M 30TB 和传统的 Exos X22 企业盘的参数对比Exos M 30TBExos X22格式化容量30 TB22 TB单碟容量3 TB2.2 TB最大传输率275 MB/s2
131、85 MB/s随机读/写 IOPS(4KB QD16)170/350 IOPS168/550 IOPS平均时延4.16 ms4.16 ms最大运行功耗(随机读 4KB QD16)9.5 W9.4 W运行温度1060 1060 运行震动30 Gs40 GsCHAPTER 4 I 技术演进与生态 63AI 时代的存储基石横向扩展是减小单元间的间距,也就是提高每一层的密度。由于相邻存储单元之间具有电容效应,间距缩小会增加干扰、减少耐用度,这也是当年业界放弃 2D NAND 的工艺微缩而转向垂直堆叠的主要原因。但随着 3D NAND 层数已经达到数百层,适度压缩水平方向间距提高密度的收益也随之放大。愈
132、发强大的 SSD 主控提升了纠错能力也是压缩单元间距的底气所在。逻辑扩展是提升单个闪存单元所存储的位数。通过区分更多的电荷状态(电压),每个单元可以代表的信息也从 1 位(SLC)提升至 2 位(MLC),再到目前 TLC、QLC成为主流。2023 年 FMS 会议中已经出现了基于浮栅技术的 PLC(5 层单元)的样品,而在实验室低温环境下,7 层单元的技术可能性也获得了验证。考虑到目前 QLC SSD 仍处于市场培育阶段,用户的接受程度、部署的技术条件都有待继续提升,PLC NAND 在短期内不会受到太多的关注。另外,考虑到基于电荷状态细分表征信息的代价(可靠性、耐用度)越来越大,而容量收益
133、越来越小,逻辑扩展需要寻找新的技术路线。NAND 闪存封装容量提升SSD 的容量提升无外乎增加 NAND 闪存芯片的数量,以及提高单颗的容量。提升芯片数量的限制主要在于 SSD 的体积,准确地说是内部 PCB 的面积。以主流的 2.5 英寸外形为例,每块 PCB 的两面通常可以布置 16 颗芯片,如果需要安排更多的芯片则可以使用叠放两块 PCB(柔性折叠或连接器),这是 2.5 英寸盘 15mm 厚度内的极限,或者开发新的外形规格以容纳更大面积的 PCB,如 EDSFF,尤其是 E1.L 就是为高密度存储准备的。增加每颗NAND闪存芯片内部封装的晶粒(die)数量也可以提高存储密度,譬如DDP
134、(2晶粒封装)、QDP(4 晶粒封装)、ODP(8 晶粒封装)以及 HDP(16 晶粒封装)。目前最常用的是 ODP 和 HDP,以 512Gb 的晶粒为例,可以提供 512GB 或 1TB 的单颗容量。值得一提的是,虽然在过去 10 年中,闪存堆叠的层数有了 10 倍以上的成长,但单颗晶粒容量的成长却慢得多。例如,64 层时期,主流的 TLC NAND 晶粒容量为 256Gb或 512Gb;到了 100 多层时期,主流容量为 512Gb,个别厂商提供 1Tb 规格。目前200 余层已经实现,512Gb 和 1Tb 仍是主流。在这个过程中,存储密度提升的结果是不断减小晶粒的面积,以不断降低单位
135、成本。64NAND 闪存芯片容量提升较慢的原因是主流市场不需要大容量的颗粒。毕竟 SSD 的价格与容量的关系近乎于线性增加,而且容量点之间的落差通常是倍数关系,用户扩容成本很高。目前消费类 SSD 的主流容量为 512GB 和 1TB;数据中心/企业级 SSD 的主流容量为 3.84 到 7.68TB。使用 512Gb 的晶粒,ODP 封装,两颗芯片可以提供 1TB消费类 SSD 所需,16 颗芯片可以提供 7.68TB 企业级 SSD 所需。企业级 SSD 主控通常为16通道,单PCB双面16颗粒是一个“甜点”配置。更大容量的SSD除了成本倍增,也会面临单位容量性能下降的问题。但大语言模型的
136、爆火打破了这个平衡。对于 GPU 节点,典型的 SSD 配置仍然是平均每 GPU 对应一块 7.68TB TLC SSD 作为缓存盘;对于配套的全闪存储节点,为了提升机架利用率和减少单位能耗,需要更高容量的 SSD,如 30TB 等级的 TLC SSD、60 80TB 的 QLC SSD。122TB 容量的 QLC SSD 在 2025 年也会进入市场。企业级 SSD 主控的典型规格是 16 通道、每通道 8CE,那么每个主控可以直接管理256 颗晶粒。如果使用 1Tb 容量的晶粒,则可以构成 256Tb,即 32TB 的单盘容量。这也是目前高性能 TLC SSD 停留在 30.72TB 的根
137、本原因。60TB 以上容量的 SSD 需要使用 Hub 来管理更多的晶粒,但这也带来了额外的复杂度和硬件成本。另外,布置足够多的晶粒还会面临封装、PCB 面积的限制。因此,针对 AI 催生的大容量 SSD 需求需要自上而下的改变才能满足,NAND 原厂需要开发更大容量的晶粒。目前已经可以看到 2Tb QLC NAND 进入样品验证阶段。大容量(2Tb 及以上)的晶粒并不适合用在主流设备上,因为普通用户较低的容量需求对应较少的 CE 配置,虽然可以节省封装成本,但会损失性能。换句话说就是:AI存储的需求和主流设备的需求发生了分化。这与 AI 服务器有脱离通用服务器规范独立发展的趋势是吻合的。大容
138、量 SSD,尤其是大容量 QLC SSD 的单盘价格极其昂贵,是常规 SSD 的十倍以上,这导致它们只能成为支付能力最强、资源弹性最小的那部分用户的选择。性能趋势多路并发和软件优化是 SSD 提高性能的常用手段,通过机械结构上的调整,HDD 也能提高并发度,性能提升立竿见影。CHAPTER 4 I 技术演进与生态 65AI 时代的存储基石多磁臂传统上,硬盘的性能主要由转速和记录密度决定。转速影响的是磁道的线速度和平均等待时间。磁道的记录密度和线速度决定了顺序读写的性能。由于硬盘的转速不再增加,面密度(包含记录密度和磁道密度)增长缓慢,硬盘的性能增长也变得迟缓,最大传速率迟迟没有突破 300MB
139、/s 大关,随机操作也停留在几百 IOPS 的水平。HAMR 技术的出现让人们看到了面密度提升的希望,但从初期产品的性能指标看,面密度的提升并没有转换为最大传速率的提升,随机写 IOPS 还有所下降。即使最大传输率能比之前较小容量的产品(如 Exos X24)有小幅上升,平均到单位容量的性能如IOPS/TB 也是下降的。双磁臂可以扭转硬盘单位容量 IOPS 随容量提升的下降态势(来源:希捷)总体而言,硬盘性能的最大痛点是单位容量IOPS持续下降。硬盘容量在数TB时代,每TB 容量还可以提供 3050 IOPS 的随机访问,到 10TB 时代就降到 20 IOPS,20TB时代约 10 IOPS
140、,30TB 就只有个位数了。对于分布式存储集群而言,规模越大,低IOPS 的危害也越大,尤其是写入操作的过大延迟会拖累整个集群的响应能力。通过SSD 缓冲和写整形可以吸收数据落盘的压力,但治标不治本。盘片数量与硬盘容量相关,但对性能影响不大。因为传统硬盘的所有磁头(磁臂)共享一个音圈马达,如同所有盘片“串”在一个主轴电机之上。在这种结构下,即使只是访问一比特(bit)数据,所有的磁头、盘片都必须共进退。考虑到现在的硬盘已经有 20 个磁头,一个干活,19个陪练的情形想想都觉得过于呆板,既制约了性能,也浪费了能耗。66能否让磁臂们分头行动?其实是可以的,上个世纪就曾经出现过两组磁臂的硬盘,但无奈
141、以当时的技术条件而言,额外的马达和控制电路占用的空间偏大,严重降低了存储密度,导致这样的产品昙花一现,厂商们还是选择提升转速的道路。20 多年后,希捷重拾两组磁臂的思路,称为双磁臂(Dual Actuators),并命名为 MACH.2。MACH.2 的两组磁臂上下堆叠,共用一个枢轴,在机械结构上相对上个世纪的方案大幅度简化,硬盘的整体布局与传统硬盘基本一致,确保了硬盘尺寸的兼容性。首款基于 MACH.2 技术的量产硬盘(Exos 2X14)容量 14TB,使用 8 张盘片,每组磁头组对应 4 张。每组磁头除了拥有独立的音圈马达及驱动芯片,也对应各自独立的主控、缓存等。实际上,MACH.2 在
142、逻辑上就是两个硬盘对于 SAS 接口的版本,它可以利用 SAS 协议中的逻辑单元号(LUN)功能,在操作系统中显示为两个容量减半的LUN,也有单 LUN 的版本;对于 SATA 接口版本,则只能是一个盘。MACH.2 可以让传输速率翻倍,读 IOPS 也接近翻倍,而单位容量成本低于使用两块较小容量的硬盘。以 MACH.2 为代表的多磁臂技术逆转了近十年来硬盘单位容量性能持续下滑的趋势。随着 HAMR 技术提升份额,单盘容量发展加速,多磁臂技术的重要性也会相应提升。当硬盘容量达到 40 50TB 的时候,利用两个磁臂尚能将每 TB 的IOPS 维持在 10 左右,甚至 3 磁臂都有必要提上议事日
143、程。表 7:双磁臂在硬盘容量翻倍的情况下能维持单位容量的带宽不变HDD 容量单磁臂带宽双磁臂带宽单磁臂单位性能双磁臂单位性能16TB 0.3 GB/s0.6 GB/s0.02 GB/s/TB0.04 GB/s/TB32TB0.3 GB/s0.6 GB/s0.01 GB/s/TB0.02 GB/s/TB表 8:Exos X18 与应用了双磁臂的 Exos 2X18 性能对比Exos X18 单磁臂Exos 2X18 双磁臂单碟容量2 TB2 TB最大传输率270 MB/s545 MB/s随机读 IOPS(4KB QD16)170304随机写 IOPS(4KB QD16)550560平均时延4.1
144、6 ms4.16 msCHAPTER 4 I 技术演进与生态 67AI 时代的存储基石某大型云服务提供商表示,CMR 容量达到 24TB 时,作为温数据存储已经出现性能瓶颈,希望单盘 40TB 时能够应用多磁臂的技术。目前多磁臂技术面临的主要难点是磁臂在动作时产生的震动会干扰另一组磁臂的定位。因此磁臂运动时需要对另一组磁臂的动作做补偿,并要求磁臂启停的节奏更平缓。这些操作会略为降低密集读写时的 IOPS,但依旧明显高于传统硬盘。另外,定位精度的干扰在单碟容量提升之后会更为敏感。FDP随着 SSD 被委以重任,其耐用度的先天不足受到重视。优化 SSD 的写入方式是提升耐用度的最好方法。长期以来,
145、大多数 SSD 被当做传统块存储设备看待,应用于基于硬盘发展而来的整个软件生态当中。一个典型的问题就是块存储设备的 LBA 与闪存的基本擦除单位“页”、逻辑单位间接单元(IU)并不一定匹配。LBA 通常是 512B 或4KB,而 NAND 闪存的页一般是 4KB 到 16KB,IU 通常是 4KB。对于 TLC SSD,4KB 的 LBA 与 4KB 的 IU 尚且匹配,如果页大小为 16KB,可能在部分写操作以及垃圾回收过程中面临写入放大问题。而大容量 QLC SSD 的 IU 通常是16KB 以上,更容易出现写放大问题。有统计表明,TLC SSD 的写入放大平均为 1.7倍,QLC SSD
146、 会超过 3 倍,极端情况下会出现 20 倍以上的写入放大。因此业内提出了多重优化 SSD 写入模式的思路,如 Open-Channel、ZNS、FDP 等。这些技术都是通过观测主机的写入任务,并对闪存介质进行分组管理,优化写入操作、减少垃圾回收。以 FDP(Flexible Data Placement,灵活数据放置)为例,SSD 不再盲目地接受主机 68的写入,而是根据租户、应用程序等线索,将具有相似生命周期的数据分组到一起。承载这些数据逻辑分组的是多命名空间(Multiple Namespaces)。当一个进程/租户的临时数据被删除时,它们所在的命名空间所对应的若干物理页当中不可能存在其
147、他进程的任何数据,可以直接将这一组页全部擦除。这样就避免了垃圾回收过程中有效数据的移动,从而降低写入放大。FDP 还有利于提高性能和 QoS。在混合工作负载中,写时延对 QoS 的影响最大。频繁写入对空白页的需求会触发盘内垃圾回收,带来高于预期的写时延,并导致被移动的数据无法被读取,这就是所谓的“噪音邻居”效应。FDP 提高了垃圾回收的效率,而且不可能在垃圾回收操作中被迫移动其他进程或租户的数据,因为被隔离在不同命名空间中的数据不可能被写入相同的页。由于减少了盘内垃圾回收触发的概率,FDP 还可以减少 SSD 的保留空间,相当于降低了单位容量成本。统一生态SSD 最初寄生于 HDD 积累的 S
148、ATA/SAS 生态,后来独立发展出 NVMe 生态。SATA 规范早已停止演进,SAS 生态的前景也远不及 NVMe。统一到 NVMe 生态对硬盘有诸多好处,但生态的问题永远不像看起来那么简单。NVMe 硬盘NVMe 原本是一种专为非易失性存储器设计的高性能、低延迟接口协议,主要用于使用 PCIe 总线的 SSD。随着 NVMe SSD 在数据中心内的大量部署,许多高效能存储需要利用 NVMe 或 NVMe-oF,典型的如 GPUDirect Storage(GDS)。硬盘接口改为 NVMe,可以简化软硬件生态CHAPTER 4 I 技术演进与生态 69AI 时代的存储基石新一代的服务器逐步
149、减少了对传统存储接口的支持,譬如英特尔 Birch Stream 平台已经没有了 PCH,不再提供原生的 SATA 接口。服务器在部署 SATA、SAS 接口硬盘时,需要通过扩展卡实现,这带来了额外的成本。另外,随着以希捷 MACH.2 为代表的多磁臂硬盘的出现,硬盘的最大传输率已经接近 SATA 接口的上限。鉴于以上种种问题,业界近年来在推动硬盘接口向NVMe迁移。2022年,OCP发布了NVMe硬盘规范1.0版。过渡期内的 SoC 需要支持三模式(Tri-Mode,即 NVMe、SATA、SAS),未来的硬盘只需要支持 NVMe 即可。NVMe 硬盘的出现,将 SSD 和硬盘接口协议统一,
150、有更高的总线利用率(不需要安装 PCIe 扩展卡),简化了存储拓扑结构,并有利于与高性能存储网络解决方案整合。性能方面,NVMe 接口带宽远大于 SATA 和 SAS,PCIe 3.0 x1 就可以满足未来几年内硬盘的带宽需求,给大容量、多磁臂硬盘留下了发挥空间。NVMe 协议的任务队列比SATA协议大两个数量级,NVMe硬盘由此有了优化命令队列的机会,以进一步提升性能。NVMe 协议的 HDD 70NVMe 硬盘引入了两个新的概念:控制器内存缓冲(Controller Memory Buffer,CMB)和主机内存缓冲(Host Memory Buffer,HMB)。CMB 允许命令和数据直
151、接通过远程网络硬件移动到存储控制器,不需要 CPU 参与,降低了延迟。硬盘内部 CMB 内存暴露给主机的 PCIe 总线,也方便主机直接访问。CMB并不会带来明显的成本增加,因为硬盘的 IOPS 相对较低,所需的 CMB 容量非常小,约8 16MB 即可满足需求。整体而言,CMB 有助于降低 FBOD(Fabric attached Bunch of Drives)的 TCO。NVMe 驱动程序在 NVM 空间中为每个硬盘创建 HMB 窗口,用于存储硬盘的元数据信息。每块硬盘的唯一序列号元数据都会填充到关联的 HMB 中。由于从 HMB 访问元数据远比从硬盘中访问要快得多,从而可以实现硬盘的快
152、速启动,使得在 5 秒内启动成为可能。快速启动也意味着硬盘可以执行休眠策略而不用担心严重影响存储性能,可以明显改善存储集群的能效。硬盘的非易失性缓存也可以放置在 HMB 中,以节省功耗、提升性能。NVMe HDD 的 CMB 和 HMB此前也有硬盘厂商将硬盘元数据存储在 NAND 缓存中,可略微提升访问速度,但受限于 SATA/SAS 接口效率,性能改善不明显。当然,只要将元数据从硬盘碟片中移出,都可以增加硬盘的可用容量。如果将元数据移至 HMB 中,将改善性能并节省盘上介质CHAPTER 4 I 技术演进与生态 71AI 时代的存储基石的成本。另外,元数据存储在 HMB 中还带来一个额外价值
153、,即安全性。一旦硬盘脱离主机,失去元数据的硬盘没有访问价值。NVMe 硬盘还可以利用为 NVMe SSD 开发的 ZNS、FDP 等技术。优化的数据安排同样有利于提升硬盘的响应能力,尤其适合部署在 SMR 技术的硬盘上。对于 AI 服务器而言,存储全面协议迁移至 NVMe 是必须的。NVMe 硬盘的出现,使得硬盘可以被 RDMA 网卡或 DPU 直接访问,减少了通过 CPU 和 SAS 控制器的延迟。而通过 NVMe-oF 和 GPUDirect Storage,NVMe 硬盘也可以与 GPU 直接相连,或通过 RDMA 网卡、DPU 被跨节点的 GPU 访问。绿色节能仅对比单体功耗,GPU/
154、加速器可以达到 SSD/HDD 的几十倍乃至上百倍。但 AI 集群各部分的功耗显然不是单体的直接对比,在实际的训练过程中,存储部分所消耗的电能不容忽视。Meta 和 斯 坦 福 大 学 在 2022 年 发 表 的 论 文Understanding Data Storage and Ingestion for Large-Scale Deep Recommendation Model Training中,列出了在Meta 数据中心训练三个推荐模型(RM)的存储、预处理和训练的功耗占比,其中两个的存储功耗占比都接近 40%,另一个也在 10%以上。过高的存储功耗占比挤占了用于训练的电力容量,而随
155、着数据量的持续增长,长期保存的能耗开销也值得业界关注。在 RM1 和 RM3 中,训练的功耗占比都低于一半,RM3 甚至不到 40%72功耗水平外形规格方面,硬盘以 3.5 英寸为主,2.5 英寸 U.2/U.3 目前也仍然是企业级 SSD 的主流。在 7200RPM 的转速下,传统单磁臂硬盘的最大运行(随机读写)功耗接近 10W,平均闲置(idle)功耗 5W 出头30TB 的 HAMR 硬盘(希捷 Exos M)这个指标要高一些,接近 7W。双磁臂硬盘的功耗相比单磁臂硬盘有接近 50%的上升,如希捷 Exos 2X18的平均闲置功耗约为8W,顺序读的功耗超过13W。考虑到近乎成倍的性能提升
156、,这点开销还是划算的。2.5 寸 U.2 SSD 的功耗上限是 25W,大容量、高性能的 SSD 高速读写时都能达到20W 左右甚至更高(如 23W、25W),大约是硬盘的两倍。当然,以单位功耗的性能(IOPS/W)计算的话,SSD 的优势还是非常明显。闲置功耗方面,PCIe 3.0 时代的一些 SSD 与前面提到的双磁臂硬盘相当,现在已经普遍降低到 5W 或以下,略低于单磁臂硬盘。简而言之,(单个)SSD 与 HDD 在闲置状态下的功耗相当,SSD 在工作状态下的功耗变化范围比较大(4 5 倍),HDD 相对平稳(不到 2 倍)。增长趋势SSD 的体积更小,功耗更高,且有继续提升的趋势。专门
157、为企业级和数据中心 SSD 开发的外形规格 EDSFF(Enterprise and Data Center SSD Form Factor),相比目前的 2.5 寸 U.2,要么在保持功耗水平的条件下缩小了尺寸,要么在尺寸相当的条件下上调了功耗。E1.S 可以视为 M.2 规格的服务器版本,特别适合 1U 服务器竖插部署,譬如 NVIDIA GB200 NVL72 在每个 1U 机箱内配置 8 个 E1.S 规格 SSD,作为 4 个 GPU 的本地存储。E1.S设备本体的厚度为5.9mm,建议持续功率为12W,增加不同构型的散热壳体后,建议持续功率可达与2.5寸U.2持平的25W,厚度也来
158、到了25mm,比15mm大不少,但体积上还是小很多。CHAPTER 4 I 技术演进与生态 73AI 时代的存储基石表 9:EDSFF 不同规格对比EDSFF尺寸(mm)目标功率范围优化场景E1.S31.5 111.49 5.9mm:12 W8.01mm:16 W9.5mm:20 W15mm:20 W25mm:25 W1U 竖插E3.S76 112.75 7.520 25 W服务器内主 NAND 存储2U 竖插或 1U 横插E3.S,2x76 112.75 16.835 40 W支持高功率设备如基于 SCM的 CXLE3.L76 142.2 7.5可达 40 W支持更高容量 NAND 存储E3
159、.L,2x76 142.2 16.8可达 70 W支持更高功率设备如 FPGA 和加速器 EDSFF 家族的不同规格 74E3.S可以平替2.5英寸U.2/U.3,长宽略大,厚度减半(7.5mm),支持的功率范围不变。更长一些的 E3.L,可以支持到 40W,满足更大容量更高性能 SSD 的需求。E3.S 和E3.L 都有更厚的 2x(实为 16.8mm)版本,支持 40W 乃至 70W 的设备如 SCM、加速卡等。液冷选项3.5英寸硬盘的体积约为2.5寸U.2(15mm厚)SSD的3.7倍,总表面积约为2.2倍,结合两者的功耗水平,硬盘本身的散热难度并不大,但是服务器或存储系统的散热是个系统
160、工程。在风冷服务器中,不论横插竖插,由于横截面积相对较大,密集排布的 3.5 英寸硬盘会阻碍后面 CPU、内存等设备的散热。如果加大风扇转速,又可能会恶化硬盘的工作环境,导致性能下降、故障率上升。优化服务器内部风道、调整风扇位置等设计可以缓解这个问题,采用液冷方案解决则更为彻底。一种是目前应用较为广泛的冷板式液冷,如国内某双一流大学就采用了高密度液冷存储,为用户提供近40PB的存储空间,便捷、高效地与液冷服务器形成一栈式液冷方案。采用液冷存储也有利于落实双碳发展战略,实现数据中心节能降耗目标。据称,EB 级别数据中心,采用该款液冷存储系统替换传统风冷存储系统,可节约 450 万度电,减少 14
161、93 吨二氧化碳排放。另一种是浸没式液冷。氦气密封使硬盘无惧冷却液浸泡,而与空气隔离又进一步改善了硬盘的工作环境。某大型云服务提供商与希捷合作,上千个硬盘在浸没式液冷环境中用了一年,故障率趋近于零。长效节能硬盘和 SSD 都支持不同的节能模式,把闲置状态下的功耗进一步降低到 1W 左右,甚至更低。譬如希捷 Exos X24 SATA 版本,待机模式(Standby)下的功耗就只有 1.09W(24/20TB 型号)或 0.95W(16TB 型号)。CHAPTER 4 I 技术演进与生态 75AI 时代的存储基石在节能方面,硬盘相对 SSD 的最大优势,是可以(较)长期处于关机状态,能耗趋近于零
162、。SSD 长期断电可能会导致数据丢失,硬盘盘片上的磁性介质则不需要通电来保持状态。甚至,HAMR 技术的核心就是用激光瞬时加热要写入数据的区域,以克服高矫顽力的铁铂合金(FePt)晶格介质热稳定性太好,常温下难以改写的问题。将数据不活跃的硬盘进入低功耗状态以达到节能效果的 MAID(Massive Array of Idle Disks,大规模闲置磁盘阵列)技术,在 SSD 进入企业级市场之前就已提出。MAID技术后来没有得到广泛应用,有多种原因,其中很重要的一条就是,“唤醒”处于休眠状态的硬盘代价过高。硬盘开机上电(Power-on)的过程不仅瞬时电流较大(12V 电压上需要 2A 左右),
163、耗时也较长。因为硬盘的磁头和介质元数据(Heads&Media Metadata,简称 HMM,如关键的磁道索引和磁头校准信息)都保存在盘片上,这不仅占用了部分本可以用于存储用户可见数据的空间,更重要的是在硬盘启动并准备好进行数据传输之前,必须先从盘片上读取所有这些数据,导致系统启动时间比期望的要慢。仍以希捷Exos X24为例,从开机或待机状态到准备就绪(ready)的典型时间是25秒,如果处于过冷或过热的极端状态下,还要延长 5 秒,达到 30 秒。25 30 秒的纯等待时间无疑会影响系统的响应时间和整体性能,不仅对时延敏感的应用来不可接受,就是作为温冷存储也会受到很大限制。节能不能以显著
164、的性能损失为代价,况且从整体来看,过长的就绪时间也未必能达到节能的效果。希捷正在探索将 HMM 放到有备用电源保护(如 BBU)或非易失性(如 SCM 或高性能 NVMe SSD)的主机内存缓冲区(Host Memory Buffer,HMB)中的做法。这样一来,不仅可以将释放元数据扇区获得的存储容量暴露给用户使用,更重要的是,HMB驻留的硬盘元数据是字节/RDMA 可访问的,比从盘片上加载要快好几倍,使硬盘的启动时间缩短在 5 秒以内成为可能。如果 HMB 功能可以顺利实现,沉寂已久的 MAID 技术有望重新成为一个选项,将温冷存储中的硬盘节能效果推进到一个新的水平。76硬盘再生碳排放不仅产
165、生于物品的使用过程中,物品的生产和报废处理也会产生碳排放。因此,尽可能地延长产品的正常使用周期,也是对可持续性的一个重要贡献。据估计,40%的硬盘故障是可再生的“单磁头”故障。对于有 20 个或更多磁头的硬盘而言,单个磁头故障意味着 95%的容量仍然是完好的,可以通过“硬盘再生”(Drive Regeneration)来修复:当预测或检测到磁头故障后,移除有故障的磁头(SMR 硬盘可能还要更改分区设置),就可以得到一个原来容量 95%(或更高)的正常硬盘,从而避免非必要的报废和生产过程。CHAPTER 4 I 技术演进与生态 77AI 时代的存储基石结语:AI 重新定义数据存储的量与质随着大语
166、言模型“涌现”了智能,人工智能(AI)行业的发展猛然提速,也对存储提出了更高的要求。AI 对存储的影响主要从两个角度体现:增加数据的生成数量、提升数据的价值。数据增量数据量的增加是最为直观的。数据来源于多个方面,第二章详细介绍了在整个 AI 生态系统从预训练到推理应用各个阶段的数据特点。譬如,在预训练阶段,检查点操作产生了大数据量和高性能的存储需求,虽然多数检查点只是临时存储,但也有部分出于重新训练、可解释性或合规的要求而得到长期保存。检查点操作对读写带宽的要求是最高的,这是由于算力昂贵,高性能存储可以减少算力单元的等待时间、提高集群的可用性。推理是 AI 产生实际社会价值的环节,长期来看也是
167、数据生成、流通最多的部分。为了再训练/微调更适用的垂直领域大模型,需要大量挖掘、采集数据。自动驾驶领域的端到端大模型潮流就是边缘侧海量收集数据的典型代表。为了满足数据量的需求,合成数据也成为重要的补充,常见于自动驾驶、数学模型等领域。为了强化模型推理质量,思维链(CoT)、RAG 等技术都加大了推理过程当中算力、存力的消耗。适用于多模态数据的向量数据库容量是传统数据库的数倍甚至数十倍。普通大众更为熟悉的生成式 AI 应用更是提升了富媒体信息的生成效率和数量,不论是专业人士还是大众玩票,任何人都可以通过提示词或少量多媒体信息快速生成大量的文本、音频、视频。随着生成式 AI 的算力从数据中心(云端
168、)向端侧(AIPC、AI 手机)渗透,在未来几年内,富媒体信息的生成数量增速还会进一步提高。对于 AI 时代的数据生产量,IDC 预测到 2028 年将接近 400ZB。数据价值从结绳记事到壁画、骨板,再到竹简、纸张,人类保存信息的能力不断增强,效率越来越高、成本越来越低。存储成本昂贵的古代,只有最宝贵、最伟大的信息才有资格 78被保存下来。到了数字化时代,信息存储的成本变得极其廉价,大量数据被生产和存储,其中绝大多数处于睡眠状态,直至被遗忘、遗失、损毁。试图提升沉睡数据价值的努力从未间断。20 世纪 90 年代,数据挖掘主要是揭示人类未曾留意的信息相关性,还被附会出了诸如“啤酒与尿不湿”之类
169、的商学院案例。本世纪10 年代,随着神经网络为代表的 AI 技术趋于成熟,深度学习、监督学习、强化学习等推动了机器视觉、自然语言处理等应用。这个阶段需要的数据是人类可理解的、有质量的,典型的就是数据标注工作。训练后的AI可以实现远超人类的数据处理速度和精度,譬如图像检索的效率提升了几个数量级。天眼工程让中国的一般治安案件侦破时间缩短到以小时计,社会治理水平极大提升,其背后是巨量的信息采集、存储、处理。正在兴起的大语言模型可以接受和处理极为庞杂的数据,包括人类无法理解的信息。这使得人类对数据的利用能力达到了新的高度。为了让模型性能更为强大,开发者需要不断收集数据。在第一章开头部分就已经提到,人类
170、正在趋于穷尽历史信息,这在五年前都是难以想象的事情。虽然数据量瓶颈、缺乏可解释性等问题让通用 AI 的前景略显坎坷,但并不妨碍行业、企业的信息继续被搜刮与处理,以训练/微调各种规模较小的专家模型。在这个过程中,沉睡的数据不断被激活、处理、转储,对存储系统的性能与容量都提出了挑战。存储优化围绕大模型的激烈竞争仍在进行中,从硬件到软件的不同层次,参与者们各显其能。由于 AI 服务器的价格从绝对值到相对值都是如此的高昂,以至于全闪存储在其面前都显得平易近人。加之快速投产的时间压力,很多新组建的 AI 集群都选择了“力大砖飞”的全闪存储。与此同时,具有丰富数据存储经验和应用积累的云服务商如微软、百度等
171、,通过优化的 SSD+HDD 分层存储,在 AI 应用中也取得了不错的效果。近来 DeepSeek-V3 和DeepSeek-R1 的相继推出,证明了优秀的架构设计可以适度节省在硬件上的支出。随着竞争逐步进入深水区,在采用最新硬件技术的同时注重扬长避短、优化组合,兼顾应用性能和投资效率的软硬件架构会得到越来越多的重视。结语 I AI 重新定义数据存储的量与质 79AI 时代的存储基石版权声明AI 时代的存储基石版权属于中研益企(北京)信息技术研究院有限公司,并受法律保护;转载、摘编或利用其他方式使用本考察报告文字、图片或者观点的,应注明“来源:益企研究院”;违反上述声明者,本公司保留追究其相关法律责任的权利。80E-mail:公众号视频号