解耦与互联:CXL缓存一致性互连技术驱动下的资源池化架构新范式

时间:2025年12月31日
来源:IEEE Micro

编辑推荐:

为应对传统单体架构在资源超配、利用率低及内存墙等方面的挑战,研究人员聚焦于资源解耦与缓存一致性互连技术。他们通过开发CXL、Infinity Fabric等先进互连技术,构建了分布式存储、内存及异构设备池,显著提升了数据中心的资源利用率和可扩展性,为大规模机器学习与数据分析提供了关键支撑。

广告
   X   

在人工智能与大数据分析需求井喷的今天,现代数据中心正面临前所未有的压力。传统的“单体”服务器架构,将计算、内存和存储资源紧密耦合在一起,虽然设计简单,却带来了诸多难以逾越的瓶颈。为了确保单台服务器的性能,企业往往需要过度配置资源,导致大量计算核心或内存条在大部分时间处于闲置状态,造成了巨大的资源浪费。更棘手的是,随着机器学习模型参数量的激增,单台服务器的内存容量已难以容纳庞大的数据集,形成了所谓的“内存墙”,严重制约了计算效率的提升。
为了打破这一僵局,学术界和工业界提出了“资源解耦”这一革命性架构范式。其核心思想是将计算、内存和存储等资源从物理上分离,形成独立的资源池,再通过网络按需分配给不同的计算任务。这种模式理论上可以实现资源的灵活调配和极致利用,但实现起来却困难重重。其中最大的挑战在于,如何让计算单元能够像访问本地资源一样,高效、低延迟地访问远端的解耦资源。
幸运的是,以Compute Express Link (CXL)为代表的新一代缓存一致性互连技术,为资源解耦提供了坚实的技术底座。CXL协议在PCIe物理层之上,构建了缓存一致性、内存语义的通信机制,使得CPU能够以极低的延迟和开销,直接访问远端的内存或存储设备。这极大地降低了资源解耦带来的性能损耗,使其从理论走向了实践。
在此背景下,IEEE Micro期刊于2025年11月/12月推出了关于缓存一致性互连与资源解耦技术的特刊,旨在展示该领域的最新进展。该特刊共收录了12篇研究论文,涵盖了从解耦存储、解耦内存到互连技术等多个关键方向,为构建下一代高效、可扩展的数据中心架构提供了宝贵的洞见。
关键技术方法
研究人员主要采用了原型系统构建与性能评估、软件框架与算法设计、以及硬件架构创新等关键技术方法。在原型系统方面,他们利用CXL、NVMe-oF等协议构建了实验平台,以验证新架构的可行性。在软件层面,他们设计了基于学习索引的内存管理系统、针对冷视频的存储管理策略以及面向SQL查询的优化算法。在硬件层面,则聚焦于互连交换机的拓扑设计、带宽优化以及GPU与CXL的集成方案。
研究结果
解耦存储
  • 冷视频管理:Lim等人提出了一种针对解耦云存储中冷视频的高效管理方案,通过神经增强技术优化存储效率。
  • 远程访问优化:Han等人引入了一种新颖的存储管理框架,通过解耦元数据和数据路径,利用NVMe-oF优化了解耦存储节点中的远程文件访问。
  • SSD资源解耦:Kwon等人提出了一种方法,将固态硬盘资源解耦,以同时支持多个工作负载,实现了容器化的存内处理与计算。
  • CXL存储预取:Oh等人通过预取策略,结合CXL拓扑感知和扩展器驱动,显著提升了CXL存储的性能。
解耦内存
  • CXL设备原型:Kwon等人开发并使用了原型系统,评估了将块存储设备作为具有字节寻址能力的CXL设备使用的可行性。
  • 分层内存管理:Yang等人提出了一种利用学习索引来高效管理分层内存系统的方法。
  • 内存池与去重:Zhang等人关注于基于解耦内存设备的云内存池,提出了一种防止页面重复的方法。
  • SQL查询优化:Jun等人探索了针对执行结构化查询语言连接操作而优化的解耦内存架构。
互连技术
  • 互连带宽利用:Park等人提出了一种方法,在解耦键值SSD的背景下,通过细粒度值传输来提高互连带宽利用率。
  • 可扩展交换系统:Jeong等人介绍了一种交换系统,旨在以可扩展的方式克服集成大量设备时的拓扑限制。
  • RAG工作负载优化:Quinn等人提出了一种基于CXL的设备原型,专门用于高效执行检索增强生成工作负载。
  • GPU内存扩展:Gouk等人实现了GPU设备的CXL互连,从而扩展了GPU内存容量。
结论与讨论
本特刊的研究成果共同描绘了资源解耦架构的未来图景。在解耦存储方面,研究不仅关注于冷热数据的智能分层管理,还深入探索了SSD内部资源的细粒度解耦与存内计算能力,为海量数据的高效处理提供了新思路。在解耦内存方面,从CXL设备的硬件原型验证,到基于学习索引的智能内存管理,再到针对特定应用(如SQL查询)的架构优化,研究全面覆盖了从硬件到软件、从通用到专用的各个层面,证明了CXL内存池化的巨大潜力。
在互连技术层面,研究不仅关注于如何最大化利用现有带宽,还前瞻性地设计了能够支持大规模设备集成的交换系统,为未来超大规模资源池的构建扫清了拓扑障碍。特别值得关注的是,研究已经开始将CXL技术应用于GPU等异构加速器,通过扩展GPU内存容量来支持更大规模的模型训练与推理,这为人工智能的进一步发展提供了关键的基础设施支持。
综上所述,以CXL为代表的缓存一致性互连技术,正在成为资源解耦从理论走向大规模商用的关键催化剂。本特刊所展示的研究进展,不仅解决了当前数据中心面临的资源利用率低和内存墙等核心问题,更为构建下一代灵活、高效、可扩展的计算基础设施奠定了坚实的技术基础,预示着数据中心架构即将迎来一场深刻的变革。

生物通微信公众号
微信
新浪微博


生物通 版权所有