编辑推荐:
为解决在突发流量下维持严格服务级别目标 (SLO) 的难题,并克服现有自动伸缩框架 (如 TokenScale) 的“缓存盲”和忽视异构集群成本效益的问题,研究人员提出了一个名为 AdaptiveScale 的情境感知自动伸缩框架。该框架集成了有效令牌速度 (Veff)、异构感知分层调度和基于 RDMA 的弹性状态保护 (ESP) 三大创新机制,并在 vLLM 引擎上实现。实验表明,在高局部性工作负载下,AdaptiveScale 相比当前最先进的基于速度的伸缩器能降低 28% 的 GPU 运营成本,同时保持 99% 的 SLO 达成率,为实现弹性且成本最优的 LLM 服务基础设施迈出了重要一步。
随着大型语言模型 (LLM) 应用的火爆,如何高效、低成本地部署和运行这些“大模型”成为企业和研究机构面临的关键挑战。传统的模型服务方式像是把所有任务都塞进一台“万能”服务器,效率低下。后来,人们发现 LLM 处理一个请求通常分为“预填充” (Prefill) 和“解码” (Decode) 两个截然不同的阶段:预填充阶段计算密集,需要强大的算力;解码阶段则更依赖内存带宽,对算力要求没那么高。于是,聪明的工程师们想出了“预填充-解码分离” (Prefill-Decode Disaggregation) 架构,就像组建了一支“特种部队”,让擅长计算的 GPU (如 NVIDIA H100) 专门负责预填充,而成本更低、内存带宽大的 GPU (如 NVIDIA L40S) 则专门负责解码,各司其职,提升整体效率。
然而,现实世界的用户请求并非平稳流入,而是像潮水一样,时急时缓,充满“突发性”。这种波动让静态分配资源的“特种部队”措手不及——忙时资源不够,导致响应变慢,违反服务级别目标 (SLO);闲时资源闲置,造成巨大浪费。为此,学术界开发了如 TokenScale 这样的“自动伸缩”框架,它能精细地根据“令牌速度” (Token Velocity) 动态调整资源,甚至在解码器空闲时将其临时转换为预填充器 (Convertible Decoders) 来应对突发流量。
但现有方案存在两大“盲点”。第一是“缓存盲” (Cache Blindness)。在许多实际场景中,比如代码助手对话、多轮聊天或智能体工作流,大量用户请求的开头部分是相同或相似的。现代服务引擎 (如 vLLM, SGLang) 通过 RadixAttention 等技术,可以将这些共同的“前缀”缓存起来。后续的“热请求” (warm requests) 命中缓存后,能跳过大量计算,极大提升处理速度。然而,像 TokenScale 这样的框架对此视而不见,仍将 GPU 的处理能力视为固定值。当遇到大量共享相同前缀的请求突发时,它会误判需要大量新增计算资源,从而过度调配昂贵的 GPU 实例,这不仅浪费钱,还可能因启动新的、无缓存的“冷实例”而破坏了已有的缓存优势,反而损害性能。第二是忽视了“异构集群”的成本效益机会。实际运营中,企业为控制总拥有成本 (TCO),通常会混合使用不同代际和型号的 GPU (如昂贵的 H100 与相对便宜的 L40S 混搭)。现有框架通常假设集群硬件是同质的,在调度时可能错误地将本应专注于解码的低成本 GPU 转换为预填充任务,导致其“小马拉大车”,性能不彰。
为了解决这些问题,一篇发表在《IEEE Access》上的论文提出了名为 AdaptiveScale 的框架。这项研究旨在弥合“资源弹性”与“内存局部性”之间的鸿沟,其核心思想是:一个 LLM 集群的实际处理能力是动态的,不仅取决于硬件的浮点运算能力 (FLOPS),更取决于工作负载的前缀分布与系统内存状态之间的相互作用。
为了开展这项研究,作者团队基于流行的 vLLM 推理引擎实现了 AdaptiveScale 框架,并利用从 Azure 和 OpenAI 收集的生产环境追踪数据来模拟真实流量模式进行评估。研究采用了合成与真实数据结合的方法,模拟了不同上下文复用率的工作负载,并构建了一个包含高性能计算 GPU (H100) 和低成本内存优化 GPU (L40S) 的异构集群测试环境。
研究结果
- •
有效令牌速度 (Effective Token Velocity, Veff) 的推导与验证
研究人员首先从数学模型上定义了衡量请求缓存复用程度的“复用率” ρ,并推导出“速度放大因子” α。基于此,他们提出了核心度量指标“有效令牌速度” Veff= Vhw· α(Q),其中 Vhw是硬件固有速度。Veff是一个动态值,它会根据待处理请求队列与全局 Radix 缓存树状态的匹配情况实时变化。实验表明,在高局部性突发流量下,Veff能准确识别出系统存在的“虚拟”处理能力,从而避免不必要的物理资源扩展。例如,面对 50 个共享 95% 前缀的并发请求,TokenScale 因误判而启动了多个新实例,导致延迟飙升;而 AdaptiveScale 则利用 Veff识别出容量充足,未触发扩缩,保持了稳定的低延迟。
- •
异构感知分层调度 (Heterogeneity-Aware Tiered Scheduling)
针对混合硬件集群,研究提出了一种分层转换策略。它将 GPU 分为两层:计算优化层 (Tier-C,如 H100) 和内存优化层 (Tier-M,如 L40S)。当需要将解码器转换为预填充器以应对突发时,系统会根据一个综合了硬件预填充速度与机会成本的“转换评分”公式,优先选择 Tier-C 的高性能 GPU 进行转换,同时将 Tier-M GPU 锁定在解码任务上。实验结果对比显示,采用随机选择策略(模拟传统方法)时,可能误选 L40S 进行预填充,导致 P99 延迟高达 310 毫秒;而采用分层调度策略的 AdaptiveScale 能正确选择 H100,将延迟降低至 180 毫秒,证明了硬件感知调度对性能的关键影响。
- •
基于 RDMA 的弹性状态保护 (Elastic State Preservation via RDMA)
为了解决角色转换(如解码器转预填充器)时原有 KV 缓存被丢弃、导致后续恢复解码需重新计算的性能损失问题,研究提出了 ESP 机制。该机制利用高速远程直接内存访问 (RDMA) 网络,在角色转换时将需要腾挪的 KV 缓存块“零拷贝”卸载到邻近节点的宿主内存中暂存,待角色切换回来时再快速恢复。实验将 ESP 与完全重新计算、以及交换到本地 NVMe 硬盘两种方案对比。对于 2GB 的 KV 缓存,重新计算需 180 毫秒,NVMe 交换需 450 毫秒,而 ESP 仅需 12 毫秒,实现了 15 倍到 37.5 倍的加速。这确保了角色转换对最终用户的解码延迟几乎透明。
- •
端到端效率与机制贡献分析
在模拟真实代码辅助工作负载(上下文复用率 60%)的端到端测试中,AdaptiveScale 在达到 99.2% SLO 达标率的同时,将归一化的 GPU 成本降至 0.96(以 TokenScale 为基线 1.0 计),相当于降低了 28% 的运营成本。而对比基线 DistServe 和 AIBrix 则无法在流量突发时满足尾部延迟 SLO。进一步的消融实验逐步启用了 Veff、分层调度和 ESP 三个机制,结果显示:Veff对减少过度配置、提升预填充效率贡献最大;分层调度进一步优化了异构环境下的路由;ESP 则彻底消除了角色转换的延迟惩罚,三者协同工作才最终实现了 99% 以上的严格 SLO 达标。
- •
敏感性分析与系统健壮性
研究还评估了框架在不同模型规模(8B 与 70B 参数)、不同上下文复用率以及不同集群规模下的表现。结果显示,模型越大、上下文复用率越高,AdaptiveScale 带来的成本节约越显著(在 70B 模型、90% 复用率下,成本可降至基线的 60%)。在零复用率的最坏情况下,系统性能会平稳退化至与 TokenScale 相当,不会引入额外开销。此外,研究也探讨了系统在节点故障、缓存状态临时不一致及网络拥塞等情况下的应对策略,证明了其在实际生产环境中的鲁棒性。
研究结论与意义
该研究得出的结论是,通过将缓存局部性信息深度整合到自动伸缩决策中,并针对现代异构 GPU 集群进行优化,可以显著提升大型语言模型推理服务的成本效益,同时保障严格的性能目标。AdaptiveScale 框架通过三大创新机制——动态的“有效令牌速度” (Veff) 度量、异构感知的分层调度、以及基于 RDMA 的“弹性状态保护” (ESP)——成功地将资源弹性与内存局部性关联起来。
这项研究的重要意义在于,它将前缀缓存从一个单纯的、本地的执行优化手段,提升为全局集群容量规划的“一等公民”和关键信号。它标志着 LLM 服务自动伸缩范式从“无状态”的静态吞吐量模型,向“情境感知”的动态容量模型的根本性转变。随着 AI 应用日益复杂化、工作负载日益呈现智能体化和高局部性特征,高效、协同地管理内存状态与弹性计算资源变得不可或缺。AdaptiveScale 不仅为构建下一代完全弹性且成本最优的 LLM 服务基础设施提供了可行的技术蓝图和实证依据,其设计思想也对更广泛的、需要处理有状态工作负载的云计算和分布式系统具有重要的启发价值。