编辑推荐:
近日,上海交通大学电子信息与电气工程学院计算机科学与工程系薛广涛教授团队在分布式系统稳定性领域取得重要进展,相关研究成果以“One-Size-Fits-None: Understanding and Enhancing Slow Fault Tolerance in Modern Distributed Systems(理解并增强现代分布式系统的缓慢故障容错能力)”为题在网络系统领域顶级会议U...
近日,上海交通大学电子信息与电气工程学院计算机科学与工程系薛广涛教授团队在分布式系统稳定性领域取得重要进展,相关研究成果以“One-Size-Fits-None: Understanding and Enhancing Slow Fault Tolerance in Modern Distributed Systems(理解并增强现代分布式系统的缓慢故障容错能力)”为题在网络系统领域顶级会议USENIX NSDI上发表。该论文揭示了当前分布式系统软件容错机制在面对缓慢故障时的不足,并创新性地提出了一种动态的软件层检测方案。
研究背景
在分布式系统的运行中,故障的发生在所难免。传统分布式系统开发和运维人员更多关注停止故障(Fail-Stop Failure),即节点或组件彻底失效的情况,并采用如状态机复制等技术来保障系统的可靠性。近年来,一种处于正常运行和停止故障之间的故障模式——缓慢故障(Fail-Slow Failure)——正逐渐引起研究者注意:缓慢故障组件虽然仍在运行,但性能大幅低于预期。
现代分布式系统软件在设计之初大多并未充分考虑缓慢故障这一较为复杂的故障模式。现有缓慢故障处理机制大多基于静态超时(Static Timeouts)的方法,即针对不同指标(例如请求执行时间)预设阈值来判断是否超时。这些超时通常无法在系统运行时动态修改。因此,超时大多被设置得过于保守以避免误报,且通常仅触发重试、异常抛出甚至节点崩溃等较为严重的处理手段。
研究成果
该研究首先构建了一套自动化缓慢故障测试工具链,通过注入不同类型的缓慢故障(如网络丢包和文件系统读写延迟),并调节故障的严重程度与持续时间等,定量分析现代分布式系统在面对动态多元且连续变化的缓慢故障时的性能下降表现。随后,该研究探讨了不同部署资源与负载压力对系统缓慢故障容忍能力的影响,揭示了系统性能在缓慢程度变化关系中的“危险空间”。例如,当注入至ETCD主节点的网络延迟从1ms增加到3ms时,系统性能的下降幅度将从25%急剧升高至61%。识别这类危险空间有助于系统维护者在性能急剧下降前提前监控并有效缓解缓慢故障。研究还发现,微调系统超时阈值难以有效提升系统对不同缓慢故障的容忍能力,且长尾延迟并不总能有效表征缓慢故障。
静态超时是分布式系统检测缓慢故障的主要手段
随后,该研究进一步分析了当前分布式系统软件针对缓慢故障的检测、缓解和测试方法。通过深入剖析系统源码,发现大部分分布式系统采用静态超时机制来检测缓慢,缺少针对缓慢故障的细粒度容忍手段。同时,系统开发人员大多通过调用sleep函数等方式伪造缓慢故障以进行单元测试,缺少真实故障场景下端到端的集成测试。
基于以上发现,该研究提出了一个轻量级缓慢故障检测库ADR,开箱即用、无需额外配置即可将原有静态超时逻辑转换为自适应动态检测逻辑。经验证,ADR可以实现轻量级(平均额外开销仅2.8%)且快速(0.9-1.3秒级响应)的缓慢故障检测,显著缓解Apache HBase等系统在面对各类缓慢故障时43-90%的性能损失,保证分布式系统持续、稳定的运行。
USENIX NSDI
NSDI会议创办于2004年,是由美国高等计算系统协会(USENIX)、美国计算机学会操作系统专业组织(ACM SIGOPS)以及美国计算机学会数据通信专业组织(ACM SIGCOMM)联合组织的聚焦计算机网络领域的顶级国际会议,代表了计算机网络系统领域的国际最高水平。本轮一共收录55篇文章(接受率13.7%)。
生物通 版权所有