得益于强大的规模经济和云计算等技术创新,Web系统变得越来越集中化,越来越多的消费者依赖云服务提供商提供数据存储、共享和计算服务[1]、[2]、[3]。因此,集中式网络架构作为一种有前景的解决方案应运而生,提供了更好的可控性和便利性,例如Amazon S3[4]、Google Drive[5]和Dropbox[6]。然而,这种集中式架构也引入了若干风险,如单点故障、数据孤岛和负载不平衡,这些都会严重影响系统性能并最终降低用户体验。例如,亚马逊电子商务平台的一份报告显示,服务中断造成的财务损失每分钟超过66,000美元[7]、[8]。
为了解决这些问题,分布式架构成为研究热点,因为它将控制权限分散到多个节点上,从而减少了对中央服务器的依赖。因此,它已成为包括云计算[9]、物联网(IoT)[10]和区块链[11]在内的各种技术领域的基础基础设施。尽管分布式系统不断发展和改进,但数据传输性能仍然是其未来发展的主要瓶颈。这一瓶颈不仅影响分布式系统的性能和稳定性,还阻碍了它们的进一步发展。
因此,为了优化数据传输效率,数据分块技术已在InterPlanetary File System(IPFS)[12]、BitTorrent[13]、HDFS[14]、Ceph[15]和现代云存储平台[16]等领先的分布式传输系统中得到广泛应用。数据分块将大对象分割成较小的块,分布在不同的节点上,从而实现独立存储和传输,提高吞吐量、减少延迟并增强系统容错能力。然而,这也带来了新的挑战,因为大多数系统使用预先定义且固定的块大小,限制了它们对动态网络条件和异构数据特征的适应性。此外,块大小的变化会显著影响同一文件的传输效率。特别是,过小的块可能由于元数据和连接管理的增加而引入较高的开销,而过大的块则可能导致对网络波动的适应性较差。这些问题会严重损害系统的稳定性和效率。虽然实施动态调整策略是一个潜在的解决方案,但依赖预先定义的启发式规则往往不够充分。这些僵化的方法无法捕捉高维网络动态与最优分块策略之间的复杂非线性关联。此外,传统的监督学习方法也不适用于这种情况。在静态历史数据集上训练的模型根本无法捕捉复杂分布式网络中的随机波动性和实时变化性,导致环境条件变化时策略不匹配。相比之下,深度强化学习(DRL)[17]通过将分块问题表述为序列决策过程克服了这些限制。DRL使系统能够通过与环境中的持续交互和探索自主学习和更新其策略,从而适应动态和未知的网络条件,提供了静态或监督方法无法比拟的鲁棒性。
因此,为了克服在复杂和动态网络环境中固定大小分块的适应性限制,我们提出了一种动态分块机制,并设计了一种基于动态分块的新型智能高效分布式传输方法。关键在于,该机制能够根据实时网络条件自适应地调整块大小,从而优化传输性能。这一能力使其区别于传统的分布式传输系统。分块机制利用共识算法选举一个负责持续监控整个分布式系统中网络条件和数据特征的主节点。鉴于网络动态的不可预测性和分布式系统中数据的异构性,传统启发式方法常常失效,我们利用DRL来学习最优块大小决策。通过训练DRL模型,该机制能够实时预测最优块大小,从而根据网络条件和数据特征进行动态调整,从而提高传输过程的效率和稳定性。此外,还采用了分布式哈希表(DHT)这种去中心化的存储系统,将键映射到特定节点以实现可扩展的检索[18],以高效查找数据块。同时,使用点对点(P2P)协议[19]支持节点发现、连接建立和数据传输。我们还集成了Bitswap[20]协议来管理节点间的数据块请求和交换,实现系统内的并行数据传输。通过对数据传输进行广泛实验,验证了所提出机制的有效性。实验结果表明,该机制能够有效适应动态网络条件和异构数据特征,为分布式系统中的数据传输提供了稳健、高效且可扩展的解决方案。
我们的贡献总结如下:
- 我们提出了一种基于动态分块的分布式系统传输机制。该机制在调整块大小时同时考虑了实时网络状态和数据特征。这些指标由主节点检测和汇总,主节点通过基于共识的机制选举产生,以实现系统中所有节点的分块决策的全球协调。
- 与传统通常静态且缺乏适应性的启发式方法相比,我们将分块决策问题表述为MDP,并提出了一种基于DRL的动态分块机制来学习最优分块策略。为了提高机制的灵活性,设计了延迟经验反馈方案和模型迁移机制等补充组件,以确保即使在节点故障的情况下也能持续运行。
- 我们提出了一种高效的分布式数据传输机制。该机制利用P2P网络进行去中心化的节点发现和数据传输,同时使用DHT来定位和识别数据块。通过实现来自多个节点的数据块的并行传输,这种方法显著提高了分布式数据传输的整体性能。
- 为了评估所提出机制的性能,我们开发了一个分布式数据传输测试平台,并在真实的分布式传输场景下进行了全面实验。实验结果表明,我们的机制在多个方面优于其他方法,传输性能提高了22%,吞吐量增加了28%,相比传统的固定大小分块方法优化率提高了31%。
本文的其余部分安排如下:第2节概述相关工作,第3节详细介绍我们提出的系统架构,第4节介绍动态分块和智能决策机制,第5节描述基于动态分块的高效传输方法,第6节通过实验结果评估我们提出方法的性能,最后第7节总结本文。
相关工作
相关工作
在本节中,我们概述了与我们的工作密切相关的两个主要领域:分布式数据传输技术和数据分块,并简要讨论了我们在现有方法背景下的设计方法。
系统设计
在本节中,我们介绍了所提出的分布式数据传输系统的整体架构设计。为了提高分布式数据传输的适应性和效率,该系统采用了模块化架构,包括三个关键组件:智能决策模块、动态分块模块和高效分块传输模块。整体系统架构如图1所示。它们的功能如下:
动态分块和智能决策机制的设计
在本节中,我们将介绍动态分块和智能决策机制的设计,包括主节点选举算法、基于DRL的分块决策机制以及动态数据分块过程。此外,我们还将介绍延迟经验反馈机制和模型迁移机制,作为对核心机制的有效补充,提高系统的适应性和训练的连续性。
基于动态分块的高效传输方法
在本节中,我们介绍了基于动态分块的高效传输方法,具体涵盖了数据分块、分布式存储、传输和重组验证。
评估
在本节中,我们评估了所提出机制在构建的分布式平台上的传输性能。我们还将其与其他基准进行了比较,从传输时间、吞吐量和优化率等方面进行了评估,以更好地验证该机制的有效性和适应性。
结论
在本文中,我们提出了一种基于动态分块的分布式环境智能高效传输机制。该机制采用主从架构来感知实时环境状态,并动态调整数据块大小以提高传输效率。同时,它利用DHT和P2P技术实现并行传输。此外,为了优化分块决策,我们创新性地引入了DRL方法进行建模。
CRediT作者贡献声明
吕恩良:撰写 – 审稿与编辑、撰写 – 原稿、软件开发、项目管理、形式分析、数据整理、概念化。
王星伟:撰写 – 审稿与编辑、资源协调。
易波:撰写 – 审稿与编辑。
卢浩:撰写 – 审稿与编辑。