关于多虚拟电厂中反投机收入分配机制的研究张梦雪、周强、张友超、季静、邱一鸣

时间：2026年4月23日

来源：Processes

编辑推荐：

摘要：在多个虚拟电厂的联合运营中，日前最优调度完成后，一些参与者可能会采取投机行为，例如错误报告利润贡献数据，以在利润分配中获得更大的利益，从而损害公平性。为了解决这个问题，本文构建了一个旨在防止投机的利润分配模型。提出了一种基于第三方交易中介的改进纳什谈判均衡算法来遏制投机行为

摘要：在多个虚拟电厂的联合运营中，日前最优调度完成后，一些参与者可能会采取投机行为，例如错误报告利润贡献数据，以在利润分配中获得更大的利益，从而损害公平性。为了解决这个问题，本文构建了一个旨在防止投机的利润分配模型。提出了一种基于第三方交易中介的改进纳什谈判均衡算法来遏制投机行为。此外，还建立了一个以利润偏差为中心的双层监控机制，可以有效识别单日投机行为和长期系统性投机趋势，并因此触发验证程序。这形成了一个防止投机的闭环管理机制——“检测、监控、分析、验证”——确保虚拟电厂内参与者之间的公平利润分配。案例研究结果表明，与非投机条件下的利润分配结果相比，所提出的方法平均偏差仅为2.32%。相比之下，常用的方法（如Shapley值方法、核方法、Nash-Harsanyi谈判解决方案）的平均偏差高达18.44%。本文的研究能够检测参与者中的投机行为，并促进验证，显著提高了利润分配的公平性和合理性。

1. 引言
在提出“碳达峰和碳中和”目标的背景下，全球能源供需格局和市场机制发生了重大变化。作为关键的平衡资源，分布式能源资源在构建新的电力系统中发挥着重要作用[1]。虚拟电厂（VPP）是一种新型的能源管理系统，通过先进的通信技术、计算智能、最优调度和灵活的市场交易机制，整合了分散的参与者（如电源、电网、负载和储能设施）[2,3,4]。该系统提高了电力供应的可靠性，实现了削峰填谷，并提高了可再生能源的容纳率。其主要优势包括地理灵活性、增强可再生能源的整合、优化资源配置以及提高电网稳定性，这些共同强调了其在电力交易市场中的重要性[5,6,7,8]。
随着电力市场改革的深入和VPP技术的大规模部署，单个VPP的固有局限性日益突出。一方面，缺乏灵活性，难以完全适应电力系统的多样化监管要求[9]；另一方面，单一实体的优化和决策模型已无法应对VPP多样化的投资者构成和差异化收入目标所带来的实际挑战[10]。在多个VPP之间形成合作联盟已成为克服这些挑战的有效策略。这样的联盟不仅能够实现多源互补和协调，从而提高区域电力系统的经济效率和运营灵活性[11]，还能进一步提高整体能源效率[12]。
VPP内的个别参与者属于不同的利益实体；因此，在完成联合最优调度后，必须分配内部收入。为了解决这个问题，现有研究主要关注基于合作博弈论的收入分配方法。其中，Nash-Harsanyi谈判模型能够从协作谈判的角度描述参与者之间的收入协调。参考文献[13]建立了一个基于Nash-Harsanyi谈判的利润分配模型，考虑了成员的实际贡献水平，而参考文献[14]通过整合边际贡献、收入贡献程度、利润增长率和输出准确性等因素进一步完善了这一框架。
同时，由于Shapley值方法能够反映联盟成员的边际贡献，因此被广泛用于VPP收入分配研究。参考文献[15]提出了一种基于综合校正因子的改进加权Shapley值方法。通过适应性地设置每个实体的信心水平，VPP的整体经济效益提高了7.59%，总经济效益提高了39.1%。参考文献[16]构建了一个平衡经济和环境效益的双因素收入分配模型。虽然这些研究为VPP内部收入分配提供了坚实的理论基础，但它们大多基于参与者信息真实、完整或可验证的理想假设。因此，它们未能充分解决多VPP协作运营场景中普遍存在的信息不对称和战略性报告（投机行为）问题。
虽然传统的合作博弈方法在理想条件下促进了公平的收入分配，但它们严重依赖于参与者诚实的假设。然而，在实际的多VPP互动中，个别参与者的边际利润贡献和实际增长潜力构成了高度敏感的私人信息。这种明显的信息不对称为参与者通过战略性误报获得超额回报提供了机会——这种现象被称为投机行为。这种行为不仅扭曲了游戏内的分配权重，还在联盟内产生了不正当的激励，最终可能导致合作关系的破裂。
为应对信息不对称下的投机行为，研究人员开始探索协作运营和资源共享场景中的防御机制。参考文献[17]提出了一种用于多微电网能源共享中的静态识别方法，以维护联盟稳定性。参考文献[18]为低碳公园的协作运营场景构建了一个在信息不对称下的多代理投机博弈模型。仿真结果表明，该模型将公园的能源成本降低了75.19%。与不考虑投机行为的模型相比，在激进的风险偏好下，投机策略与非投机策略对应的分配结果之间的平均偏差达130%；在随机风险偏好下，偏差为76%。此外，参考文献[19]将投机监督机制整合到共享储能系统中，利用分布式纳什谈判来约束战略性报告。
这些研究表明，设计对抗投机行为的机制已成为提高协作运营公平性的关键方向。然而，仍存在几个关键缺口：首先，现有方法主要集中在单个调度周期或单阶段博弈过程上，未能描述投机行为在长期重复博弈中的累积效应和演变趋势。其次，当前的防御机制通常仅限于孤立的识别或约束阶段，缺乏同时解决隐私保护、动态监控和事后验证的闭环预防和控制框架。因此，迫切需要开发一种针对多VPP协作运营场景的抗投机收入分配方法，以实现分配公平性、动态识别能力和工程可行性。
为了解决当前问题，本文首先分析了多个VPP的合作运营模式，然后建立了防止投机行为的收入分配模型，最后进行了仿真验证和比较分析。考虑到参与者在收入分配过程中的投机行为，采用了基于第三方交易中介的改进纳什谈判博弈均衡算法（TPS-Nash）来分配VPP收入。该系统连续记录每个参与者在多轮收入分配中的报告数据和最终分配结果。通过进行纵向比较分析，识别出他们报告的收入模式与实际分配结果之间的偏差趋势。一旦系统检测到参与者的投机趋势超过预定义的合理阈值，就会触发审核机制，要求参与者提供相关的运营数据进行合理性验证。在尊重信息隐私的同时，该机制通过结合趋势监控和事后验证，建立了针对投机行为的约束系统。因此，它保持了收入分配的长期公平性和动态游戏中联盟合作的稳定性。

2. 多VPP系统的收入模型分析
2.1. 多VPP的协作运营模式
本文研究的多VPP协作运营系统的框架如图1所示。每个VPP通过其能源管理系统实现资源互补。通过促进内部信息交换和能源协调，该系统减少了风能和太阳能的削减，最大化了可再生能源的整合，并减轻了可再生能源输出不确定性的挑战，从而提高了VPP的整体收入[20]。图1显示了多虚拟电厂的系统框架。VPP的内部结构如图2所示。假设多个VPP形成一个稳定的合作联盟，通过能源流增加各自的收入。在调度阶段，主要目标是制定一个最大化VPP集体收入的运营计划，重点关注物理层决策。在这个框架中，参与者保持独立，但被允许进行能源交换和金融交易，所有实体都表现出合作的意愿。日前调度完成后，根据利润贡献程度和利润增长率等因素在参与者之间分配收入。图2显示了单个虚拟电厂的架构图。VPP的协作运营克服了单个VPP在资源禀赋、监管能力和市场竞争力方面的固有局限性。与独立运营模式相比，形成集群或合作联盟使多个VPP能够在更大的时间和空间尺度上实现资源-负载-储能的互补[21]。协作运营相比独立运营，提高了运营灵活性和系统可靠性。因此，促进VPP系统的协作运营不仅是应对高比例可再生能源挑战的技术需求，也是构建安全、高效、清洁和低碳新型电力系统的关键策略。
2.2. VPP的内部收入分配策略
本文认为，VPP内各种分布式能源资源的利润贡献程度和利润增长率是影响收入分配的关键因素。据此，基于改进的Shapley值方法构建了VPP的内部收入分配模型，该模型考虑了这两个因素。
利润贡献程度用于量化每个参与者在合作联盟中的相对重要性。其目的是反映参与者对联盟总收入增长的相对影响强度，从而在收入分配中平衡绝对贡献和相对价值。对于参与者i，利润贡献程度定义为其包含所带来的平均收入增量的比率——涵盖联盟的所有可能子集S——与所有成员的此类增量之和，如方程（1）所示：
(1)
在方程（1）中，ki表示参与者i的利润贡献程度。C(S)代表联盟S的总收入（人民币），C(S-{i})表示去除第i个成员后的联盟S的总收入（人民币）。C({i})表示第i个成员通过独立运营获得的收入（人民币）。N表示VPP内的所有成员集合，定义为N = {1, 2, 3, …, n}。在计算边际贡献时，S ⊆ N\{i}表示从所有成员集合中选出的任何子集，不包括参与者i。变量j用作遍历集合N中每个成员的虚拟变量。
VPP内参与者合作的意愿直接与其能够实现的利润增长率相关。将利润增长率纳入收入分配过程可以有效确保合作联盟的稳定性。这一指标反映了通过合作每个参与者获得的收入增强的幅度；较高的增长率显著增强了成员的参与感、归属感和合作意愿。利润增长率如方程（2）所示，表示参与者i在所有联盟组合中的总收入增量与其独立运营下的总收入之比。
(2)
在方程（2）中，C(S)是联盟子集S的总收入（人民币）；C(S-{i})表示去除第i个成员后的子集S的总收入（人民币）；C({i})表示第i个成员通过独立运营获得的收入（人民币）；τi表示参与者i的利润增长率。
参与者i的影响指数在方程（3）中定义。
(3)
在方程（3）中，η1和η2分别代表两个因素的影响权重，它们的总和等于1。权重η1和η2的分配遵循基于工作分配与激励机制相结合的原则。权重η1代表利润贡献程度，旨在反映每个成员对联盟整体创造价值的绝对贡献，从而确保分配公平性。权重η2体现了利润增长率，旨在通过保证每个成员盈利能力的充分增长来维持合作联盟的稳定性。在具体的案例研究中，这些权重的确定是基于敏感性分析的结果。这确保了影响指数Mi能够准确反映每个实体的综合价值，为后续的闭环管理机制提供科学依据，以防止投机行为。(4) 在方程(4)中，ΔMi是参与者i的改善因子；n表示VPP内的参与者总数；1/n代表在理想化分配原则下每个参与者的收入份额。每个参与者的收入是使用改善因子计算的，如方程(5)所示。(5) 在方程(5)中，C(I)表示VPP内所有参与者的总收入；Ci是参与者i使用经典Shapley价值方法获得的收入，而表示使用改进的Shapley价值分配方法获得的收入。

3. VPP内部收入分配中的投机行为分析
本研究的目的是开发一种能够防止投机行为的收入分配策略，该策略必须满足个体理性、可行性和帕累托最优性的条件。帕累托最优性代表了资源分配的理想状态。在这项研究中，采用了Nash谈判方法进行收入分配。通过考虑谈判过程中参与者可能的投机行为，提出了TPS-Nash算法来确保所有实体之间的稳定合作。

3.1. 投机动机和行为
鉴于VPP内的所有参与者都是相对独立的利益相关者，关键数据（如利润贡献率κi和利润增长率τi）属于私人信息。在现有的隐私保护框架下，这些数据不会被泄露给外部方。
在收入分配阶段，第三方中介机构仅充当数据收集和计算中心。它对所有参与者提交的数据保持无条件的信任，算法的执行完全依赖于输入数据。中介机构没有验证数据真实性的内在功能或权力。在数据报告阶段，参与者既有操作自由度也有动机从事投机行为。参与者i的具体投机过程如图3所示。通过战略性地误报他们自己的利润贡献率κi*和利润增长率τi*（其中星号*表示报告的值），参与者单方面夸大了他们在收入分配中的相对权重，以获取超额回报。

如图3所示，参与者通过战略性地误报来获得超额回报。在多VPP合作运营的谈判框架内，本研究将投机收益贡献定义为参与者通过误报内部私人信息而在分配机制中引起的过度非实质性收入。这种收入源于信息不对称导致的分配扭曲，而非真实的物理资源贡献。为了定量识别，引入了投机因子γi来表征报告偏差。此外，通过计算每日收入偏差Δi(d)和投机趋势斜率ki来对投机收益进行定量评估。这种二维量化方法——结合单日数值和多日投机倾向——将投机行为从概念描述转化为可操作的监控指标，从而确保了监控机制的严谨性。
具体来说，投机行为嵌入基于改进的Shapley价值方法的收入分配计算中。首先，参与者i向第三方中介机构提交虚高的κi*和τi*值。随后，当中介机构根据方程(3)计算影响指数Mi时，直接使用报告的κi*和τi*值会导致Mi的人为放大。进一步地，在通过方程(4)计算改善因子ΔMi时，这种虚高的Mi*会导致ΔMi偏离与参与者实际贡献相对应的合理水平。最终，在基于方程(5)的最终收入分配中，夸大的ΔMi*直接导致分配给参与者i的收入Ci’*超过其基于真实贡献应得的份额Ci’。在整个过程中，误报的程度（即κi*和τi*与其真实值的偏差）直接决定了投机的严重性和超额回报的规模。
由于信息不对称、商业隐私保护与验证可行性之间的矛盾以及固有的机制设计缺陷，投机行为难以检测或消除。κi和τi的真实值是参与者i的私人信息，中介机构和其他参与者都无法直接访问或验证，从而形成了典型的信息孤岛。强制披露或验证此类数据将违反商业隐私原则，并可能阻碍实体参与合作。

3.2. 为防止投机行为而建立的收入分配模型
传统的收入分配模型主要基于参与者之间完全信息共享或绝对诚实的理想化假设。因此，它们难以有效解决现实世界场景中由信息不对称引起的战略误报和投机行为。
本研究采用TPS-Nash算法将一次性静态分配问题转化为基于迭代报告和反馈的动态谈判过程。中介机构的参与保护了每个参与者的私人数据，从而实现公平合理的收入分配。值得注意的是，所提出的模型不依赖于对参与者私人信息的直接验证；相反，它通过长期监控动态趋势和实施约束机制来抑制投机行为。
Nash谈判博弈模型如方程(6)–(8)所示。在方程(6)中，表示参与者i加入合作后获得的净利润，单位为人民币（CNY）。αi表示VPP内其他成员支付给参与者i的补偿金，单位也为人民币（CNY）。N是VPP内的参与者总数。在方程(7)中，表示参与者i的运营成本，而表示使用改进的Shapley价值方法分配给参与者i的收入。在方程(8)中，βij和Peij分别表示VPP内参与者i和j之间交换的能量交易价格和功率流量，单位分别为人民币/兆瓦（CNY/MW）和兆瓦（MW）。具体来说，Peij > 0表示参与者i向参与者j供应能量；Peij < 0表示参与者j向参与者i供应能量；Peij = 0表示参与者i和j之间没有能量交换，表明不存在交易关系。

方程(9)–(13)代表了模型的约束条件。方程(9)确保VPP内每个参与者i的净利润保持正值，这是确保合作稳定性和可持续性的前提。方程(10)和(11)规定了参与者i和j之间能量交换的一致性约束，要求交易价格和能量流量对双方保持一致。方程(12)规定VPP作为一个统一实体，所有内部参与者之间收取或支付的费用总和必须为零，反映了资金流动的内部平衡。最后，方程(13)定义了参与者之间能量交换的上限和允许的能量定价范围。
由于方程(6)被构造成一个乘积最大化问题，其固有的非线性在优化过程中带来了重大挑战；因此，需要进行等效的简化[22]。这种简化的前提是乘积中的每个项都必须为正，这是通过满足所有决策变量的方程(9)来确保的。这个条件保证了对数函数的定义域的有效性。
在这个前提下，由于对数函数是严格单调递增的，方程(6)等同于最大化对数的总和，进一步等同于最小化负的对数和，如方程(14)所示。这种转换不仅保持了原始问题最优解的一致性，还将非线性乘积形式转化为可分离的加法结构，从而显著改善了问题的数学性质。这种转换更有利于使用凸优化理论进行梯度计算和分析。此外，它还有助于应用更高效的标准算法，有效克服了直接处理原始乘积形式时的计算难度。
在方程(14)中，表示参与者i加入合作后获得的净利润，单位为人民币（CNY）；αi表示VPP内其他成员支付给参与者i的服务费，单位也为人民币（CNY）。
需要澄清的是，本研究并没有改变Nash谈判的基本原则，即最大化所有参与者的合作净收入收益的乘积；相反，它提供了其应用场景的针对性扩展。虽然传统的Nash谈判模型通常基于真实收入数据的可用性和相对完整的信息——使用固定的目标函数——但提出的TPD-Nash算法解决了多VPP收入分配中固有的信息不对称和战略误报问题。
具体来说，该算法将来自双因素修改的Shapley值的收入纳入净收入构建中。它还结合了投机因子γi及其动态上限约束，从而扩展了参与者的战略变量集。此外，通过第三方交易中介机构实现了迭代反馈解决方案，使得在无需直接披露私人信息的情况下进行计算成为可能。因此，TPD-Nash算法是对收入定义、战略变量、约束系统和信息交互机制的全面扩展，同时保持了Nash谈判框架的核心目标结构。
由于VPP内个别参与者的隐私保护要求，内部信息（如利润贡献率κi、利润增长率τi和分配的收入）对其他实体来说是不可访问的。因此，参与者可能通过报告虚假数据来获取超额回报。为了解决VPP收入分配中的信息不对称问题，引入了投机因子γi来精确描述参与者的投机行为。投机收入被定义为由参与者i通过战略性误报其私人信息集Ωi = {κi, τi}而获得的超额回报，从而人为操纵分配机制。在这项研究中，这种误报导致的虚假净利润被定义为，如方程(15)和(16)所规定的。

在方程(16)中，表示参与者i加入合作后获得的净利润，单位为人民币（CNY）；γi表示投机因子。当γi = 0时，表示参与者i是诚实的，表明没有投机行为。随着投机因子的增加，参与者投机行为的严重性也随之加剧。
为了防止VPP内参与者之间的合作崩溃，必须对投机行为施加约束，如方程(17)–(19)所规定的。在方程(18)中，表示投机因子的上限。通过使用参与者i的实际收入与其余参与者报告的总收入的比率作为分子，以及个体实际收入的绝对值作为单位标准化基准，建立了一个统一的度量标准来衡量不同规模实体的投机强度。这种方法确定了参与者i在当前谈判环境中的动态投机阈值。这种公式确保了任何单一参与者的投机空间通过合作联盟的集体报告行为得到实时纠正，从而抑制了投机倾向。通过将个体投机上限与其他参与者报告的总体值联系起来，建立了一种相互检查和平衡的逻辑。这迫使每个参与者在追求个人利润最大化的同时，考虑其他参与者报告状态对其自身投机行为的约束，有效地防止了在信息不对称情况下的欺诈性报告的无限制扩展。因此，参与者的利润驱动投机动机成功转变为一个受控制的动态平衡过程。这种机制在确保合作联盟的分配公平性和长期稳定性的同时，保持了个体理性。
在方程(19)中，表示VPP内所有参与者报告的净利润总和。投机因子的上限和最优收入解决方案都会随着每个参与者投机行为的变化而动态演变。为了最大化个人收益，每个参与者倾向于逐步增加其投机因子，前提是这些行动不会损害整体合作。由于投机上限和最优收入结果在其他参与者行为的影响下不断变化，因此需要在所有实体之间达到投机策略的平衡。为了精确识别投机行为，本研究构建了一个基于收入偏差的双层监控框架，该框架从瞬态数值偏差和时间演化特征的角度区分了单日行为和长期趋势。首先，使用每日收入偏差Δi(d)作为基础指标，第一层机制通过预定义的静态绝对阈值Γabs即时捕获突然的恶意投机行为。一旦触发警报，系统会自动启动第二层深度监控，使用方程式(22)和(23)提取参与者的平均偏差Δiavg和投机趋势斜率ki。这一层的核心逻辑在于，由可再生能源引起的随机波动通常在长周期内表现出均值回归特性，其趋势斜率趋近于零。相比之下，系统性投机则表现为偏差的持续积累和演化。因此，如果参与者同时满足方程式(24)和(25)中的标准，则可以排除随机干扰，并识别出该参与者正在进行战略性、长期性的系统性投机。该框架能够区分偶发的违规行为和战略性欺诈行为。

在方程式(20)中，Δi(d)表示参与者i在d日的收入偏差；而Ri(d)表示通过TPS-Nash算法获得的收入，Ractual(d)表示d日的实际收入。在方程式(21)中，Γabs是静态绝对阈值。在方程式(22)中，Δiavg表示参与者i在D天监控期内的平均偏差，D表示监控天的总数，d作为表示天序的独立变量。在方程式(23)中，ki的值是通过OLS拟合得出的投机趋势斜率。系统利用D天的监控周期来分析参与者i的收入偏差∆i(d)随时间的线性演化模式。在这个公式中，(d-davg)表示每个监控节点相对于时间中心的时间偏移，有效消除了时间维度对截距项的影响。ki的物理意义在于它能够量化收入偏差的动态变化率。如果ki > 0，则表明参与者具有持续加剧的系统性投机倾向，而不是由随机波动引起的非规则偏差。通过这种趋势拟合方法，监控机制能够精确识别隐蔽和演变的投机行为，从而增强了诊断标准的统计显著性。

关于设置阈值Γabs和Γtrend的标准，本研究全面考虑了市场环境中的随机波动特性和讨价还价稳定性的边界。具体来说，静态阈值Γabs是根据历史运营数据的3σ统计特性建立的，旨在过滤掉系统运行中固有的常规波动和偏见。趋势阈值Γtrend是通过敏感性分析确定的，以确保在监控周期D内，能够有效区分随机干扰和具有正斜率ki的系统性投机趋势。因此，在保护参与者隐私和确保分配公平性之间达到了最佳平衡。

为了应对信息不对称条件下参与者可能通过虚假报告私人信息而获得过高回报的问题，本研究在传统的Nash讨价还价框架中引入了第三方交易中介。这个中介的角色不是替代市场实体做出收入决策，也没有权力对参与者的收入做出主观裁决；相反，它作为讨价还价过程中的一个可信的数据协调和反馈节点。具体而言，每个参与者只向第三方中介报告与当前分配回合相关的收入信息。中介随后进行汇总、计算、可行性验证和反馈。中介在任何时候都不向其他参与者披露任何单一实体的原始私人数据，从而为多方游戏提供了一个统一的信息交互界面，同时严格保护隐私。因此，本研究中的第三方交易中介本质上充当协调者，而不是具有强制裁决权的仲裁者。它的核心职责包括收集每个参与者的收入声明，计算并反馈系统级别的汇总数据，验证投机因子是否超过预定义的限制，并在双层监控机制检测到异常偏差时触发验证过程。中介不直接决定个别参与者的最优策略；相反，参与者根据自己的利润最大化目标自主更新他们的投机因子并完成讨价还价迭代。

在这种机制下，TPD-Nash算法的运作过程如下：首先，每个参与者根据自身私有信息生成当前回合的声明收入并将其提交给第三方交易中介。其次，中介汇总所有声明的值，形成系统级别的反馈信息，然后反馈给每个参与者。第三，根据反馈结果，在投机因子的上限约束得到满足的条件下，每个参与者更新他们的战略变量。最后，当两个连续回合之间的投机因子变化满足收敛精度要求时，算法终止迭代。这个过程产生的收入分配均衡满足了个体理性、全局可行性和隐私保护的要求。与传统的Nash讨价还价模型相比，本研究的具体改进包括：

(1)讨价还价基础的转变。传统模型通常直接使用合作收入作为讨价还价的基础。相比之下，本研究将来自双因素修改后的Shapley值的收入纳入净收入计算中。这确保了讨价还价的起点不仅反映了合作结果，还综合考虑了利润贡献度和利润增长率。

(2)战略性行为的描述。为了描述战略性虚假报告，本研究在讨价还价过程中引入了投机因子γi，以构建虚构的净收入。因此，原本基于真实收入的静态Nash讨价还价模型被扩展为一个能够描述信息操纵的动态模型。这允许明确分析投机强度对最终收入分配的影响。

(3)动态约束的实施。虽然传统的Nash讨价还价只需要满足个体理性和联盟可行性，但本研究引入了对投机因子的动态上限约束。通过将个体投机能力与联盟的集体报告状态联系起来，这阻止了参与者策略的无限制扩张，从而在信息不对称的情况下抑制了过度虚假报告。

(4)信息交互的创新。传统的Nash讨价还价通常假设信息完全透明或直接数据交换。然而，本研究通过第三方交易中介促进了信息交互。参与者不需要披露原始私人数据；相反，他们根据中介的系统级反馈更新自己的策略，通过迭代机制达到均衡。

总之，本研究中改进的Nash讨价还价不再是一次性的静态解决方案，而是一个在保护隐私的条件下逐渐收敛的动态均衡解决方案过程。为了进一步提高构建的“检测-监控-分析-验证”闭环机制的工程可行性，明确每个阶段的执行实体和操作模式是至关重要的。在实际操作中，上述闭环机制是由第三方交易中介平台和虚拟电厂能源管理系统(EMS)共同实施的。检测和监控阶段由嵌入在中介平台中的数据处理模块自动执行。具体来说，在每轮收入分配完成后，中介根据参与者报告的数据和结果分配结果计算实时收入偏差Δi(d)。通过调用历史数据缓存模块构建连续时间序列，平台能够在线监控单日异常和多日趋势。这个过程代表了一个典型的数据驱动计算任务，可以在传统服务器或云平台上部署，展现出良好的可扩展性。

在分析阶段，嵌入在中介平台中的统计分析模块基于普通最小二乘法(OLS)对收入偏差序列进行拟合。它计算投机趋势斜率ki和平均偏差Δiavg，然后与预定义的阈值Γabs和Γtrend进行比较，以确定投机行为的发生。这个过程不涉及复杂的优化；它仅由线性回归和阈值逻辑组成。其计算复杂度为O(D)，其中D代表监控期的长度。因此，该机制对系统计算资源的消耗最小。验证阶段由中介平台和参与者的本地系统共同完成。当参与者触发投机标准时，中介平台向该参与者发出验证请求，要求其在指定时间内提交关键运营数据的摘要信息或其他支持证据。验证过程基于规则一致性逻辑检查，验证参与者报告的数据与其实际运营约束之间的一致性。在此过程中，中介平台仅进行一致性判断，不直接访问完整的原始数据集。因此，这种方法在严格遵守隐私保护协议的同时满足了验证功能要求。

从运营成本的角度来看，所提出的闭环机制的额外开销主要体现在三个维度：计算复杂性、数据存储规模和通信频率。

计算复杂性：收入偏差Δi(d)的计算涉及简单的代数运算，复杂度为O(N)，其中N表示参与者数量。基于OLS的线性拟合的多日趋势分析的复杂度为O(D)，其中D是监控期的长度。由于在实际的VPP场景中N和D通常规模有限，总体计算负担较轻。它满足了电力市场调度的要求，不会对市场清算或调度周期产生不利影响。

数据存储：系统只需要记录参与者的收入序列和统计指标。与原始电力系统运营数据相比，这些记录具有显著的低维度特性。存储规模大约为O(ND)，表示的数据量远低于现有调度系统的处理能力。

通信开销：所提出的方法没有引入额外类型的数据报告；它仅将偏差计算和结果反馈纳入现有的收入申报过程中。因此，通信负担与传统的集中式收入分配方法处于同一数量级，没有引入显著的带宽压力。

总之，本文提出的闭环机制可以通过基于软件的部署来实现，利用现有的VPP信息平台。由于其明确的执行实体和可控的计算复杂性，该机制在实用电力市场环境中展现了强大的工程可行性。

4. 模型构建与解决方案
4.1. 内部VPP参与者的运营成本分析
本研究调查的VPP内的物理实体包括风力发电厂、光伏(PV)电站、独立储能系统(ESS)和需求负荷。本节为参与电力市场的每个物理实体的日常运营成本建立了数学模型。

PV和风力发电的运营成本
作为可再生能源，PV和风力发电的输出受到天气条件的显著影响，表现出固有的间歇性、波动性和随机性[23]。为了根据输出情景计算运营成本，必须考虑环境因素，如天气；因此，本研究根据安装容量来计算成本。值得注意的是，风能和光伏发电的边际成本效应为零，意味着每单位能源生产的额外成本趋于零。风能和光伏输出的日常成本主要由一次性投资和建设成本以及常规的运营和维护成本组成。这两种能源的运营成本模型是相似的，如方程（26）至（28）[24]中所制定的。 (26) (27) (28) 在方程（26）中，CW表示风电的日运营成本（人民币）；CWyw表示每单位风电容量的运营和维护成本（人民币/兆瓦/年）；CWtz是风电的固定投资成本（人民币/兆瓦）；PWmax表示最大发电功率，即风电场的装机容量（兆瓦）；λ是资本回收因子，用于将初始固定投资成本CWtz分摊到风力涡轮机的经济寿命内的等额年度支付中。在方程（27）中，CPV表示光伏发电的日运营成本（人民币）；CPVyw表示每单位光伏容量的运营和维护成本（人民币/兆瓦/年）；CPVtz是光伏发电的固定投资成本（人民币/兆瓦）；PPVmax表示光伏电站的装机容量（兆瓦）。λ是之前定义的资本回收因子。在方程（28）中，λ是资本回收因子，它由折现率r和风电或光伏设备的经济寿命T（年）决定。

在本研究中，独立式储能系统（ESS）的运营成本是根据其每日充放电功率和能量容量来计算的。该模型考虑了固定投资成本、运营寿命内的折旧成本、运营和维护成本以及从电网购买电力的成本。运营成本模型由方程（29）至（32）制定。 (29) (30) (31) (32) (33) (34) 在方程（29）中，CESS表示独立式ESS的日运营成本（人民币）；CESSfixed是每日摊销的固定投资成本，包括土建工程和系统集成的支出；CESSyw(t)表示时间段t内ESS的运营和维护成本；CESSbuy(t)是指从电网购买电力所产生的充电成本。在方程（30）中，CESSfixed,all是每单位容量的单次固定投资和建设成本（人民币/兆瓦时），S是ESS的额定容量（兆瓦时）。在方程（31）中，CESSyw,P和CESSyw,S分别表示与ESS的额定功率和能量容量相关的单位运营和维护成本（人民币/兆瓦和人民币/兆瓦时）；PESSmax是最大充放电功率（兆瓦）；WESS(t)表示时间段t内的能量吞吐量（充电或放电）（兆瓦时）；TESS是系统的经济寿命（年）。在方程（32）中，PESSbuy(t)表示充电功率（兆瓦）；由于该值代表单位小时的充电功率，也可以用能量（兆瓦时）表示。pE(t)表示日前能源市场的清算价格（人民币/兆瓦时）。在方程（33）中，CESSdeg(t)表示运营寿命内的折旧成本（人民币）；βESS表示与充放电周期相关的单位折旧成本（人民币/兆瓦时）；PESS(t)是时间段t内独立式ESS的充放电功率（兆瓦）。在方程（34）中，Crep表示电池更换成本（人民币）；Nlife表示电池的总循环寿命，通常由制造商提供；DoD是放电深度。

负载成本：负载需求从内部的可再生能源聚合平台（VPP）参与者那里获取能量，例如风电和光伏电站。然而，由于可再生能源发电的固有不确定性，无法保证在所有时间段内都能完全满足负载需求。因此，必须从主电网购买电力以弥补任何发电不足，从而产生电力采购成本，如方程（35）中所述。 (35) 在方程（35）中，PLbuy(t)表示负载购买的电力（兆瓦），代表单位小时的电力采购量；因此，也可以用能量（兆瓦时）表示。pE(t)表示日前能源市场的清算价格（人民币/兆瓦时）。值得注意的是，负载不参与VPP的内部收入分配。由于负载仅与其他内部参与者保持能源交易关系，它通过根据约定的采购价格向相关实体支付费用来履行其义务。

4.2. 模型分析与解决：本研究中提出的防止投机行为的纳什讨价还价博弈被构建为一个最小化凸优化问题，该问题具有唯一的可行解。由于每个参与者都寻求最大化自己的收益，博弈最终会在满足所有实体的边界处达到均衡。在可信第三方中介的前提下，采用交替方向乘子法（ADMM）来解决纳什讨价还价博弈。在解决过程之前，先对方程（14）应用拉格朗日乘子方法。通过引入拉格朗日乘子λij和惩罚因子ρ，构建了增广的拉格朗日函数，如方程（36）所示。 (36) 通过分解上述公式，得到了单个参与者的分布式优化子问题，如方程（37）所示。具体算法步骤如下：首先，定义最大迭代次数、收敛容忍度、惩罚因子、参与者之间能源交换的初始单位交易价格以及初始迭代次数。然后每个参与者解决其各自的分布式优化子问题。接着更新拉格朗日乘子λ，之后进行收敛性检查。根据检查结果，算法继续进行新迭代或终止。第三方中介的运营过程如下：中介收集每个参与者报告的虚构收入数据，并计算所有参与者的总收入。这些汇总数据随后反馈给每个实体。根据收到的反馈，参与者更新他们的投机因子，从而产生新的虚构收入值。这些值再次报告给中介。这个过程不断迭代，直到所有参与者的投机因子稳定（即不再进行更新），此时中介完成其任务。详细的算法工作流程总结在算法1中。

算法1. 基于第三方中介的改进纳什讨价还价博弈均衡算法，用于防止投机行为：
1. 初始化：设置迭代计数器k = 1，初始投机因子γi,1 = 0，收敛容忍度ζ = 0.0001。
2. 迭代执行。
3. 每个参与者向第三方中介报告虚构净利润。
4. 第三方中介计算汇总的报告收入，并将结果反馈给所有参与者。
5. 每个参与者更新他们的投机因子γi,k+1，确保其不超过定义的上限。
6. 每个参与者相应地更新他们的虚构收入。
7. 收敛标准：如果<ζ，则终止迭代并输出最终的结果。
8. 否则，增加迭代计数器k = k + 1并返回步骤3。
9. 循环结束。

在迭代开始时，初始投机因子被设置为γi,1 = 0。这表示在博弈的初始阶段，系统假设所有参与者具有相同的讨价还价地位，从而防止算法因初始参数不对称而陷入局部最优。在迭代过程中，γi的更新受到个体利润驱动和集体约束机制的双重影响，遵循基于信息反馈的动态讨价还价逻辑。在每次迭代中，参与者向第三方交易中介报告他们的虚构净利润。在汇总全球数据后，中介将总收入反馈给所有参与者，为投机因子的更新提供必要的数据支持。由于个体利益的最大化，参与者根据反馈不断调整γi，试图获得更高的收入份额。然而，这种更新过程严格受到方程（18）中定义的动态上限的限制。随着迭代的进行，所有参与者的投机因子逐渐稳定，直到所有成员的变化总和满足预定义的收敛精度ζ。因此，系统通过多方讨价还价自发地收敛到满足个体理性和监管约束的纳什均衡解。

4.3. 基本数据和仿真设置：本节使用来自典型vpp的相关数据对所提出的方法进行仿真分析，并将其与传统的收入分配方法进行比较。vpp配置包括一个200兆瓦的光伏电站、一个300兆瓦的风电场、一个容量为100兆瓦/400兆瓦时的ess以及相应的负载需求。仿真使用matlab r2022a和yalmip优化工具箱（版本20210331）实现，调用cplex求解器进行数值计算。光伏电站的功率输出剖面详细信息见附录a的图a1。光伏输出主要集中在白天，高峰时段在12:00至15:00之间，而在非高峰时段（0:00–6:00和19:00–24:00）输出可以忽略不计。可再生能源（如风电和太阳能）的发电量随天气条件波动，表现出固有的波动性、随机性和预测不确定性。在本节中，使用代表性日子的特定24小时数据进行了确定性仿真；因此，上述不确定性没有在后续分析中明确建模。尽管不确定性没有明确建模，但所提出的两级监控框架在机制设计层面具有处理风电、太阳能和负载不确定性的固有冗余性。具体来说，静态阈值γabs的物理意义不仅限于识别投机行为；它还为可再生能源输出的不确定性引起的随机错误提供了容错区间。通过将常规波动包含在阈值范围内，系统有效地识别并过滤掉了由可再生能源输出和系统操作引起的非故意偏差，确保了监控机制在实际波动环境中的稳健性。

风电场的功率输出剖面详细信息见附录a的图a2。其发电主要集中在夜间，高峰时段在21:00–24:00和0:00–5:00之间，而非高峰时段从9:00持续到17:00。值得注意的是，风电的高峰和非高峰时段与光伏输出有显著的互补性。这种协同效应确保了总可再生能源发电量的相对较低波动性，从而在一定程度上增强了联合供电的稳定性。代表性日子的负载需求剖面见附录a的图a3。分布遵循典型的人类活动模式，高峰需求出现在8:00–11:00和18:00–20:00，对应于工业生产和家庭生活的集中时段。相反，非高峰需求时段发生在0:00–4:00和23:00–24:00，这些时间与典型的休息时间相吻合。从主电网购买和销售电力的分时定价基于2025年山东省电力网的商业和工业电价数据（1月、2月和12月的数据）。定价结构将时间段分为非高峰、高峰、深谷和关键高峰时段。基本电价根据山东省电力网为商业和工业用户规定的标准进行调整：高峰时段收取70%的溢价，非高峰时段收取70%的折扣，关键高峰时段收取100%的溢价，深谷时段收取90%的折扣。具体的分时定价剖面见附录a的图a4。

独立式ess的充放电剖面详细信息见附录a的图a5。当风电和光伏电站的发电量过剩时，ess进行充电，主要集中在1:00–3:00和12:00–14:00。相反，当可再生能源输出不足以满足负载需求时，ess放电以弥补缺口，通常在8:00–12:00和15:00–17:00之间。在正常运行条件下，独立式ess每天执行两次完整的充放电循环。独立式ess的整合有效缓解了风电和太阳能的削减，从而促进了更高效的能源利用。通过使可再生能源电站向系统提供更多能量，ess提高了它们的贡献水平和整体盈利能力。风电场、光伏电站和独立式ess对vpp内负载需求的电力供应情景见附录a的图a6。在0:00–6:00和22:00–24:00期间，vpp内的可再生能源发电量超过负载需求；多余的能源用于为独立式ess充电存储。在7:00–11:00和15:00–16:00期间，仅靠可再生能源的输出不足以满足负载需求。 8. 否则，增加迭代计数器k=k + 1并返回步骤3。 9. 循环结束。在迭代开始时，初始投机因子被设置为γi,1=0。这表示在博弈的初始阶段，系统假设所有参与者具有相同的讨价还价地位，从而防止算法因初始参数不对称而陷入局部最优。在迭代过程中，γi的更新受到个体利润驱动和集体约束机制的双重影响，遵循基于信息反馈的动态讨价还价逻辑。在每次迭代中，参与者向第三方交易中介报告他们的虚构净利润。在汇总全球数据后，中介将总收入反馈给所有参与者，为投机因子的更新提供必要的数据支持。由于个体利益的最大化，参与者根据反馈不断调整γi，试图获得更高的收入份额。然而，这种更新过程严格受到方程（18）中定义的动态上限的限制。随着迭代的进行，所有参与者的投机因子逐渐稳定，直到所有成员的变化总和满足预定义的收敛精度ζ。因此，系统通过多方讨价还价自发地收敛到满足个体理性和监管约束的纳什均衡解。 4.3. 基本数据和仿真设置：本节使用来自典型vpp的相关数据对所提出的方法进行仿真分析，并将其与传统的收入分配方法进行比较。vpp配置包括一个200兆瓦的光伏电站、一个300兆瓦的风电场、一个容量为100兆瓦 400兆瓦时的ess以及相应的负载需求。仿真使用matlab r2022a和yalmip优化工具箱（版本20210331）实现，调用cplex求解器进行数值计算。光伏电站的功率输出剖面详细信息见附录a的图a1。光伏输出主要集中在白天，高峰时段在12:00至15:00之间，而在非高峰时段（0:00–6:00和19:00–24:00）输出可以忽略不计。可再生能源（如风电和太阳能）的发电量随天气条件波动，表现出固有的波动性、随机性和预测不确定性。在本节中，使用代表性日子的特定24小时数据进行了确定性仿真；因此，上述不确定性没有在后续分析中明确建模。尽管不确定性没有明确建模，但所提出的两级监控框架在机制设计层面具有处理风电、太阳能和负载不确定性的固有冗余性。具体来说，静态阈值γabs的物理意义不仅限于识别投机行为；它还为可再生能源输出的不确定性引起的随机错误提供了容错区间。通过将常规波动包含在阈值范围内，系统有效地识别并过滤掉了由可再生能源输出和系统操作引起的非故意偏差，确保了监控机制在实际波动环境中的稳健性。风电场的功率输出剖面详细信息见附录a的图a2。其发电主要集中在夜间，高峰时段在21:00–24:00和0:00–5:00之间，而非高峰时段从9:00持续到17:00。值得注意的是，风电的高峰和非高峰时段与光伏输出有显著的互补性。这种协同效应确保了总可再生能源发电量的相对较低波动性，从而在一定程度上增强了联合供电的稳定性。代表性日子的负载需求剖面见附录a的图a3。分布遵循典型的人类活动模式，高峰需求出现在8:00–11:00和18:00–20:00，对应于工业生产和家庭生活的集中时段。相反，非高峰需求时段发生在0:00–4:00和23:00–24:00，这些时间与典型的休息时间相吻合。从主电网购买和销售电力的分时定价基于2025年山东省电力网的商业和工业电价数据（1月、2月和12月的数据）。定价结构将时间段分为非高峰、高峰、深谷和关键高峰时段。基本电价根据山东省电力网为商业和工业用户规定的标准进行调整：高峰时段收取70%的溢价，非高峰时段收取70%的折扣，关键高峰时段收取100%的溢价，深谷时段收取90%的折扣。具体的分时定价剖面见附录a的图a4。>8. 否则，增加迭代计数器k = k + 1并返回步骤3。
9. 循环结束。

在迭代开始时，初始投机因子被设置为γi,1 = 0。这表示在博弈的初始阶段，系统假设所有参与者具有相同的讨价还价地位，从而防止算法因初始参数不对称而陷入局部最优。在迭代过程中，γi的更新受到个体利润驱动和集体约束机制的双重影响，遵循基于信息反馈的动态讨价还价逻辑。在每次迭代中，参与者向第三方交易中介报告他们的虚构净利润。在汇总全球数据后，中介将总收入反馈给所有参与者，为投机因子的更新提供必要的数据支持。由于个体利益的最大化，参与者根据反馈不断调整γi，试图获得更高的收入份额。然而，这种更新过程严格受到方程（18）中定义的动态上限的限制。随着迭代的进行，所有参与者的投机因子逐渐稳定，直到所有成员的变化总和满足预定义的收敛精度ζ。因此，系统通过多方讨价还价自发地收敛到满足个体理性和监管约束的纳什均衡解。

4.3. 基本数据和仿真设置：本节使用来自典型vpp的相关数据对所提出的方法进行仿真分析，并将其与传统的收入分配方法进行比较。vpp配置包括一个200兆瓦的光伏电站、一个300兆瓦的风电场、一个容量为100兆瓦/400兆瓦时的ess以及相应的负载需求。仿真使用matlab r2022a和yalmip优化工具箱（版本20210331）实现，调用cplex求解器进行数值计算。光伏电站的功率输出剖面详细信息见附录a的图a1。光伏输出主要集中在白天，高峰时段在12:00至15:00之间，而在非高峰时段（0:00–6:00和19:00–24:00）输出可以忽略不计。可再生能源（如风电和太阳能）的发电量随天气条件波动，表现出固有的波动性、随机性和预测不确定性。在本节中，使用代表性日子的特定24小时数据进行了确定性仿真；因此，上述不确定性没有在后续分析中明确建模。尽管不确定性没有明确建模，但所提出的两级监控框架在机制设计层面具有处理风电、太阳能和负载不确定性的固有冗余性。具体来说，静态阈值γabs的物理意义不仅限于识别投机行为；它还为可再生能源输出的不确定性引起的随机错误提供了容错区间。通过将常规波动包含在阈值范围内，系统有效地识别并过滤掉了由可再生能源输出和系统操作引起的非故意偏差，确保了监控机制在实际波动环境中的稳健性。

风电场的功率输出剖面详细信息见附录a的图a2。其发电主要集中在夜间，高峰时段在21:00–24:00和0:00–5:00之间，而非高峰时段从9:00持续到17:00。值得注意的是，风电的高峰和非高峰时段与光伏输出有显著的互补性。这种协同效应确保了总可再生能源发电量的相对较低波动性，从而在一定程度上增强了联合供电的稳定性。代表性日子的负载需求剖面见附录a的图a3。分布遵循典型的人类活动模式，高峰需求出现在8:00–11:00和18:00–20:00，对应于工业生产和家庭生活的集中时段。相反，非高峰需求时段发生在0:00–4:00和23:00–24:00，这些时间与典型的休息时间相吻合。从主电网购买和销售电力的分时定价基于2025年山东省电力网的商业和工业电价数据（1月、2月和12月的数据）。定价结构将时间段分为非高峰、高峰、深谷和关键高峰时段。基本电价根据山东省电力网为商业和工业用户规定的标准进行调整：高峰时段收取70%的溢价，非高峰时段收取70%的折扣，关键高峰时段收取100%的溢价，深谷时段收取90%的折扣。具体的分时定价剖面见附录a的图a4。

独立式ess的充放电剖面详细信息见附录a的图a5。当风电和光伏电站的发电量过剩时，ess进行充电，主要集中在1:00–3:00和12:00–14:00。相反，当可再生能源输出不足以满足负载需求时，ess放电以弥补缺口，通常在8:00–12:00和15:00–17:00之间。在正常运行条件下，独立式ess每天执行两次完整的充放电循环。独立式ess的整合有效缓解了风电和太阳能的削减，从而促进了更高效的能源利用。通过使可再生能源电站向系统提供更多能量，ess提高了它们的贡献水平和整体盈利能力。风电场、光伏电站和独立式ess对vpp内负载需求的电力供应情景见附录a的图a6。在0:00–6:00和22:00–24:00期间，vpp内的可再生能源发电量超过负载需求；多余的能源用于为独立式ess充电存储。在7:00–11:00和15:00–16:00期间，仅靠可再生能源的输出不足以满足负载需求。>在这些情况下，独立的能量存储系统（ESS）放电以弥补供需差距，从而确保在不需要从电网购买外部电力的情况下满足负载需求。最后，在17:00至20:00的时段内，可再生能源和独立ESS的总输出仍然不足以满足负载需求，因此需要直接从主电网购买电力以维持电力平衡。在这项研究中，权重最初被设定为η1 = 0.5和η2 = 0.5，旨在通过平等加权来平衡利润贡献的绝对公平性与利润增长的协作激励。在这种配置下，影响指数Mi对个体边际贡献及其合作意愿波动的敏感性保持一致。这样的设置确保在信息不对称的环境中，没有单一指标能够主导分配结果。因此，它最大限度地减少了参与者通过极端误报特定数据点而获得超额回报的可能性，从而在联盟的初期阶段保护了谈判过程的平衡和稳定性。

4.4. 案例研究和比较分析
为了确保比较实验的严谨性和科学有效性，在案例研究阶段建立了一个统一的基准模拟环境。提出的TPD-Nash算法和基线算法的边界条件和计算参数都是标准化的。具体而言，所有算法都在相同的物理约束条件下执行，包括分布式能源资源的爬坡率限制、独立ESS的充电状态（SoC）连续性限制以及VPP的总体电力平衡标准。这确保每个模型都在严格等效的可行区域内寻找最优解。算法演化的初始状态是统一的，所有参与者的原始功率输出曲线、负载需求特征和初始收入分配矩阵在不同情景中保持不变。此外，关键计算参数也进行了标准化：收敛精度ζ统一设置为10^-4，并且使用相同的时间分辨率和外部经济背景参数进行24小时调度模拟。所有模拟程序都在相同的硬件平台上执行——配置有相同的处理器和内存容量——并调用相同的求解器版本。这种方法消除了软件和硬件变化对算法性能的干扰，从而确保了比较结论的公平性和实验结果的可重复性。

在所有参与者都参与投机行为的情景中，使用TPS-Nash算法对风能、光伏和独立ESS的收入分配迭代过程如图1所示，相应的投机因素演变如图2所示。迭代在第34步收敛。如图4所示，风电场、光伏电站和独立ESS的收入迭代趋势非常相似：所有都在初始阶段迅速下降，随后减速减少并最终稳定下来。这表明，尽管所有实体最初都试图通过激进投机来最大化收益，但TPS-Nash算法有效地引导谈判达成相互满意的收入分配。

为了验证基于所提出的TPS-Nash算法的收入分配策略的可行性，建立了以下比较案例。值得注意的是，VPP内的需求负载不参与投机行为，因此被排除在投机监控和迭代过程之外。

案例1：当风能、光伏和ESS都诚实（无投机行为）时的实际收入。
案例2：当所有三个参与者都参与投机行为时提出的TPS-Nash策略。
案例3：仅光伏电站进行投机，而其他参与者保持诚实时的收入分配。
案例4：仅风电场进行投机，而其他参与者保持诚实时的收入分配。
案例5：仅独立ESS进行投机，而其他参与者保持诚实时的收入分配。
案例6：基于传统的Shapley值方法的收入分配。
案例7：基于Nucleolus方法的收入分配。
案例8：基于Nash–Harsanyi谈判解决方案的收入分配。
案例9：基于考虑多个因素的修正Shapley值的方法的收入分配。
案例10：基于综合贡献程度的收入分配。

所有案例中每个参与者的详细收入结果见附录A的表A1。

如图6所示，案例2的收入分配与案例1最为接近，表明所提出的TPS-Nash算法有效抑制了投机收益。案例3、4和5突显了投机行为对分配结果的不利影响：当单个参与者参与投机行为时，他们的个人收入以诚实参与者的利益为代价增加。这种收入转移的程度与投机的严重程度正相关。这种现象严重损害了收入分配的公平性，可能破坏合作的基础，甚至导致联盟的分裂。当所有成员都进行投机时，游戏必须达到一个寻求相互可接受妥协的均衡解，以维持长期稳定性同时考虑基本公平性。

在案例6中，Shapley值方法根据实际产生的能量来分配收入。在这种机制下，独立ESS获得的收入份额相对较低，因为它不是独立发电，而是通过能量存储和释放参与其中。案例7使用Nucleolus方法，导致三方之间的收入差距最小，反映了其平等主义的特征趋势。然而，这种方法未能反映每个成员的实际边际贡献，也无法识别或阻止投机行为。案例8中，Nash–Harsanyi谈判解决方案倾向于偏爱具有较强谈判能力的参与者。尽管案例9中的修正Shapley值给予ESS更多的认可，但仍无法有效阻止投机行为。最后，案例10基于综合贡献程度进行收入分配，考虑了发电能力和系统调节价值。虽然风能和光伏电站尽管具有随机性但仍产生能量，但ESS提供了重要的削峰服务。案例10的结果与案例7中的Nucleolus方法有些相似，未能完全遵循“按贡献分配”的原则。

以案例1为基准，计算了每个参与者相对于诚实基线的日收入偏差Δi(d)。附录A的表A2详细列出了监测期间Δi(d)的平均值。如图7所示，案例2与案例1之间的平均偏差仅为2.32%，风电场、光伏电站和独立ESS的个别偏差分别为1.04%、2.47%和-3.43%。这表明所提出的TPS-Nash算法与理想诚实情景之间的收入分配结果具有高度一致性。相比之下，其他案例与案例1相比存在显著差异。例如，案例3、4、5、7和10的平均偏差均超过20%，其中案例4的偏差高达32.87%。就个别收入项目而言，差异更加明显：在案例4中，光伏和风电场的收入分别偏差了33.13%和60.22%，而在案例5中，ESS的收入偏差达到了44.60%。这些差异本质上与每个案例中采用的分配方法有关。案例6、7和8中使用的传统方法未能抑制参与者的投机倾向。尽管案例9和10中的改进方法比纯传统方法表现更好，但仍未能实现所有实体之间的全面均衡收入。值得注意的是，案例3、4和5的结果表现出明显的投机激励特征，其中具有更激进投机行为的参与者获得了不公平的优势。这种“更高的投机，更高的收入”现象进一步加剧了收入分配中的结构性偏见。

使用案例1作为基准，计算了每个参与者相对于诚实基线的日收入偏差Δi(d)。附录A的表A2详细列出了监测期间Δi(d)的平均值。如图7所示，案例2与案例1之间的平均偏差仅为2.32%，风电场、光伏电站和独立ESS的个别偏差分别为1.04%、2.47%和-3.43%。这表明所提出的TPS-Nash算法与理想诚实情景之间的收入分配结果具有高度一致性。相比之下，其他案例与案例1相比存在显著差异。例如，案例3、4、5、7和10的平均偏差均超过20%，其中案例4的偏差最高达到32.87%。就个别收入项目而言，差异更加明显：在案例4中，光伏和风电场的收入分别偏差了33.13%和60.22%，而在案例5中，ESS的收入偏差达到了44.60%。这些差异与每个案例中采用的分配方法密切相关。案例6、7和8中使用的传统方法未能抑制参与者的投机倾向。尽管案例9和10中的改进方法比纯传统方法表现更好，但仍未能实现所有实体之间的全面均衡收入。值得注意的是，案例3、4和5的结果表现出明显的投机激励特征，其中具有更激进投机行为的参与者获得了不公平的优势。这种“更高的投机，更高的收入”现象进一步加剧了收入分配中的结构偏见。

基于案例1的比较分析显示，案例2中的收入分配与基线最为接近。相比之下，其他案例在各个维度上存在显著差异。这些结果表明，案例2中提出的机制具有更好的公平性和协调能力，有效抑制了投机倾向，并实现了更加平衡的结果分配。比较分析表明，与传统的Shapley值、Nucleolus和Nash–Harsanyi谈判解决方案等传统方法相比，所提出的收入分配方法有效地反映了不同资源类型的真实贡献。此外，通过抑制投机动机，这种方法确保了分配结果的公平性和复杂协作场景中合作联盟的长期稳定性。

根据统计分析，自然收入偏差的标准差为σ = 1.5%；因此，静态阈值设定为Γabs = 5%（约3.3σ）。在这项研究中，趋势阈值Γtrend设定为2%。这些值的选择是通过在多个模拟场景中的敏感性检查验证的。当参与者处于非投机状态——例如本案例中的光伏电站——由于其随机波动，其平均偏差Δiavg稳定在0.026%。无论这些波动是正还是负，它们都不会触发2%的阈值。

关于投机趋势斜率阈值ɛ = 0.005，其设定主要是为了识别多日投机强度的动态趋势。在监测期间D内，ki = 0.005表示收入偏差的日增长率为0.5%。通过模拟数据证实，诚实参与者的投机趋势斜率接近零，而投机者则表现出显著的单调增长特征。对于每日收入偏差Δi(d)超过5%的参与者，进行了连续五天的监测。本研究选择了从风电场的Δi(d)超过5%那天起的所有VPP参与者的5天收入偏差数据，详见附录A的表A3。相应的趋势如图8所示。监测结果显示，独立ESS的收入偏差Δi(d)在五天期间呈现出单调增长趋势。平均偏差高达10.40%，且趋势斜率为正，表明其投机行为随时间持续增强，显示出日益显著的投机动机。相比之下，光伏电站的Δi(d)在零附近波动，偶尔有正向偏移，导致平均偏差为-0.26%，趋势斜率接近零，表明其行为更接近随机干扰而非明确的系统性投机趋势。与此同时，风电场的Δi(d)波动较大，平均偏差为负，趋势斜率为负。这主要是由于其他参与者的投机行为侵占了其应得的收入份额。因此，其收入始终低于理性基准，且差距随着时间的推移而扩大，使得风电场在当前的分配机制下处于不利位置。每个参与者的平均偏差Δiavg和趋势斜率ki的具体结果总结在表1中。最后，对于任何满足Δiavg > 2%和ki > 0.005标准的参与者，都会触发验证机制。

使用案例1作为基准，计算了每个参与者相对于诚实基线的日收入偏差Δi(d)。附录A的表A2详细列出了监测期间Δi(d)的平均值。如图7所示，案例2与案例1之间的平均偏差仅为2.32%，风电场、光伏电站和独立ESS的个别偏差分别为1.04%、2.47%和-3.43%。这表明所提出的TPS-Nash算法与理想诚实情景之间的收入分配结果具有高度一致性。相比之下，其他案例与案例1相比存在显著差异。例如，案例3、4、5、7和10的平均偏差均超过20%，其中案例4的偏差最高达到32.87%。就个别收入项目而言，差异更加明显：在案例4中，光伏和风电场的收入分别偏差了33.13%和60.22%，而在案例5中，ESS的收入偏差达到了44.60%。这些差异本质上与每个案例中采用的分配方法有关。案例6、7和8中使用的传统方法未能抑制参与者的投机倾向。尽管案例9和10中的改进方法比纯传统方法表现更好，但仍未能实现所有实体之间的全面均衡收入。值得注意的是，案例3、4和5的结果表现出明显的投机激励特征，其中具有更激进投机行为的参与者获得了不公平的优势。这种“更高的投机，更高的收入”现象进一步加剧了收入分配中的结构性偏见。

使用案例1作为基准的比较分析显示，案例2中的收入分配与基线最为接近。相比之下，其他案例在各个维度上存在显著差异。这些结果表明，案例2中提出的机制具有更好的公平性和协调能力，有效抑制了投机倾向，并实现了更平衡的结果分配。比较分析表明，与Shapley值、Nucleolus和Nash–Harsanyi谈判解决方案等传统方法相比，所提出的收入分配方法更有效地反映了不同资源类型的真实贡献。此外，通过抑制投机动机，该方法确保了分配结果的公平性和合作联盟在复杂协作场景中的长期稳定性。

基于统计分析，自然收入偏差的标准差为σ = 1.5%；因此，静态阈值设定为Γabs = 5%（约3.3σ）。在这项研究中，趋势阈值Γtrend设定为2%。这些值的选择是通过在多个模拟场景中的敏感性检查来验证的。当参与者处于非投机状态——例如本案例中的光伏电站——其平均偏差Δiavg由于随机波动稳定在0.026%。无论这些波动是正还是负，它们都不会触发2%的阈值。关于投机趋势斜率阈值ɛ = 0.005，其设定主要是为了识别多日投机强度的动态趋势。在监测期间D内，ki = 0.005表示每日收入偏差的增长率为0.5%。通过模拟数据证实，诚实参与者的投机趋势斜率接近零，而投机者则表现出显著的单调增长特征。

对每日收入偏差Δi(d)超过5%的参与者进行了连续五天的监测。本研究选择了所有VPP参与者从风电场的Δi(d)超过5%那天起的5天收入偏差数据，详见附录A的表A3。相应的趋势如图8所示。监测结果显示，独立ESS的收入偏差Δi(d)在五天期间呈现出单调增长趋势。平均偏差高达10.40%，且趋势斜率为正，表明其投机行为的强度随时间持续增强，反映出日益显著的投机动机。相比之下，光伏电站的Δi(d)在零附近波动，偶尔有正向偏移，导致平均偏差为-0.26%，趋势斜率接近零，表明其行为更接近随机干扰而非明确的系统性投机趋势。与此同时，风电场的Δi(d)波动较大，平均偏差为负，趋势斜率为负。这主要是由于其他参与者的投机行为侵占了其应得的收入份额。因此，其收入始终低于理性基准，且差距随着时间的推移而扩大，使得风电场在当前分配机制下处于不利位置。每个参与者的平均偏差Δiavg和趋势斜率ki的具体结果总结在表1中。最后，对于任何满足Δiavg > 2%和ki > 0.005标准的参与者，都会触发验证机制。从上述案例研究中可以得出以下结论：(1)传统的收入分配方法容易受到投机行为的影响。例如Shapley值、Nucleolus和Nash-Harsanyi讨价还价解决方案在参与者报告虚假数据时无法抑制投机动机。他们的分配结果与理想的非投机状态之间的平均偏差高达18.44%，导致公平性显著下降。(2)投机行为对分配公平性和联盟稳定性都造成了双重破坏。案例3-5表明，当单个参与者进行投机时，他们的收入会以诚实成员为代价显著增加。这种“投机者获利，诚实者受损”的情况从长远来看会削弱合作的基础，最终可能导致联盟的解体。(3)提出的TPS-Nash算法和双层监控机制表现出显著的抗投机效果。即使在风能、光伏和ESS都参与投机的情况下，该算法也能将平均收入偏差保持在诚实基准的2.32%以内。此外，该机制通过持续监控能够识别出系统性的投机趋势，验证了构建的“检测-监控-分析-验证”闭环框架的有效性和实用性。

为了进一步分析TPD-Nash算法的核心内部模块在提高分配公平性和确保信息安全方面的独立贡献，本节进行了消融研究。通过逐步从基准模型中移除特定功能组件，建立了四个对比案例：案例A：本研究中提出的完整TPD-Nash算法；案例B：移除第三方交易中介，采用参与者之间的直接互动讨价还价模式；案例C：移除动态迭代过程，采用基于初始声明数据的一次性Shapley值修改分配；案例D：移除双层监控机制。对于实验数据，选择了十组具有代表性的典型功率输出日进行重复模拟，使用统计平均值作为最终评估指标。以案例A为基准参考，从三个指标（平均收入偏差、隐私泄露风险系数和讨价还价收敛稳定性）进行了对比分析。如图9所示，每个案例的收入偏差都是以案例A为基准进行评估的。完整TPD-Nash模型（案例A）与案例C和D之间存在显著差异。值得注意的是，主要移除第三方中介的案例B对最终收入偏差的影响微乎其微。

隐私泄露风险系数ρprivacy用于量化每位参与者需要披露的原始数据比例，如公式(38)所定义：(38) 分母Ntotal表示维持VPP运行所需的状态变量总数，而分子Nshared表示必须上传和披露的原始变量数量。在案例B中，Ntotal包括各种节点的上限输出和能量存储系统的SoC等敏感原始数据。相比之下，在案例A中，数据仅报告给第三方交易中介，中介严格的维护数据保密性。公众需要披露的唯一信息是所有参与者报告的收入总和。

为了进一步验证监控机制在游戏进化稳定性中的支持作用，图10比较了案例A和案例D下参与者分配收入的迭代轨迹。在包含双层监控框架的案例A中，所有参与者的分配收入展现出平滑的渐近收敛特性。大约21次迭代后达到稳定状态，迭代后期的残差方差满足σ2 < 10^-5。这证明了该机制在引导讨价还价过程中的有效性。相比之下，在没有监控机制的案例D中，无法及时检测到投机行为，也无法监控长期的投机倾向。由于利润最大化的驱使，参与者频繁改变他们的报告策略以探测联盟的利润率，导致收入分配轨迹出现显著波动，方差σ2增加了近三个数量级。在案例D中，尽管每个参与者试图通过虚假报告获得更多收益——使得第一次迭代的初始值高于案例A——但缺乏监控机制导致投机行为泛滥，联盟的总合作收入因此下降。

图11展示了所有案例中多维性能评估指标的对比结果。坐标原点表示性能最低点，沿每个维度轴向外延伸表示性能提升。对比分析显示，案例A形成的包围区域最大，并位于最外层。这表明案例A有效平衡了多个目标，从而获得了最佳的整体结果。移除第三方交易中介后，案例B在隐私泄露风险系数维度上出现了大幅内收。虽然其分配精度与完整模型相当，但由于原始数据的直接暴露，其安全性评估降至最低。

缺乏动态迭代过程的案例C在平均收入偏差维度上表现出显著的性能下降。这反映了静态分配机制对初始策略性虚假报告的脆弱性。在没有双层监控机制的案例D中，沿着讨价还价收敛稳定性轴线观察到了明显的收缩。此外，由于投机行为未被识别，导致平均收入偏差维度也出现了类似收缩。这些维度的性能损失直观地验证了监控机制作为负面反馈约束对于维持VPP内部秩序和抑制分歧振荡的重要性。

消融研究的结果一致表明，第三方交易中介、动态迭代和双层监控构成了TPD-Nash算法的基础功能模块。不同案例之间的性能差异表明，缺少任何单一功能组件都会导致安全性、精度或鲁棒性的显著下降。此外，为了直观评估TPD-Nash算法在大规模VPP场景中的适用性，从计算复杂性、可扩展性和信息需求的角度对典型方法进行了对比分析，如表2所示。表2中，K表示收敛所需的迭代次数，N表示参与VPP收入分配的参与者数量。从表2可以看出，不同收入分配方法在计算复杂性和可扩展性方面存在显著差异。

在计算复杂性方面，传统的Shapley值方法必须遍历所有可能的联盟组合，导致复杂性为O(2N)，随着参与者数量的增加，这会导致组合爆炸。类似地，Nucleolus方法通常需要解决多个线性规划问题，其复杂性也会呈指数级增长。相比之下，本研究中提出的TPD-Nash算法基于分布式迭代解决方案机制。每次迭代主要涉及参与者的本地更新和中介的汇总，复杂性分别为O(1)和O(N)。鉴于算法在K次迭代内收敛，总计算复杂性为O(KN)。前面的案例结果也证实了这一点，算法在有限轮次内收敛；因此，总体复杂性随参与者数量的增加而线性增长。在可扩展性方面，TPD-Nash算法采用分布式结构，以本地决策和汇总反馈为特点。每个参与者仅根据其私人信息和中介的反馈更新其策略，无需了解其他实体的完整信息。这有效地避免了大规模场景中集中式模型固有的维数灾难。此外，该算法仅涉及低维度的通信交互用于收入报告和总量反馈，通信复杂性为O(N)，不会随着系统规模的扩展而显著增加。因此，即使在参与者数量达到数百人或更多时，所提出的方法也能保持稳健的收敛性能和计算效率。

总之，TPD-Nash算法在确保高分配精度的同时，在复杂性和可扩展性方面表现出显著优势，使其非常适合大规模VPP合作运营场景。

本研究构建了一个全面的“检测-监控-分析-验证”框架。这个闭环管理系统涵盖了在严格尊重信息隐私的前提下，对投机行为的识别、量化和约束。具体贡献如下：(1)提出了一种改进的Nash讨价还价均衡算法（TPS-Nash算法），该算法将传统的单次静态分配扩展为多轮动态讨价还价过程。通过迭代报告和反馈机制，参与者被引导自发地收敛到与他们实际贡献相符的收入分配均衡。(2)建立了一个以收入偏差为中心的双层监控机制。通过结合单日偏差警报和长期趋势识别，该机制有效区分了随机波动和系统性投机行为，实现了对投机的精确识别和定量评估。(3)制定了一种包含“检测-监控-分析-验证”的闭环反投机管理机制。在确保隐私保护的同时，该机制通过趋势监控和事后验证限制了策略性虚假报告行为。这显著提升了VPP内收入分配的公平性、合理性和合作稳定性。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部

关于多虚拟电厂中反投机收入分配机制的研究 张梦雪、 周强、 张友超、 季静、 邱一鸣

关于多虚拟电厂中反投机收入分配机制的研究张梦雪、周强、张友超、季静、邱一鸣