综述：基于注意力增强强化学习的动态投资组合优化

时间：2026年1月19日

来源：Intelligent Systems with Applications

编辑推荐：

本文提出了一种结合狄利克雷策略（Dirichlet policy）与横截面注意力机制（cross-sectional attention）的深度强化学习（RL）框架，用于动态投资组合优化。该框架通过狄利克雷分布天然满足预算和非负约束，并利用注意力机制自适应地捕捉资产间的协同运动（sectoral co-movements）和因子溢出效应（factor spillovers）。在标准普尔500指数（S&P 500）2000-2025年数据上的严格回测表明，该方法在终端财富（terminal wealth）、夏普比率（Sharpe ratio）和索提诺比率（Sortino ratio）上均优于等权重基准和传统RL方法，同时保持了合理的换手率（turnover）和回撤（drawdown）水平，为将强化学习应用于具有经济约束的序列决策问题提供了新的思路。

引言

设计稳健的投资组合配置策略是金融经济学的核心问题。从马科维茨（Markowitz, 1952）的均值-方差优化到默顿（Merton, 1971）的跨期扩展，经典框架在严格的分布和平稳性假设下进行风险-收益权衡，且通常忽略交易成本等摩擦。强化学习（RL）将投资组合选择问题建模为马尔可夫决策过程（MDP），能够直接优化长期性能并适应不断变化的市场条件。然而，现有研究常依赖于临时性的动作参数化（如通过softmax映射并投影到单纯形上），或评估环境受限。

本文重新审视了投资组合RL问题，重点关注原则性的动作参数化和严谨的经济评估。我们提出了一个平坦的狄利克雷策略，直接在单纯形上参数化投资组合权重的分布。这种设计通过构造来强制执行预算和非负约束，自然地处理可交易性掩码，并为策略梯度中的探索提供一致的几何结构。

方法与策略架构

该框架的核心是一个随机策略，它将观察到的市场状态映射到单纯形上的投资组合权重分布。架构包含三个模块：

1.
每资产时序编码器：将一个窗口（W × F）转换为嵌入向量，使用共享的时序Transformer独立处理每个资产的时间序列特征，并添加正弦位置编码。
2.
横截面混合器：为了捕捉资产间的协同运动和相对强弱，在日期t的资产嵌入上应用一个跨令牌的Transformer编码器。预先添加一个可学习的全局令牌，并通过自注意力机制在资产令牌之间进行信息交互，同时掩码不可交易的资产令牌。最终输出全局摘要和资产级表示。
3.
单一狄利克雷动作头：从全局摘要和资产摘要中生成现金和每个资产的逻辑值，然后通过softplus函数映射为正的浓度参数，并加上一个小常数ε以保证稳定性。动作是从该狄利克雷分布中采样（或在评估时使用其均值）得到的，随后应用可交易性掩码并重新归一化，确保最终的投资组合权重满足约束条件。

该策略的价值头从全局摘要中计算状态价值。训练采用近端策略优化（PPO），使用广义优势估计（GAE-λ）计算优势函数，并结合策略比率裁剪和KL散度惩罚来稳定训练。

经济模型与环境

问题被表述为一个有限范围的MDP。状态s_t包含过去W天的特征张量、可交易性掩码和市场级协变量。动作a_t对应于投资组合权重向量w_t∈ Δ^N+1。奖励函数R_t将RL目标与经典的均值-方差权衡联系起来，包含投资组合对数增长、基于换手率的交易成本惩罚和基于滚动协方差矩阵的二次风险惩罚（w_t^⊤Σ_tw_t）。

数据与评估

实证研究使用标准普尔500指数成分股2000年至2025年的日度数据。特征包括价格、成交量以及移动平均线、RSI、MACD等技术指标。数据经过清理和标准化。评估采用严格的净化式前向滚动（purged walk-forward）协议，训练集为2000-2016年，验证集为2017-2019年，测试集为2020-2025年，并设置了净化期和禁运期以防止前瞻性偏差。交易成本设定为每美元换手5个基点（bps）。

结果与分析

在测试集上的评估结果表明，基于注意力增强的狄利克雷策略（PPO）实现了2.1148的终端财富，年化复合增长率（CAGR）为14.62%，夏普比率为0.73，索提诺比率为1.03。其表现优于优势演员-评论员算法（A2C）、REINFORCE算法以及等权重买入持有策略。微调实验进一步表明，PPO对该框架的超参数设置最为敏感，通过适当的调优可以获得进一步的性能提升。

注意力机制提供了模型决策的可解释性视角。横截面注意力系数反映了在形成投资组合表示时，模型如何在不同资产间分配信息焦点。在横截面离散度较高的时期，注意力集中在那些能解释更大比例同期变异的资产或行业上；而当离散度较低或相关性较高时，注意力权重变得更加均匀。

结论

本研究提出了一个结合狄利克雷策略和横截面注意力的深度强化学习框架，用于动态投资组合优化。该设计在单纯形上强制执行可行性，纳入交易约束和成本，并将学习目标与经典的均值-方差权衡联系起来。注意力机制使得模型能够自适应地加权行业协同运动和相对价值信号，从而改善了从高维股票数据中提取信息的能力。

实证结果表明，该方法在长期财富和风险调整后收益上均优于基准，其收益主要来源于系统性的横截面再配置，而非市场择时。尽管该框架提高了效率和可解释性，但所有策略在系统性冲击下仍会经历显著回撤，这表明预测性架构本身并不能解决股权风险-收益的权衡问题。未来的工作可以纳入明确的风险敏感目标、更丰富的宏观经济状态信息，并探索将强化学习与计量经济学模型相结合的混合方法。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部