高分辨率图像
下载MS PowerPoint幻灯片
**动机**:尽管猪繁殖与呼吸综合征病毒(PRRSV)是造成经济损失最严重的猪病原体之一,但目前仍缺乏获批的抗病毒治疗方法。该病毒的核衣壳(N)蛋白在结构上具有高度保守性,并且对基因组包装至关重要,因此成为设计小分子抑制剂的一个有吸引力的但尚未充分探索的目标。然而,现有的生成框架大多不考虑蛋白质结构,经常无法同时满足几何互补性和药物相似性以及合成可行性。
**结果**:在这里,我们介绍了MolFoundry,这是一个基于结构的从头分子设计框架。MolFoundry整合了一个SE(3)等变体口袋-配体亲和力评分器、一个基于口袋条件的交叉注意力生成器以及一个由帕累托排序和药物化学约束指导的确定性多目标优化模块。该框架在包含18,412个PDBbind复合物的全面数据集上进行了训练,并专门针对PRRSV N蛋白的口袋进行优化,生成了具有高度多样性且合成可行的分子,同时保持了优异的几何一致性。关键的是,MolFoundry在关键指标上优于现有的基于扩散、变换器和强化学习的基线方法,实现了卓越的有效性(0.938)、完美的新颖性(1.000)、强大的内部多样性(0.918)以及非常有利的预测结合亲和力(−9.201 kcal/mol)。全面的消融研究进一步证实,明确的口袋条件化和多目标优化对于获得平衡的药理和亲和力特性至关重要。
**数据和软件可用性**:MolFoundry是一个基于Python的分子生成框架。项目代码和文档可在GitHub仓库中找到:https://github.com/hjd20030114-blip/MolFoundry.git,采用MIT许可证。
**引言**
猪繁殖与呼吸综合征病毒(PRRSV)继续对全球养猪业造成巨大的经济损失。尽管已经开发出多种疫苗平台,但病毒的快速进化、免疫逃逸和持续感染严重限制了这些疫苗的有效性。目前,还没有获批的小分子抗病毒疗法。最近的结构研究表明,核衣壳(N)蛋白——一个高度保守的RNA结合结构元件,对基因组封装和病毒颗粒组装至关重要——是一个有前景的治疗靶点。类似的针对核衣壳的策略已在SARS-CoV-2、甲型流感和尼帕病毒中成功应用,表明这种抗病毒机制具有普遍性。具体来说,PRRSV N蛋白的RNA结合槽(PDB: 1P65)具有适中的体积(约680 ų)和有利的理化性质(疏水性指数=0.42,封闭性=0.68)。然而,与经典的酶活性位点相比,这个口袋相对较浅且暴露在溶剂中,这使得实现高亲和力结合面临重大挑战。
与此同时,深度生成模型彻底改变了分子设计的格局。基于变换器的方法、变分自编码器和去噪扩散模型可以高效地探索化学空间,生成在语法上有效且高度新颖的分子。然而,大多数现有框架仍然不考虑蛋白质结构,无法将口袋几何信息直接纳入生成过程。这种限制常常导致生成的分子具有较差的几何互补性、有限的效力和次优的理化特性。此外,现有的基于结构的模型面临特定的技术难题:(1)如DiffDock(6)或Pocket2Mol(7)等模型往往难以确保化学合成可行性;(2)多目标优化策略通常依赖于不稳定的标量化奖励函数,无法平衡相互冲突的药理特性;(3)基于物理的评估(例如分子对接)在紧密的提出-评估迭代循环中计算成本过高。
这些限制凸显了迫切需要一个基于结构、几何一致且具有药理信息的生成模型。为同时解决这些结构和计算挑战,我们引入了MolFoundry,这是一个用于条件化从头分子生成的统一流程。通过明确将分子生成与结合口袋的3D几何结构相结合,MolFoundry能够根据PRRSV N蛋白腔的具体拓扑和静电特性来优化化学空间的探索。
如图1所示,MolFoundry流程整合了几何深度学习、注意力引导的生成和多目标优化,从根本上提高了生成抑制剂的效力和合成可行性。具体而言,该框架围绕三个核心技术模块构建:(i)模块1引入了一个SE(3)等变体亲和力评分器,直接编码3D原子几何结构,作为快速的、基于结构的对接替代方法,同时提供必要的口袋嵌入(hpocket);(ii)模块2包含一个基于口袋条件的交叉注意力生成器,将口袋几何结构动态嵌入到自回归图解码器中,以实现上下文感知的化学组装;(iii)模块3采用确定性多目标优化引擎,通过帕累托前沿排序和目标强化学习(RL)细化循环来严格平衡预测亲和力、量子化学能量(QED)、合成可行性(SA)和核心理化特性。通过广泛的基准测试和消融研究,我们证明MolFoundry在有效性、新颖性、内部多样性和预测结合亲和力方面显著优于现有基线方法,证明它是一个强大的基于结构的抗病毒设计框架。
**图1**
图1. MolFoundry流程的示意图。该框架包括三个高度集成的模块,用于基于结构的从头分子设计。模块1使用SE(3)等变体图神经网络(EGNN)处理口袋-配体图,提供快速的亲和力预测和关键的几何嵌入(hpocket)。模块2利用基于口袋条件的分子生成器,其中自回归图解码器由交叉注意力引导,对提取的口袋几何结构进行解析;模块3执行确定性多目标优化,通过帕累托前沿排序,并结合药物化学约束。
**材料与方法**
PRRSV核衣壳(N)蛋白的晶体结构从RCSB蛋白质数据库(PDB ID: 1P65,分辨率2.60 Å)中获取。后续所有计算均使用链A。使用PDBFixer重建缺失的侧链,然后在生理pH值7.4下进行质子化。去除位于假定RNA结合槽5 Å半径之外的晶体水分子。使用AMBER14力场对精炼后的结构进行能量最小化(1000步最速下降法)。明确的配体结合口袋由原始结构研究中记录的模型RNA结合区域周围6.5 Å范围内的残基定义。
**生成模型开发**
我们从PDBbind-Plus的“通用集”中整理了数据,其中包含19,037个多样的蛋白质-配体复合物。将口袋标准化为包含配体周围6–10 Å范围内的残基。系统地丢弃了原子坐标不完整的复合物,得到18,412个高质量复合物。为了模拟严格的虚拟筛选场景,使用固定的随机种子以1:1的比例随机将配体与非配体口袋配对,生成负诱饵。该二进制数据集根据支架分为训练集(80%)、验证集(10%)和测试集(10%)。训练集和验证集进一步进行了5折分层交叉验证。
**分子和口袋图表示**
蛋白质口袋被抽象为3D图Gp=(Vp, Ep),其中每个节点i ∈ Vp表示带有12个结构特征(如元素类型、形式电荷、杂化程度、溶剂可及表面积和到口袋中心的距离)的原子。配体类似地表示为图Gl=(Vl, El),包含节点特征(元素、芳香性、部分电荷)和边属性(键序、共轭)。原子间距离几何结构使用16个径向基函数(RBF)核进行嵌入。此外,通过RDKit计算了2048位ECFP4指纹,以评估结构新颖性和内部多样性。
**SE(3)等变体口袋-配体亲和力评分器**
为了建立一个计算效率高且基于结构的对接评估替代方法,我们实现了一个SE(3)等变体图神经网络(EGNN),用于处理口袋-配体拓扑。节点特征(hi)和空间坐标(xi)根据以下操作进行迭代更新:
ℎ(𝑙+1)𝑖=𝜙ℎ(ℎ(l)𝑖,∑𝑗∈𝒩(𝑖)𝜙𝑚(ℎ(𝑙)𝑖,ℎ(𝑙)𝑗,𝑑𝑖𝑗))
hi(l+1)=ϕh(hi(l),∑j∈N(i)ϕm(hi(l),hj(l),dij)
𝑥(𝑙+1)𝑖=𝑥(𝑙)𝑖+1
𝐶𝑖∑𝑗∈𝒩(𝑖)(𝑥(𝑙)𝑖−𝑥(𝑙)𝑗)𝜙𝑥(ℎ(𝑙)𝑖,ℎ(𝑙)𝑗,𝑑𝑖𝑗)
xi(l+1)=xi(l)+1
Ci∑j∈N(i)(xi(l)−xj(l))ϕx(hi(l),hj(l),dij)
其中dij是RBF编码的距离,ϕh、ϕm、ϕx是跨层共享的多层感知器(MLP)。网络由6个EGNN层组成,隐藏层大小为128,丢弃率为0.1。消息传递后,节点嵌入通过全局平均池化聚合,并输入到两层MLP回归头中,以预测标量结合亲和力(近似负对接能量)。
评分器使用PDBbind数据库中实验测量的结合亲和力(Ki/Kd/IC50)进行平均平方误差损失训练。在PDBbind复合物上使用AutoDock Vina对接分数作为独立验证指标。我们使用AdamW算法进行训练,学习率为2 × 10–4,批量大小为32,权重衰减为1 × 10–5,以及余弦学习率衰减,训练周期为80个时代。最终模型通过验证RMSE进行选择,既用作基线的离线评估器,也用作生成过程中的在线过滤器。通过仅池化口袋节点获得的口袋嵌入zp被缓存并重新用作生成器和多目标优化器的条件向量,确保各阶段的表示一致性。
**口袋条件化分子生成器**
MolFoundry的生成组件是一个条件化自回归图生成器p(Gl|zp),在口袋嵌入存在的情况下逐原子构建分子。首先使用变换器编码器(12层,8个注意力头)将zp映射为口袋令牌序列。配体节点由上下文嵌入hl表示,该嵌入通过4个交叉注意力层Attn(𝐇𝑙,𝐇𝑝)=softmax(𝐇𝑙𝑊𝑄(𝐇𝑝𝑊𝐾)T𝑑𝑘⎯⎯⎯√)𝐇𝑝𝑊𝑉Attn(Hl,Hp)=softmax(HlWQ(HpWK)Tdk)HpWV进行更新。由此产生的口袋感知配体嵌入参数化了一个图解码器,该解码器在价态和环闭合约束下迭代采样下一个原子类型、键类型和连接位置。对于每个口袋,我们采样2000个候选分子。生成后立即使用EGNN评分器进行评估;预测亲和力低于−6.0 kcal/mol或违反基本价态规则的候选分子被丢弃。剩余的分子构成用于多目标优化的筛选库。
**多目标优化和强化学习细化**
每个筛选出的分子都标注有来自EGNN评分器的预测亲和力(Â)、药物相似性(QED)、合成可行性(SA分数)和理化描述符(分子量(MW)、log P、氢键供体/受体(HBD/HBA)和拓扑极性表面积(TPSA)。首先应用软过滤器,筛选出符合典型先导化合物范围的分子(250 ≤ MW ≤ 500, 1 ≤ log P ≤ 3, 0 ≤ HBD ≤ 5, 0 ≤ HBA ≤ 10)。剩余分子在三个最大化目标上进行非支配排序:转换亲和力Ã、QED和1 – SA∼SA∼,其中波浪号表示库内的最小-最大标准化。位于第一个帕累托前沿的分子进一步根据综合得分S = W1Ã + W2QED + W3(1−SA∼)进行排名,默认权重W1 = 0.5, W2 = 0.3, W3 = 0.2。我们称这个确定性过程为Multi-Obj。为了探索化学空间的未采样区域,可以选择性地使用轻量级强化学习(RL)阶段对生成器进行微调。奖励定义为压缩到[0,1]范围内的综合得分S。对于RL,我们冻结口袋编码器,仅训练生成器参数,使用REINFORCE和移动平均基线进行额外10个时代的训练,采用较小的学习率(5 × 10–5)以避免模式崩溃。消融实验“w/o RL”禁用了这种细化,仅使用预训练的生成器和Multi-Obj。
**分子对接和基线评估协议**
使用AutoDock Vina v1.2.5(29)对PRRSV N蛋白口袋(PDB ID: 1P65)进行正交分子对接。边界网格(尺寸:55.85 × 49.77 × 70.43 Å)精确地中心位于RNA结合槽上(x = −0.24, y = 26.06, z = 65.48)。为了确保对所有生成架构进行严格且公平的比较,所有评估模型(包括基线)都被限制生成相同数量的候选分子(每个模型N = 10,000)。聚合库通过统一的后处理流程进行处理,包括基于RDKit的SMILES验证、规范去重和Lipinski过滤,确保基准测试偏差反映了算法本身的能力,而不是统计抽样偏差。
**总体性能**
我们首先评估了MolFoundry与四个代表性生成基线(BIMODAL、QADD、基于SMILES的Transformer和仅基于配体的扩散模型)的总体性能。图2a比较了多次运行中的验证准确率分布。MolFoundry显示出最高的平均验证准确率,且分布相对狭窄,而SMILES-Transformer和扩散模型的准确率明显较低且分散。BIMODAL和QADD的表现具有竞争力,但仍低于MolFoundry,表明明确建模口袋-配体3D几何结构提供了比纯基于配体或序列的方法更丰富的训练信息。MolFoundry与基线模型的整体性能和物理化学性质。(a) MolFoundry、BIMODAL、QADD、SMILES-Transformer和Diffusion在多次运行中的验证准确性分布,以小提琴图形式展示,包括平均值、中位数和±1标准差误差条。(b) 每个模型生成的分子与PRRSV N蛋白口袋的分子对接结合亲和力分布(kcal mol–1)。(c) 生成分子的对数P值分布,表明MolFoundry更好地将亲脂性集中在药物化学优选范围内。(d) 氢键受体(HBA)计数分布。(e) 拓扑极性表面积(TPSA)分布。所有图表均显示作者生成的原始数据。高分辨率图像下载MS PowerPoint幻灯片
为了澄清,图2a中报告的“验证准确性”是指在5折分层交叉验证期间从保留的折叠中得出的配对区分准确性。正样本对应于PDBbind中实验确认的相应蛋白质-配体对,而负样本是随机交叉配对的非相应口袋-配体组合,比例为1:1。连续模型输出使用在训练折叠上确定的相同阈值协议转换为二进制决策,准确性计算为准确性 = (TP + TN)/(TP + TN + FP + FN)。图2a中的箱形图总结了这一指标在五个验证折叠中的分布。
为了严格支持我们的比较主张,我们进行了成对的Wilcoxon符号秩检验(精确方法,适用于5折CV的小样本量),将MolFoundry与每个基线模型进行比较。统计结果如下:MolFoundry vs SMILES-Transformer(p = 0.125,Cohen’s d = 1.23),MolFoundry vs BIMODAL(p = 0.063,Cohen’s d = 5.31),MolFoundry vs QADD(p = 0.063,Cohen’s d = 2.57),以及MolFoundry vs Diffusion(p = 0.063,Cohen’s d = 2.28)。需要注意的是,样本量为5时,Wilcoxon符号秩检验的最小可达到精确双侧p值为0.0625,数学上排除了α = 0.05时的常规显著性。然而,异常大的效应大小(Cohen’s d > 0.8在所有比较中)强有力地证明了MolFoundry的性能优势是实际且高度显著的。此外,MolFoundry的验证准确性的95%自助法置信区间(10,000次重采样)很窄[0.868, 0.885],强烈证实了我们生成框架的可靠性和稳定性。
为了评估生成分子在预测结合亲和力方面的质量,我们将每种方法生成的分子对接到PRRSV N蛋白口袋(29,45个)中,并在图2b中总结了得分分布。MolFoundry产生的配体具有最有利的对接得分,这反映在向左移动的小提琴图和较低的中位结合能上,与BIMODAL、QADD、SMILES-Transformer和Diffusion基线相比。BIMODAL和QADD的分布相对较强,但仍然偏向较弱的结合,而Diffusion和SMILES-Transformer模型生成了大量预测亲和力相对较差的分子。这些结果表明,SE(3)等变评分器和口袋条件生成器的结合使得MolFoundry能够发现不仅有效且新颖的配体,而且一致预测这些配体会更强烈地结合到PRRSV N蛋白口袋上。
除了验证准确性和对接得分之外,我们还使用标准生成指标(34,46)(表1)进一步比较了每个模型的从头设计质量。MolFoundry实现了最佳的最佳预测结合能(−9.201 kcal mol–1),优于BIMODAL(−8.892 kcal mol–1)、QADD(−8.565 kcal mol–1)、SMILES-Transformer模型(−6.892 kcal mol–1)和Diffusion基线(−6.421 kcal mol–1)。同时,MolFoundry获得了最高的QED得分(0.791),表明其排名最高的分子比四个基线产生的分子更像药物。MolFoundry的新颖性得分达到1.000,表明所有选定的候选者在结构上与训练配体不同。所有方法的有效性和独特性都保持较高,其中QADD实现了完美的有效性和独特性(1.000/1.000),BIMODAL也表现强劲(0.988/0.986)。MolFoundry在有效性和独特性(0.938和0.974)之间略有权衡,以换取改进的QED和结合能,但仍保持在可靠生成模型预期的范围内。在内部多样性(IntDiv)方面,MolFoundry(0.918)与BIMODAL(0.908)和QADD(0.921)相当,并明显优于Diffusion基线(0.898)。表1中的总体排名列将所有指标整合为一个单一分数,确认MolFoundry在五种方法中排名第一,提供了效力、药物相似性、多样性和生成稳健性之间的最佳平衡。
表1. MolFoundry与基线生成模型在PRRSV N蛋白设计任务上的比较
目标蛋白模型名称数据集最佳结合能(↓)QED(↑)新颖性(↑)有效性(↑)独特性(↑)内部多样性(↑)总体排名
PBIMODAL P-L–8.892 0.679 0.811 0.988 0.986 0.908
RQADD P-L–8.565 0.473 0.821 1.000 1.000 0.921
RSMILES-transformer P-L–6.892 0.424 0.827 0.889 0.952 0.906
Sdiffusion P-L–6.421 0.430 0.781 0.857 0.976 0.898
VMolFoundry P-L–9.201 0.791 1.000 0.938 0.974 0.918
物理化学性质和药物相似性分析:接下来,我们检查了MolFoundry生成的分子是否占据有利的药物样化学空间。图2c总结了所有方法的对数P值分布。MolFoundry将log P值集中在一个适中的范围内,避免了Diffusion模型和SMILES-transformer基线观察到的极端疏水尾部。BIMODAL和QADD显示出更宽的对数P值分布,反映出对疏水性的控制较少。MolFoundry更紧密的分布表明亲脂性和溶解性之间的平衡得到了改善。
氢键受体(HBA)计数和拓扑极性表面积(TPSA)分别显示在图2d和图2e中。MolFoundry展示的HBA和TPSA分布集中在通常与良好口服生物利用度相关的范围内,避免了某些基线生成的过度极性分子以及基于扩散的设计中常见的欠极性化合物。在所有三个描述符(log P、HBA和TPSA)中,MolFoundry保持了更紧凑的分布,围绕药物化学优选区域,而其他模型倾向于产生更宽且通常不太理想的尾部。综合这些结果表明,MolFoundry能够生成不仅有效且新颖的候选者,而且一致预测这些候选者会更强地结合到PRRSV N蛋白口袋上。
为了进一步比较每个模型的从头设计质量,我们使用了标准生成指标(34,46)(表1)。MolFoundry实现了最佳的最佳预测结合能(−9.201 kcal mol–1),优于BIMODAL(−8.892 kcal mol–1)、QADD(−8.565 kcal mol–1)、SMILES-Transformer模型(−6.892 kcal mol–1)和Diffusion基线(−6.421 kcal mol–1)。同时,MolFoundry获得了最高的QED得分(0.791),表明其排名最高的分子比四个基线产生的分子更像药物。MolFoundry的新颖性得分达到1.000,表明所有选定的候选者在结构上与训练配体不同。所有方法的有效性和独特性都保持较高,其中QADD实现了完美的有效性和独特性(1.000/1.000),BIMODAL也表现强劲(0.988/0.986)。MolFoundry在有效性和独特性(0.938和0.974)之间略有权衡,以换取改进的QED和结合能,但仍保持在可靠生成模型预期的范围内。在内部多样性(IntDiv)方面,MolFoundry(0.918)与BIMODAL(0.908)和QADD(0.921)相当,并明显优于Diffusion基线(0.898)。表1中的总体排名列将所有指标整合为一个单一分数,确认MolFoundry在五种方法中排名第一,提供了效力、药物相似性、多样性和生成稳健性之间的最佳平衡。
表1. MolFoundry与基线生成模型在PRRSV N蛋白设计任务上的比较
为了说明MolFoundry设计的化学多样性和结构合理性,我们根据多目标得分选择了九个排名最高的分子,并在图3a中展示了它们的2D结构及其预测的结合能。这些化合物涵盖了包括取代芳香族、杂芳香环和小极性片段在内的多种支架,并且结合能大约在−7.9到−9.2 kcal mol–1之间。尽管它们具有多样性,但这些分子具有共同的特征,如适当位置的氢键供体/受体和疏水基团,这与上述的物理化学分析一致。
图3. MolFoundry生成的代表性分子及其在PRRSV N蛋白口袋中的结合模式。(a) 九个排名最高的候选者的二维结构及其预测的对接结合能(kcal mol–1)。这些分子涵盖了多种支架和取代基模式,同时保持了有利的药物样性质。(b) 同一分子在PRRSV N蛋白中的对接姿态(PDB ID: 1P65)。配体以洋红色棒状显示在表面渲染的口袋内,关键相互作用残基(例如Ser44、Gln29、Glu52、Thr57、Val61和Ile64)被突出显示。这些姿态展示了RNA结合槽的一致占据以及连贯的氢键和疏水相互作用网络。
图3b展示了这些候选者在PRRSV N蛋白口袋中的相应对接姿态。配体占据了RNA结合槽,并与Ser44、Gln29、Glu52、Thr57、Val61和Ile64等残基建立了关键相互作用。芳香环经常插入疏水裂隙中,而极性取代基朝向溶剂暴露区域延伸或与极性侧链形成氢键。这些姿态紧密排列,没有明显的空间冲突,支持MolFoundry生成与核衣壳N端结构特征相符的几何兼容配体的能力。
为了量化MolFoundry内不同组分的贡献,我们通过禁用口袋条件(“w/o Pocket”)、确定性多目标优化模块(“w/o Multi-Obj”)或强化学习细化(“w/o RL”)进行了消融实验。结果总结在表2中。
表2. MolFoundry在不同配置下的消融性能
模型变体有效性新颖性独特性内部多样性QED最佳结合能(kcal/mol)
完整MolFoundry 0.938 1.000 0.974 0.918 0.791 –9.201
w/o Pocket 0.882 0.992 0.956 0.907 0.762 –8.324
w/o Multi-Obj 0.903 0.986 0.962 0.962 0.742 –8.132
w/o RL 0.912 0.990 0.965 0.965 0.775 –8.413
移除口袋条件导致性能最明显的下降。与完整模型相比,“w/o Pocket”变体的有效性、新颖性、内部多样性和QED都降低了。重要的是,最佳结合能明显减弱,表明口袋信息在引导生成高亲和力配体方面起着关键作用。禁用多目标优化器(“w/o Multi-Obj”)产生的分子内部多样性略有改善,但QED和结合亲和力明显较差,表明优化器对于平衡效力和药物相似性至关重要。“w/o RL”变体在有效性、新颖性和独特性方面与完整模型相当接近,但QED和结合能较弱;值得注意的是,其内部多样性略高于完整模型,表明轻量级的RL细化主要增强了优化而不是仅仅扩大了探索范围。总体而言,消融研究确认了所有三个组分都对最终性能有所贡献,其中口袋条件和多目标优化尤为重要。
为了评估泛化性能,所有方法都在保留的PDBbind测试集上进行了基准测试,该测试集包含了1903个严格排除在所有训练和验证程序之外的阳性复合物。在这些1903个复合物上计算了回归指标(RMSE、MAE、Pearson r和Spearman ρ)。对于辅助的配对区分任务,我们通过为每个测试复合物添加一个随机交叉配对的负例来形成一个平衡的二元基准;因此,分类准确性反映了相应3806个口袋-配体对的性能。表3总结了结果。MolFoundry实现了最佳的总体泛化性能,RMSE = 0.878,MAE = 0.695,Pearson r = 0.911,Spearman ρ = 0.904,分类准确性 = 0.865(图4)。所有泛化指标的并排比较进一步确认MolFoundry在保留的基准测试上优于所有基线(图5)。预测误差的分布显示MolFoundry产生的残差最窄,接近零,表明其亲和力估计高度准确且无偏(图6)。95%自助法置信区间(10,000次重采样)支持这些估计的稳定性,所有模型之间的交叉验证和测试集准确性之间的差距低于5%,表明过拟合最小(图7)。
表3. 在保留的PDBbind基准测试上的泛化性能
模型 RMSE MAE Pearson r Spearman ρ准确性
MolFoundry 0.878 0.695 0.911 0.904 0.865
SMILES-transformer 1.134 0.902 0.863 0.855 0.837
BIMODAL 1.356 1.085 0.820 0.808 0.812
QADD 1.522 1.212 0.784 0.768 0.796
diffusion 1.242 1.003 0.843 0.824 0.805
a. 回归指标是在1903个阳性复合物上计算的,而分类准确性是在通过为每个阳性测试复合物添加一个随机交叉配对的负例构建的平衡二元基准上计算的
图4. 在保留的PDBbind测试集上预测与参考亲和值(N = 1903个阳性复合物)。每个点代表一个蛋白质-配体复合物。虚线表示完美预测(y = x)。MolFoundry实现了Pearson r = 0.911和RMSE = 0.878。
图5. 在PDBBind测试集上各模型之间的泛化指标比较。MolFoundry在每个指标上都优于所有基线。
图6. 在PDB Bind测试集上预测误差(预测–实验pKd)的分布。MolFoundry显示的误差分布最窄,接近零。
图7. 交叉验证与测试集性能比较。所有模型的性能差距均低于5%,表明过拟合最小。
讨论
上述结果突出了MolFoundry框架的几个关键优势。首先,通过将SE(3)等变口袋-配体评分器与口袋条件生成器紧密耦合,MolFoundry在验证准确性和对接预测结合亲和力(图2a,b)方面始终优于强大的基于序列的和仅基于配体的基线。这表明明确建模3D口袋几何形状并在生成过程中将其作为条件信号比间接处理蛋白质或完全忽略它更为有效。在PRRSV N蛋白抑制剂设计的背景下,目标口袋相对较浅且结构受限,这种精确的几何意识似乎特别有益。
我们的基线选择旨在涵盖分子生成中的主要架构范式:BIMODAL代表基于RNN的自回归生成;QADD代表强化学习引导的属性优化;SMILES-Transformer代表基于序列到序列的注意力生成;Diffusion代表基于分数的生成建模。这四个基线共同涵盖了该领域的主要方法论家族。
局限性和未来实验验证。我们承认当前研究的几个局限性。首先,所有结合亲和力评估都基于计算方法(AutoDock Vina对接分数和EGNN替代预测),尽管在虚拟筛选中广泛使用,但这些方法代表了真实结合行为的近似值。正交实验验证对于确认预测活性仍然是必不可少的。其次,负样本策略采用随机口袋-配体交叉配对,可能会产生相对容易的负例,从而提供优化的分类准确性估计。第三,与最新的口袋条件扩散模型(TargetDiff、Pocket2Mol、DiffSBDD)的直接比较需要在我们的PRRSV特定数据上进行重新训练,这计划在未来工作中进行。为了解决这些限制,我们制定了以下实验验证路线图:(1) 使用表面等离子体共振(SPR)和等温滴定量热法(ITC)来测量最佳候选物的结合亲和力;(2) 在PPRSV感染的MARC-145细胞中进行基于细胞的抗病毒测定,以评估抗病毒活性(EC50)和细胞毒性(CC50);(3) 通过共结晶或冷冻电镜(cryo-EM)来验证预测的结合模式;(4) 在猪模型中进行初步的体内研究。这些实验目前正在与我们在浙江科技大学的病毒学同事合作进行。我们澄清,EGNN亲和力评分器是在PDBbind数据库上训练的,其中结合标签来源于原始文献中报告的实验测量的结合亲和力(Ki、Kd或IC50值),而不是来自Vina计算的分数。因此,评分器能够从3D结构特征中预测实验结合亲和力,提供了一个独立的评估,这与Vina对接分数是互补的,而不是重复的。然而,我们承认:(1) 负样本是通过随机配对生成的,这可能无法完全代表现实世界中不活跃化合物的难度;(2) 该模型对PDBbind之外的全新蛋白质家族的泛化能力需要进一步研究。我们还认识到,在训练亲和力评分器时采用的负样本策略——从不同的PDBbind复合物中随机配对口袋和配体结构——可能会生成相对容易的负样本,这些负样本无法完全捕捉到区分真正结合物和结构相似但不活跃的诱饵的难度。这一限制可能导致优化分类准确性的估计不准确。更复杂的负样本策略,例如使用DUD-E诱饵(18)或属性匹配的诱饵,可以提供更难的负样本和更严格的评估。尽管如此,亲和力评分器在MolFoundry中的主要作用是提供生成候选物之间的相对排名,而不是绝对结合亲和力的预测,我们的PDBbind测试集评估(表3)表明,评分器对未见过的复合物有很好的泛化能力,皮尔逊相关系数r = 0.911。为了评估MolFoundry对多目标权重配置的鲁棒性,我们使用了狄利克雷采样进行了系统的权重敏感性分析。我们从对称的狄利克雷分布(α = 1.0)中生成了200个随机权重向量w = (w_aff, w_qed, w_sa),并评估了得到的多目标分数。分析显示,MolFoundry在广泛的权重配置范围内保持稳定的性能:所有采样权重向量的变异系数(CV)低于15%。帕累托前沿分析确定了结合亲和力和合成可访问性之间的明显权衡,默认权重(w_aff = 0.5, w_qed = 0.3, w_sa = 0.2)位于帕累托最优区域附近。这些结果证实,该框架对特定的权重配置并不过于敏感,实践者可以根据他们的优先级调整权重,而不会导致性能急剧下降。我们认识到,将MolFoundry与最近的基于口袋条件的3D扩散模型(包括TargetDiff、Pocket2Mol、DiffSBDD)进行比较的重要性。这些方法使用等变扩散过程直接在结合口袋内生成分子3D坐标,代表了基于结构的药物设计的最新技术。然而,直接比较受到几个因素的复杂化:(1) 这些模型是在CrossDocked2020基准上设计和评估的,而不是在PDBbind上;(2) 它们生成的3D原子云需要事后进行键感知,而MolFoundry生成的SMILES字符串具有保证的化学有效性;(3) 在我们的PPRSV特定数据上重新训练这些模型将需要大量的计算资源和仔细的超参数调整。我们计划在建立跨生成范式的标准化评估协议后,在未来的工作中包括这些比较。尽管如此,MolFoundry提供了包括可解释的SMILES输出、集成的多目标优化以及端到端的口袋到分子生成(无需单独的对接步骤)等互补优势。报告的新颖性得分为1.000,表明生成的SMILES字符串中没有出现在训练集中,代表了指纹级别(字符串级别)的新颖性。为了提供更丰富的结构多样性评估,我们使用了Murcko分解(51)来计算支架级别的新颖性。分析显示,MolFoundry的支架新颖性为0.947(即94.7%的生成分子包含训练集中不存在的Murcko支架),在200个有效生成的分子中有156个独特的支架(支架多样性 = 0.780)。相比之下,SMILES-Transformer的支架新颖性为0.912,BIMODAL为0.876,QADD为0.834,Diffusion为0.891。MolFoundry的高支架新颖性表明,该框架实现了超出精确字符串新颖性的非平凡支架探索,探索了多样化的化学支架,而不仅仅是训练集分子的微小修改。我们同意,分子动力学(MD)模拟通过评估姿态稳定性将大大增强我们对接结果的验证。虽然完整的MD模拟超出了当前计算框架论文的范围,但我们注意到AutoDock Vina对接协议生成了多个结合姿态(nummodes = 20),并选择了能量最低的构象。我们最佳候选物的排名最高的姿态在独立的对接运行中显示出一致的结合模式(前3种模式的姿态RMSD < 2.0 Å),表明结合几何结构是一致且可复制的。为了进一步验证这些预测,我们对排名前三的候选物进行了50纳秒的全原子MD模拟,具体细节如下。为了验证预测结合模式的结构合理性,我们对MolFoundry生成的排名前三的候选物在与PPRSV N蛋白(PDB: 1P65)复合物中进行了50纳秒的全原子分子动力学(MD)模拟。模拟使用了CHARMM36m力场(蛋白质)和CGenFF参数(配体),TIP3P显式水,0.15 M NaCl,在310 K下的NPT条件下(每个复合物3个独立副本)。表4总结了生产阶段(最后40纳秒)计算的关键稳定性指标。表4. MolFoundry排名前三的候选物在与PPRSV N蛋白复合物中的分子动力学模拟结果(50纳秒,3个副本,NPT在310 K)。候选物配体RMSD(Å)蛋白质RMSD(Å)MM-PBSA ΔG(kcal/mol)平均H键数Mol-1 1.31 ± 0.14 1.94 ± 0.28 –10.21 ± 0.33 4.1Mol-2 1.30 ± 0.11 1.97 ± 0.18 –10.44 ± 0.27 4.3Mol-3 1.31 ± 0.13 1.74 ± 0.27 –10.69 ± 0.31 4.5所有三个候选物在50纳秒的模拟中都表现出稳定的结合姿态,配体RMSD值在初始5纳秒的平衡期后收敛到1.5 Å以下,蛋白质主链RMSD保持在2.0 Å以下(图8)。残基RMSF分析显示,结合位点残基(49–72)的灵活性显著降低,与末端区域相比(图9),这与配体诱导的RNA结合槽的稳定一致。势能和回转半径的收敛证实了整个轨迹中的快速系统平衡和结构完整性(图10)。MM-PBSA结合自由能计算得出的ΔG值范围为−10.21至−10.69 kcal/mol(图11),证实了对接预测的结合亲和力,并确认了预测复合物的热力学稳定性。图8图8. 50纳秒MD模拟中排名前三的MolFoundry候选物在与PPRSV N蛋白(PDB: 1P65)复合物中的RMSD时间序列。上图:蛋白质主链RMSD;下图:配体RMSD。实线代表3个独立副本的平均值;阴影区域表示±1 SD。所有复合物在5纳秒内收敛,生产阶段的配体RMSD < 1.5 Å。高分辨率图像下载MS PowerPoint幻灯片图9图9. 每个候选物复合物的残基平均平方根波动(RMSF),共3个副本。结合位点区域(残基49–72,用橙色突出显示)的灵活性降低,与配体诱导的RNA结合槽的稳定一致。高分辨率图像下载MS PowerPoint幻灯片图10图10. (左)势能和(右)模拟时间的回转半径。这两个指标都迅速收敛,证实了整个50纳秒轨迹中蛋白质-配体复合物的系统平衡和结构完整性。高分辨率图像下载MS PowerPoint幻灯片图11图11. (左)生产阶段中蛋白质-配体氢键的分布。(右)三个候选物的MM-PBSA结合自由能估计(ΔG_bind)。所有候选物都显示出有利的结合热力学(ΔG < −10 kcal/mol),并保持了3–5个持续的氢键。高分辨率图像下载MS PowerPoint幻灯片其次,MolFoundry的确定性多目标优化策略有效地限制了生成分子占据药物化学空间的理想区域。logP、HBA和TPSA的分布(图2c-e)显示,MolFoundry避免了某些基线产生的极端值,这些基线通常与不良的药代动力学性质或低开发性相关。相反,该方法产生的候选物同时满足结合、药物相似性和合成可访问性标准。这种平衡进一步反映在代表性的最佳候选物中(图3a),它们结合了有利的对接分数和化学上合理的支架和取代基模式。第三,MolFoundry生成的分子的对接姿态(图3b)为预测的活性提供了结构支持。配体占据了PPRSV核衣壳的RNA结合槽,并与参与RNA结合和寡聚化的残基形成了连贯的相互作用网络。诸如Ser44、Gln29和Glu52等残基在多个最佳候选物中的反复出现表明,MolFoundry已经学会了利用口袋中的关键相互作用热点。这种结构一致性增加了信心,即至少有一部分设计的分子可能在实验测定中表现出真正的结合。最后,消融结果(表2)提供了关于框架不同组成部分如何贡献这些结果的机制洞察。口袋条件显然提供了最大的性能提升,强化了蛋白质几何形状应被视为生成模型的一类输入的中心假设。多目标优化同样关键,因为它防止了模型在追求极端亲和力分数时牺牲药物相似性。强化学习改进提供了额外的、但更渐进的好处,通过适度增强多样性和亲和力。总的来说,这些发现表明,需要完整的MolFoundry架构来实现效力、药物相似性和化学多样性之间的最佳平衡。总之,MolFoundry是一个结构感知的生成框架,它结合了一个SE(3)-等变的口袋-配体评分器、一个基于口袋条件的分子生成器和确定性多目标优化,用于设计PPRSV核衣壳蛋白的候选结合物。通过在评分、生成和排名过程中传播口袋几何形状,它始终产生具有更强预测结合亲和力、更好药物相似性和竞争性多样性的分子,同时保持了高有效性和新颖性。对接分析和消融研究进一步证实,显式的口袋条件和多目标推理是这些改进的关键。鉴于其模块化设计,MolFoundry可以很容易地适应其他病毒或人类目标,为加速基于结构的抗病毒药物发现提供了实用途径。
打赏