基于高斯过程与主动学习的共晶物性驱动发现

时间:2026年3月17日
来源:Crystal Growth & Design

编辑推荐:

本文推荐一项前沿研究:作者提出一种贝叶斯优化框架,结合高斯过程分类与回归,利用活性学习方法指导共晶预测与溶解度优化。该方法从大量文献数据出发,构建分子指纹与物性描述符,通过不确定性采样构建高效训练集。研究表明,仅需约1000对共形剂数据即可训练出高精度分类模型,并在虚拟筛选中快速识别高溶解度共晶。实验验证成功合成了两种新型共晶,其水溶性显著提升,证实了该数据驱动框架在加速药物共晶发现与性质优化方面的巨大潜力。

广告
   X   

本文介绍了一种基于高斯过程与主动学习的共晶物性驱动发现方法。共晶化是一种在不改变药物活性成分分子结构的前提下,通过引入共形剂形成多组分晶体来调节关键物理化学性质(如水溶性)的有效策略。然而,潜在的共形剂空间极为庞大,且传统设计规则多依赖经验,导致筛选过程效率低下且成本高昂。针对这一挑战,本研究提出了一个结合高斯过程分类与回归的贝叶斯优化框架,旨在加速共晶的发现及其溶解度的增强。
方法上,研究团队从文献中收集了6338对二元共形剂数据,构建了包含2D结构信息(如片段指纹和MQN指纹)以及低成本形状和极性描述符的向量指纹,用于共晶预测。核心是建立一个高斯过程分类器,该模型通过主动学习方法,从平衡数据集中通过不确定性采样选择约1000对共形剂作为训练集。具体而言,模型从少量随机样本开始训练,然后迭代地选择预测概率最接近0.5(即最不确定)的数据点加入训练集,并重新训练模型,直至达到预设的采样数量。这一过程形成了一个活性学习循环,使模型能够集中在特征空间的决策边界附近采样,从而用较小的数据集实现较强的性能。
研究结果显示,以此方式构建的模型在包含超过5000对未见过的共形剂对的测试集上,取得了高达94%的分类准确率和0.79的马修斯相关系数,显著优于随机采样构建的训练集模型。在物性优化方面,研究将共形剂选择问题构建为贝叶斯优化问题,将目标设定为同时最大化共晶形成概率和溶解度。他们使用Fastsolv模型预测的溶解度对数作为目标函数值,并为非共晶配对设定了一个惩罚值(log S(x) = -5),从而将多目标问题转化为单目标标量优化。模型初始化时,通过Tanimoto相似度从历史数据中选取与目标搜索空间相似的共形剂对作为起点。
为了评估框架的有效性,研究模拟了三种典型的应用场景:针对单一API寻找最合适共形剂;从一组相关API中筛选出最佳组合;以及从庞大的候选库中发现高水溶性共晶。模拟结果表明,该框架能够高效地识别可形成共晶且溶解度高的配对。特别是在第二种和第三种场景下,使用UCB采集函数并结合了附加物性描述符的MQNTF或FTF分子指纹表现最佳,通常在10-20次迭代评估后就能找到排名前5的高溶解度候选物。
最后,研究通过实验对框架进行了前瞻性验证。他们选取了12种药物或类药物化合物,将模型推荐的配对进行实验合成与表征。在模型推荐的五组配对中,成功合成了两种新型共晶:白藜芦醇+吡喹酮以及嘌呤-6-胺+噻唑-4-羧酸。通过粉末X射线衍射、差示扫描量热法和热重分析证实了其新晶相的形成,并通过高效液相色谱法测定了其水溶性。结果表明,白藜芦醇在共晶中的溶解度达到0.198 mg/mL,约为其纯品溶解度的4倍;嘌呤-6-胺的溶解度也从1.09 mg/mL提升至2.193 mg/mL。尽管后续三次实验未成功获得新共晶,但框架在有限尝试下成功发现两种具有显著溶解度提升的新型共晶,证明了其在实际共晶发现活动中的实用性。
综上所述,这项工作开发并验证了一个强大的、数据高效的贝叶斯优化框架。它通过结合主动学习策略的高斯过程模型,有效利用有限的实验数据,快速导航广阔的化学空间,不仅能够准确预测共晶的形成,还能有目的地优化目标性质(如水溶性)。该研究为药物共晶的理性设计与高通量筛选提供了一条切实可行的新路径。

生物通微信公众号
微信
新浪微博


生物通 版权所有