结合基于机器学习的分子设计与实验验证发现肺癌中EGFR抑制剂

时间：2026年6月17日

来源：Molecular Diversity

编辑推荐：

摘要：表皮生长因子受体（EGFR）靶向治疗中出现的耐药性和脱靶毒性凸显了对新型抑制剂骨架的迫切需求。本研究将人工智能驱动的生成模型与实验验证相结合，以发现新型、选择性的EGFR抑制剂。研究人员利用REINVENT4（一种基于强化学习的生成框架）对经过筛选的活性

摘要：表皮生长因子受体（EGFR）靶向治疗中出现的耐药性和脱靶毒性凸显了对新型抑制剂骨架的迫切需求。本研究将人工智能驱动的生成模型与实验验证相结合，以发现新型、选择性的EGFR抑制剂。研究人员利用REINVENT4（一种基于强化学习的生成框架）对经过筛选的活性EGFR抑制剂数据集进行分阶段、多目标优化。优化过程由一个复合奖励函数指导，该函数整合了对接分数、类药性定量估计（QED）和合成可及性（SAscore）。随后，候选分子通过分子动力学（MD）模拟进行评估，并进行合成以及体外激酶和细胞实验。该生成流程成功收敛于一个有前景的N-(喹啉-5-基)苯磺酰胺骨架。在合成的候选化合物中，Hit1表现出有效的体外EGFR激酶抑制作用（IC₅₀ = 21.22 nM），尽管效力比吉非替尼（Gefitinib）低约19倍。MD模拟分析揭示，与Lys745的氢键相互作用以及对Val726疏水腔的适当占据对于结合至关重要。值得注意的是，Hit1在EGFR突变型非小细胞肺癌（NSCLC）细胞（PC9和HCC827）中表现出强大、靶向性的抗增殖活性，同时对野生型EGFR细胞（A549）显示出强选择性。研究人员的发现验证了靶点感知强化学习方法在从头药物设计中的有效性。所发现的喹啉-磺酰胺衍生物代表了一种极具前景且合成易行的先导化合物，可用于开发下一代突变选择性EGFR抑制剂。

**基于机器学习的分子设计与实验验证整合策略在肺癌EGFR抑制剂发现中的研究解读**

**研究背景与问题**

肺癌是全球癌症相关死亡的主要原因之一，其中非小细胞肺癌（non-small cell lung cancer, NSCLC）约占确诊病例的85%。NSCLC为异质性疾病，其进展常由特定致癌改变驱动，尤其以表皮生长因子受体（epidermal growth factor receptor, EGFR）的激活突变在肺腺癌中最为常见，特别是在东亚和非吸烟人群中。EGFR是一种受体酪氨酸激酶，通过PI3K/AKT和MAPK等下游信号通路调控细胞增殖、存活和分化；外显子19缺失和L858R点突变等突变导致激酶组成性激活，引发失控性细胞生长和肿瘤进展。针对EGFR激酶活性的靶向抑制已成为NSCLC精准治疗的基石。第一代EGFR酪氨酸激酶抑制剂（tyrosine kinase inhibitors, TKIs）如吉非替尼（Gefitinib）以及第三代药物如奥希替尼（Osimertinib）显著改善了携带EGFR激活突变患者的临床结局。然而，初始治疗成功后，获得性耐药（如继发突变和适应性信号重编程）不可避免地限制了长期疗效。此外，现有许多EGFR抑制剂在结构上趋同于经典铰链区结合骨架，凸显了探索替代化学型和理性优化策略的持续需求。传统药物化学方法常围绕已知铰链区结合基序进行迭代骨架修饰和构效关系（structure-activity relationship, SAR）探索，虽高度成功，但受限于人为化学直觉和对更广阔化学空间的探索不足，且同时优化多个目标（如预测结合亲和力、合成可行性和类药性）是一个复杂且资源密集的过程。近期，生成式建模的进展为在预定约束下控制性探索化学空间提供了新机遇。基于强化学习的分子设计框架可通过整合基于结构的评分函数与理化过滤器实现多目标优化。尽管如此，将计算生成的分子转化为实验验证的化合物仍是实际瓶颈。REINVENT4是一种强化学习驱动的生成框架，专为目标导向的分子优化设计，可整合基于结构的评分组件到奖励函数中，实现多目标约束下的化学空间引导探索。

**研究目的与意义**

本研究旨在建立一个人工智能驱动生成模型与实验验证相结合的工作流，以发现新型、选择性的EGFR抑制剂。通过构建EGFR抑制剂专用数据集、实施分阶段强化学习优化、结合分子动力学模拟和体外生物学评价，研究人员成功发现了一个新型喹啉-磺酰胺骨架先导化合物。该研究验证了靶点感知强化学习方法在从头药物设计中的有效性，为开发下一代突变选择性EGFR抑制剂提供了合成易行的先导分子。论文发表在《Molecular Diversity》。

**主要关键技术方法**

研究人员采用了以下主要技术方法：（1）基于REINVENT4强化学习框架的转移学习（transfer learning, TL）和分阶段强化学习（reinforcement learning, RL）优化，利用来自ChEMBL数据库的EGFR抑制剂活性数据集（共810个化合物）进行模型微调；（2）多目标奖励函数设计，整合AutoDock Vina对接分数、类药性定量估计（quantitative estimate of drug-likeness, QED）和合成可及性（synthetic accessibility, SAscore）；（3）分子动力学（molecular dynamics, MD）模拟及MM-PBSA结合自由能计算，评估蛋白-配体复合物稳定性；（4）化学合成与体外激酶和细胞活力（CCK-8）实验验证，涉及A549（EGFR野生型）、PC9（EGFR外显子19缺失）和HCC827（EGFR激活突变）三种NSCLC细胞系。

**研究结果**

**Construction of an EGFR-oriented chemical space**：研究人员从ChEMBL数据库中检索人EGFR抑制剂生物活性数据，将报告IC₅₀值转换为pIC₅₀，排除pIC₅₀<3.5的化合物，经结构筛选（去除小片段和高复杂度天然产物样骨架，限制分子量250–550 Da）后保留810个结构一致的小分子抑制剂。该数据集以8:1比例随机分为训练集和验证集，pIC₅₀仅用于定义活性化学空间，不作为回归目标。

**Transfer learning enables EGFR-focused structural adaptation**：对预训练的REINVENT4先验模型进行转移学习，经过30个epoch后，负对数似然（negative log-likelihood）稳定收敛，训练集和验证集损失快速下降后平稳，未出现过拟合，表明模型成功内化了EGFR抑制剂的结构特征。

**Stage-wise reinforcement learning drives directed structural convergence**：通过三个连续阶段的强化学习，对接分数分布逐步改善。第一阶段为探索阶段；第二阶段引入N-(喹啉-5-基)苯磺酰胺基序的评分偏向，对接分数向低能量值偏移；第三阶段结构收敛明显，大量分子对接分数低于−8.0 kcal/mol。基于对接性能、结构多样性和合成可及性，最终选择四个代表性衍生物进行合成：Hit1（含4-吡啶基）、Hit2（含2-呋喃基）、Hit3（含甲基取代基）和Hit4（含苯基）。

**Molecular dynamic simulation analysis**：对四个化合物与EGFR复合物进行100 ns全原子MD模拟。**RMSD and MMpbsa**：蛋白骨架均方根偏差（root mean square deviation, RMSD）平均值为0.114–0.191 nm，整体稳定。MM-PBSA结合自由能计算表明所有化合物结合自由能均为负值，顺序为Hit1 (−120.47±6.33 kcal/mol) > Hit4 (−99.73±8.39 kcal/mol) > Hit2 (−78.34±2.25 kcal/mol) > Hit3 (−73.84±3.10 kcal/mol)。能量成分分析显示范德华力为主要驱动力。Hit1通过最优的疏水锚定和较低的极性溶剂化惩罚获得最强亲和力；Hit2通过引入呋喃环与THR854形成氢键，但因空间体积小损失疏水接触；Hit4因引入联苯基深入口袋，虽获得最高范德华力和静电贡献，但产生最大极性去溶剂化惩罚和熵惩罚。所有化合物均与Lys745（关键催化残基）保持稳定相互作用，Hit4与CYS797（耐药相关残基）的氢键动态稳定。**Root-mean-square fluctuation**：均方根涨落（root mean square fluctuation, RMSF）分析显示所有复合物各氨基酸残基波动范围0.1–0.3 nm，平均RMSF值0.174–0.245 nm，表明系统稳定，结合口袋内关键残基（Leu844、Cys797、Lys745、Ala743、Val726、Arg841）保持低波动。**Radius of gyration**：回转半径（radius of gyration, RoG）分析显示复合物最大与最小值之差为0.061–0.083 nm，表明所有复合物维持稳定紧凑的结构。

**ADMET evaluation indicates balanced developability**：通过ADMET-AI平台预测，Hit1–Hit4分子量298.37–361.43 Da，拓扑极性表面积59.06–72.20 Å²，logP按Hit4>Hit2>Hit1>Hit3递减。Hit3具有最高QED值（0.806）和预测溶解度。所有化合物无PAINS等结构警报，预测人肠道吸收高（>0.999），生物利用度0.908–0.923。Hit1预测肝和微粒体清除率最低，代谢稳定性较好。安全性方面，AMES致突变性预测低，但hERG抑制和药物性肝损伤（DILI）风险偏高。

**In vitro EGFR inhibition and structure-activity relationship**：酶学检测结果显示Hit1抑制EGFR激酶活性最强，IC₅₀=21.2 nM；Hit2次之（46.3 nM）；Hit3和Hit4活性降低（182.5 nM和265.8 nM）。细胞活力实验（CCK-8）中，在PC9和HCC827细胞中活性趋势与酶学一致：Hit1 IC₅₀分别为35.7 nM和25.6 nM；A549细胞中所有化合物敏感性大幅降低（IC₅₀移至微摩尔级）。构效关系分析表明末端杂芳基取代基（如Hit1的4-吡啶基）通过参与与Lys745的氢键相互作用增强效力，而甲基或苯基取代则削弱极性互补。尽管Hit1效力低于吉非替尼，但整体结果验证了AI设计到实验验证的可行性。

**总结与结论**

**讨论部分总结**：生成策略成功从广泛化学探索过渡到围绕合成可行的喹啉-磺酰胺核心的定向收敛。强化学习在保持结构多样性和类药性约束的同时富集了高亲和力候选物。对接预测、分子动力学稳定性分析、结合自由能计算和残基相互作用谱与实验酶学和细胞活性数据一致，揭示末端杂芳基基团对增强静电互补性和结合稳定性的关键作用。但四个合成化合物与吉非替尼相比效力仍有差距，当前生成模型可能需要更精细的药效团约束；但本研究主要目标为验证AI设计与快速实验验证的可行性，Hit1作为先导化合物具有前景。

**研究结论翻译**：综上所述，研究人员建立了一个整合的AI驱动药物发现工作流，将基于REINVENT4的生成建模与基于结构的评估和实验验证相结合，以识别新型EGFR抑制剂。从经过筛选的EGFR聚焦数据集出发，转移学习有效将生成先验偏向激酶相关化学空间，而分阶段强化学习在多目标约束（平衡预测亲和力、类药性和合成可及性）下逐步富集对接性能改善的分子。基于结构的分类导致了合成易行的喹啉-磺酰胺化学型，并选择了四个从头设计的代表性衍生物（Hit1–Hit4）以探究末端位置的取代基效应。分子动力学模拟和MM-PBSA分析证实了对接衍生的排序，并揭示杂芳基取代基增强了EGFR ATP结合口袋中的静电互补性和构象稳定性，特别是通过与关键残基（如Lys745）的强化相互作用。然而，由于湿实验的局限性，在先导化合物探索过程中难以获得足够数量的化合物来充分讨论体外与计算结果的关联。结合这些计算见解，酶学实验确认了最佳候选物的纳摩尔级EGFR抑制，且EGFR驱动的NSCLC细胞系中的抗增殖活性遵循相同趋势，支持靶向依赖性机制。总体而言，Hit1成为最有前景的先导化合物，在效力、结合稳定性和计算可开发性之间表现出最佳平衡。该工作表明，分阶段生成策略与基于物理的验证相结合可以有效将从头设计转化为实验支持的先导物，为快速先导发现及随后优化成更有效、更具类药性的EGFR抑制剂提供了实用框架。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部