天然产物因其独特的生物活性,能够与特定靶蛋白或调控网络发生相互作用,是创新候选药物的重要来源。然而,靶点识别仍是天然产物药物研发的主要瓶颈,这在很大程度上归因于天然产物的化学复杂性及生物系统的异质性。为应对这些挑战,多种互补策略得以发展,包括以化学蛋白质组学为代表的实验策略和以人工智能驱动方法为代表的计算方法。尽管如此,将候选蛋白命中可靠地推进至具有治疗相关性和生理学验证的靶点,仍是一项关键挑战。本综述聚焦于天然产物靶点发现技术,系统总结了现有方法的原理、方法论与实际应用。通过代表性案例研究,进一步提出了一种可复用的整合实验-计算工作流程,并阐释了在实际研究场景中如何识别关键靶点及其作用模式。此外,还讨论了靶点发现过程中常见的技术与概念瓶颈,并提出了潜在的应对策略。本综述为天然产物靶点识别提供了可操作的参考框架,旨在减少假阳性结果与碎片化证据,从而提升机制导向研究的稳健性并促进后续的转化研究。
1 引言
天然产物(Natural Products, NPs)通常来源于植物、微生物和海洋生物,具有独特的化学结构和显著的生物活性,长期以来一直是治疗感染性疾病、癌症、高血压、糖尿病等疾病的前体化合物和治疗药物的重要来源。他汀类药物、雷帕霉素、紫杉醇和山莨菪碱等里程碑式天然产物衍生药物的发现与开发,为现代药物研发提供了重要范式。在传统中医药体系中,许多天然产物的研发首先基于确证的临床疗效,进而推动现代药理学研究与机制阐明。近年来,新型天然产物相关实体及递送策略不断涌现,例如辣椒素受体TRPV1的发现推动了靶向该受体的新一代镇痛药开发;具有光致发光特性和高生物相容性的碳点被广泛应用于光学传感、生物成像和治疗领域,特别是在纳米级有机载体中对天然活性成分进行限域或递送;无载体纳米颗粒,如纳米晶体、自组装纳米颗粒和外泌体,在提高天然产物的稳定性、靶向能力、生物利用度和药理活性方面也显示出巨大潜力。
在现代药物开发中,靶点发现是连接生物活性分子与疾病机制的关键环节,直接影响后续的先导化合物优化、机制验证和适应症探索。自2003年人类基因组计划完成以来,治疗靶点的系统性探索和验证受到越来越多的关注。随着系统生物学的发展,对药物作用的理解逐渐从传统的“一药一靶”范式转向多药理学视角,即单一药物可能与人体内的多个靶点和调控通路发生相互作用。这一观点与天然产物研究尤为相关,因为许多天然产物通过复杂且依赖环境的分子机制发挥生物效应。无论天然产物发现遵循基于靶点的策略还是表型驱动的方法,明确相关的分子靶点对于机制解释和治疗验证都至关重要。
药物发现和开发的整体过程极为复杂,通常需要数年乃至十余年才能完成。尽管方法学不断进步,天然产物靶点识别仍受到诸多实际挑战的限制,包括研发周期长、成本高、通量低和损耗率高。在实验验证阶段,常见局限性包括通量受限、工作流程繁琐以及假阳性或非直接靶点分配的风险较高。近年来,人工智能(Artificial Intelligence, AI)已越来越多地被纳入药物发现流程的多个阶段。AI和数据驱动策略在结构优化、靶点预测、生物数据整合和候选靶点优先级排序方面显示出巨大潜力,提高了靶点发现的效率。然而,计算预测高度依赖于训练数据集的质量和代表性,易受时间漂移和数据偏差的影响,且往往存在可解释性有限的问题。因此,将计算关联转化为可实验验证的证据链,仍是天然产物靶点发现的主要挑战,需要系统的方法学整合与标准化。鉴于此,本综述聚焦于天然产物靶点发现这一核心科学问题,系统总结了天然产物靶点识别与验证中的关键挑战和未解决的问题,全面回顾了当前用于靶点识别的主要实验和计算策略,特别关注其基本原理、适用场景、方法学优势与局限性,并讨论了提高靶点识别可靠性的推荐验证路径和整合工作流程,最后结合新兴技术趋势,展望了推进天然产物靶点发现并将机制研究成果转化为治疗应用的未来方向。
2 天然产物靶点发现的概念性挑战
与传统合成化合物相比,具有生物活性的天然产物的靶点发现面临更为严峻的挑战。这些挑战不仅源于方法和技术的限制,也源于天然产物固有的结构特征,以及其与生物靶点相互作用的复杂性和环境依赖性。
2.1 结构复杂性与化学多样性
天然产物通常拥有复杂的化学结构,包括多个手性中心、稠合环系、密集官能团骨架和多样的立体化学构型。这些特征给分离纯化、结构表征、化学修饰和药理评价带来了巨大的技术挑战。其结构复杂且多药效团的特性使天然产物能够通过多样化的相互作用模式与生物靶点结合并发挥独特的生物活性,但也使得构效关系解析复杂化,限制了传统高通量筛选策略的适用性。当靶点已知时,可对天然产物进行合理的结构修饰以优化理化性质、提高效力、增强选择性或降低毒性,从而促进其开发为临床适用药物。然而,当靶点未知时,这种基于靶点的优化策略往往难以实施。因此,在高度复杂多样的化学空间中准确定位具有治疗相关性的靶点,是天然产物靶点发现中一个核心的概念和实践挑战。
2.2 多药理学与网络水平效应
随着系统药理学和网络生物学的发展,越来越多的证据表明小分子药物,尤其是天然产物,经常同时与多个分子靶点发生相互作用,从而产生多药理学效应。在此背景下,治疗效果可能源于对多个靶点、通路或调控模块的协调调节,而非单一主导节点的扰动。机制上,通过预期靶点介导的药理作用通常被定义为“靶上效应”,而与意外靶点发生的相互作用则被视为“脱靶效应”。脱靶活性可能导致不良反应、累积毒性或意外的药理结果。此外,许多疾病由涉及多个信号通路和调控节点的失调网络驱动,且单一靶点可能根据细胞环境、组织类型或疾病阶段参与不同的病理状态。这些特征进一步凸显了网络水平机制在药物作用中的重要性。尽管天然产物固有的多靶点特性增加了靶点发现和机制阐明的复杂性,但也可能为药物重定位和复杂疾病的系统性治疗干预提供独特优势。
2.3 弱、短暂或环境依赖性靶点相互作用
除多药理学外,天然产物与其靶点之间的动态相互作用模式是另一大挑战。相当比例的天然产物可能通过弱、短暂、低亲和力或可逆的结合模式与靶蛋白发生相互作用。在其他情况下,靶点结合可能强烈依赖于特定的细胞环境、亚细胞定位、代谢状态、翻译后修饰或疾病相关生理条件。这些特征使得此类相互作用在常规实验条件下难以可靠捕获和验证。单一靶点识别方法通常不足以建立化合物结合与生物活性之间的因果关系,这归因于其固有的局限性,如低通量和高假阳性风险。计算和AI方法在速度和可扩展性方面具有优势,但其预测性能在很大程度上取决于可用数据集和蛋白质结构信息的质量、代表性和完整性。可靠的靶点预测和验证通常需要结构互补性和实验支持的靶点结合证据。因此,缺乏已解析的靶点结构、注释的结合口袋或可靠的相互作用数据,仍是限制计算预测和下游实验验证的主要瓶颈。
2.4 非蛋白和非经典靶点
传统的靶点发现主要集中在具有明确酶活性、受体功能或配体结合口袋的蛋白质上。然而,越来越多的证据表明天然产物的分子靶点远不止于此,不仅包括蛋白质,还包括核酸、肽、脂质、代谢物和大分子复合物。这一扩展的靶点谱系为非经典靶点的识别和验证带来了额外挑战,特别是那些缺乏稳定构象、经典结合口袋或易于测量的生化活性的靶点。此外,某些化学蛋白质组学策略需要外源标记、探针合成或化学衍生化,这些修饰可能会破坏天然产物的固有生物活性,从而使非经典靶点的准确识别复杂化。此外,天然产物可能通过调节大分子复合物的稳定性、形成或解离间接发挥生物效应。例如,调节RNA-蛋白质相互作用或其他大分子组装体可以产生下游药理效应,而无需直接抑制或激活经典的蛋白质靶点。这些发现拓宽了可成药靶点的传统概念,并强调需要能够捕获非经典、动态和环境依赖性作用机制的靶点发现策略。
3 天然产物靶点识别的实验策略
实验策略为确定天然产物处理是否诱导体外和体内模型的特异性表型变化,以及这些变化是否通过改变特定分子靶点的活性、稳定性、表达或相互作用网络来介导,提供了直接证据。目前,化学蛋白质组学是天然产物靶点发现中应用最广泛的方法之一,涵盖探针标记、亲和富集、稳定性检测、定量蛋白质组学及相关靶点反卷积技术等多种策略。此外,转录组学、基因组学、蛋白质组学和代谢组学等多组学技术有助于识别与药物作用相关的信号通路和功能网络,从而更深入地阐明连接天然产物与其生物靶点的作用机制。
3.1 基于亲和力和标记的靶向方法
标记类靶点识别方法是发现天然产物靶点的重要工具,通常将化学蛋白质组学与亲和富集或亲和色谱技术相结合。工作流程主要分为两大步骤:首先,通过在天然产物骨架上引入亲和标签、光交联基团或其他反应性部分,设计并合成功能性探针;其次,利用该探针捕获或富集相互作用蛋白,随后进行蛋白质鉴定、定量分析和功能验证。常见的标记技术包括生物素标记、光亲和标记和生物正交反应标记。根据探针设计和作用机制,探针依赖性靶点发现方法通常可分为基于亲和力的探针和基于活性的探针两大类。
3.1.1 化合物中心化学蛋白质组学
化合物中心化学蛋白质组学(Compound-Centric Chemical Proteomics, CCCP),也称为基于亲和力的化学蛋白质组学,起源于亲和色谱,并通过现代基于质谱的蛋白质组学与传统亲和富集策略的整合而不断发展。在高效液相色谱-串联质谱(LC-MS/MS)等高分辨率质谱技术的推动下,CCCP已成为蛋白质水平上天然产物靶点发现的稳健且广泛应用的方法。典型的CCCP工作流程涉及用分子手柄或亲和标签修饰天然产物,将其固定在惰性固相基质上,然后在保持生物活性的条件下与细胞或组织裂解液孵育。结合后,通过洗涤去除非特异性蛋白,同时通过竞争性置换或其他洗脱策略洗脱特异性结合的蛋白。富集后的蛋白经胰蛋白酶消化后,通过LC-MS/MS进行分析以鉴定靶点。
与依赖催化位点标记的策略不同,CCCP不要求靶点具有适合共价探针修饰的酶活性残基,因此在理论上可以覆盖更广泛的靶点类别,包括非酶蛋白、支架蛋白和蛋白质复合物,特别适用于发现新颖或意外的靶点。CCCP的另一个关键优势是其与相对生理性的样品环境兼容,可应用于细胞、组织和物种特异性样本等多种生物材料,从而更好地模拟疾病相关的分子环境。然而,CCCP无法直接区分靶蛋白的功能激活状态,并且可能富集间接或非特异性结合蛋白,从而增加假阳性靶点分配的风险。
3.1.2 基于活性的蛋白质谱分析
基于活性的蛋白质谱分析(Activity-Based Protein Profiling, ABPP)是一种重要的化学蛋白质组学策略,它利用小分子活性探针在复杂的生物系统中研究酶的功能状态,特别是其在生理或疾病条件下的催化活性,已广泛应用于炎症、疟疾、癌症等疾病的研究。小分子活性探针通常由三个部分组成:反应性基团、连接子和报告标签。反应性基团与靶蛋白内的特定活性位点残基或功能基团发生共价相互作用。ABPP有助于揭示变构位点,这是其相较于某些传统靶点发现方法的比较优势。连接子将反应性基团与报告标签连接起来,并可进行优化以提高探针的稳定性、通透性、特异性或结合性能。报告标签则用于可视化、亲和富集、分离或定量分析探针标记的蛋白。亲和探针,特别是光亲和探针,可在激活后共价捕获生物分子,对于研究可逆结合潜在靶点的天然产物尤为有用。在现有的天然产物靶点发现研究中,ABPP相关技术已与多种标记策略相结合,包括生物素标记、基于生物正交反应的标记和光亲和标记。
生物素标记法通过合成生物活性天然产物的化学探针或衍生物来识别靶点。生物素又称维生素H,能与亲和素或链霉亲和素发生强特异性结合,因此是ABPP和相关化学蛋白质组学工作流程中应用最广泛的亲和标签之一。生物素标记已广泛用于天然产物靶点识别,通常将生物素修饰的天然产物探针与细胞或裂解液中的靶蛋白相互作用后进行亲和纯化,是一种实用且被广泛采用的方法。然而,生物素标记通常需要对母体化合物进行化学修饰,这可能限制其适用性。此外,相对庞大的生物素标签可能改变天然产物探针的理化性质、细胞分布、结合特异性和生物活性,从而降低靶点特异性和置信度。
反应性标记法利用点击化学实现小化学单元的高效模块化连接。一系列生物正交反应已被开发并应用于靶向药物发现,特别是在抗癌药物研究中。这些反应也可被整合到用于天然产物靶点识别的分子探针设计中。反应性标记法的一个主要优势是通常只需要小的生物正交手柄,如叠氮基或炔基,而不需要像生物素这样大的报告标签,这使其成为最主要的靶点识别方法之一。凭借其高效率、特异性和与生物系统的兼容性,基于点击化学和生物正交反应的探针极大地推动了ABPP的发展,并在天然产物靶点发现中发挥着重要作用。
光亲和标记法将具有生物活性的天然产物转化为光亲和探针,在光激活后共价捕获靶蛋白。当天然产物缺乏内在共价反应性,但通过氢键、疏水相互作用或静电相互作用等非共价力与靶点相互作用时,光亲和标记能够实现对这些原本可逆相互作用的共价稳定和后续鉴定。常见的光反应性功能基团包括二苯甲酮、重氮化合物和芳基叠氮化物。含有连接到天然产物骨架上的光活化基团的探针通常被称为亲和探针或光亲和探针。在紫外光等光照激活后,天然产物衍生的光亲和探针与活细胞或裂解液中的邻近靶蛋白形成共价交联。由此产生的共价复合物随后可通过点击化学介导的报告基因偶联进行富集和检测,从而提高靶点识别的灵敏度。
3.1.3 基于降解的蛋白质谱分析
为了促进天然产物多靶点的识别,基于降解的蛋白质谱分析(Degradation-Based Protein Profiling, DBPP)被提出作为一种新型的靶点发现策略。DBPP将新兴的蛋白质降解靶向嵌合体(Proteolysis Targeting Chimeras, PROTAC)技术与定量蛋白质组学和免疫沉淀-质谱(IP-MS)相结合用于靶点识别。在该方法中,候选靶点是通过定量蛋白质组学数据中显示化合物依赖性降解或相对下调的蛋白推断出来的。ABPP主要关注小分子探针与靶蛋白之间的直接相互作用,而DBPP则利用化学诱导的蛋白质-蛋白质相互作用将靶蛋白招募至降解机制。理论上,该策略可以揭示与天然产物配体以中等甚至较弱结合亲和力相互作用的靶点。因此,DBPP代表了传统化学蛋白质组学技术的有力补充,并可能加速基于天然产物骨架的新药发现和药物靶点发现。
3.2 无标记和基于生物物理的方法
尽管基于标记的方法极大地推动了天然产物靶点识别,但外源标签、连接子或反应性基团的引入可能会改变天然产物的天然结构、生物活性、细胞膜通透性或靶点结合谱。这些修饰会损害靶点识别的准确性,并限制探针依赖性策略的适用性。为解决这些局限性,无标记化学蛋白质组学和基于生物物理的方法被开发出来,无需对母体化合物进行结构修饰即可检测靶点结合。
3.2.1 药物亲和响应靶点稳定性
药物亲和响应靶点稳定性(Drug Affinity Responsive Target Stability, DARTS)是用于识别直接药物靶点的最常用的无标记技术之一。DARTS的原理是配体结合可以改变靶蛋白的构象稳定性,降低其对蛋白酶介导消化的敏感性。DARTS的一个主要优点是不需要对天然产物进行结构修饰,从而保留了化合物的天然结构和活性。此外,DARTS特别适用于复杂的蛋白样品,如全细胞裂解液。在典型的DARTS实验中,蛋白样品与天然产物孵育,然后进行限制性蛋白酶解。通过配体结合而稳定的蛋白相对不易被降解,可通过免疫印迹或基于质谱的蛋白质组学进行检测。当DARTS用于无偏倚的靶点发现时,通常在蛋白酶解后结合定量蛋白质组学分析,以识别显示蛋白酶敏感性改变的蛋白。DARTS还可与其他靶点发现策略结合,为基于亲和力、基于活性或计算的方法确定的候选靶点提供正交证据支持。
3.2.2 热蛋白质组学分析
细胞热转移分析(Cellular Thermal Shift Assay, CETSA)的开发旨在通过测量配体诱导的蛋白热稳定性变化来评估细胞内靶点结合情况。CETSA可在完整细胞和细胞裂解液中开展,使其比许多其他无标记方法更具生理相关性。CETSA基于配体结合可改变(通常是增加)蛋白质热稳定性的原理。标准的CETSA工作流程包括用候选化合物处理细胞或裂解液,将样品暴露于温度梯度中以诱导蛋白质变性,分离可溶性蛋白与沉淀组分,并检测留在可溶性组分中的靶蛋白丰度。配体结合的蛋白通常受到保护,免受热诱导的变性和沉淀,从而保持可溶状态。然而,CETSA可能不适用于热稳定性行为高度异质性的蛋白,或配体结合后热稳定性未发生可测量变化的靶点。经典的CETSA技术通常使用Western blotting作为检测方法,因此特别适用于验证预定义的候选靶点。
热蛋白质组学分析(Thermal Proteome Profiling, TPP),也称为MS-CETSA,源自CETSA,将热稳定性测量与定量质谱相结合。通过整合全蛋白质组定量质谱分析,TPP克服了传统CETSA灵敏度和通量有限的缺点,实现了对整个蛋白质组中蛋白热稳定性的无偏倚测量,包括在完整细胞中。TPP既可以识别直接靶点,也可以识别受化合物处理影响的间接下游蛋白。TPP及其改进版本已广泛应用于天然产物靶点识别。然而,高昂的实验成本、复杂的样品处理和苛刻的数据分析仍是阻碍TPP更广泛应用的重要挑战。
3.2.3 基于氧化速率的蛋白质稳定性分析
基于氧化速率的蛋白质稳定性(Stability of Proteins from Rates of Oxidation, SPROX)是一种与定量化学蛋白质组学兼容的无标记方法。SPROX利用过氧化氢介导的氧化来监测配体诱导的蛋白质热力学稳定性变化,通常通过测量甲硫氨酸残基的氧化水平来实现。配体结合后,蛋白质折叠或稳定性的变化会改变甲硫氨酸残基暴露于氧化的程度,从而提供关于蛋白质-配体相互作用的信息。然而,该方法依赖于配体结合后报告稳定性变化的甲硫氨酸残基的存在和可检测的氧化。此外,SPROX通常需要相对较高的蛋白质浓度,并且需要仔细优化氧化条件,这可能限制其在低丰度蛋白或复杂生物样品中的应用。
3.3 基于多组学的实验方法
下一代测序已成为转录组分析的强大工具。RNA测序(RNA-seq)能够定量分析细胞、组织或疾病模型中药处理后的转录组变化。单细胞RNA测序(Single-Cell RNA-seq, scRNA-seq)进一步允许分析基因表达的异质性,识别罕见细胞群,并表征复杂疾病环境中的动态细胞状态。例如在癌症研究中,scRNA-seq能够详细表征肿瘤微环境,并有助于识别特定细胞亚群内药物或药物应答通路的关键调控信号。
基于基因组的方法也为靶点发现提供了重要支持。基因组规模成簇规律间隔短回文重复序列相关蛋白9(Clustered Regularly Interspaced Short Palindromic Repeats Associated Protein 9, CRISPR-Cas9)筛选能够在人类细胞中进行系统的基因扰动,支持正负选择筛选。通过观察基因敲除、敲低或激活如何影响药物敏感性或细胞表型,基于CRISPR的方法可以揭示与天然产物活性功能相关的基因和通路。全基因组关联研究(Genome-Wide Association Studies, GWASs)可通过基因型-表型关联分析识别疾病相关遗传位点及潜在治疗靶点,从而为多种疾病背景下天然产物的靶点发现提供线索。代谢组学在液相色谱-质谱和核磁共振等分析平台的支持下,能够对参与细胞代谢的代谢物进行系统分析。通过比较天然产物处理诱导的代谢变化,代谢组学可用于识别生物标志物、揭示受扰动的代谢通路、阐明作用机制,并在多种人类疾病中优先考虑潜在靶点。
随着基因组学、转录组学、蛋白质组学和代谢组学的快速发展,多组学整合已成为靶点发现日益有效的策略。单细胞和空间转录组学的出现为天然产物靶点发现和机制阐明提供了新视角,在炎症性疾病、癌症、糖尿病肾病等疾病的研究中显示出强大潜力。将空间转录组学与其他组学技术整合,有助于识别疾病相关的细胞亚群,更精确地表征细胞间相互作用,并绘制组织内空间组织的通讯网络。这种整合可以支持对天然产物系统水平药理效应的更详细探索。在此基础上,提出了“药理评价-靶细胞确认-靶点识别-生物学功能验证”的整合研究范式,为天然产物及其他小分子化合物的靶点验证提供了可操作策略,并可能提高靶点发现研究的可靠性和转化相关性。
4 基于计算和 人 工 智 能 的
打赏