编辑推荐:
本研究利用PEPMatch工具和多个数据库(含非编码区、替代ORF、UTR等),系统性地识别了癌症免疫治疗中暗基因组来源的新抗原,发现免疫原性阳性肽段中非经典来源占比显著(ncORF:0.1%, cDNA:8.8%, ncRNA:1.4%),验证了暗基因组作为新抗原靶点的潜力。CEDAR数据库已实现该标注流程,扩展了癌症疫苗和TCR疗法的靶点范围。
识别具有免疫原性的癌症表位是推进有效癌症免疫疗法的基础。为了向科学界提供一个集中的数据来源,癌症表位数据库与分析资源(CEDAR,网址:cedar.iedb.org)维护着最全面且持续更新的实验验证癌症表位数据集。目前,CEDAR 收集了来自 6,240 多篇同行评审出版物的数据,涵盖了 T 细胞、B 细胞和 MHC 配体检测的相关信息。虽然传统的新生表位发现主要集中在经典外显子上,但越来越多的证据表明,“暗基因组”(包括非编码区域、替代开放阅读框(ORFs)和未翻译区域(UTRs)是可靶向新生抗原的重要来源。
为了准确整理并将这些不断增长的免疫学数据纳入 CEDAR,我们使用了高通量肽搜索工具 PEPMatch。我们整合了七个综合性人类数据库,包括 UniProtKB、UniParc、Ensembl 经典蛋白质(ENSP)、经过验证的非经典 ORFs(ncORF)、互补 DNA(cDNA)和非编码 RNA(ncRNA)的三帧翻译结果,以及包含 UTR 和内含子的完整基因序列的六帧翻译结果(ENSG)。通过 PEPMatch 的匹配算法,我们将 CEDAR 中的新生肽与这些数据库进行比对,以确定它们的基因组来源。
为了验证这一流程,我们首先分析了通过质谱技术发现的 840 个 MHC I 类隐秘新生肽,使用顺序归属搜索方法实现了 98.33% 的总映射成功率,结果显示这些新生肽主要来源于非经典基因组区域(ncORF:14.76%、cDNA:41.55%、ncRNA:4.76%、ENSG:1.67%)。将这种方法应用于 CEDAR 中的所有 28,601 个新生肽后,发现其中 1.91% 来自非经典基因组。随后,我们重点研究了 6,394 个经 T 细胞检测确认具有免疫原性的阳性新生肽。值得注意的是,与阴性肽相比,这些具有免疫原性的阳性新生肽中有很大比例映射到了非经典基因组区域(ncORF:0.1% 对 0.0%、cDNA:8.8% 对 2.6%、ncRNA:1.4% 对 0.6%、ENSG:3.4% 对 1.5%),这表明“暗基因组”是免疫原性新生抗原的来源。通过随机排列的肽对照样本验证了这种映射方法的准确性,结果显示假匹配率低于 1%。
这些发现表明,在适当整理的数据库支持下,PEPMatch 能够大规模地识别癌症新生肽的非经典基因组来源。CEDAR 正在实施这一注释流程,为研究人员提供暗基因组抗原的映射信息。这项工作通过记录之前被忽视的基因组区域的表位,扩展了癌症免疫疗法的可靶向范围,为下一代个性化癌症疫苗和基于 TCR 的疗法发现了新的靶点。
生物通 版权所有