综述:慢性肾病(CKD)诊断中的长读长测序技术:打破基因组学障碍,推动全球医疗包容性提升

时间:2026年5月15日
来源:Kidney International Reports

编辑推荐:

Rafaella S. Barichello | Julia Yun-Hsuan Hung | Andrew J. Mallett | Ulf Schmitz 计算生物医学实验室,詹姆斯库克大学科学与工程学院,澳大利亚昆士兰州汤斯维尔 **摘要** 慢性肾病(CKD

广告
   X   

Rafaella S. Barichello | Julia Yun-Hsuan Hung | Andrew J. Mallett | Ulf Schmitz
计算生物医学实验室,詹姆斯库克大学科学与工程学院,澳大利亚昆士兰州汤斯维尔

**摘要**
慢性肾病(CKD)是全球主要的健康负担,遗传检测越来越多地被用于明确诊断和指导治疗,尤其是在遗传性和早发性疾病中。短读长序列测序(SRS),包括靶向基因组检测、外显子组测序和基因组测序,能够检测许多外显子单核苷酸变异以及小范围的插入/缺失,但在难以用短读长序列解析的基因组区域仍存在重要的诊断空白。长读长序列测序(LRS)通过提高结构变异、重复序列扩展以及复杂或高度同源位点的检测能力,并提供长距离单倍型背景信息,解决了这些限制。本文综述了LRS在CKD诊断中的当前和新兴临床应用,重点介绍了LRS在某些情况下比SRS更具价值的应用场景,例如未明确的单基因肾病以及像PKD1和MUC1这样的技术难度较高的基因。我们还讨论了如何通过改善结构变异的表示方式和特定祖先的参考数据来减少现有数据库中患者变异解释的不确定性。尽管LRS的常规临床应用仍在发展中,但实验室工作流程、生物信息学工具链和参考资源的不断进步正在加速其向肾脏病学实践的转化。

**引言**
CKD仍然是全球性的健康挑战,给经济带来巨大负担[1, 2, 3]。然而,基因组技术的最新进展加深了我们对CKD遗传原因的理解,为早期诊断和靶向干预提供了机会[4, 5]。CKD的遗传机制具有连续性,从由高外显率变异引起的单基因肾病到由遗传变异与环境因素共同作用导致的常见CKD[6, 7, 8](包括社会经济地位和生活方式选择[9, 10, 11])。在临床实践中,常怀疑某些疾病如常染色体显性多囊肾病(ADPKD)是由PKD1或PKD2变异引起的,但现在也认识到GANAB、DNAJB11、ALG8和ALG9等基因的重要性,并将这些基因纳入临床基因组检测目录[12, 13]。Alport综合征与COL4A3–COL4A5基因的致病性变异相关[14],而NPHP基因的变异则导致肾单位萎缩[7]。相比之下,糖尿病肾病[15]或高血压性肾病[16]等常见形式的CKD通常是由多基因风险和环境因素共同作用的结果,而非单一致病性变异所致。因此,在怀疑遗传性或早发性疾病的患者中,会优先进行遗传检测,因为单一致病性变异更有可能解释疾病表型[17, 18]。在这种诊断背景下,特别是当短读长序列测序无法解析复杂或结构复杂的位点时,长读长序列测序(LRS)可以提供额外的诊断价值[19, 20, 21]。

LRS(也称为第三代测序)通过精确检测结构变异、深度内含子变异和其他复杂的基因组改变,在CKD遗传学中具有变革潜力[22, 23, 24]。然而,要成功实施LRS需要定制的方法流程,包括DNA提取、文库制备和测序,以及适合的计算资源、强大的生物信息学工具链和参考数据库来解释变异[25, 26, 27, 28]。该领域的持续发展和跨学科努力正在逐步解决这些挑战,提高LRS的临床应用性[29, 30]。长读长序列测序的前期成本较高,这主要是由于其消耗品成本、较低的多重检测能力和比短读长序列方法更高的分析复杂性[31]。随着技术变得更加可获取和经济可行,预计其应用将扩大,为CKD的早期诊断和个性化治疗策略带来希望[32]。

CKD由多种亚型组成,受超过600个基因的影响,是一种由遗传倾向和环境压力(包括调节基因表达的表观遗传修饰如DNA甲基化)相互作用所塑造的复杂疾病[33, 34, 35, 36]。对于疑似遗传性或单基因CKD患者,早期基因组诊断可以避免昂贵的侵入性程序(如血液透析和肾移植),同时还能进行家族筛查和及早提供针对性治疗[37]。2022年的KDIGO争议会议强调了遗传学在CKD病例评估中的重要影响,强调了详细家族史评估、考虑CKD发病年龄、肾外症状以及将遗传检测纳入诊断过程的重要性[36]。

本文探讨了LRS在CKD诊断评估中的当前和新兴作用,重点关注LRS在传统SRS之外提供额外价值的场景,特别是在解决结构复杂位点、与重复序列相关的变异以及标准检测后仍未解决的问题方面。通过综合近期原始研究,我们旨在明确LRS作为肾病遗传学实践中的补充策略的临床定位。

**当前CKD的遗传检测及其局限性**
虽然传统的诊断方法(如生化检测、影像学检查和活检)仍然是评估肾病的核心,但在部分患者中仍无法确立明确诊断[38, 39]。许多患者在诊断过程中感到不确定,并希望获得更早和更清晰的信息,尤其是在没有已知家族史的情况下[40]。关于遗传性肾病(包括常染色体显性多囊肾病)的患者和护理者的研究突显了早期遗传信息的重要性,以及诊断不确定性和预后不明确所带来的情绪负担[41, 42, 43]。这些观察结果强调了延迟或不确定病因诊断的临床后果,并强调了在传统临床评估无法明确病因的患者中进行早期遗传评估的潜在价值。

当前用于CKD的遗传检测方法包括靶向基因组检测、外显子组测序和基因组测序,这些方法通常使用下一代短读长序列平台进行,可以同时检测多个肾病相关基因[44, 45]。Sanger测序是一种经济高效且准确的确认性检测或已知家族变异的靶向分析方法,但不适用于广泛的初步遗传评估[46]。现在通常通过基于SRS的方法而非染色体微阵列分析来检测拷贝数变异[47]。这些方法能够检测单核苷酸变异和小范围的插入/缺失,已成为许多疑似遗传性肾病的标准检测手段。然而,短读长序列的长度(通常约为150个碱基对)限制了在某些基因组环境中的变异检测精度。结构变异(SVs)、重复序列扩展、GC富集区域以及高度同源或重复的位点仍然难以解析,导致一些孟德尔疾病无法明确诊断。这些局限性为在标准检测未能确定分子诊断的CKD患者中探索补充性测序方法(如LRS)提供了临床依据[48, 49, 50]。

一个典型的例子是具有重要临床意义的PKD1基因。由于PKD1基因第1-33外显子间存在六个高度同源的假基因(与功能基因序列同源性约为97%),该基因在技术上具有挑战性。尽管使用SRS进行PKD1的临床检测已被广泛实施,并有专门的实验室工作流程支持,但这些方法仍较为复杂,可能无法解析某些内含子、结构或剪接改变变异。最近的研究表明,结合靶向长读长序列测序可以提高PKD1变异的检测能力,包括检测非典型剪接变异并更准确地区分假基因序列,支持LRS在某些未解决或复杂病例中的整合作用[23, 51]。我们对CKD机制和原因的理解随着新兴技术的发展而不断进步,从2007年的首次全基因组关联研究到2020年LRS的应用,显示出在揭示这种疾病方面的显著进展,为未来更精确的诊断和更深入的理解带来了希望[48, 49, 50]。(图1)

**诊断效能**
已建立的CKD队列中,短读长序列测序的诊断效率约为10-30%。这里的诊断效率指通过测序识别出能够解释患者临床表型的致病性或可能致病性变异的个体比例。应用于成人CKD队列的外显子组测序研究显示,诊断效率在9%到24%之间,而在早发性疾病、阳性家族史或综合征表现的患者中观察到的效率更高[44, 52, 53]。在某些情况下,基因组诊断可以重新分类临床诊断并影响治疗决策,例如避免不适当的免疫抑制或不必要的侵入性检查。虽然全基因组测序(WGS)在技术难度较高的区域可以比外显子组测序改进变异检测,但许多诊断空白仍然存在,这反映了短读长序列技术本身的局限性[54, 55]。

LRS通过生成覆盖复杂基因组区域的扩展读长序列,克服了这些限制,从而改善了对齐、变异分相和结构变异检测。图2展示了SRS和LRS之间的关键技术差异,这些差异是LRS诊断优势的基础。LRS在人类疾病的致病基因变异临床发现中显示出多种应用,特别是在研究此前未知遗传原因的遗传性疾病或强烈怀疑的致病位点时[56, 57]。

**长读长序列测序的优势**
LRS在复杂基因区域相比短读长序列测序具有显著优势。短读长序列常无法捕获完整的遗传背景,从而影响准确对齐。相比之下,LRS生成扩展读长序列,使得这些区域的精确定位和解析成为可能。(A)LRS在检测结构变异(SVs)方面优于SRS,尤其是在重复DNA序列等复杂区域。(B)LRS在序列分析中优于SRS,能够更精确地识别短串联重复(STR)区域(绿色显示),例如PKD1(常染色体显性多囊肾病)[145]、NPHP1(肾单位萎缩)[146]和COL4A5(Alport综合征)[147]等与STR扩展相关的基因。(C)LRS提高了序列同源性高的基因组区域的映射和覆盖率(红色显示),这对SRS来说是一个挑战。这种能力有助于区分基因及其假基因,从而提高这些复杂区域中的变异检测效率。例如,PKD2(多囊肾病)[61]、CFHR5(补体因子H相关5肾小球病)[148]和MYH9[149]等与疾病相关的基因就位于此类同源区域。(D)LRS能够直接对原始DNA链进行测序,从而同时评估碱基修饰,例如区分胞嘧啶-鸟嘌呤二核苷酸(CpGs)中的甲基化胞嘧啶(红色标记)和未甲基化胞嘧啶(蓝色标记)。这可以与分相数据结合,探究具有亲代特异性DNA甲基化的印记区域。例如WT1(肾脏发育缺陷中的甲基化改变)[150]和HNF1B(肾囊肿和糖尿病综合征中的甲基化变化)[151]等基因。

**结论**
LRS为CKD的遗传评估提供了新的途径,特别是在解决结构复杂位点、重复序列相关变异以及标准检测后仍未解决的问题方面。随着技术的进步和应用成本的降低,其采用预计将扩大,为CKD的早期诊断和个性化治疗策略带来希望。例如,在APOL1位点上,p.N264K (M1)变异体已被证明在同一种单倍型存在时对G2相关肾病具有很强的保护作用,这突显了在评估CKD遗传学中的APOL1风险构型时准确确定单倍型相位的重要性[66, 67]。

**长读长测序在肾脏疾病中的临床应用**
目前主要有两种长读长测序(LRS)技术:单分子实时测序(SMRT)和基于纳米孔的测序平台。由Pacific Biosciences(PacBio)开发的SMRT测序是第一个被广泛采用的长读长测序技术。该技术可以观察到DNA聚合酶在新DNA合成过程中的活动。聚合酶添加的荧光标记碱基通过零模式波导实现实时检测。PacBio的长读长测序平台目前包括Sequel IIe、Revio和Vega测序仪[22]。

由Oxford Nanopore Technologies(ONT)开发的基于纳米孔的测序技术自2014年首次商业化以来发展迅速。该方法利用嵌入纳米孔的膜来测量DNA或RNA通过时的电流变化。在文库制备过程中,带有马达蛋白标签的适配器被连接到多核苷酸上以引导它们进入纳米孔。当模板链通过纳米孔时,电流流动的独特中断对应于每个核苷酸,从而实现实时测序。ONT平台包括MinION、GridION和PromethION,这些平台适用于基础研究和临床研究[58, 59]。

长读长测序可以显著提高结构变异(SVs)的检测和表征能力,提高单倍型分辨率,准确区分假基因,并对串联重复扩展进行测序(图2)。因此,长读长测序有可能提高基因检测的诊断效率,并促进新疾病相关基因的发现[56]。

在一项针对“All of Us”研究计划中进行的初步研究中,研究人员将长读长测序应用于一组对照样本,以评估平台的性能和重现性。该研究表明,与短读长测序相比,长读长测序显著提高了基因组组装质量和结构变异的检测能力,其中PacBio HiFi测序在单核苷酸变异的准确性方面表现最佳,而Oxford Nanopore测序在医学相关的基因组区域的结构变异识别方面表现出色[60]。

到目前为止,长读长测序在肾脏疾病中的应用大致可以分为三个领域:(i)技术复杂位点的解析;(ii)与重复序列相关的致病变异的检测(包括VNTRs和移动元件插入);(iii)在未解决或模糊病例中改善结构变异的检测和单倍型相位确定[22]。

**常染色体显性多囊肾病(PKD1/PKD2)**
最近的一项研究调查了那些经过标准检测后仍未能获得遗传诊断的典型常染色体显性多囊肾病(ADPKD)家族。通过结合使用短读长测序和长读长测序,作者识别出大多数先前未解决的病例中影响PKD1的异常剪接变异,这些变异位于非编码区域,这些区域无法通过标准工作流程捕获,或者在没有转录本/剪接评估的情况下难以解释[4]。最近,靶向长读长测序方法被评估为可行的ADPKD临床检测方法,显示出在PKD1/PKD2变异检测(包括难以明确的PKD1变异)方面的改进,并支持长读长测序在复杂或未解决病例中的作用[23, 61]。这些研究与众所周知的技术限制相符,即PKD1假基因的同源性可能会使用短读长测序使比对和变异归属变得复杂,因此在某些情况下需要使用长读长测序或基于长范围PCR的解决方案[51](图2-C)。

**常染色体显性肾小管间质性疾病(MUC1)**
在一组疑似常染色体显性肾小管间质性疾病(ADTKD)的日本患者队列中,长读长测序识别出了GC丰富的MUC1基因中的移码变异(称为可变数量串联重复序列(VNTR),这些变异在短读长测序方法中被遗漏或未完全解析[图2-B],这证明了长读长测序在解决这一与重复序列相关的诊断盲点中的作用[62]。VNTR区域是一个GC含量超过80%的重复性60核苷酸序列,会导致产生有毒的MUC1fs蛋白的移码变异,由于比对问题,这些变异无法通过标准SRS方法检测到[63]。与此一致的是,靶向SMRT长读长测序已被证明可以完成VNTR的组装并精确定位致病MUC1变异,为ADTKD-MUC1提供了替代的特殊非SRS检测方法[64]。

**APOL1相关肾病(相位确定/顺式-反式解释)**
长读长测序生成的长连续读长序列可以直接确定同一基因内多个变异的单倍型相位,从而判断致病变异是处于顺式还是反式[图2-E]。当变异组合改变疾病风险时,这些信息可以显著改变解释结果[22, 49]。在一项大型人类遗传学研究中,报告了p.N264K (M1)变异体对G2相关肾病的强大保护作用,强调了在解释APOL1风险构型时准确确定单倍型相位的重要性[65]。由于长读长测序可以直接在单个DNA分子上确定位点的相位,因此提供了一种实用的方法来确定保护性和风险等位基因是否出现在同一个单倍型上,而这一点使用短读长测序可能会受到距离/覆盖范围的限制[66, 67]。

**遗传性肾脏疾病中的结构变异和复杂重排**
结构变异(SVs)是遗传性肾脏疾病的主要但未被充分检测到的因素,尤其是在断裂点位于重复序列丰富区域、片段性重复或重排复杂的情况下(图2-A)。在一项与肾单位肾炎相关的纤毛病变(Senior–Løken综合征)的研究中[24],长读长测序技术用于解析一个原本隐藏的移动元件插入及其下游的剪接效应,说明了长读长测序在检测常规测试中遗漏的“隐匿”结构变异方面的价值[68]。对于肾小管病变,长读长测序还被用于发现Gitelman综合征中先前未检测到的内含子/剪接改变变异,表明长读长测序可以在标准方法之后恢复缺失的致病变异[69]。

**表观遗传学分析和CKD中的调控变异**
长读长测序可以实时生成数百万个读长,并且无需PCR扩增,从而减少了扩增相关的偏差,如GC含量偏差、较短片段的优先扩增、等位基因不平衡以及重复或结构复杂基因组区域的丢失[32]。由于DNA在其天然状态下被测序,长读长测序还可以直接检测碱基修饰,包括CpG甲基化[70, 71](图2D)。使用长读长测序进行表观遗传学分析有助于理解调控细胞基因表达的机制,并整合遗传变异和环境影响。遗传学研究表明,甲基化在肾脏疾病的遗传性中起的作用比基因表达更大[35, 72, 73]。随着长读长测序技术的应用范围扩大,有望进一步了解导致肾脏功能障碍的分子机制。

**可检测性与诊断效率**
尽管长读长测序具有明显的技术优势,但重要的是要区分改善的变异可检测性和总体诊断效率。虽然长读长测序在变异可检测性和基因组分辨率方面具有明显的技术优势,但这种技术上的改进并不一定意味着所有CKD队列的诊断效率都会有显著提高。在未经选择的成人CKD人群中,使用靶向基因组面板、外显子测序和短读长全基因组测序获得的诊断效率通常是相当的,因为许多遗传性肾脏疾病是由少数几种已经可以通过短读长测序技术检测到的基因的外显子变异引起的。因此,长读长测序额外检测到的变异(如深入内含子变异、复杂结构重排或重复序列相关变异)预计在总体诊断中的比例较小,且在人群水平上可能较为罕见。因此,长读长测序的临床价值更多在于解决诊断难题、澄清模糊结果以及在标准检测后仍无法确诊的患者中提供明确的分子诊断。现有证据表明,长读长测序主要作为一种补充或辅助策略,特别是在SRS阴性诊断路径中强烈怀疑单一基因病因的情况下[19]。

迄今为止,关于长读长测序在肾脏疾病中的应用数据主要来自特定患者群体,即那些疑似单一基因疾病或技术上具有挑战性的位点的患者,而不是未经选择的CKD人群。目前还没有研究将全基因组长读长测序应用于连续招募或未经选择的CKD队列,也没有真正盲法的SRS和长读长测序在肾脏疾病诊断效率上的直接比较。Del Gobbo和Boycott(2025)进行了最系统的罕见疾病中SRS与长读长测序的比较,显示SRS在SRS阴性病例中具有增量的诊断效率[19];然而,他们的队列并不针对肾脏疾病。这些代表了未来前瞻性评估的重要空白。

**长读长测序的局限性**
长读长测序的一个公认局限性是在全基因组应用中相对于靶向基因组面板或外显子测序,其每个碱基的覆盖率较低,这可能会限制其对低水平嵌合变异的检测能力。嵌合变异的检测本质上是具有挑战性的,因为它们通常以较低的变异等位基因频率出现,而大多数现有的嵌合变异检测算法最初是针对短读长测序开发的,针对长读长数据的专用工具只是最近才出现[74]。在一些经过标准基因检测呈阴性的常染色体显性多囊肾病(ADPKD)患者中,已经识别出嵌合致病变异,这突显了嵌合现象在CKD背景下的临床相关性[75]。检测变异通常需要较高的读长深度,而目前这更容易通过短读长靶向方法实现。因此,应将其视为补充手段而非普遍最优选择,其使用应基于具体的临床问题和先前的检测结果。

**长读长测序在CKD诊断中的应用策略**
在临床肾脏遗传学中,全基因组长读长测序(WGS-LRS)和靶向长读长测序方法的选择取决于具体的临床问题[76]。无论使用短读长还是长读长平台进行的全基因组测序(WGS)都能提供全面的基因组分析,并实现无需假设的变异发现[77, 78, 79]。然而,由于测序资源分散在整个基因组上,WGS通常比靶向富集方法在每个位点的深度较低[77]。因此,靶向策略可能在特定位点上以较低的成本提供更高的灵敏度,而WGS则提供更广泛的发现潜力,但代价是数据量增加、分析复杂性和总体资源需求增加[80]。

由于长读长测序相对于SRS具有较高的成本和较高的每读长错误率,靶向富集技术更为常见,用于增强对疾病相关基因组区域的捕获,并解决错误率问题,例如ONT平台相关的问题[81]。在一项研究中,靶向长读长测序(T-LRS)被应用于10名疑似隐性或X连锁孟德尔疾病的个体,这些个体的分子诊断在之前的检测中不完整。T-LRS通过识别结构变异、内含子变异和复杂变异,提高了诊断效率[82]。与长读长测序一起使用的常见富集策略包括:自适应采样、基于杂交的捕获、通过长范围PCR(LR-PCR)的扩增子富集以及CRISPR引导的技术,每种方法都有其独特的优势、局限性和在CKD研究中的应用。

**实时富集——自适应采样(AS)**
专门为ONT测序仪开发的一种实时、逐分子的选择性测序方法(也称为“Read Until”技术)作为传统富集方法的替代方案[83]。在测序过程中,DNA链通过纳米孔移动,产生实时电流信号,这些信号通过碱基调用解码为核苷酸序列,并随后与参考基因组对齐,文件指定了目标区域的基因组坐标。该系统为测序孔提供实时反馈,允许感兴趣的片段继续测序,同时选择性排除无信息的DNA,使孔洞可用于其他分子[83]。自适应采样的优势包括成本效率,因为它可以在一次运行中同时实现背景排除和目标富集,无需额外硬件,并且具有实时调整的灵活性,适用于不需要扩增的低输入样本[84]。在CKD研究中,自适应采样已显示出在实时富集肾脏遗传学区域方面的潜力,例如2025年的一项研究采用了一种称为Cornetto的自适应采样方法来专门富集和组装VNTR区域的MUC1位点[85]。然而,自适应采样并非毫无错误;2022年的一项研究表明,自适应采样可能因映射错误而导致错误的分子排除(即目标分子被排除,尽管这种情况很少见)、脱靶测序以及富集效率降低,特别是对于短DNA分子或大型参考数据库[86]。

**基于杂交的捕获**
基于杂交的捕获方法通常与ONT和PacBio平台一起使用。这种方法在覆盖较大的基因组区域(例如高达兆碱基)时具有高特异性和一致性,适用于复杂位点的全面变异检测,因此适合临床应用[30]。然而,这种方法也带来了成本较高、探针设计需要更多时间以及文库制备易出错等缺点。需要一个扩展且通常复杂的基因组构建协议,该协议涉及多个PCR扩增步骤,这限制了可捕获的DNA长度,并可能在重复序列或高GC(胞嘧啶- guanine)含量区域引入偏差。在极端GC含量区域,覆盖度显著下降,在这些区域的表现低于短读长下一代全基因组测序(SRS/NGS WGS)[77]。2021年的一项研究应用了PacBio LRS与杂交捕获技术来检测错配修复基因,在目标序列读取上达到了98%的准确率,并在重复序列位点实现了更好的覆盖度[56]。在ADPKD(常染色体显性多囊肾病)患者中,基于杂交的捕获技术与PacBio LRS结合使用,通过准确区分真实遗传变异和假基因伪影,提高了诊断效果[23]。在慢性肾病(CKD)诊断中,基于杂交的捕获技术对于已知的疾病位点特别有用,因为这可以增加对这些复杂或重复区域的覆盖度。

### 酶引导富集 – CRISPR-Cas方法
由于其高度的可编程性和特异性,CRISPR-Cas9系统已被应用于多种生物技术中,包括验证与CKD相关的变异[87]、基因编辑和靶向测序[88, 89]。CRISPR引导的富集使用Cas9或类似酶来切割和分离目标区域,从而实现原DNA的精确富集而无需扩增[90]。尽管在CKD领域尚未尝试使用CRISPR为基础的富集技术,但在其他领域的研究表明它具有巨大潜力。CRISPR引导的富集过程需要仔细优化引导RNA,并且在复杂样本中存在切割不完全的风险,这需要大量的技术专长和资金投入用于合成。这些因素目前限制了该方法在临床环境中的常规应用,包括其在慢性肾病(CKD)诊断中的潜在用途[91]。

### 拼接子富集 – 长距离PCR(LR-PCR)
长距离PCR(LR-PCR)使用专门的聚合酶扩增大型DNA目标,随后通过LRS生成校正错误的共识序列。其优势包括操作简便以及与PacBio圆形共识测序的兼容性,但缺点包括PCR偏差、同源区域中的伪影以及无法检测某些结构变异(SVs)[51]。在CKD诊断中,LR-PCR已被用于检测ADTKD(成人多囊肾病)中的MUC1移码变异;值得注意的是,2022年的一项研究通过将LR-PCR与ONT(Oxford Nanopore Technologies)测序结合,在临床诊断的ADTKD患者中提高了诊断准确性[62]。选择最佳的富集策略需要考虑目标区域的复杂性、样本质量和测序平台。对于CKD,杂交和LR-PCR因其对重复区域的鲁棒性而被广泛采用,而基于CRISPR的富集可以进一步提高大规模检测的成本效益和精度。总体而言,这些富集策略表明,靶向LRS方法是CKD诊断中的互补工具,最适合在特定临床环境中应用,而不是作为全基因组测序的通用替代方案[19, 23]。

#### 参考偏差、SV表示和代表性不足的人群
基因组研究通过扩大变异发现和参考数据库间接但关键地改善了临床护理,特别是通过纳入多样化和历史上代表性不足的人群[92]。像广泛使用的Genome Aggregation Database(gnomAD)这样的公开遗传变异数据集缺乏许多原住民和第一民族群体的特定人群数据[93]。大规模的研究测序工作有助于识别特定人群的单核苷酸变异和结构变异,精炼等位基因频率估计,并减少变异解释的不确定性,尤其是对于那些在现有数据库中祖先信息不足的患者[92, 94, 95]。然而,将研究基因组学转化为常规临床管理仍是一个不断发展的过程,特别是在CKD等复杂疾病方面尚未完全优化。在偏远和服务不足的社区中,通过集中化的SRS工作流程(包括样本批量处理和运输到核心测序设施)实现基因组访问的实质性扩展比通过现场LRS更有可能。便携式ONT设备如MinION非常适合于靶向或监测应用,但它们在偏远地区的大规模人群基因组学应用仍存在后勤限制。LRS在原住民和代表性不足的人群中的更多具体贡献在于结构变异的发现和表观遗传特征表征,这些是短读长方法无法实现的。这些进步代表了CKD研究和临床护理中的渐进但有意义的进展,LRS提供了SRS方法单独无法实现的互补功能。

值得注意的是,LRS在SV检测中的优势并非针对任何特定人群。然而,在SRS参考数据有限的人群(如许多原住民和第一民族群体)中,LRS从头组装提供了一种独立于参考基因组的识别结构变异的方法。Reis等人(2023年)使用Nanopore LRS鉴定出超过160,000个仅存在于澳大利亚原住民中的SVs,这些SVs在gnomAD中不存在,说明了LRS在此背景下的互补作用[99]。然而,解决数据库代表性不足问题的根本方法仍然是将更多多样化的人群纳入资金充足的SRS项目中。

#### 临床整合和实施考虑
使用LRS技术的诊断工作流程需要多个领域的紧密合作,包括医疗保健、分子生物学、生物技术和遗传学。跨学科合作至关重要,而将基因检测整合到CKD护理中面临多个系统和实际挑战。

#### 经济/可及性
基因检测能够实现肾病学中的及时和准确诊断,为治疗决策提供信息,并通过最小化漫长的诊断调查和无效治疗来潜在地降低成本。然而,其前期成本限制了其广泛采用,突显了改善这项宝贵技术可及性的必要性。由于边缘化社区获得护理的机会有限,健康不平等问题依然存在[10, 97, 105]。一项研究回顾了160个国家的CKD相关卫生政策,发现不到40%的国家有专门解决可及性问题的策略。这突显了全球在CKD预防、护理和劳动力能力方面的重大差异。低收入国家尤其受到忽视。作者呼吁全球立即采取行动,将CKD纳入国家卫生议程[106]。由于在世界许多地方获取基因筛查技术仍然是个挑战,因此基于社会经济地位、地理位置和医疗基础设施的差异导致了某些人群无法获得这些技术[107]。然而,自2019年以来,SRS的平均成本约为942美元,而使用PacBio Sequel II的LRS成本约为1,500美元,目前ONT已将人类基因组的深度为30×的测序成本降低到每人约850美元[108]。随着测序技术的进步,预计将进一步降低前期成本,有望提高全球可及性和公平整合到临床实践中的程度。

#### 伦理和法律挑战
与遗传数据相关的伦理和法律问题在阻碍进展和限制基因筛查的采用方面起着重要作用[48]。公共卫生政策越来越多地关注遗传检测相关的伦理问题,如隐私、同意和基于遗传信息的潜在歧视[109]。人们担心基因检测的可及性可能导致信息过载和与非医学特征相关数据的潜在滥用[110]。

#### 技术挑战
在基因组医学中,准确解释结构和内含子变异仍然具有挑战性。在CKD中,SVs和深内含子变异导致了某些单基因疾病的诊断难题,将LRS衍生的数据整合到共享的人群数据库(如gnomAD和ClinVar)中将直接支持临床变异分类[111]。此外,一些倡议提议将LRS与基于AI的流程和基于云的数据共享框架结合,以创建动态的学习数据库,但这些仍处于早期阶段[112]。还有不断增长的需求,需要定制分析工作流程来整合先进的生物信息学工具,以解释这些技术生成的大量数据并将其转化为有意义的见解和结论。将这些工具整合到临床实践中在很大程度上依赖于生物信息学专长和标准化协议的开发[113, 114, 115]。此外,医生对遗传学的知识存在显著差距,这进一步复杂化了其临床应用[116]。为了充分发挥基因组学在CKD中的临床潜力,必须在分子生物学家、生物信息学家和遗传学家之间进行多学科合作,并开发支持临床工作和家庭筛查的用户友好型基础设施[18]。

#### 结论和未来研究方向
除了目前在解决诊断上具有挑战性的遗传性肾病方面的作用外,LRS可能在CKD研究和精准医学的某些方面做出贡献,尤其是在技术上具有挑战性的诊断场景中。尽管其更广泛的影响将取决于成本的持续降低和分析流程的改进。通过实现对遗传、表观遗传和调控变异的更全面表征,并促进其与多组学和计算方法的整合,LRS可能在选定的临床场景中提供比SRS更大的诊断改进。要做好将基因组学发现转化为临床见解的关键步骤,还需要进一步验证LRS在理解CKD发病机制和指导治疗策略方面的贡献。最近的大规模功能基因组学研究已经开始通过将遗传变异与与CKD相关的基因表达和细胞通路联系起来来填补这一空白。来自659个肾样本的全面表达数量性状位点(eQTL)映射确定了超过9,000个影响如eGFR(肾小球滤过率)和血压等特征的细胞类型特异性基因,优先考虑近端肾小管对肾功能的影响,并指出了如ACE这样的可作为CKD治疗靶点的基因[117]。同时,CKD研究的另一个关键进展是多组学方法的整合[118, 119]。通过结合基因组学、转录组学、表观基因组学和蛋白质组学,我们获得了对导致疾病进展的复杂生物过程的更细致理解。多组学不仅填补了传统全基因组关联研究留下的空白,还有助于解释CKD所谓的“遗漏遗传率”。在计算方面,先进的机器学习算法有助于更准确地进行变异调用和表型分类。针对LRS数据特别优化的工具如DeepVariant和Clair3[120]增强了罕见或复杂遗传变异的检测。在多组学框架内,基因组学、蛋白质组学、代谢组学和转录组学的整合正在重塑疾病分类和预后预测。AI驱动的模型通过整合多生物标志物面板与临床数据,显示出在CKD风险预测和个性化治疗计划方面的潜力[119]。然而,生物标志物标准化、大规模验证和临床实施方面仍然存在挑战。

### 结论
继续扩展包括多样化和历史上代表性不足人群的基因组研究,借助SRS和LRS技术,有潜力改进所有CKD患者群体的变异解释并减少诊断不确定性[121]。未来的研究应致力于优化LRS技术的临床应用,降低其成本,识别特定人群的遗传变异以发现新的CKD标记物,并改进生物信息学工具,将大规模数据转化为可行的临床结果[122, 123]。新兴的多组学和AI技术结合LRS,必须解决临床验证、生物标志物标准化和无缝整合到常规临床实践中的挑战,这强调了持续研究的必要性[119]。解决社会和伦理问题至关重要,需要制定建立社区信任的策略,确保隐私,促进公平获取,并实施透明的利益共享,同时开展公众意识活动和遗传咨询,以帮助服务不足的社区做出明智的决策并改善CKD的预防和护理。

#### 声明
- **伦理批准和参与同意**:不适用。
- **出版同意**:不适用。
- **数据和材料的可用性**:不适用。
- **利益冲突**:AJM声明是Natera、GSK和PYC的顾问委员会成员,获得了Otsuka的差旅支持,并且是澳大利亚和新西兰肾病学会的无偿董事会成员。其他作者声明没有利益冲突。
- **作者贡献**:RSB调查了文献并撰写了初稿。JYHH提供了关于第三代基因检测技术的实质性技术建议。AJM和US监督了工作并帮助审阅和修改了手稿。所有作者都阅读并批准了最终稿件。

#### 表1
表1. 与临床基因组学相关的短读长测序(SRS)和长读长测序(LRS)的技术特性。性能指标来源于已发表的基准研究,反映了不同类型变异的具体能力。SRS在特征明确的基因组区域中对单核苷酸变异(SNVs)和小插入/删除(indels)具有高度准确性,而LRS在结构变异(SV)检测、重复扩展、复杂或高度同源位点以及单倍型分辨率方面具有优势。SRS可以通过专门的检测方法获得表观遗传信息,而某些LRS平台能够在单次测序运行中直接检测原生DNA的碱基修饰[49, 60, 124, 125, 126]。缩写:SNV——单核苷酸变异;indel——插入/缺失;SV——结构变异;CNV——拷贝数变异;F1——F1分数(精确度和召回率的调和平均值);bp——碱基对;kb——千碱基对;ONT——Oxford Nanopore Technologies。

空细胞SRSLRS参考文献:
SNV/indel检测性能(临床应用):F1值约0.98–0.99(Illumina);F1值约0.95–0.98(PacBio HiFi);F1值约0.90–0.96(ONT,具体取决于模型)。

基于Genome in a Bottle基准测试数据集的性能指标[49, 127, 128]:
- 每个读取的碱基准确度:
- 高:约99.8–99.9%
- 低:约99.8%(PacBio HiFi);约95–98%(ONT,具体取决于化学过程/模型)[49]
- 成本效益(取决于临床场景):
- 低成本;适用于常规SNV检测
- 前期成本较高;但在结构复杂或未明确的情况下可减少后续检测需求[44]
- 流通量:
- 高:每次运行可处理数百到数千个样本
- 中等:样本多重检测能力有待提升[22, 125]
- 时间效率:
- 一般:基于批次的工作流程,结果输出较慢
- 高:支持实时测序与分析[22, 129, 130]
- SV检测:
- 部分可以检测(主要针对CNV;断裂点分辨率较低)
- 可以同时检测SV(尤其是平衡型SV、重复相关SV及复杂重排结构)[50, 131]
- 表观遗传修饰检测:
- 间接检测:需要单独的实验方法
- 直接检测:与测序同时进行[132, 133]
- 最大读取长度:
- 约150–300 bp
- 10–25 kb(PacBio HiFi);>100 kb(ONT)[22, 27, 49, 134]
- 未引用的参考文献:
96.; 98.; 100.; 101.; 102.; 103.; 104.; 96.; 98.; 100.; 101.; 102.; 103.; 104.

生物通微信公众号
微信
新浪微博


生物通 版权所有