Eduardo Avila | Cássio Ritzel | Márcio Dorn | Clarice S. Alho | Alessandro Kahmann
巴西南里奥格兰德联邦大学数学与统计研究所,阿雷格里港
摘要
目前的亲子鉴定分析方法通常基于这样一个假设:孩子与父母基因型之间观察到的大多数不匹配现象都源自父亲。此外,许多不一致性通常被视为突变事件的产物,在评估统计结果时也会考虑到这一前提。最近的高密度基因型数据表明,单亲二体性(UPD)的发生频率比之前认为的要高。因此,在计算亲子关系的似然比(LR)时必须考虑UPD的可能性,尤其是在突变事件与逐步STR突变模型不兼容的情况下。本研究提出了一个基于面向对象贝叶斯网络(OOBN)模型的统计框架,同时考虑了突变事件和UPD等异常遗传模式的可能性。使用GeNIe Academic软件设计了一个OOBN用于此任务,并用python语言编写了计算工具,后端使用了pmgpy包。通过使用包含所有遗传模式的三百万个模拟亲子案例的数据来测试该模型,并评估其识别和区分突变及UPD事件的能力。所提出的方法能够成功评估亲子关系的LR值,包括对突变和UPD事件的统计处理。对于UPD情况,位于单个染色体上的STR标记会生成一个独特的亲子指数(PI)值,从而避免因多次突变事件导致的亲子概率低估。该模型提供了基于人群频率和案例相关遗传数据的突变或UPD发生概率的LR估计。模型中包含了三种类型的UPD,并根据证据提供了每种类型的概率。最后,开发的计算工具可以处理大型数据集,提高了证据纳入和评估过程的可扩展性。当观察到的证据存在差异可能是由于非典型遗传情况所致时,所提出的方法有助于评估亲子鉴定数据。
引言
目前的亲子鉴定实践认为,孩子与疑似父亲的基因型之间的不匹配仅由两种过程引起:突变事件或方法学伪影(如沉默/空等位基因)[1],[2]。除了明显的非整倍体外,其他异常遗传模式可能难以检测或识别。特别是单亲二体性(UPD),即两条同源染色体来自单一父母的情况,这一点特别值得关注:它的存在会通过改变等位基因传递的独立性前提,影响亲子指数的统计显著性[3],[4]。基于高密度遗传数据的研究表明,UPD的整体发生频率比之前认为的要高(因为以前是根据与UPD相关的病理综合征的发病率来估计的)[5]。对于某些特定染色体,UPD的频率可能接近某些STR突变率[5],[6]。在这种情况下,遗传证据的权重必须反映这种罕见事件在亲子鉴定中的发生概率[7],[8]。
Liehr[9]回顾了导致UPD的不同异常分子机制。因此,根据从父母传给后代的染色体类型,可以观察到这种状况的不同形式:(i) 单亲异源二体性(hetUPD),由减数第一次分裂期间的非分离引起,导致两条同源染色体来自单一父母;(ii) 单亲同源二体性(isoUPD),其特征是来自单一父母的一条同源染色体有两个相同的拷贝,由减数第二次分裂期间的非分离引起;以及(iii) 部分同源二体性(partUPD),发生在减数第一次或第二次分裂后的交叉互换之后,产生一条染色体中同时存在hetUPD和isoUPD片段的混合排列[4],[5],[9]。需要注意的是,每种类型的UPD都会导致不同的遗传传递模式,这可能会影响生物关系测试的统计解释[4]。
当前的STR基因突变模型(基于DNA复制过程中的逐步突变)可能与亲子鉴定中观察到的基因型差异不兼容[10]。基于全基因组测序的最新STR突变率估计[11],[12]表明,大多数等位基因变化可以用逐步突变模型来模拟[10],其中绝大多数等位基因长度的变化表现为一个或两个重复基序的添加或丢失[11]。因此,异常的遗传传递(如在UPD案例中观察到的)可能是导致遗传关系测试差异的原因,尤其是在等位基因变化与聚合酶滑移机制不兼容的情况下[13]。在这种情况下,正确分析基因型对于准确识别和统计评估这些事件对LR估计的影响至关重要[4]。
具体到UPD,目前没有关于涉及此类事件的亲子鉴定案例的统计处理方法的正式建议[1],[2],[14],[15],[16]。实践者和分析师通常采用传统的统计方法来评估UPD案例的基因型,将等位基因差异视为突变事件的结果[13]。当考虑UPD发生假设时,没有普遍接受或推荐的概率模型用于评估遗传证据[17]。Cavalheiro等人[4]提出了一个统计框架,用于处理亲子 trio中与UPD相关的CPI值的统计评估。然而,该方法的前提是先假设亲子关系和UPD假设都成立,然后据此评估遗传证据的权重:首先使用传统统计方法确定亲子关系(确认或拒绝);其次,在确认亲子关系后,假设“疑似父亲是真实父亲”,再进行新一轮计算,以验证在UPD假设或其他类型的遗传继承下亲子关系是否更有可能。最后,如果接受UPD假设,则需要根据该前提重新计算CPI。简而言之,在进行UPD评估之前,必须先确定、决定并接受真实的亲子关系假设。然而,开发一种不同的方法可能很有必要,该方法可以利用STR数据来辅助识别UPD事件,以及结果的评估和解释[13]。
作为亲子鉴定中UPD问题概率建模的一种可能方法论替代方案,贝叶斯网络(BN)有潜力为解决这一问题提供理论基础。BN是一种描述联合概率分布的图形模型[18]。这些模型使用称为有向无环图(DAG)的图形元素,由表示变量的节点和与每个可能状态相关的概率分布组成[19]。节点之间的条件依赖关系由弧表示,这些弧象征节点之间的因果关系或相关性,并以层次结构方向性地展示[20]。这些条件分布允许评估网络中所有变量的联合概率。此外,证据可以插入网络(选择一个或多个节点中的特定状态),从而评估这些节点对网络中所有其他变量联合概率的影响[19]。总体概率分布可以分解为所有BN节点中建立的较小个体条件概率的乘积,简化了概率计算[21]。
为了便于BN的设计和构建,网络中相似或相同的组件被归类为实例节点,它们可以代表BN中的特定过程或上下文[22]。这种层次化方法允许构建由单一概率模型描述的类,[23]。这种称为面向对象贝叶斯网络(OOBN)的方法对于存在重复模式的网络架构非常有用,这些模式可以用单个对象表示,从而改善复杂模型中的网络图形表示[24]。这种架构便于对问题进行模块化处理,特别是在遗传问题中,如孟德尔遗传或突变过程在个体间的重复性[22]。
之前已有研究描述了在源头、子源头或次级源头级别采用BN模型评估法医遗传证据的便利性[25],[26]。不同的作者[24],[27],[28]成功展示了将这种方法应用于亲子鉴定。最初,这种方法被提出作为亲子鉴定中的概率模型[29],[30]。后来,基因型中的不匹配被纳入作为突变的概率方法[20]。从BN的角度讨论了遗传传递问题中固有的不同生物学方面,以及其他法医相关问题。这些问题包括评估替代突变模型[20],[31],[32],[33],从复杂混合物中获取的基因型贡献者的反卷积[34],[35],[36],[37],检测基因型中的方法学伪影,如等位基因缺失或沉默和空等位基因[22],[38],[39],将人群亚结构或等位基因依赖性纳入概率模型[40],复杂的家系图重建或评估远亲关系[41],[42],调查与疑似父亲密切相关的个体[37],[44],[43],灾难受害者识别[45],或在基因数据库中的搜索[46],以及其他法医遗传学应用。然而,到目前为止,文献中还没有考虑异常遗传模式(尤其是UPD的发生)的模型,用于评估亲子概率[44],[47]。
本研究旨在提出一个基于OOBN的概率模型的一般结构,该模型可以灵活地表示大多数亲子 trio案例,包括一些异常的遗传继承模式。网络架构旨在处理滑移突变事件以及所有三种类型的UPD案例。使用所提出的工具进行案例分析的结果不仅包括亲子 trio案例的CPI,还包括评估在UPD传递模式下观察到的遗传证据或在没有UPD假设下的基因型情况的额外LR。
本研究中提出的OOBN架构基于之前发布的专门用于表示和评估法医背景下遗传传递的网络[22],[27],[30]。增加了额外的节点和链接,以及对每个节点相关的条件概率的所有必要调整,以表示UPD和突变事件。使用计算工具GeNIe 2.5.5408.0 Academic™(BayesFusion™ LLC)对得到的OOBN进行了建模和测试。
网络被组织成层次结构,以便于描述。介绍了一组基本的简单类网络,象征着基本的、重复出现的法医和遗传相关过程。类网络的特点是具有接口(输入和输出节点)以及内部节点。这种模块化构建方法用于表示案例中的多种证据及其概率关系。
在亲子鉴定中,不能忽视UPD发生对遗传证据统计评估的影响。本研究提出了一种基于面向对象贝叶斯网络的概率模型。该模型旨在作为在发现孩子与父母基因型不匹配情况下的遗传数据统计评估的通用框架。即使存在不同的生物学机制,该模型也被证明在CPI计算中是有用的。
Eduardo Avila:撰写 – 审稿与编辑,撰写 – 原稿,可视化,验证,软件,方法论,调查,形式分析,数据整理,概念化。
Cássio Ritzel:撰写 – 审稿与编辑,软件,调查,形式分析。
Márcio Dorn:撰写 – 审稿与编辑,软件,资源。
Clarice S. Alho:监督,资金获取。
Alessandro Kahmann:撰写 – 审稿与编辑,验证,监督,方法论,调查,形式分析。
作者声明没有已知的利益冲突。
作者感谢Dr. Xxxxxxxx Xxxxxxx的宝贵贡献。本工作得到了巴西高等教育人员培训协调机构CAPES、国家科学研究委员会CNPq和南里奥格兰德研究基金会FAPERGS的财政支持,资助编号分别为#00000/0000–0 (CNPq/CAPES) 和 #00/0000–0000000-0 (FAPERGS)。