基于DNA的可扩展记忆高效树计算实现可解释分子决策

时间:2025年11月22日
来源:Nature Communications

编辑推荐:

本刊推荐:为解决DNA计算在算法可解释性、效率和可扩展性方面的局限,研究人员开展了基于DNA链置换反应级联的决策树系统研究。该系统将分类规则模块化嵌入DNA分子,支持超过10层的级联网络、13个决策树的并行计算(涉及333条链),并能与DNA甲基化传感模块耦合,将生物标志物谱转化为分子指令,实现疾病亚型准确分类。该研究为可解释、可编程的智能分子机器开辟了新途径。

广告
   X   

在数字时代海量数据产生的背景下,对能够高效、可扩展处理信息的计算范式需求日益迫切。DNA分子计算凭借其固有的生物相容性和可编程性,不仅作为传统硅基计算的替代方案,更成为直接在生物样本中分析多种生物标志物的强大生物计算工具。然而,现有的连接主义模型(如人工神经网络)通常作为计算“黑箱”运行,其决策过程可解释性有限,这限制了其在医疗诊断等需要高可解释性场景的实际应用。相比之下,基于决策树的算法通过明确的IF-THEN规则语句和可追溯的决策路径提供可解释的决策,但该算法在DNA计算范式中仍未得到充分探索。以往的酶辅助或无酶逻辑门方法间接映射决策树规则,牺牲了可解释性和可扩展性,并且无酶系统存在信号泄漏和衰减问题,使得电路组成精细且深度受限(通常不超过6层)。此外,模仿电子学布尔范式的DNA计算设备存在巨大的内存成本,即使基本操作也需要大量不同的DNA链。因此,迫切需要一种能够以可扩展且内存高效的方式直接实现决策树计算的DNA计算系统。
为了解决上述挑战,研究人员在《Nature Communications》上发表了题为“Interpretable molecular decision-making with DNA-based scalable and memory-efficient tree computation”的研究论文。该研究开发了一种无酶DNA计算系统,通过将决策规则符号化地表示并在可编程、模块化、可扩展的基于DNA的决策树中实现,以可解释的方式完成多样化的决策任务。
研究人员主要运用了几项关键技术方法:首先,设计了模块化的DNA分子编码决策节点,通过抗泄漏的熵驱动链置换反应级联实现树遍历;其次,开发了独特趾介导特异性节点激活(UTMSNA)策略,确保同一决策树内或不同树间节点的正交性操作,为构建随机森林(RF)分类器奠定基础;再者,利用分子倒位探针(MIP)和连接酶介导的探针环化反应(LPCR)进行DNA甲基化传感,将甲基化水平(如β值)转化为分子指令;此外,设计了模拟-数字转换器,将环化探针转化为代表不同甲基化阶段的单链DNA指示剂;最后,通过荧光动力学实验在96孔板中实时监测树遍历过程,并对数据进行标准化处理以量化输出链浓度。研究还使用了来自NCBI GEO数据库的DNA甲基化芯片数据集(如GSE108124、GSE218549)来训练随机森林和决策树模型。

基于DNA的决策树计算概述

决策树通过嵌入在由边和节点连接的遍历路径中的规则实现明确的计算方案,而非建立从输入到输出的隐式数学映射。在分子水平,每个节点由一组具有四个不同序列结构域(父节点、当前节点、边标识符、子节点)的DNA双链体编码。遍历指令由具有两个结构域(当前节点和连接边)的单链DNA输入编码。每个节点通过三个连续状态操作:未遍历、激活和遍历。底层机制是熵驱动的链置换反应级联,其中从一个反应物释放两个产物增加了系统熵,使过程在热力学上有利。这种双产物释放能够实现激活剂的快速周转和稳健的信号中继。
为了实现具有最小泄漏和传播延迟的多跳遍历,研究人员探索了各种设计策略。为了有效抑制泄漏,他们为每个节点设计了一个趾状结构扩展过滤器。该过滤器优先消除低浓度的伪激活剂,同时允许高浓度的特异性激活剂不受阻碍地传播。基于充分表征的趾介导链置换(TMSD)反应动力学,将其趾长设置为8 nt(反应速率达到平台区的范围),并优化了过滤器与节点编码双链体的化学计量比。熵增加提供了信号传播的驱动力,而泄漏过滤器选择性去除低水平噪声,确保计算结果的高保真传输。

遍历10层决策树

一个10层DNA编码决策树的性能值得关注。与先前通常限于少于6层且在更深层级联中表现出信号衰减的无酶DNA计算系统相比,该DNA编码树计算系统在10层之间展示了稳健的长距离信号传输。泄漏保持在20%以下,而预期输出产量在所有计算层中保持相似水平,ON-OFF对比度在所有层中保持稳定,表明提供过量的输入链可以维持多层遍历而不影响信号保真度。关键的是,计算10层的半完成时间在60分钟以内,并且从6层到10层增加极小。
1/2)。误差棒代表3个生物学重复的标准偏差。源数据作为源数据文件提供。'>

在单个决策树中嵌入逻辑规则

为了将决策规则纳入分子决策树,研究人员构建了一个简单的二叉树并检查其决策性能。结果显示所有输入实例都能通过遍历正确路径做出期望决策。为了处理更复杂的任务,他们设计了一个具有丰富横向连接(同一层节点之间)以及自上而下连接的多分支树。其决策有效性经过测试,仍然观察到正确的响应,所有测试案例中仅有低水平的泄漏信号。这再次证明了分子决策树准确处理输入信息并生成正确分类结果的能力。

集成多个决策树构建随机森林算法

为了进一步展示可扩展性和并行性,该树计算系统被用于实现随机森林(RF)算法,这是一种通过多数投票聚合来自多个独立决策树的集成预测的机器学习模型。为确保集成中每个决策树的独立操作,研究人员设计了独特趾介导特异性节点激活(UTMSNA)策略。在UTMSNA中,节点编码双链体中起始趾的序列由其父节点唯一决定,因此只有父节点衍生的激活剂与起始趾完全互补,而来自其他节点的激活剂含有错配。实验测量证实,即使在趾或分支迁移结构域存在单个错配也会显著降低激活效率。这种拓扑特异性激活允许相同的决策节点(无论它们是否代表同一实体)被放置在同一个决策树内的不同位置甚至跨不同的树中。这种反应正交性为实现随机森林奠定了基础,其中每棵树独立处理输入特征。为了聚合每棵树的输出,他们采用了基于DNA的赢家通吃(WTA)网络,该网络依赖于协同杂交反应选择性地放大与最频繁输出对应的信号,从而通过多数投票选择最频繁的分类结果。
验证性实验表明,基于DNA的随机森林可以基于其所有树的集体投票将集成预测整合到最终决策中。作为一个大规模并行计算树,该分子森林包含46个节点和96条边,总共包含126个双链计算元件和333个参与寡核苷酸,形成一个单一计算系统。这种可扩展性超过了大多数先前报道的DNA计算系统。

在DNA编码决策树中嵌入诊断规则

在建立并验证了DNA编码决策树和随机森林的计算性能后,研究人员试图将临床衍生的诊断规则整合到DNA编码决策树中。首先,他们构建了一个用于诊断不同乙型肝炎病毒(HBV)感染亚型的二进制决策树。每个节点代表一个病毒遗传标记或抗体相关生物标志物,可用于对HBV感染亚型进行分类。使用合成DNA输入评估该分型决策树的性能。观察到所有组合都能准确遍历决策树以生成正确的分类结果,与其他通道的信号重叠最小。值得注意的是,具有许多相同属性值的输入组合仍然给出了正确的输出,表明UTMSNA能够选择性地激活拓扑不同的节点,即使它们象征相同的实体。
在展示了单树分类器之后,研究人员接下来通过串联两个决策树用于糖尿病的诊断和亚分类来验证系统的多功能性。使用代表各种疾病谱的合成输入组合展示了树级联上的顺序遍历,串联集成的树产生了与人工判断100%一致的期望输出。除了单个变量,将线性分类器符号化为决策节点并构建混合模型也很有意义。线性分类器的集成支持更复杂的任务,如多类别和非线性分类。作为演示,将几个线性分类器构建到决策节点中,共同构成节点分裂条件,其中每个分裂以涉及两个变量的问题形式进行评估。当以自上而下的方式连接时,输入空间可以被划分为六个细分部分,展示了处理更复杂的非线性和多分类任务的通用性。

基于甲基化生物标志物的胸腺瘤分型DNA编码决策树

虽然合成输入可以通过模拟生物标志物信息来启动树遍历,但DNA编码决策树的真正潜力在于其整合基于DNA的生物标志物传感模块的能力,从而能够基于实际的生物标志物信息执行诊断分类任务。为了超越人工输入的使用,研究人员选择5-胞嘧啶DNA甲基化(最常见的DNA甲基化形式)作为胸腺瘤分型中自主传感和决策的测试平台。利用嗜热9°N DNA连接酶,他们设计了分子倒位探针(MIP),通过位点特异性分子内杂交和连接酶介导的探针环化反应(LPCR)来识别感兴趣的CpG位点。核酸外切酶会消化残留的线性探针,留下环化探针用于下游处理。通过这种方式,每个CpG位点的甲基化水平被转化为甲基化和非甲基化特异性环化MIP的混合群体,其比例由甲基化靶标的比例决定。LPCR性能通过量化系列浓度靶标模板下的环化产物产量、用交叉测试的甲基化和非甲基化特异性MIP验证连接特异性以及通过交叉验证五个CpG靶向MIP对靶标和非靶标亚硫酸氢盐转化合成模板评估交叉反应性来评估。这些结果证实了甲基化传感模块的高灵敏度和特异性。此外,设计了一个模拟-数字转换器,将环化MIP转化为代表不同甲基化阶段的单链DNA指示剂。该转换器可以可靠地将线性或环化MIP转化为指定的单链DNA指示剂。当Δβ至少远离分类阈值0.05时,定量评估表明该决策树的DNA编码版本可以产生正确的分类结果,而边界区域附近(Δβ ≤ 0.05)的分辨率仍然是模拟-数字转换器的限制。
0.60)的单链DNA输出。e 在DNA甲基化芯片数据集上训练的用于胸腺瘤分型的决策树。f 从模拟样本获得的六种代表性遍历轨迹的荧光动力学,每种对应不同的诊断结果。模拟样本通过以预定义甲基化比例预混合亚硫酸氢盐转化序列制备;遍历路径在图中标明。g 17个测试样本的分类,比较计算机(X轴)和基于DNA的决策树预测(Y轴)。Cg#1-Cg#5分别对应cg02906557、cg18121066、cg26007358、cg22795586、cg15252509。RFU:相对荧光单位。源数据作为源数据文件提供。'>
接下来,研究人员训练了一个胸腺瘤分型决策树,并验证了其DNA编码版本在使用环化MIP作为输入时能够产生期望的动力学行为。其在17个测试样本中的性能进一步得到评估,这些样本中合成亚硫酸氢盐转化的DNA序列在五个CpG位点以预定义的β值混合,以重建用于训练决策树分类器的甲基化矩阵。经过基于LPCR的传感和基于核酸外切酶的清理后,它们的模拟-数字转换产物被用来启动DNA编码决策树上的遍历。输出分析显示分子计算与计算机模型预测之间具有100%的一致性(17/17一致)。通过整合甲基化传感、模拟-数字转换和决策树遍历,甲基化谱可以直接处理为分类结果,而无需依赖合成的遍历指令,表明DNA编码决策树可以与生物标志物传感模块接口,将树计算系统的范围扩展到多样化的生物医学应用。
该研究通过符号化表示决策规则并在可编程、模块化、可扩展的基于DNA的决策树中实现它们,以可解释的方式实现了多样化的决策任务。DNA编码决策树的模块性降低了内存成本,消除了在决策逻辑更新时传统双轨布尔电路所需的大量重新布线。关键的是,DNA编码决策树在计算上更紧凑。随着节点和边数量的增加,布尔计算范式的电路复杂性呈现多倍增长。相比之下,决策树计算系统以三倍更少的DNA元素实现了等效功能,有效消除了冗余电路组件。为了促进基于DNA的决策树的设计,研究人员开发了一个基于Java的自动序列生成器,以产生实验演示用户定义树所需的编码分子序列。虽然计算紧凑,但DNA编码决策树在参与的DNA计算组件方面表现出显著的可扩展性,在单一基于扩散的无酶DNA计算系统中包含126个双链和333个单链物种。尽管实验演示了高达10层的级联,但观察到的泄漏积累趋势表明,该系统原则上可以在达到关闭状态阈值之前支持额外的层。
虽然这项研究专注于无酶DNA计算框架,但与酶系统进行比较也很有意义。酶系统具有显著优势,特别是在错误纠正、信号可调性和非线性分类方面。在酶系统中,信号链由聚合酶合成并被核酸外切酶迅速降解,创建了一个动态的生产-降解循环,作为内在的错误纠正机制来抑制伪链的积累,并能够实现更深层、更非线性的网络,具有紧凑的系统和尖锐的决策边界。相比之下,无酶DNA链置换系统将所有反应物预加载到一个反应体系中。意外相互作用(如毛边诱导的链置换或脱靶结合)的持续可能性可能触发背景激活,尤其是在多层级联中。为了缓解这些问题,本研究结合了多种策略,如泄漏过滤器来消除伪信号,UTMSNA确保树间独立性,以及仔细的序列设计以减少非特异性反应。这些特性使系统能够可靠地执行超过10层的树计算。无酶系统具有明显的优势,如成本效益和在环境条件下操作,但由于TMSD在较低反应物浓度下动力学较慢,它们通常需要纳摩尔级的输入浓度。这对液体活检等实际应用提出了重大挑战,其中生物标志物通常以皮克/毫升或更低的浓度存在。相比之下,酶系统提供更高的灵敏度并可以支持模拟放大与可编程增益,使其特别适合超灵敏生物传感。尽管如此,一些有前景的策略已被开发出来以加速TMSD反应,而无需从根本上重新设计DNA电路,包括基于DNA折纸的定位、专用酶以及应用商业可用的阳离子聚合物,这些聚合物通过静电吸引DNA链以局部增加其有效浓度和反应速率。这些加速策略为调整无酶系统以适应临床相关的低丰度生物标志物检测提供了一条有希望的途径。
当前机器学习模型缺乏复杂任务所需的高级推理能力限制了其在生物医学中的潜在应用。如上所述,研究人员预计利用基于DNA的决策树将在解决这一挑战方面提供三个显著进步。首先,基于树的模型明确表示逻辑推理的固有能力使其具有高度可解释性,因为它们清楚地概述了影响决策的生物标志物或症状,从而在医疗决策支持等应用中培养可靠性。其次,将决策规则整合到分子系统中使得能够将复杂算法编码到生物基质中,弥合计算逻辑和分子智能之间的差距。第三,基于DNA的决策树与线性分类器的结合例证了基于树的DNA计算方案如何将不同范式(符号主义和连接主义)整合到一个混合模型中,该模型能够在分子水平感知和响应环境信号,为能够进行高级诊断和精准医疗的智能生物医学平台的开发铺平道路。这些进步将基于DNA的树计算系统定位为融合计算精度和生物相关性的变革性工具,并将激发分子智能在生物、医学、工程和各种其他领域的广泛应用。

生物通微信公众号
微信
新浪微博


生物通 版权所有