DNA钻石:一种可分解复合字母星座模型推动高密度DNA数据存储

时间:2026年2月1日
来源:Nature Communications

编辑推荐:

本研究针对DNA数据存储中复合字母难以区分和分子多样性高导致的恢复可靠性问题,提出了名为DNA钻石的可分解复合字母星座模型。该模型包含15个可分解点,通过两阶段字母检测框架和双端索引编码技术,在八字母系统中实现2.5 bits/letter的存储密度(14×覆盖度下无误恢复),在15字母系统中达到3.125 bits/letter的存储密度(33×覆盖度下无误恢复),为高密度DNA数据存储提供了实用化解决方案。

广告
   X   

随着数字信息爆炸式增长,传统数据存储介质面临物理极限挑战。脱氧核糖核酸(DNA)因其超高存储密度和长期稳定性,成为最具潜力的新型存储方案。然而,当前DNA合成技术固有的寡核苷酸多重性特性,在提升逻辑密度的同时,也带来了字母不可区分性和分子多样性等关键技术瓶颈,严重影响数据恢复的可靠性。
在《Nature Communications》发表的最新研究中,科研团队创新性地提出DNA钻石模型——一种由15个可分解点构成的复合字母星座模型。该研究借鉴电信领域的集合划分思想,开发出基于离散熵的两阶段字母检测框架,将复合字母划分为四个可区分子集。同时引入双端索引编码消除合成位点间串扰,结合长度过滤技术有效抑制读取出错传播。
关键技术方法包括:1)构建15点可分解星座模型;2)基于熵分区的两阶段检测算法;3)双端索引编码设计;4)长度过滤错误控制。研究使用10,000条复合链进行验证,分别测试八字母和全15字母系统的性能。
模型构建与验证
通过数学建模构建具有几何对称性的钻石型星座,每个点代表特定核苷酸组合。实验表明该结构在合成测序过程中具有最优的区分度。
存储密度优化
八字母系统实现2.5 bits/letter payload密度,较传统六字母系统提升40%,且仅需14×覆盖度即可实现无误恢复。
错误控制机制
双端索引设计将合成错误率降低两个数量级,长度过滤技术有效阻断错误传播链,使15字母系统在33×覆盖度下达到3.125 bits/letter的存储密度。
研究证实DNA钻石模型通过可分解星座设计和多重错误控制策略,显著提升复合字母DNA存储的可靠性和密度。该系统为实现EB级DNA数据存储提供了关键技术支撑,其模块化设计也为未来扩展更高阶字母系统奠定基础。该工作标志着DNA信息存储从概念验证向实用化迈进的重要一步。

生物通微信公众号
微信
新浪微博


生物通 版权所有