一个包含120万个分子的数据集，这些分子配备了基于密度泛函理论（DFT）的量子化学注释，用于分子表示学习

时间：2026年5月27日

来源：Communications Chemistry

编辑推荐：

摘要为了通过机器学习准确预测分子性质，提供详细的分子表示是前提条件，但这需要大规模的数据集，并且这些数据集应包含丰富的物理化学信息以支持有效的学习过程。在这里，我们介绍了qcMol数据集，该数据集包含120万个分子，并附有基于密度泛函理论（DFT）级别的量子化学注释，旨在促进分子

摘要

为了通过机器学习准确预测分子性质，提供详细的分子表示是前提条件，但这需要大规模的数据集，并且这些数据集应包含丰富的物理化学信息以支持有效的学习过程。在这里，我们介绍了qcMol数据集，该数据集包含120万个分子，并附有基于密度泛函理论（DFT）级别的量子化学注释，旨在促进分子表示的学习。该数据集中的化学物质包括类药物化合物、代谢物以及具有匹配实验数据的分子，涵盖了247,448种分子骨架和广泛的分子尺寸范围。qcMol中的每个化合物都通过可靠的量子化学计算获得了多个量子描述符，这些计算采用了B3LYP-D3/def2-SV(P)//GFN2-xTB方法以及后续的波函数后处理。这些特征被组织成多种格式，可以灵活地集成到不同的分子表示学习框架中。qcMol不仅可以作为预训练资源，还可以作为机器学习模型的基准测试集，从而有助于实际的计算机辅助药物发现过程。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部