编辑推荐:
摘要为了通过机器学习准确预测分子性质,提供详细的分子表示是前提条件,但这需要大规模的数据集,并且这些数据集应包含丰富的物理化学信息以支持有效的学习过程。在这里,我们介绍了qcMol数据集,该数据集包含120万个分子,并附有基于密度泛函理论(DFT)级别的量子化学注释,旨在促进分子
为了通过机器学习准确预测分子性质,提供详细的分子表示是前提条件,但这需要大规模的数据集,并且这些数据集应包含丰富的物理化学信息以支持有效的学习过程。在这里,我们介绍了qcMol数据集,该数据集包含120万个分子,并附有基于密度泛函理论(DFT)级别的量子化学注释,旨在促进分子表示的学习。该数据集中的化学物质包括类药物化合物、代谢物以及具有匹配实验数据的分子,涵盖了247,448种分子骨架和广泛的分子尺寸范围。qcMol中的每个化合物都通过可靠的量子化学计算获得了多个量子描述符,这些计算采用了B3LYP-D3/def2-SV(P)//GFN2-xTB方法以及后续的波函数后处理。这些特征被组织成多种格式,可以灵活地集成到不同的分子表示学习框架中。qcMol不仅可以作为预训练资源,还可以作为机器学习模型的基准测试集,从而有助于实际的计算机辅助药物发现过程。

生物通 版权所有