CrystalFlow:基于流模型的晶体材料生成方法及其在结构预测中的应用

时间:2025年10月21日
来源:Nature Communications

编辑推荐:

本研究针对晶体结构预测中采样效率低、对称性保持难等问题,提出了基于连续归一化流和条件流匹配的生成模型CrystalFlow。通过结合等变图神经网络和对称性感知数据表示,该模型能够高效生成晶格参数、原子坐标和原子类型,在MP-20和MPTS-52等基准测试中达到与最先进模型相当的性能,且比基于扩散的模型节省约90%的积分步数。该工作为材料发现提供了高效可靠的生成工具,推动了人工智能在材料设计中的应用。

广告
   X   

在材料科学领域,准确预测晶体中原子的稳定排列方式——即晶体结构预测(CSP)——是一个长期存在的挑战。这个问题可以归结为在材料势能面(PES)上的全局优化任务,由于势能面的维度随着晶胞中原子的数量线性增加,而局部极小值的数量呈指数级增长,使得传统计算方法在探索广阔晶体空间时面临严重的可扩展性问题。
近年来,深度学习生成模型为这一领域带来了新的希望。特别是在图像生成、蛋白质设计等领域取得显著成功的生成模型,与快速扩展的材料数据库相结合,为高效采样晶体空间提供了有前景的策略。然而,现有方法仍存在明显局限:基于扩散的模型通常需要大量积分步骤,导致计算效率低下;而基于字符串的语言模型难以捕捉晶体的内在对称性。
在这项发表于《Nature Communications》的研究中,研究人员提出了CrystalFlow,这是一个专门为解决晶体生成建模领域关键挑战而设计的先进生成模型。该模型将连续归一化流(CNFs)与条件流匹配(CFM)框架相结合,通过基于图的等变神经网络和对称性感知数据表示,有效模拟晶格参数、原子坐标和原子类型。
CrystalFlow采用了一种对称性感知的设计,通过显式结合晶体系统的周期性E(3)对称性(包括置换、旋转和周期性平移不变性),实现了数据高效学习、高质量采样和灵活的条件生成。模型架构中,晶体结构被表示为M=(A,F,L),其中A表示原子类型,F为分数坐标,L为晶格矩阵。为了确保晶格表示的旋转不变性,研究人员采用了通过极分解的旋转不变参数化方法。
研究团队在多个基准数据集上系统评估了CrystalFlow的性能。在MP-20和MPTS-52数据集上的晶体结构预测任务中,CrystalFlow达到了与最先进模型相当或更优的匹配率(MR)和均方根误差(RMSE)。特别是在更具挑战性的MPTS-52数据集上,CrystalFlow在四个模型中表现最佳。值得注意的是,在推理时间方面,CrystalFlow比基于扩散的模型DiffCSP快约一个数量级,这主要归因于流模型所需的积分步骤显著减少。
在MP-CALYPSO-60数据集上的进一步评估展示了CrystalFlow在条件生成方面的强大能力。该数据集包含657,377个晶体结构,涵盖86种元素和79,884个独特化学组成。当以化学组成和外部压力为条件时,CrystalFlow能够生成各种压力条件下的晶体结构。密度泛函理论(DFT)计算表明,即使积分步骤低至S=100,CrystalFlow生成的结构也比Cond-CDVAE生成的结构具有更低的焓值,表明其能够生成更物理合理的晶格和几何构型。
局部优化后的分析显示,CrystalFlow生成的结构收敛率更高,所需的离子步数更少。在积分步骤S=5000时,CrystalFlow平均需要39.82个离子步数,比Cond-CDVAE所需的45.91步减少13.3%。在SiO2的案例研究中,CrystalFlow生成的结构在局部优化过程中表现出更低的能量曲线,表明其初始结构更接近局部极小值,需要更少的弛豫即可达到稳定。
在逆向生成(DNG)任务中,CrystalFlow同样表现出色。在MP-20数据集上,模型在结构有效性、组成有效性、覆盖率等指标上达到与现有模型相当的性能。特别值得注意的是,在以形成能为目标属性的条件生成任务中,CrystalFlow生成的结构在经过几何优化后,其形成能分布与目标值更加吻合。
技术方法方面,研究主要采用连续归一化流(CNF)和条件流匹配(CFM)框架,结合等变图神经网络(GNN)构建生成模型。模型训练使用独立耦合变体的CFM(I-CFM)框架,其中条件变量z由初始点和终点对(x0, x1)定义。晶格表示采用旋转不变的参数化方法,分数坐标采用环绕高斯分布来保持周期性。评估使用Materials Project和CALYPSO数据库的晶体结构数据,通过密度泛函理论(DFT)进行结构优化和能量计算。
CrystalFlow模型
研究人员设计了基于连续归一化流的生成模型,通过结合等变图神经网络和对称性感知数据表示,实现了对晶体结构的高效生成。模型采用独立耦合的CFM框架,确保了概率路径的对称性保持特性。
CSP性能在MP-20和MPTS-52数据集上
在MP-20和MPTS-52基准测试中,CrystalFlow在匹配率和均方根误差方面达到与最先进模型相当或更优的性能。特别是在MPTS-52数据集上表现最佳,同时推理速度比扩散模型快约一个数量级。
CSP性能在MP-CALYPSO-60数据集上
在包含高压结构的大规模数据集上,CrystalFlow展现出优秀的条件生成能力。DFT计算表明,即使使用较少积分步骤,生成的结构也能更好地符合目标压力条件,且优化收敛性更佳。
DNG性能在MP-20上
在逆向生成任务中,CrystalFlow在结构有效性、组成有效性、覆盖率等指标上表现competitive,特别是在目标属性条件生成方面展现出潜力,为逆向材料设计提供了有效工具。
该研究的创新之处在于将流基生成模型成功应用于晶体结构预测领域,通过对称性保持的架构设计和高效的采样策略,解决了现有方法在计算效率和对称性保持方面的局限。CrystalFlow不仅为晶体结构预测提供了新的解决方案,其条件生成能力还为针对特定应用场景的材料设计开辟了新途径。研究人员指出,未来工作可进一步探索积分策略、先验分布选择对生成质量的影响,以及将模型扩展到更大多样性数据集和多属性约束场景中的应用潜力。
这项研究展示了人工智能技术在材料科学中的强大应用前景,为加速新材料发现和设计提供了重要工具。通过深度融合生成建模技术与材料领域知识,CrystalFlow为晶体生成建模领域的发展奠定了坚实基础,有望推动材料发现进入新的发展阶段。

生物通微信公众号
微信
新浪微博


生物通 版权所有