用于晶体生成的对称性感知贝叶斯流网络(Symmetry-aware Bayesian Flow Networks)

时间:2026年5月21日
来源:npj Computational Materials

编辑推荐:

新型结晶材料的发现对于科学和技术进步至关重要。然而,由于巨大的搜索空间,传统的试错法效率低下。机器学习的最新进展使得生成模型能够通过结合结构对称性来预测新的稳定材料,并根据所需属性对生成进行条件约束。在这项工作中,研究人员介绍了SymmBFN,一种用于结晶材料

广告
   X   

新型结晶材料的发现对于科学和技术进步至关重要。然而,由于巨大的搜索空间,传统的试错法效率低下。机器学习的最新进展使得生成模型能够通过结合结构对称性来预测新的稳定材料,并根据所需属性对生成进行条件约束。在这项工作中,研究人员介绍了SymmBFN,一种用于结晶材料生成的新型对称性感知贝叶斯流网络(BFN),该模型准确地再现了实验观察到的晶体中空间群(space group)的分布。SymmBFN显著提高了效率,以相似甚至更优的质量,生成稳定结构的速度至少比次优方法快一个数量级。此外,研究人员展示了其属性条件生成的能力,从而能够设计具有定制属性的材料。研究人员的发现确立了BFN作为加速结晶材料发现的有效工具。
论文解读:对称性感知贝叶斯流网络(SymmBFN)在晶体生成中的应用
研究背景与意义
结晶材料的发现和设计对于推动能源、电子和可持续发展等领域的技术进步至关重要。传统的新材料探索依赖于传统的试错法,但由于晶体结构庞大的组合搜索空间,这种方法效率极低。近年来,机器学习(Machine Learning, ML)的发展为材料研究带来了变革,尤其是生成式模型(generative models)能够通过提出具有目标属性的新颖且真实的晶体结构候选者,来加速材料设计。早期的晶体生成模型如CDVAE(Crystal diffusion variational autoencoder)以及后续的扩散(diffusion)模型(如DiffCSP)或流匹配(flow matching)模型(如FlowMM),虽然在生成新颖稳定结构方面展现了潜力,但仍存在明显局限。首先,这些模型在处理晶体结构中的异质变量(连续的原子分数坐标和晶格参数,以及离散的原子类型和位点对称性)时,通常需要复杂的建模选择或离散化方案。其次,为了生成高质量样本,基于扩散和流的方法往往需要大量的积分(去噪)步数,导致计算成本高昂。此外,许多现有模型忽视了空间群(space group)对称性的内在结合,导致生成样本中很大比例属于低对称性的空间群P1,这与自然界中实际观测到的晶体对称性分布严重不符。因此,开发一种能够高效生成符合真实世界对称性分布、处理异质变量且计算高效的晶体生成模型势在必行。该论文发表于《npj Computational Materials》,提出了SymmBFN模型,确立了贝叶斯流网络(Bayesian Flow Network, BFN)在晶体材料加速发现中的有效性。
主要关键技术方法
研究人员开展了一种名为SymmBFN(对称性感知贝叶斯流网络)的新型晶体生成模型研究。该模型基于贝叶斯流网络(BFN)框架,并引入了对称性感知的晶体结构表示法。关键技术包括:1. 采用不对称单元(asymmetric unit)而非传统完整晶胞(unit cell)来表示晶体,仅生成不对称单元内的原子分数坐标、原子类型、位点对称群(site symmetry groups)以及晶格参数,随后通过对称性操作重建完整晶胞,这降低了生成空间的维度并固有地强制执行了欧几里得不变性(Euclidean invariances)。2. 利用BFN原生支持异质变量(连续和离散/分类数据)在同一框架下统一建模的优势,分别对分数坐标和晶格(连续数据)、原子类型及位点对称性(离散/分类数据)应用相应的BFN实例。3. 通过映射到规范代表性子空间(canonical representative subspace,包括规范晶格和周期性平移不变的分数坐标)来确保模型对欧几里得群(旋转和平移)的不变性,避免了在非欧几里得流形上扩展BFN的复杂性。4. 使用基于EGNN(E(n) equivariant graph neural network)架构的图神经网络作为BFN的输出网络,并在生成时引入空间群采样与掩码机制以约束对称性。模型训练与评估主要基于MP-20数据集(来自Materials Project,包含40,476个晶体结构),并在Perov-5和MPTS-52数据集上进一步评估;稳定性评估统一使用CHGNet,属性(形成能、带隙)计算使用M3GNet。
研究结果
Metrics(指标)
研究人员沿用了晶体生成领域的标准评估指标,包括密度(ρ)分布和单胞内独特元素数量分布的Wasserstein距离;生成结构与测试集之间空间群分布的Jensen-Shannon距离(使用pymatgen的SpacegroupAnalyzer计算);以及评估从头生成(de novo generation)性能的S.U.N.率(稳定Stable、唯一Unique、新颖Novel的比例)。此外,研究人员引入了两个新的成本指标,即生成稳定材料和S.U.N.材料所需的平均计算时间,以量化模型效率。
Dataset(数据集)
所有模型在MP-20数据集(Materials Project的子集,最多20个原子/晶胞,60-20-20划分)上进行训练与基准测试。形成能和带隙属性通过M3GNet计算。此外,还在Perov-5数据集(18,928个钙钛矿材料,5个原子/晶胞)和MPTS-52数据集(Materials Project的更具挑战性子集,最多52个原子/晶胞,按时间划分)上进行了评估。
CSP
研究人员还在晶体结构预测(Crystal Structure Prediction, CSP)任务上训练了模型。由于SymmBFN需要在生成开始时采样空间群,其CSP任务设置与不明确结合晶体对称性的基线方法略有不同。
De novo generation(从头生成)
在MP-20数据集的基准测试中,SymmBFN在所有属性指标上与最先进的模型(如DiffCSP、FlowMM、DiffCSP++、SymmCD、CrystalFormer、CrysBFN)相比具有竞争力。重要的是,仅DiffCSP++、SymmCD、CrystalFormer和SymmBFN能通过空间群分布的Jensen-Shannon距离准确建模晶体对称性。SymmBFN仅用100个采样步数即实现了具有竞争力的结果,采样效率突出。在较大的MPTS-52数据集上,紧凑的不对称单元表示大幅减小了计算图大小,SymmBFN在稳定性和S.U.N.率上明显优于SymmCD和CrysBFN。在成本指标上,SymmBFN的计算成本显著低于任何其他方法,证明其适用于大规模材料发现筛选。即使在仅从MP-20中10个最常见空间群采样时,仍能覆盖大部分数据分布并保持竞争力。
Property-conditioned generation(属性条件生成)
研究人员展示了SymmBFN在属性条件生成上的能力,条件属性包括每个原子形成能(formation energy per atom)和带隙(bandgap)。通过在生成时指定不同的目标值(分布模值、尾部及分布外值),模型能可靠生成与目标属性对齐的结构。即使目标值远离训练集良好表示区域(如-4 eV/atom的形成能)或训练集分布高度不平衡(如带隙0值过多),模型仍能有效提出具有所需属性的稳定结构,证明了其在逆向材料设计中的实用性。
Ablation study(消融研究)
通过对比SymmBFN、使用完整晶胞的SymmBFN基线变体(相同欧几里得BFN)以及CrysBFN(完整结构、非欧几里得BFN),研究人员量化了各组件收益:欧几里得公式本身比CrysBFN的非欧几里得BFN一致提速约1.75倍;不对称单元表示带来的增益随体系大小增加,对于大型MPTS-52结构超过6倍。SymmBFN从MP-20到MPTS-52的缩放因子仅1.14倍,远低于基线的3.31倍和CrysBFN的3.39倍,证明对称性感知表示与欧几里得BFN公式结合在扩展到更大晶体结构时效率显著更高。
讨论与结论
在讨论部分,研究人员总结道,SymmBFN通过显式结合晶体对称性生成与自然观测更一致的晶体,且通过允许针对特定目标属性进行条件约束,促进了面向所需应用的结构发现。相较于先前基于扩散模型的方法,BFN框架能够将包括位点对称群和单个原子元素在内的所有目标变量结合到统一框架中。SymmBFN在生成稳定和新颖结构方面取得了具有竞争力的结果,同时提供了实质性的提速(比以往生成模型快40倍以上),消除了先前方法的采样瓶颈,确立了BFN作为晶体生成的有效框架。SymmBFN的高效性和多功能性使其成为加速材料设计的有前途工具,能够以较低计算成本生成稳定的、属性定向的结构,使得大规模筛选研究成为可能。未来工作将侧重于扩展到与实际应用相关的多属性条件生成,并探索实验合成,因为成功的合成仍是最终目标且不能仅通过计算指标完全捕获。

生物通微信公众号
微信
新浪微博


生物通 版权所有