迈向基于知识的工作流程：一种用于机械和热力学性质原子级模拟的语义方法

时间：2026年5月16日

来源：Advanced Engineering Materials

编辑推荐：

摘要机械和热力学性质，包括晶体缺陷的影响，对于评估工程应用中的材料至关重要。分子动力学模拟为这些机制在原子尺度上提供了宝贵的见解。然而，当前的做法通常依赖于元数据不一致且来源有限的碎片化脚本，这阻碍了可重复性、互操作性和重用性。FAIR数据原则和基于工作流的方法为解决这些限制

摘要

机械和热力学性质，包括晶体缺陷的影响，对于评估工程应用中的材料至关重要。分子动力学模拟为这些机制在原子尺度上提供了宝贵的见解。然而，当前的做法通常依赖于元数据不一致且来源有限的碎片化脚本，这阻碍了可重复性、互操作性和重用性。FAIR数据原则和基于工作流的方法为解决这些限制提供了一条途径。我们提出了可重用的原子级工作流，这些工作流结合了与应用本体对齐的元数据注释，实现了自动的来源记录和符合FAIR标准的数据输出。这些工作流涵盖了关键的机械和热力学量，包括状态方程、弹性张量、机械载荷、热性质、缺陷形成能以及纳米压痕。我们展示了结构-性质关系的验证，例如Hall-Petch效应，并表明这些工作流可以在不同的原子间势和材料中重复使用，同时保持一致的语义框架。该方法提供了适合人工智能（AI）的模拟数据，支持新兴的代理AI工作流，并为基于知识的机械和热力学模拟建立了一个可推广的蓝图。

1 引言

原子级建模为理解材料的机械性质、缺陷动态和相变过程提供了基础。与其他计算研究一样，它历史上是通过非标准化的脚本来进行的，这些脚本结合了方法选择、参数和分析步骤。向系统化工作流和高通量基础设施的转变，如Materials Project [1, 2]、AFLOW [3] 和 NOMAD 仓库 [4]，显示了对可扩展和可重复计算方法论的强烈需求。基于工作流的自动化也被证明对于开发和验证机器学习原子间势（MLIPs）非常有价值，例如通过支持数据生成、势能拟合和大规模验证的框架 [5]。随着密度泛函理论（DFT）、经验势和MLIPs不断扩展模拟的范围和保真度，产生的数据量及其复杂性都在增加，这就迫切需要结构化和互操作的方法 [6]。基于这些发展，分子动力学（MD）技术变得越来越强大。然而，尽管取得了显著进展，它们仍然面临着与上述非标准化工作流和数据表示相关的挑战。大多数研究依赖于碎片化的、基于脚本的模拟，其中输入参数、分析步骤和方法论假设都保存在单一的输入文件中。这种元数据和来源的缺乏标准化使得跨研究小组甚至在同一项目内随时间重复模拟协议变得困难。工作流的重复使用通常受到限制，特别是在切换使用不同软件的建模方法时，每种软件都有其自己的约定和文件格式。此外，模拟输出很少集成到更广泛的研究数据基础设施中，这限制了它们的可访问性和重用性。基于API的倡议，如OPTIMADE [7] 和 PLUMED [8]，有助于促进原子模拟数据的透明度和可重复性，但没有解决这里讨论的更深层次的语义和互操作性挑战。因此，向FAIR研究数据的转变对于推进计算材料科学至关重要。FAIR原则要求数据是可查找的、可访问的、可互操作的和可重复的，这反过来又需要标准化的元数据和机器可读的来源 [9]。对于材料科学社区来说，FAIR数据实践可以开启新的研究方向，并需要共享的、领域意识到的元数据 [10, 11]。语义互操作性对于实现跨研究比较、结合不同模拟方法的结果以及将计算数据与实验测量结果整合尤为重要。材料科学本体已被证明在以一致的方式注释元数据的同时，能够捕捉材料、方法和工作流的复杂描述 [12, 13]。这些语义表示为知识图谱和人工智能（AI）工作流提供了基础，这些工作流可以搜索、解释和推理大量模拟数据。新兴的AI技术越来越依赖于结构化的知识表示来支持推理和决策 [14]。材料科学知识图谱通过以机器可读的格式编码材料、模拟方法和研究属性之间的关系来提供这些能力。这种结构允许下游任务，如复杂查询、结构-性质关系的验证、建模策略的自动选择以及高维数据景观的快速探索。因此，富含语义元数据的工作流非常适合成为下一代AI辅助材料研究的支柱。尽管存在几种用于原子级特别是DFT模拟的工作流引擎 [15-17]，但大多数缺乏支持互操作和可重复工作流所需的语义严谨性或领域特异性。当前的标准化努力主要集中在电子结构数据上，很少扩展到对工程应用至关重要的机械性质、热力学量或晶体缺陷能量的计算。因此，目前还没有一个统一的框架能够在不同模拟方法之间语义上捕捉机械行为和热力学过程。我们提出了用于原子级模拟机械和热力学性质的工作流节点的语义注释。在这项工作中，我们使用“基于知识的工作流”这一术语，指的是明确的知识表示，其中预定义的工作流与本体对齐的语义注释、来源记录和知识图谱集成相结合，使工作流输出成为机器可读的、可互操作的和可查询的。这为未来发展的更高级知识驱动能力奠定了基础。所提出框架的数据流程在图1中进行了示意。它专门用于计算状态方程、弹性张量、压缩和拉伸载荷、纳米压痕、热膨胀系数、比热、吉布斯自由能和缺陷形成能。我们展示了这些工作流在不同经验势下的可重复性，包括EAM、MLIPs和通用MLIPs。我们还展示了针对物理洞察的目标查询，例如Hall-Petch强化定律的验证。因此，我们提供了一个可推广的框架，它结合了可重用的特定属性工作流节点与语义注释和知识图谱集成，实现了符合FAIR和AI标准的原子数据，用于系统比较、验证和重复使用与工程相关的机械和热力学性质。图1在图查看器中打开。

2 方法论

2.1 整体科学工作流

我们的方法论遵循一个整体科学工作流，如图2所示。它包括两个计算阶段：(i) 用于属性计算的模拟工作流和 (ii) 语义注释和知识图谱创建阶段。模拟工作流包括创建或导入原子结构、系统平衡、生产MD模拟和后处理。模拟工作流由具有明确定义的输入和输出的独立工作流节点组成，以及一个明确的执行顺序。在这两个计算阶段之间，得到的数据和元数据会经过一个验证步骤，在此步骤中，用户会筛选出适合包含在知识图谱中的结果。经过验证的结果随后会被语义注释并集成到知识图谱中。图2在图查看器中打开。

2.1.1 验证步骤

在当前的工作中，验证是指在知识图谱摄入之前对模拟工作流的输出进行的一系列质量控制检查。这些检查确保只存储物理上有意义且一致的结果。典型的验证标准包括平衡过程中热力学量的收敛性、计算属性（如弹性常数或能量）的物理合理范围。具体的验证标准取决于工作流的类型（即正在计算的材料属性）、数据的预期用途以及底层模型的预期保真度。在当前的实现中，这一步主要由用户手动执行，用户会筛选出适合包含在知识图谱中的结果，尽管根据属性和用例，这部分可以部分自动化。在支持信息（第S1节）中提供了一组代表性的验证检查清单，以及直接集成到工作流中的验证示例。为了确保第1节所述的完全可重复性，对于用于属性计算的模拟工作流，我们采用了一个工作流管理系统，将模拟过程形式化为离散的、可追溯的单位。工作流的每个步骤都在粗粒度级别上定义，对应于一个明确的科学任务，并表示为一个具有明确定义的输入和输出的独立工作流节点。许多现有系统，如pyiron [15]、jobflow [16] 或基于文件的框架（如Common Workflow Language (CWL) [18]，采用了类似的结构范式。我们使用pyiron软件 [15]，采用基于图形和节点的实现 [19]，来构建和执行属性计算的模拟工作流。我们选择它的原因是它能够直接处理复杂的Python对象，而无需基于文件的序列化。除了定义核心Python函数外，唯一的额外要求是使用一个装饰器，它使得可以将多个节点组合成一个完整且可执行的工作流。除了pyiron提供的功能外，我们还设计了各个工作流节点以具有上下文意识：每个节点生成一个包含其相应步骤的全面科学元数据的Python字典。这些元数据记录随后被汇总，并在验证后用于在KG创建阶段构建知识图谱，提供了工作流及其执行环境的结构化和机器可解释的表示，详见第2.3节。列表1展示了一个示例，说明了使用指定的原子间势计算给定系统状态方程的完整工作流。在这种情况下，属性计算阶段包括生成初始结构，并使用大规模原子/分子并行模拟器（LAMMPS）在一系列体积下进行MD模拟，每个步骤的输出直接传递到下一个步骤。每个步骤的元数据被汇总，然后在KG创建阶段解析到知识图谱中。列表1在图查看器中打开。

2.2 属性计算工作流

如2.1节和2.3节所讨论的，我们提出了从原子模拟预测材料属性的工作流，这些工作流是可扩展的、可重复的，并且在技术和语义上都是互操作的。在本节的其余部分，我们简要描述了属性计算工作流背后的科学背景。包括所有输入参数的完整工作流集可在相应的仓库 [22] 中找到。本工作中的所有原子模拟都是使用LAMMPS [23] 执行的。为了确保工作流之间的可重复性和可比性，我们使用了一组一致的基本配置参数。我们使用金属单位系统 [24]，该系统适用于金属材料，并以电子伏特为单位提供能量，以皮秒为单位提供时间。一般来说，模拟协议遵循一个标准化的顺序：速度从目标温度的高斯分布开始初始化，系统在等温-等压系综中平衡以消除残余应力并建立热平衡，然后进行生产模拟，在此过程中记录相关的物理量。所有模拟都利用了LAMMPS提供的域分解和并行化功能，从而能够在大型系统和高性能计算集群上高效执行工作流程。

2.2.1 状态方程：平衡体积和体积模量
状态方程，或能量-体积曲线，描述了系统总能量随其体积在平衡附近的变化。状态方程可以提供许多材料属性，如平衡能量和体积，以及体积模量。此工作流程的第一步是创建原子结构。我们首先放松结构，然后在给定的体积范围内计算能量。我们使用Birch-Murnaghan状态方程[25]计算给定输入原子结构在不同体积下的能量，并拟合得到的数据。相应的模拟工作流程包括结构（结构生成）、放松结构（结构放松）和ev_curves（能量-体积采样和状态方程拟合）等节点。

2.2.2 弹性属性：弹性常数和派生模量
弹性常数是晶体材料的基本属性，用于表征弹性范围内应力与应变之间的关系。各向异性材料的弹性张量有21个分量，表示为一个6x6矩阵。体积模量量化了材料对均匀压缩的抵抗能力，而剪切模量则表明了材料在不同晶体学方向上对剪切变形的抵抗能力。泊松比定义了在单轴应力作用下横向收缩与纵向伸长之间的关系。在本工作中，对于立方晶体，报告的标量泊松比是使用相应公式推导出来的。这些量可以根据弹性常数通过公式（1）计算得出。我们首先创建一个原子结构，然后通过变形模拟盒子并测量应力响应来计算这些量，遵循LAMMPS[26]中的方法。相应的模拟工作流程包括结构（结构生成）和弹性（弹性张量计算和弹性模量推导）等节点。

2.2.3 机械加载：应力-应变响应
我们提供了两种常见的机械响应测试的工作流程，这些测试可以在分子动力学（MD）模拟中进行：压缩测试和拉伸测试。这些测试可以单轴或静水压力进行，并能够计算多种机械属性，包括刚度、屈服应力、流动应力以及压力下的相变或相稳定性指标。首先创建原子结构，然后使用atomsk[27]根据这种方法在0 K下生成给定晶粒尺寸的多晶结构。该多晶结构首先在高温下平衡，随后在目标较低温度下平衡以消除初始应力并实现真实的晶界结构。然后，样品在z轴上以指定的应变率受到静水压缩或单轴拉伸。在模拟过程中，记录应力响应和模拟单元的变形。相应的模拟工作流程包括结构（初始结构生成）、多晶（多晶生成）和拉伸（机械加载和应力-应变响应计算）等节点。在后处理阶段，记录12%-15%应变时的应变和流动应力。

2.2.4 热属性：热膨胀和比热
在这里，我们计算热膨胀系数和比热，这些参数描述了温度与系统机械响应之间的耦合。为此，首先创建一个原子结构，然后在等温-等压系综（NPT）中平衡该结构。平衡阶段之后，在同一系综中进行MD模拟，并记录每个时间步长的内能。从这个系综的波动中，可以确定恒压下的比热[28]。
相应的模拟工作流程包括以下节点：体积（单元格生成）、结构（超胞构建）和热（热膨胀和比热计算）。

2.2.5 自由能计算：吉布斯自由能和相稳定性
吉布斯自由能决定了压力下的相稳定性。我们提供了计算吉布斯自由能和亥姆霍兹自由能的工作流程。自由能计算从创建原子结构开始，然后在给定的温度和压力下平衡结构。接着使用非平衡热力学积分方法计算该温度和压力下的晶体自由能，随后确定压力函数的自由能。这两种方法都按照calphy[29]中的实现方式使用。相应的模拟工作流程包括以下节点：体积（单元格生成）、结构（超胞构建）和自由能（计算自由能，作为热力学条件的函数）。

2.2.6 纳米压痕：硬度和载荷-位移响应
纳米压痕是一种广泛用于研究硬度、弹性模量以及位错破裂条件和应力诱导相变的技术，不仅在实验中，也在分子动力学模拟中应用[30]。该过程涉及将纳米压头移动到待测试材料表面，然后进行压痕以评估材料属性。纳米压痕模拟工作流程旨在模仿实验测量协议，以提供对材料在原子水平上的机械响应的洞察。工作流程的不同步骤包括创建原子结构、准备具有适当表面几何形状的基底和真空层，随后进行热平衡以消除任何残余应力，然后使用垂直球形压头以恒定速度压入材料表面。这使得能够记录原始力-深度曲线以及指定时间间隔的带时间戳的原子配置，从而可以分析这些数据以计算模量和硬度的拟合曲线，以及检测突变点及其幅度。相应的模拟工作流程包括以下节点：结构（结构生成）、压痕（纳米压痕模拟），以及根据需要用于分析的辅助节点，如read_final_structure、plot_force_depth、plot_temperature和plot_centrosymmetry。

2.2.7 缺陷能量学：点缺陷形成能
与晶体缺陷相关的一个重要量是形成能。在这里，我们提供了计算作为宿主金属基质中点缺陷的原子形成能的工作流程。工作流程从创建原始原子结构并计算其总能量开始。随后生成含有替代或间隙缺陷的结构，再进行第二次总能量计算。然后使用以下公式计算缺陷形成能：
其中是包含H原子的宿主结构的总能量，X原子占据间隙或替代位点，表示具有相同数量H原子的相应宿主金属超胞的总能量，表示参考配置中X原子的参考能量。相应的模拟工作流程包括以下节点：体积（体积结构生成）、结构（超胞构建）和缺陷（创建空位、创建替代或创建间隙、缺陷创建）以及放松（缺陷结构的放松）。最终形成能是从放松后的体积和缺陷能量中使用相应的形成能表达式获得的。

2.3 语义注释和知识图谱创建
遵守FAIR原则[9]要求使用元数据来描述数据。具体来说，在互操作性方面，元数据应使用正式的、可访问的、共享的、广泛适用的知识表示语言，标准选择是RDF或OWL[31, 32]。这些正式要求通过NFDI-MatWerk[33]等社区级倡议得到解决，其目标是支持互操作材料研究数据的语义标准的发展和协调。本工作中使用的领域特定语义工件是在这一背景下开发的。除了遵守FAIR原则外，材料科学中的语义互操作性还有助于表达结构-属性关系，从而将物理知识注入数据本身。为了描述本文生成的数据的元数据，我们使用计算材料样本本体（CMSO）[34, 35]和原子模拟方法本体（ASMO）[35, 36]。CMSO包含了与计算样本相关的概念，包括材料规格、晶体结构和模拟盒子。然而，ASMO描述了用于建模的方法，在这种情况下是MD、原子间势能和模拟算法。工作流程方面使用provenance ontology PROV-O来表示，这是一个轻量级的W3C标准本体，定义了一组用于描述不同应用领域中的来源信息的概念[37]。如图1所示，每个工作流程运行的元数据存储在一个概念字典中，这是一个Python字典，其键与必要的本体类对齐。在图3a所示的示例中，ConceptualDict对象汇总了每个步骤生成的元数据，从而实现后续的语义集成。然后使用atomRDF软件[35, 38]将字典的JSON或YAML表示序列化为RDF三元组；图3b显示了示意图。主要对象是计算样本和模拟实例。

2.3.1 语义注释和知识图谱创建
遵循FAIR原则[9]要求使用元数据来描述数据。具体来说，在互操作性方面，元数据应使用正式的、可访问的、共享的、广泛适用的知识表示语言，标准选择是RDF或OWL[31, 32]。这些正式要求通过NFDI-MatWerk[33]等社区级倡议得到解决，其目标是支持互操作材料研究数据的语义标准的发展和协调。本工作中使用的领域特定语义工件是在这一背景下开发的。除了遵守FAIR原则外，材料科学中的语义互操作性还有助于表达结构-属性关系，从而将物理知识注入数据本身。为了描述本文生成的数据的元数据，我们使用计算材料样本本体（CMSO）[34, 35]和原子模拟方法本体（ASMO）[35, 36]。CMSO包含了与计算样本相关的概念，包括材料规格、晶体结构和模拟盒子。然而，ASMO描述了用于建模的方法，在这种情况下是MD、原子间势能和模拟算法。工作流程方面使用provenance ontology PROV-O来表示，这是一个轻量级的W3C标准本体，定义了一组用于描述不同应用领域中的来源信息的概念[37]。如图1所示，每个工作流程运行的元数据存储在一个概念字典中，这是一个Python字典，其键与必要的本体类对齐。在图3a所示的示例中，ConceptualDict对象汇总了每个步骤生成的元数据，从而实现后续的语义集成。然后使用atomRDF软件[35, 38]将字典的JSON或YAML表示序列化为RDF三元组；图3b显示了示意图。主要对象是计算样本和模拟实例。

3 应用案例
如2.3节所述，我们使用了一个框架，该框架允许我们在可重复的工作流程中生成原子模拟数据，同时使用本体对数据进行注释，并将元数据序列化为RDF三元组。在本节中，我们通过展示三个用例来展示该框架的实用性：（i）我们在一个原型材料系统上应用这些工作流程，并将计算出的材料属性与现有数据进行比较；（ii）我们展示了如何使用这些工作流程来比较不同模型中的材料属性；（iii）我们验证了结构-属性关系。这些代表了计算材料科学领域中的常规和重要任务。在用例（ii）和（iii）中，我们特别展示了如何使用本体与工作流程来形式化关于生成数据的方法和材料系统的物理意义的知识。我们的目标是展示使用带有语义描述的生产FAIR数据的附加价值，以加速材料科学的研究过程。

3.1 在原型材料系统上的演示
在这个用例中，我们在铁这种原型系统上应用我们的工作流程。铁是一种具有多个稳定相和广泛验证的原子间势能的公认参考材料，适合用于基准测试和展示我们工作流程的通用性。选择原子间势能对于准确表示材料属性至关重要。在整个工作中，我们使用了一种嵌入式原子方法[39]势能（称为EAM01[40]），因为它适用于预测铁在压力下的属性，包括压力诱导的相变。对于状态方程（2.2.1节），我们使用相应的单元格对体心立方（bcc）、面心立方（fcc）和六方密排（hcp）晶体结构进行了计算。Birch-Murnaghan状态方程的结果以0.5%的间隔显示在图4a中。正如预期的那样，bcc结构被确定为Fe的基态，而fcc和hcp结构表现出非常相似的能量。使用这种势能得到的体积模量为177 GPa，与实验计算的值170 GPa[41]相符。体积模量也可以使用2.2.2节中描述的方法计算，以及完整的弹性张量。张量元素和派生模量在表1中总结。图4：在图查看器或PowerPoint中打开

使用EAM01势计算的面心立方（bcc）Fe的热物理性质：(a) 与Fe中不同晶体结构的能量-体积曲线对比；(b) 随晶粒尺寸增加的流动应力；(c) 比热容；(d) 热膨胀系数；(e) 面心立方到体心立方（hcp）的相变压力函数；(f) 硬度和纳米压痕试验中的力。表1：选定的计算性质与文献中的参考值的比较。

**本工作**
**参考文献**

**体积模量（GPa）**
177–178
170 [41]

**剪切模量（GPa）**
116
116 [41]

**剪切模量（GPa）**
49
48 [41]

**泊松比（–）**
0.37
0.3679 [41]

**弹性常数（GPa）**
243
239 [41]

**弹性常数（GPa）**
145
136 [41]

**弹性常数（GPa）**
116
116 [41]

**比热容（293 K时，J/gK）**
0.49
0.45 [42]

**热膨胀系数（293 K时，K）**
53–58
[43]

**压力（bcc到hcp，GPa）**
13.5
13.75 [40]

我们采用两种工作流程来计算材料系统的力学响应：应力-应变曲线（第2.2.3节）和纳米压痕（第2.2.6节）。我们专注于单轴拉伸试验（第2.2.3节），并创建指定晶粒尺寸的多晶bcc Fe结构，首先在600 K温度下平衡，然后在目标温度10 K下平衡。接着沿z轴以一定的应变率施加单轴拉伸。对于所有晶粒尺寸，多晶结构包含超过1000万个原子，模拟持续400皮秒。图4b显示了两种晶粒尺寸（25和70）的应力-应变曲线。曲线清楚地显示了低应变下的弹性区域，随后是屈服点以及高应变下的流动应力区域。我们进一步按照Luu等人[44]采用的模拟程序和硬度计算方法进行纳米压痕（第2.2.6节）。在图4f中，我们展示了随着压痕深度增加的力和硬度。这些例子共同证明了我们的工作流程框架支持从纳米压痕示例中的数万个原子到大规模多晶拉伸模拟中的更多原子的原子级系统的模拟。在每一步捕获的结构化元数据确保了完整的模拟设置（包括晶粒生成参数、施加的加载条件以及所有热力学细节）存储在知识图中。这些数据可以被查询和分析，从而实现生成数据的重用。比热容和热膨胀系数可以使用第2.2.4节中的工作流程来计算。对于这些计算，我们使用了一个由6750个原子组成的bcc晶格的Fe系统。模拟在零压力下进行，温度范围不同。每次模拟持续1纳秒，并在整个过程中记录瞬时能量和体积。计算出的值显示在图4c中。我们的结果与实验观察值0.45 [42]吻合良好。不同温度下的原子体积也得到了确定，如图4d所示。热膨胀系数可以从方程（3）以及图4d的斜率中获得。使用这两种方法，我们分别在293 K时计算了相应的值。这两个值都超过了实验观察到的系数[43]，表明EAM01势捕捉到了温度依赖性，但在这个范围内表现出增加的非谐性。我们使用第2.2.5节中描述的工作流程计算了12–15 GPa压力范围内Fe的bcc和hcp晶体结构的自由能。我们在100 K下进行计算，并对两种晶体结构使用了大约2000个原子的系统大小。bcc到hcp的转变压力是从bcc和hcp相的自由能曲线的交点确定的，得到的值约为13.5 GPa。这个结果与之前的理论计算[40]和实验观察[45]一致。最后，我们使用第2.2.7节中描述的工作流程研究了铁中碳杂质的能量学。碳原子占据bcc Fe中的八面体位点和替代位置。这种情况下的计算能量在表2中报告，模拟单元大小为，包含250个Fe原子。

3.2 通过自动化工作流程执行评估原子间势

在分子动力学（MD）模拟中，计算出的性质通常强烈依赖于所选的原子相互作用模型，即原子间势。因此，需要进行系统的验证测试来识别和选择适合给定材料或感兴趣的性质的合适势。在这里，我们展示了我们工作流程框架的两个关键优势。首先，工作流程是完全可重用的，可以轻松适应不同的原子间势而无需修改。其次，因为元数据在工作流程的每个阶段都被记录下来，所有关于势的相关信息（包括其类型、来源和参考文献）都会被自动捕获并链接到生成的数据中。作为一个代表性的例子，我们计算了12种不同原子间势的体积模量和弹性常数。这包括10种EAM势（EAM01–EAM10）[40, 48-56]，以及一种原子簇扩展（ACE）MLIP [57]和一种通用图原子簇扩展（GRACE）势[46]。本工作中使用的所有原子间势的完整列表在支持信息（S2节）中提供。得到的值存储在ConceptualDict对象中，随后被解析到知识图中，实现了结构化数据存储和语义查询。这种方法允许直接使用SPARQL查询数据。然而，制定SPARQL查询可能是一项复杂的任务，通常需要详细了解底层本体[58]。因此，我们使用tools4RDF库来帮助基于所使用的本体生成查询[59]。尽管如此，我们仍然明确地展示了SPARQL查询，以提高清晰度并帮助理解本体谓词的应用方式。列表3展示了一个基于CMSO和ASMO本体的SPARQL查询示例，它检索了体积模量值及其计算中使用的相应势。基于本体的结构确保所有数据都以语义一致和机器可解释的方式存储。列表3在图查看器或PowerPoint中打开。

SPARQL查询检索体积模量值以及相关的原子间势和参考文献。我们使用的软件基础设施包括工作流程节点、工作流程执行环境、概念字典和知识图创建例程，确保所有模拟中使用相同的晶体结构，并且知识图中的每个模拟条目都保留了完整的元数据，包括原子间势和计算参数的详细信息。列表2中的SPARQL查询得到的体积模量值显示在图5a中。

图5：从知识图中获取的SPARQL查询结果：(a) 体积模量和(b) 弹性常数，以及不同的EAM势。(c) 使用GRACE [46]模型计算的Fe中替代杂质（X = Cu, Si, Al, Mg）的形成能。类似的SPARQL查询用于弹性常数，提供了相应的提取值，显示在图5b中。这展示了如何从知识图中程序化地检索特定材料性质及其完整的来源信息。这种基于本体的数据表示增强了不同模拟工作流程之间的互操作性，并促进了数据和元数据在更广泛的材料科学研究生态系统中的重用。我们展示了另一个使用GRACE [46]模型计算缺陷形成能的示例。相应的SPARQL查询在列表4中给出。这个例子突出了使用我们的基于本体的工作流程时可获得的功能。当通过替换原子引入替代缺陷时，工作流程会自动注释结果样品包含替代缺陷。因此，SPARQL可以用来检索所有包含替代杂质的样品。在传统的工作流程中，只存储原子位置，这样的信息很容易丢失，识别缺陷可能需要手动检查。SPARQL查询返回了缺陷形成能以及系统中存在的化学物种。结果显示在图5c中，并在表3中列出。计算出的Fe中的替代缺陷形成能与DFT值[60]吻合良好，Cu、Si、Al和Mg缺陷的偏差最多为0.2 eV。这些例子共同展示了我们的基于本体的工作流程如何实现原子间势的系统比较，并提供了适合大规模分析的语义丰富数据。

表2：使用GRACE势[46]计算的Fe中C的形成能，以金刚石中的C作为参考。

3.3 通过自动化工作流程执行评估原子间势

在MD模拟中，计算出的性质通常强烈依赖于所选的原子相互作用模型，即原子间势。因此，需要进行系统的验证测试来识别和选择适合给定材料或感兴趣的性质的合适势。在这里，我们展示了我们工作流程框架的两个关键优势。首先，工作流程是完全可重用的，可以轻松适应不同的原子间势而无需修改。其次，因为元数据在工作流程的每个阶段都被记录下来，所有关于势的相关信息（包括其类型、来源和参考文献）都会被自动捕获并链接到生成的数据中。作为一个代表性的例子，我们计算了12种不同原子间势的体积模量和弹性常数。这包括10种EAM势（EAM01–EAM10）[40, 48-56]，以及一种原子簇扩展（ACE）MLIP [57]和一种通用图原子簇扩展（GRACE）势[46]。本工作中使用的所有原子间势的完整列表在支持信息（S2节）中提供。得到的值存储在ConceptualDict对象中，随后被解析到知识图中，实现了结构化数据存储和语义查询。这种方法允许使用SPARQL直接查询数据。然而，制定SPARQL查询可能是一项复杂的任务，通常需要详细了解底层本体[58]。因此，我们使用tools4RDF库来帮助基于所使用的本体生成查询[59]。尽管如此，我们仍然明确地展示了SPARQL查询，以提高清晰度并帮助理解本体谓词的应用方式。列表3展示了基于CMSO和ASMO本体的SPARQL查询示例，它检索了体积模量值及其计算中使用的相应势。基于本体的结构确保所有数据都以语义一致和机器可解释的方式存储。

列表3在图查看器或PowerPoint中打开。

SPARQL查询检索体积模量值以及相关的原子间势和参考文献。我们使用的软件基础设施包括工作流程节点、工作流程执行环境、概念字典和知识图创建例程，确保所有模拟中使用相同的晶体结构，并且知识图中的每个模拟条目都保留了完整的元数据，包括原子间势和计算参数的详细信息。列表2中的SPARQL查询得到的体积模量值显示在图5a中。

图5：从知识图中获取的SPARQL查询结果：(a) 体积模量和(b) 弹性常数，以及不同的EAM势。(c) 使用GRACE [46]模型计算的Fe中替代杂质（X = Cu, Si, Al, Mg）的形成能。类似的SPARQL查询用于弹性常数，提供了相应的提取值，显示在图5b中。这展示了如何从知识图中程序化地检索特定材料性质及其完整的来源信息。这种基于本体的数据表示增强了不同模拟工作流程之间的互操作性，并促进了数据和元数据在更广泛的材料科学研究生态系统中的重用。我们展示了另一个使用GRACE [46]模型计算缺陷形成能的示例。相应的SPARQL查询在列表4中给出。这个例子突出了使用我们的基于本体的工作流程时可获得的功能。当通过替换原子引入替代缺陷时，工作流程会自动注释结果样品包含替代缺陷。因此，SPARQL可以用来检索所有包含替代杂质的样品。在传统的工作流程中，只存储原子位置，这样的信息很容易丢失，识别缺陷可能需要手动检查。SPARQL查询返回了缺陷形成能以及系统中存在的化学物种。结果显示在图5c中，并在表3中列出。计算出的Fe中的替代缺陷形成能与DFT值[60]吻合良好，Cu、Si、Al和Mg缺陷的偏差最多为0.2 eV。这些例子共同展示了我们的基于本体的工作流程如何实现原子间势的系统比较，并提供了适合大规模分析的语义丰富数据。

表3：使用GRACE和DFT [60]计算的Fe中的缺陷形成能。

列表4：检索包含替代杂质的样品的缺陷形成能的SPARQL查询。该查询识别了原子级样品、它们的计算缺陷形成能以及存在的化学物种。

3.3 查询结构-性质关系

材料科学的一个基本原则是理解结构-性质关系，并有效地利用这些关系进行材料设计。为此，材料的微观结构起着根本性作用；晶体缺陷的存在直接影响材料的物理性质。我们提出，可以利用语义注释的数据来表达这些关系，并允许直接查询以验证基本物理原理。在这里，我们展示了Hall-Petch效应的例子，它给出了晶粒尺寸与金属材料强度之间的关系，由以下公式描述：

(5)其中σ是屈服应力（或在更高应变下的流动应力）；τ是使位错通过单晶或非常大晶粒所需的应力；α_Hall-Petch是特定于材料的常数；d_g是平均晶粒直径。Hall-Petch定律的验证对于工程应用非常重要，类似的数据驱动分析已经通过从文献中自动提取晶粒尺寸和屈服强度数据得到证明[61]。使用我们在第2.2.3节中描述的单轴拉伸测试工作流程，对于使用EAM01势的多晶Fe，我们查询了不同晶粒尺寸的计算样品及其相应的计算流动应力，如列表5所示。

列表5：从知识图中提取平均晶粒尺寸和流动应力的SPARQL查询。然后将在图6中绘制结果值，该图显示了平均流动应力作为平均晶粒尺寸的平方根的函数，这两个量在工作流程阶段都自动进行了注释。我们看到了根据Hall-Petch方程的晶界强化机制。最初，应力随着晶粒尺寸的减小而增加，直到达到强化极限，之后由于晶界滑动应力减小。这种软化被称为逆Hall-Petch效应。此外，我们对公式(3.3)进行了数值拟合，得到斜率为k = 2.15 GPa·nm，R² = 0.0025 GPa²，拟合优度为R² = 0.998。强化极限在11 nm处达到，与现有研究[62-64]一致。

4. 讨论

本工作表明，将工作流程编排与语义元数据相结合，实现了一种基于知识的方法，显著增强了原子模拟数据的互操作性和可解释性。我们提供了用于机械和热力学性质计算的工作流程，并生成了特定于Fe和Fe-X材料系统的注释数据集。用例表明，语义注释的工作流程可以用于从现有模拟数据中直接验证物理定律（如Hall-Petch效应）的数据驱动验证。本工作中提出的框架还支持跨原子间势的系统比较，这对于原子级建模中的不确定性量化至关重要。这些工作流程旨在捕捉更复杂的系统和模拟，例如拉伸和压缩测试、自由能计算、纳米压痕以及缺陷形成能量，表明语义工作流程设计可以扩展到与工程应用相关的机械行为和相变场景。虽然当前的工作重点是基于铁的系统，但该框架可以直接应用于多组分合金，包括化学性质复杂的系统，如高熵合金。将这种方法扩展到更复杂的分子或聚合物基系统会引入额外的要求，例如分子拓扑的表示。解决这些问题需要扩展工作流程节点和底层本体，而整体模块化架构保持不变。图7强调，在当前的工作中，基于知识的工作流程指的是带有语义注释的模块化工作流程节点，并集成到一个FAIR（可访问、可解释、可重用）和可查询的知识图谱框架中，从而克服了传统临时模拟实践的关键限制。

**图7**（在图查看器中打开）

**传统临时模拟脚本（左）与本工作中采用的知识基于工作流程概念（右）的比较。**传统方法产生的结果是孤立的，需要手动比较，并导致数据孤岛。语义工作流程产生符合FAIR标准的数据和可查询的知识图谱，提高了互操作性和可重用性。所提出基础设施的附加价值可以通过考虑其对互操作性和可重用性的影响来最好地说明：

**互操作性：**在FAIR数据方面，捕获的元数据与应用和领域级别的本体对齐，提供了一个共同的词汇来描述材料系统、计算样本、模拟工作流程和计算属性。使用一致的语义描述符可以将DFT计算数据与经典MD（分子动力学）和MLIP（分子力学积分）模拟的结果链接在同一知识空间中。该框架还支持与外部资源（如材料数据库）的语义集成，并具有与实验数据互操作的潜力。在FAIR工作流程方面，我们的节点不依赖于特定的工作流程环境。这在列表1和2中得到了证明，其中使用了两种不同的工作流程系统：pyiron和jobflow [16]。还可以进一步与其他工作流程系统连接，例如使用Python工作流程定义 [65]。总体而言，这表明具有本体意识的工作流程节点可以在不同的工作流程系统中无缝重用。

**可重用性：**所提出方法生成模拟工作流程和数据的核心优势在于其可重用性。可以在不修改代码的情况下使用不同的原子间势能来执行工作流程，正如第3.2节中对10种不同势能的系统评估所展示的那样。语义层捕获了每次模拟的物理概念和程序步骤，允许通过仅调整相关元数据参数来在不同的材料系统或热力学条件下重用相同的工作流程。这种能力显著提高了生成用于基准测试或模型验证的可比数据集的自动化潜力，并支持对原子模拟方法论不确定性的系统研究。尽管所提出的框架在生成FAIR数据和工作流程方面提高了互操作性和可重用性，但仍存在一些必须承认的限制：

- 对于工程应用相关的属性计算工作流程仍然具有很强的应用特定性，需要领域专业知识来进行正确的配置和解释。分子动力学（MD）从根本上受到可访问时间尺度的限制，这限制了实际的加载速率和转变动力学。因此，选择适当的输入参数仍然依赖于知识渊博的用户，而错误的选择会直接影响结果的质量。此外，对边界条件（如细胞形状、加载模式或恒温器和压力调节器算法）的敏感性继续影响模拟结果的可比性。语义层可以记录这些选择，但它还不能消除潜在的物理依赖性。
- 工作流程对全新模拟场景的通用性并非自动实现。准确的语义注释需要领域专业知识，本体和工作流程模板都需要扩展到新的物理过程或建模方法。尽管如此，总体架构可以扩展到新的模拟场景。另一种方法是semantikon [66]，它通过允许与任何本体进行序列化提供了更大的灵活性，尽管它将确保一致且有意义的语义注释的责任转移到了用户身上。虽然该框架被设计为可扩展的，但其应用于新的材料类别或模拟方法可能需要工作流程和底层本体的额外领域特定扩展。
- 最后，关于与更广泛的语义基础设施的集成，我们目前最高级别的对齐依赖于PROV-O。虽然PROV-O提供了轻量级和灵活的来源表示，但与高级本体（如基本形式本体（BFO）[67]的对齐将进一步增强互操作性。PROV-O到BFO的现有映射表明两者并不不兼容[68]，但采用顶级对齐的设计将改善在更广泛的材料科学语义生态系统中的集成。未来的方向包括与外部知识图谱和更广泛的研究数据基础设施的更深层次集成，以实现跨模拟结果、实验测量和文献衍生知识的联合搜索。另一个机会是将语义工作流程框架与新兴的智能AI管道连接起来，这些管道可以基于这里开发的结构化知识表示来自动选择工作流程、选择原子间势能、提出验证步骤并生成新的模拟数据。例如LangSim就是一个这样的库，它将大型语言模型与模拟工作流程结合起来[69]。语义层可以增强这种AI驱动方法的透明度和可信度。此外，扩展底层本体以捕获微观结构演变、更复杂的缺陷相互作用和高级热力学描述符将使框架能够支持更广泛的物理现象和材料建模任务。最终，语义注释的工作流程不仅作为文档工具，还作为一个框架，加速从数据中理解和生成见解，验证模型和科学可重复性。

**5 结论与展望**

在这项工作中，我们引入了基于知识的工作流程，用于原子模拟的机械和热力学属性，展示了元数据注释、本体对齐和来源跟踪如何将传统的模拟脚本转化为结构化且可互操作的研究对象。通过将模拟分解为与领域和应用本体绑定的模块化工作流程组件，我们实现了对材料、计算样本和方法以及广泛原子模拟任务中计算属性的一致描述。为铁基用例开发的工作流程展示了这种方法如何提高可重用性，便于跨数据集进行系统比较，并支持材料属性的透明解释。这项工作的核心成果是提高了互操作性和可重用性。语义层在模拟软件和建模方法之间协调元数据，一致地注释了使用不同材料系统、势能或边界条件的工作流程中的数据。这种互操作性自然扩展到机构数据库和国家研究数据基础设施解决方案（如NFDI-MatWerk），实现了与实验数据集、外部模拟存储库和新兴知识图谱生态系统的集成。结构化的元数据和工作流程设计也为未来的AI驱动材料发现奠定了基础。语义注释的数据集支持对物理概念的定向查询和结构-属性关系的验证，而智能AI系统可以开发出来利用可重用的工作流程节点来选择模拟协议、提出验证任务并协调大规模数据生成。这些能力为自动化探索机械属性、高通量筛选相稳定性以及智能合金设计工作流程提供了途径。展望未来，该框架可以扩展到更复杂的模拟场景，例如扩散过程和缺陷-缺陷相互作用，以及与介观或连续模型的多尺度耦合。随着可重用工作流程和材料科学本体的库不断增长，该领域可以逐步从基于脚本的模拟转向知识驱动的计算材料科学。因此，我们鼓励社区采用、改进和扩展这里介绍的工作流程和本体，推进一个支持可复制、可扩展和AI就绪的计算材料科学的共享语义基础。

**支持信息**

额外的支持信息可以在支持信息部分在线找到。

**致谢**

这项工作得到了NFDI-MatWerk联盟的支持，该联盟由德国研究基金会（DFG）在National Research Data Infrastructure—NFDI 38/1项目（项目编号460247524）下资助。H.-T.L.和N.M.感谢DFG（项目ID 394563137—SFB 1368和ME 6073/20-1）的资助。A.A.G.感谢在Jülich研究中心的JURECA超级计算机上使用的计算时间，该时间由Project DEAL资助和组织。资金来自德国研究基金会（46024752, 394563137）。

**利益冲突**

作者声明没有利益冲突。

**数据可用性声明**

工作流程在这里提供：https://github.com/pyscal/semantic-workflows。该仓库包含了每种属性计算的工作流程节点的Python实现。还有一个交互式的Binder实例，允许在没有本地安装的情况下直接在浏览器中执行工作流程。数据和相应的元数据在这里提供：https://doi.org/10.5281/zenodo.18380870。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部