原子词嵌入作为材料设计的自主预测因子:内在变异性对信息传递的影响

时间:2026年2月24日
来源:Journal of Cheminformatics

编辑推荐:

本文提出原子词嵌入可作为材料设计中独立的机器学习预测因子,探讨了其因训练语料信息异质性产生的变异性。研究证实,尽管个体原子嵌入存在显著变异性,但当其组合为化合物表征并用于预测形成能的回归模型时,这种变异性不会阻碍从复合预测因子到物理化学特性的映射。文章揭示了材料科学、化学和物理学领域词嵌入的可变性程度,并论证了其信息传递的有效性与稳定性。

广告
   X   

引言
自然语言处理 (NLP) 与大型语言模型 (LLM) 凭借其在新材料设计与发现方面的潜力,已在计算语言学之外的领域,如材料科学、化学和物理学中得到广泛应用。向语言模型输入大量高度专业化的科学文献,可生成频繁出现的领域特定术语(包括原子、分子、化合物、公式、实验方法等)的高维向量化表示——即词嵌入。据称,这类物理化学实体的词嵌入内在地编码了广泛而多样的物理化学概念、通用化学知识和材料结构复杂性,为专注于解决材料科学特定目标的机器学习 (ML) 模型提供了紧凑、任务无关的输入。
然而,如果要将基于文本的嵌入作为解决化学或材料科学相关挑战的机器学习应用中的自主特征向量,其质量必须非常出色。这是因为它们将直接应用于自动化的、基于语言的材料发现流程和高通量筛选过程中。这些复杂的工作流通常缺乏直接的专家监督,因此需要高度可靠的输入以确保结果的准确、精确和可重复。词嵌入的微小变化可能导致预测的物理化学特性产生显著差异,甚至导致错误候选材料进入实验验证。此外,当嵌入被预训练用于进一步的特定任务微调时,化学元素和化合物的不一致基线表示可能会阻碍模型收敛或需要大量重新训练。因此,评估词嵌入在此背景下的质量和有效性,并量化其在材料设计中的影响至关重要。其中,词嵌入自身潜在的不一致性来源是关键因素之一。研究表明,训练文献的质量、训练语料库的特征及其规模对词嵌入的功能有重大影响。词嵌入的变异性已被定义为“不同嵌入空间中最近邻的重叠百分比”,反映了使用不同训练文档生成的词汇表中,同一标记的最近邻集合之间的不一致性。已有研究表明,包括Word2vec、GloVe、PPMI和LSA在内的多种嵌入算法,都对用于训练NLP模型的文档数量、文档内的上下文、特定文档的存在与否以及训练语料库的规模很敏感。
尽管现有研究强调了训练语料库对生成卓越文本表示的核心作用,但大多数研究认为,无论其来源如何,领域特定术语的向量化表示中无可争议地编码了所研究的信息。因此,这些研究通常比较使用不同语言嵌入(如Word2vec、MatSciBERT、MaterialBERT等)获得的基准属性预测性能,而忽略了它们可能是使用传达潜在不同信息、或来自不同领域和不同长度语料库的文档训练而成的事实。然而,当前在高度专业化领域应用语言模型的研究仍处于早期阶段,且训练文献的异质性对化学实体表示的影响,及其对预测性机器学习任务的下游影响,仍有待深入探索。
结果
为了探究材料科学和化学相关词嵌入的变异性现象,研究构建了三个分别代表化学、物理学和材料科学领域的独立语料库,以及一个由这些领域混合而成的第四语料库。通过选取高频提示词(如“atom”、“catalyst”、“hydrogen”等)以及元素周期表中的前95种化学元素,生成了对应的“嵌入子空间”。嵌入子空间是指,在特定领域词汇表中,与某个提示词在余弦相似度上最接近的一系列标记的集合。通过计算不同领域生成的、针对同一提示词的嵌入子空间之间的Szymkiewicz-Simpson重叠系数,可以量化词嵌入的变异性程度。
分析显示,不同领域词汇表之间的重叠程度表现出显著的异质性。即使是概念相关和互补的训练语料库生成的词汇表,也仅有部分标记是共享的。例如,基准词汇表GloVe和Mat2Vec之间的重叠系数仅为15%。自定义词汇表(化学、物理、材料科学)之间的相互重叠通常也不超过50%。然而,当从词汇表中仅选取最高频的标记来生成受限的嵌入子空间时,其重叠系数会显著提高,平均值可超过50%。相反,当词汇表和嵌入子空间的限制被完全移除,允许任何词汇标记以同等概率被视为给定提示词的近邻时,嵌入子空间之间的交集急剧减小,平均重叠系数降至10%以下。这表明,尽管使用概念相似和互补的语料库进行训练,嵌入子空间之间仍然呈现出高度的正交性。变异性高度依赖于为语言建模所选择的词汇术语。
研究的第二部分聚焦于从不同领域文献编译的信息的保存、通过机器学习模型对信息的可访问性、通过基本操作对高维信息载体的可追溯性,以及从复杂数字格式到可理解的真实世界物理化学值的信息传递。研究遵循Tshitoyan等人的方法,将构成化学化合物的化学元素的词嵌入连接起来,作为高度专业化化学知识的来源。在这种框架下,复合化合物嵌入充当了基于组成的特征向量,反映了其构成元素的文本表示中所固有的信息。通过构建回归模型预测化合物的形成能(formation energy)来评估其稳定性,从而检验原子词嵌入的变异性是否会对机器学习模型的预测性能产生可衡量的影响。
研究使用了来自Materials Project数据库的数据集,包括包含4种和6种独特原子类型的三维(3D)化合物,以及包含6种独特原子类型的二维(2D)化合物。目标变量(形成能)被约束在(-2 eV/atom, 0.5 eV/atom)的能量范围内,以聚焦于热力学稳定的化合物。研究比较了使用不同类型词嵌入(MatSci200, MatSci300, Chem300, Phys300, Mixed300)生成的复合特征向量的模型性能。结果表明,使用由200维材料科学词嵌入(MatSci200)生成的特征向量,在最大的4原子:3D数据集上取得了最小的测试均方根误差(RMSE),为0.181 eV/atom。尽管包含300维向量的特征集在某些情况下训练误差更高,但经过基于与形成能的单变量相关性的降维处理后,模型的泛化能力得到了提升。与使用matminer工具生成的、可解释的物理化学描述符特征集相比,复合嵌入特征的预测性能(RMSE和R2)略逊一筹,但差距在可接受范围内,且复合嵌入在检测数据集中异常材料方面表现出潜力。
研究还发现,包含更多独特原子类型的化合物(如6原子:3D)虽然样本量较小,但其生成的更广泛的特征集(1200维)有时能产生与更大样本量但特征维度更低(4原子:3D,800维)的数据集相当甚至更好的预测性能。这表明,来自化合物中多样化原子的更广泛特征集,比单纯增加每个原子的向量维度更能有效激活嵌入组件与目标变量的关联。此外,尝试将2D材料样本与3D样本合并以扩大数据集时,模型的性能并未改善,反而因数据的内在差异而略有下降,这表明随机森林模型能够检测到2D和3D复合嵌入特征集之间的潜在区别。
讨论
自NLP和LLM与材料科学和化学研究结合以来,仅有少数基于语言的材料推荐系统在材料设计中使用独立的词嵌入作为复合机器学习特征。大多数研究仍侧重于通过测量已编译材料的向量表示与具有所需特性材料的向量表示之间的余弦角,来获取广泛的材料类似物。然而,这种空间相似性指向的是材料标记之间的语义相似性,而非其内在化学性质的直接相似性。因此,访问嵌入材料中的假定化学信息,并识别它们共享的指纹细节,将有助于断言化学等效性并将材料标记为可互换的。但目前解码这种专业化学信息仍是一个技术挑战。
另一个限制因素是化学命名法的显著异质性,这从语言模型提取数据时引入了不成比例的信息密度,从而阻碍了对文献中研究或记录很少的、具有高或中等向量接近度的材料的识别。此外,基于角度的材料表征对齐反映了其固有的变异性。根据Burdick等人提出的定义,观察到的变异性反映了从包含不同训练输入的语料库生成的词汇表中,随机提取的标记的最近邻集合之间的不一致性。正如本工作所示,静态嵌入的变异性受父领域训练文档来源的显著影响。这是否是已经可变、上下文相关的嵌入的一个相关且值得关注的方面,超出了本研究范围;然而,考虑到它可能导致跨训练语料库已建立的材料相似性发生波动,值得高度重视。
将原子的静态嵌入而非最终化合物,用作预测其参与的新设计材料特性的自主机器学习特征,其基本原理在于其固有的多功能性。全文展示了其灵活的性质和无差别的效用,前提是能够访问和处理编码的化学细节。词嵌入可以以其原生格式使用,也可以进行先验修改,使其符合特定设计任务的要求,以提高模型预测的精度。这种固有的可塑性使其能够与其他数据模式无缝集成,产生一种协同配置,这在需要通过降维进行压缩时尤其有用。结果表明,只要数据集足够大,复合嵌入的降维不会干扰内在的信息完整性。这一发现在可能产生更大、更复杂原子嵌入的现代大型语言模型背景下具有特殊意义。

生物通微信公众号
微信
新浪微博


生物通 版权所有