自动构建钙钛矿太阳能器件制备细节数据库 —— 开启能源材料研究新征程

时间:2025年2月16日
来源:Scientific Data

编辑推荐:

为解决钙钛矿太阳能领域数据分散、人工收集效率低等问题,香港城市大学研究人员开展自动生成钙钛矿太阳能器件制备数据库研究。得出平均准确率 0.899 等成果,对推动该领域研究意义重大,值得科研人员一读。

广告
   X   

香港城市大学(City University of Hong Kong)机械工程系的 Agnes Valencia、Fei Liu、Xiangyang Zhang 等研究人员在《Scientific Data》期刊上发表了题为 “Auto-generating a database on the fabrication details of perovskite solar devices” 的论文。这篇论文在钙钛矿太阳能电池领域意义重大,它为该领域的数据整理和研究提供了全新的思路与方法,有助于推动钙钛矿太阳能技术的进一步发展 。

研究背景


钙钛矿太阳能电池(Perovskite Solar Cell,PSC)作为极具潜力的第三代光伏技术,自 2009 年首次被报道以来,受到了广泛关注,相关研究论文数量超过万篇。然而,这些海量的科学文献大多以自然语言撰写,其中的数据分散且非结构化,这使得研究人员难以充分利用这些数据。在科研工作中,将数据进行整理并以标准化格式呈现变得十分必要,它有助于软件和研究人员更高效地获取和使用数据。此前,已有诸多项目致力于不同领域的数据整理,例如疲劳数据库、居里和奈耳温度材料数据库、电池材料数据库等,这些项目将非结构化的分散数据处理成结构化的数据形式。

在钙钛矿领域,Jacobsson 等人也开展了类似的工作,他们试图将所有器件数据整理到名为 “The Perovskite Database” 的数据库中,并展示了该数据库及其前端界面在筛选和可视化器件性能指标方面的作用。但他们目前的数据提取方法存在局限性,主要依靠人工手动从期刊论文中提取数据,这种方式不仅耗费大量人力,预计从 8200 多篇期刊文章中提取数据需 5000 - 10000 人工小时,而且还存在更新不及时和人为错误的问题。由于缺乏激励机制,研究人员参与数据库数据输入的积极性不高,导致数据库更新缓慢,从 2023 年 3 月到 2024 年 5 月,可下载的数据记录仅从 43231 条增加到 43252 条。同时,人工提取数据难以避免内容和格式上的错误。

研究方法


为了解决上述问题,香港城市大学的研究团队提出利用自然语言处理(Natural Language Processing,NLP)算法来提取钙钛矿太阳能器件数据,其研究工作分为两个阶段。

  1. 第一阶段:从施普林格・自然(Springer Nature)和英国皇家化学会(Royal Society of Chemistry,RSC)获取了 1824 篇 HTML 格式的期刊文章,同时获取了 1460 个 PDF 格式的补充数据文件。这些文章是 “The Perovskite Database” 中已有记录的文章,经过处理后用于评估算法。在数据处理过程中,先对 HTML 文本进行预处理,去除 HTML 标签和其他不必要部分,将剩余内容与相关 PDF 文件内容存储为 TXT 文件,利用 ChemDataExtractor 提供的化学命名实体识别(Chemical Named Entity Recognition,NER)工具识别化学名称,并手动添加一些钙钛矿太阳能电池领域常用但未被 NER 工具收录的化学名称。利用 Beautiful Soup 库获取期刊文章的元数据,如 DOI、第一作者、出版日期等,其他 25 个字段则通过基于规则的算法从文本中挖掘。对于离散值字段,采用基于规则的分类方法;对于非离散值字段,如旋涂速度和持续时间,则采用基于规则的预测方法。之后对数据进行后处理和数据库集成,按照规则对部分字段进行格式化,如将 “CH3NH3” 和 “H3CNH3” 替换为 “MA”,并使用 PyMySql 包将格式化后的数据存入数据库。最后进行数据过滤,选择七个关键字段,要求至少五个字段不为空才能保留记录,经过筛选,第一阶段保留了 1505 条记录用于算法的技术验证。
  2. 第二阶段:借助网络爬虫工具获取期刊文章。从施普林格・自然检索到 917 篇 HTML 格式的全文文章,从英国皇家化学会检索到 7508 篇 HTML 格式文章及相应的 PDF 补充数据文件(若有)。后续的文本预处理、数据挖掘、数据后处理和数据库集成方法与第一阶段类似,最终保留了 3164 条数据记录。

研究结果


  1. 数据集构成:研究得到的数据集以 JSON 格式存储在 Figshare 平台上,包含 30 个字段。其中,字段 1 - 5 为描述器件的论文的识别信息,即元数据;字段 6 - 19 是器件的固有数据和外在电池定义,如组成钙钛矿层的材料信息、电池的柔韧性和结构等;字段 20 - 30 记录了器件制造过程的详细信息,包括各层的沉积方法和参数。例如,常见的 HTL(空穴传输层,Hole Transport Layer)材料有 Spiro - OMeTAD、PEDOT:PSS 等,ETL(电子传输层,Electron Transport Layer)材料有 TiO₂、SnO₂等,钙钛矿层常见的短形式为 MAPbI。在沉积方法方面,旋涂是实验室研究中最常用的沉积技术,但它存在材料浪费高、处理时间慢和基板尺寸受限等问题,因此一些研究人员开始转向刮刀法和狭缝涂布法等。此外,研究还发现 FTO(氟掺杂氧化锡,Fluorine - doped Tin Oxide)涂层玻璃和 ITO(氧化铟锡,Indium Tin Oxide)涂层玻璃是最常见的基板,这表明大多数已发表工作中的制造器件是非柔性的,最常见的顶部接触材料是 Au(金),主要的顶部接触沉积方法是热蒸发。
  2. 算法性能评估:为了评估算法的性能,研究人员将第一阶段生成的 1505 条记录与 “The Perovskite Database” 中的记录进行比较。对于分类器,使用了准确率(Accuracy)、精确率(Precision)、召回率(Recall)和 F1 分数这四个评估指标;对于预测器,则使用准确率评估。结果显示,20 个字段的自动验证平均准确率为 0.899,14 个分类器的平均精确率和召回率分别为 0.933 和 0.927。这表明算法在整体上能够较好地提取数据,在减少误报方面表现出色,并且能够识别出大部分实际的正例。然而,手动评估也发现了一些限制性能指标的因素,如文章中讨论了多个器件,算法难以识别出经过改进的器件;已发表文章存在不一致和错误;文章写作或呈现数据的方式不常规导致解析错误;以及 “The Perovskite Database” 中的人为错误等。

研究结论与讨论


研究团队成功利用自然语言处理算法自动提取了钙钛矿太阳能器件的多种定义属性,并构建了相关数据库,平均准确率达到 0.899。该研究成果具有多方面的重要意义。

在数据处理和研究便利性方面,研究成果极大地简化了撰写综述论文的过程。随着钙钛矿太阳能电池实验报告数量呈指数级增长,研究人员难以跟上研究进展,而传统的手动整理和撰写综述论文的方式耗时费力。利用该算法,研究人员可以快速从论文中收集关键器件数据并进行整理,提高了综述论文撰写的效率。同时,数据集和算法能够可视化多年来各种实验实践的发展趋势,有助于发现一些可能被忽视的研究方向和规律。

从钙钛矿太阳能电池领域的发展来看,虽然目前精确预测器件性能仍然具有挑战性,因为钙钛矿太阳能器件结构复杂,由多个层组成,且在制造过程中受环境因素影响较大。但该研究成果为后续研究奠定了基础,通过将此算法与其他算法和材料数据库(如 “The Perovskite Database”)集成,可以更深入地了解影响器件性能的因素,从而实现对器件性能的精确预测,最终推动材料和器件的优化,促进钙钛矿太阳能电池技术的进一步发展和应用。

这篇论文的研究成果为钙钛矿太阳能电池领域的数据管理和研究提供了有力的支持,有望在未来的科研和产业应用中发挥重要作用。

生物通微信公众号
微信
新浪微博


生物通 版权所有