基于文本挖掘的化学事故因果网络构建与分析:来自中国的证据

时间:2026年2月3日
来源:Journal of Loss Prevention in the Process Industries

编辑推荐:

本研究通过文本挖掘、关联规则和复杂网络分析等方法,系统提取了106份中国化学事故报告中54个主要风险因素,构建了事故因果网络,并利用灰色关联分析确定了15个关键风险因素。研究表明,管理因素是事故最可能诱因层级,揭示了四类事故的典型传播路径,为化学安全生产提供了理论支持和实践指导。

广告
   X   

作者:刘思伟 | 姚双
单位:沈阳化工大学经济与管理学院,中国辽宁省沈阳市110142

摘要:

为了有效管理和控制与化学事故相关的风险,本文旨在开发一种定量风险分析方法。该方法整合了文本挖掘、关联规则、复杂网络分析和灰关联分析(GRA),以研究化学事故的因果因素和传播路径。首先,本研究对中国收集的106份事故报告进行了文本挖掘,识别出54个主要的事故因果因素。为了验证这些因素的可靠性和跨国通用性,我们将事故类型分布和因果因素系统与国际研究结果进行了比较。结果证明了它们的普遍性和代表性。基于这些因素之间发现的强关联规则,构建了一个化学事故因果网络。随后,通过网络中心性交叉验证、鲁棒性分析和灰关联分析,确定了15个关键风险因素。进一步的事故路径分析表明,管理因素是最可能导致事故的因果层次。该分析还成功揭示了四种不同类型事故的关键因果路径。本研究的结果为识别关键原因和控制风险传播提供了理论支持,对化学安全生产实践具有重要的实际指导意义。

引言

与其他行业相比,化学行业发生灾难性事故的频率更高。这些事件通常涉及火灾、爆炸或有毒物质接触造成的急性伤害(Soltanzadeh等人,2022年)。化学制造本质上涉及易燃和易爆的原料以及复杂的工艺流程。因此,缺乏严格的过程控制很容易导致严重的生产安全事故。此类事件对人类生命、财产和整体社会稳定构成严重威胁(Wang等人,2024年)。因此,减轻生产风险和实现化学行业的有效事故预防是一个重要的现实研究课题,需要深入研究(Lin等人,2024年)。
为了提高化学事故的预防和风险管理能力,深入探索其因果机制具有重要意义。然而,目前的事故因果识别过程仍然严重依赖人工判断。一些研究表明,基于主观判断的因果识别容易受到研究者认知结构和经验差异的影响。因此,这种方法往往难以确保客观性和一致性(Jiao等人,2024年;Shi等人,2024年)。此外,一些学者认为,在处理大规模报告时,手动提取风险因素效率低下(Tao等人,2025年)。例如,Lin等人(2024年)从中毒或窒息事故报告中提取并分类了“直接原因”和“间接原因”的文本信息。在总结相似的风险因素后,他们使用关联规则和贝叶斯网络来评估这些因素的影响。通过对41起严重和重大化学生产事故的统计分析,Li等人(2024年)发现爆炸是这一类别中的主要事故类型,“其他爆炸”和“容器爆炸”分别占总数的37.8%和33.3%。主要事故原因集中在违反生产规定上,占总数的43.9%。Li和Yang(2022年)根据事故统计数据寻找风险因素。他们使用Apriori算法来发现事故数据中的关联。他们具体分析了人为因素、事故发生的时间和月份以及各种事故类型之间的联系。研究的四个主要事故类别是泄漏、爆炸、火灾和中毒或窒息。Tao等人(2025年)首先手动应用CREAM方法识别风险因素和因果链,然后构建了一个化学企业的安全风险网络来研究这些风险因素之间的关系。Li等人(2020年)通过统计分析事故调查报告并编码事故原因,构建了一个原始的贝叶斯网络。然后计算贝叶斯网络中每个节点的故障敏感性,以发现事故原因之间的关系。Li等人(2023年)通过统计分析事故案例获得事故原因。基于关联规则,他们为化学爆炸事故开发了一个故障树结构,将定性模型转化为定量贝叶斯网络模型。该模型用于揭示事故传播路径、基本事件的重要性以及事故直接原因的敏感性。
上述研究在促进因果识别的系统化和加深对事故机制的理解方面发挥了积极作用。然而,手动方法存在效率低下和可扩展性差的问题。为了进一步克服手动识别方法的局限性,研究人员开始尝试引入数据挖掘工具。例如,Niu等人(2019年)利用潜在狄利克雷分配(LDA)主题建模和社会网络分析(SNA)等技术进一步识别和理解事故数据。他们根据聚类结果寻找因素之间的关系。Wang等人(2024年)使用TextRank算法找到初始因素,然后结合相关文献和法律提取化学事故的影响因素。随后,他们使用基于α-水平集的模糊DEMATEL方法计算化学事故影响因素的性能水平。
在识别出事故因果因素后,需要进一步分析这些因素之间的传播关系。学者们在其他事故风险管理领域也进行了相关研究。例如,Jiao等人(2024年)基于边介数、平均路径长度和网络连通性设计了一个边脆弱性指数。该指数用于衡量破坏城市轨道交通网络中关键风险节点之间关系的影响。根据边脆弱性指数的大小和鲁棒性分析,提出了相应的应急救援策略。Qiu等人(2021年)根据关联规则的提升度,识别了各种煤矿事故因果网络中总提升度最高的事故路径。他们认为,一旦这些路径上的节点被触发,事故发生的可能性显著高于网络中的其他路径。
尽管现有研究取得了进展,但目前对化学事故因果关系的研究仍面临以下挑战:(1)由于依赖人工判断,存在较强的主观性,特别是对监管因素的系统分析不足;(2)大多数研究仅关注单一事故类型或特定场景,未能从多种事故类型中提取共同原因;(3)未能完全揭示因素之间的层次结构和非线性关系,难以描述事故链的复杂交互机制;(4)缺乏对关键因素影响的验证。
为了客观有效地预防化学事故,需要基于数据驱动的关键因果因素识别方法。本文通过提出一种综合方法来满足这一需求,该方法整合了文本挖掘、关联规则、复杂网络建模和灰关联分析(GRA)。我们的研究首先分析了中国106份化学事故调查报告。我们使用TextRank算法从这些报告中提取并识别关键风险因素。然后将这些因素分为六类:人为因素、环境因素、物体因素、管理因素、监管机构和灾害因素。为了确保识别出的因素集的可靠性和通用性,本研究将事故类型分布和因素系统与其他国家的事故调查报告结果进行了比较。其次,使用Apriori算法构建了一个基于关联规则的因果网络,其中提升度作为边权重,以揭示因素之间的关系。随后,创新性地引入了网络鲁棒性分析和GRA交叉验证机制来识别和验证关键节点。最后,根据关联规则的提升度,挖掘出最可能导致事故的风险传播路径。该方法为化学事故风险识别和预防提供了新的分析框架。研究结果为精确识别风险和系统控制化学事故提供了坚实的理论基础和实际参考。
本文的其余部分组织如下:第2章详细介绍了研究数据来源、所采用的各种方法的基本概念以及整体研究框架。第3章重点通过文本挖掘技术识别事故原因,挖掘它们之间的关联规则,并基于这些发现构建化学事故因果网络。第4章使用多种方法分析化学事故因果网络,揭示关键原因和关键因果路径。最后,第5章总结了本研究的结果。

数据集

中国在化学工业和化石燃料消耗方面处于全球领先地位,拥有世界上最大的生产能力、高化石燃料消耗量和独特的煤化工技术(Jiang等人,2024年)。此外,中国的事故调查报告通常涵盖多维信息,如事故过程、直接原因和间接原因。这些信息构成了事故分析的关键数据来源。

化学事故风险因素的提取与分类

在挖掘事故报告的文本之前,收集的数据必须进行预处理,以提高分析效率和准确性。本节旨在识别化学事故中的风险因素。为了防止非因果信息影响因素识别的准确性,移除了报告中的无关部分,仅保留直接和间接原因(Shen等人,2024年)。直接和间接原因文本被提取并存储在独立文件中,形成

网络节点中心性分析

关键节点在网络结构中起着至关重要的作用,作为关键的连接器和桥梁。一旦化学事故因果网络中的关键节点出现问题,风险可以沿着网络路径迅速传播,引发广泛的因素关联,可能触发系统性事故。为此,本节基于中心性指标分析网络节点的重要性排名,以识别具有强大传播能力的关键节点。

结论

  • (1)
    关于事故因素,本研究基于106份化学事故调查报告,结合TextRank算法和词云分析,识别出54个主要化学事故因素。这54个因素被分为六类:环境因素、物体因素、灾害因素、人为因素、管理因素和监管机构。随后,通过整合文本挖掘、关联规则、复杂网络建模和灰关联分析,构建了一个化学

CRediT作者贡献声明

刘思伟:撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、方法论、数据整理、概念化、形式分析、调查。姚双:撰写 – 审稿与编辑、概念化、形式分析、资金获取、项目管理、资源协调、监督、验证

未引用的参考文献

Li等人,2024年。

数据可用性

数据将根据请求提供。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了沈阳化工大学杰出青年计划(编号2022YQ011)和辽宁省高等学校基本研究项目(编号LJ112510149006)的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有