随着现代工业物流的快速发展,大规模散料处理设备的作用日益重要。作为这类设备的典型代表,铲运机(BWSRs)广泛应用于港口、矿山和发电厂,其运行状态直接影响效率和安全性。然而,由于工作条件恶劣和负载高,BWSRs容易发生各种故障,导致计划外停机并带来潜在的安全风险。因此,有效的故障诊断(Li等人,2024年)对于提高设备可靠性和降低维护成本至关重要。
近年来,随着企业逐步推进制造业数字化转型(Wu等人,2024年),在运营和维护(O&M)过程中积累了大量的非结构化维护故障记录。这些文本数据包含了宝贵的专家知识,包括故障模式、原因因素和纠正措施。目前,基于故障记录的故障诊断仍然主要依赖于人工判断,这既低效又高度主观。因此,从大量非结构化故障记录中提取有用信息并将其转化为结构化知识以支持智能决策已成为工业智能O&M中的一个关键挑战和研究前沿。
知识图谱(KGs)因其能够以可解释和可视化的形式组织语义信息而成为关键范式(Jiang等人,2024年)。通过将设备组件、故障现象和维护措施等实体构建成一个互连的语义网络,KGs有助于快速定位故障并提供智能决策支持。然而,此类KGs的自动化构建从根本上依赖于命名实体识别(NER),其目标是从非结构化文本中精确提取特定实体,例如“走行电机”和“海测夹轨器”。
尽管通用领域的NER方法已经相对成熟——从基于规则和统计的方法(Haarnoja等人,2018年;Xing等人,2023年)到最近的深度学习模型(Huang等人,2015年;Li等人,2020a年;Wu等人,2022年)以及基于大型语言模型(LLM)的方法(Lu等人,2024年;Shen等人,2025b年;Wang等人,2025年)——但将其直接应用于BWSR故障诊断受到领域特定挑战的严重阻碍:
(1)文本非标准化程度高和术语异质性:BWSR故障记录具有明显的电报式语言特征。这些记录包含了中文字符、英文缩写、数字代码和领域特定术语的混合(例如,“F37欠压脱扣器”和“A1Y-Hb20B液控单向阀”)。此外,现场记录通常是口语化的,语法结构碎片化且频繁使用省略号(例如,“编码器损坏”)。这种复杂的语言环境大大增加了实体识别的难度,并对基于局部特征的精确实体边界检测提出了严格要求。
(2)缺乏动态多特征融合:虽然可以使用局部上下文线索识别许多命名实体,但在工业文本中正确识别特定实体通常需要结合全局语义上下文。例如,在短语“发现接线鼻子短路”中,确定“接线”是指维护动作(动词)还是作为组件名称“接线鼻子”(名词)的一部分取决于句子级语义。许多现有方法关注特征增强,但缺乏有效的动态融合机制来整合局部依赖特征和全局上下文信息。因此,它们无法充分利用多尺度特征的互补性,在这种嘈杂的工业场景中识别准确性有限。
为了解决这些挑战,我们首先基于中国上海一家港口公司的真实BWSR O&M记录构建了一个专门的BWSR-NER语料库,然后设计了一个针对工业故障记录的多特征融合注意力网络(MF-FAN)。所提出的MF-FAN由四个紧密集成的组件组成。(1)输入层:使用字符级和二元词级嵌入将标注的文本序列映射到一个共享的语义空间中,以捕获技术术语和混合编码表达的丰富多特征信息。(2)编码层:采用双分支策略,其中一个Transformer编码器捕获长期全局上下文依赖性,而DCNN编码器关注对精确实体分割至关重要的局部模式和边界线索。(3)融合层:融合注意力机制在token级别动态整合两个分支的表示,强调与实体相关的信号并抑制无关噪声。(4)解码层:使用线性层后接CRF层来建模标签转换并输出全局最优标签序列。通过这种端到端的架构,MF-FAN有效地结合了全局语义和局部依赖特征,为从嘈杂的非结构化工业文本中构建维护知识图谱提供了高效且稳健的解决方案。
本研究的主要贡献总结如下:
(1)我们提出了一种新的中文NER框架MF-FAN,它结合了双分支编码来同时捕获全局上下文和局部依赖特征,解决了非结构化、领域特定工业故障记录中的挑战。
(2)我们为中文NER的token级别设计了一种动态融合注意力机制,该机制能够适应性地建模异构全局特征和局部特征之间的交互。这种机制增强了模型在复杂和嘈杂的语言环境中解决语义歧义和准确检测实体边界的能力。
(3)我们在领域特定的BWSR-NER数据集和三个标准公共基准测试集(Resume、OntoNotes 4.0和MSRA)上进行了广泛的实验。结果表明,MF-FAN在泛化能力和鲁棒性方面优于现有的最佳基线方法,而消融研究验证了所提出的融合策略的有效性。