基于多模态大语言模型的OCT图像工业表面粗糙度筛选研究

时间:2026年6月15日
来源:Applied Sciences

编辑推荐:

快速、非接触式表面检测是现代生产质量控制的必要条件。光学相干层析成像(Optical Coherence Tomography, OCT)可在无接触条件下对表面进行成像,但将此类图像转化为粗糙度参数通常需要专用处理软件。本研究考察了多模态大语言模型(Large

广告
   X   

快速、非接触式表面检测是现代生产质量控制的必要条件。光学相干层析成像(Optical Coherence Tomography, OCT)可在无接触条件下对表面进行成像,但将此类图像转化为粗糙度参数通常需要专用处理软件。本研究考察了多模态大语言模型(Large Language Model, LLM)是否能直接从OCT B扫描图像中估计粗糙度参数,以作为筛选工具。该研究设计为受控的宏观尺度概念验证,采用周期性的、解析定义的体模,而非对随机工业微粗糙度进行验证。研究人员设计了具有精确已知几何形状的五种测试表面,通过三维打印制备,并使用谱域OCT(Spectral-Domain OCT, SD-OCT)系统进行扫描。对于每种表面,粗糙度值分别从理论形状、使用MATLAB从OCT图像中提取以及由LLM从同一图像中估计获得。通过每种表面运行相同提示十次来检验LLM的重复性。在锯齿轮廓上,LLM估计值的变异为:Ra(算术平均高度)3.8%、Rq(均方根高度)4.2%、Rp(最大峰高)3.5%、Rv(最大谷深)2.8%、Rt(最大轮廓高度)3.1%。在所有五个表面上,Ra和Rq的变异约为3–5%,Rt则保持在5%以下。结果表明,生成式人工智能方法可以产生可重复的粗糙度估计,适用于比较筛选。该方法在不需要校准测量时,为表面比较和人工智能辅助质量控制提供了一种灵活的选项。
## 研究背景与问题提出

在自动化生产线中,快速、非接触式表面检测是当今制造业的关键需求。表面形貌直接影响零件的机械、光学和电气性能,在增材制造、精密加工、微电子、聚合物加工以及高压绝缘等领域,即使微小的地形偏差也可能改变疲劳寿命、粘结强度、热传递或电场行为。随着制造公差日益严格,质量保证向全自动化发展,工业界需要高分辨率、非破坏性且足够快速的实时测量工具,这些工具必须能够量化粗糙度并捕捉缺陷,而无需样品制备或物理接触。

光学相干层析成像(OCT)是一种基于光的非侵入性成像方法,可在微米尺度分辨率下对特征进行成像。OCT最初为医学成像开发,现已应用于非破坏性评估和计量任务,包括检查层状结构、监测聚合物质量、检查微加工组件、研究文化遗产物品以及分析增材制造零件。由于OCT获取的是横截面图像(B扫描),可用于构建遵循标准表面纹理协议的二维高度图。谱域OCT(SD-OCT)系统通过傅里叶域信号处理提高了速度和灵敏度,能够快速扫描大面积区域以进行生产监测。工作于900–950 nm波段的系统特别适合聚合物和三维打印材料,因为该窗口的近红外光既能显示表面也能显示浅层亚表面结构。宽带照明还可降低散斑噪声,从而改善图像对比度并实现更可靠的表面检测。

然而,将OCT扫描转换为粗糙度数值需要后处理。常规工作流程包括检测表面边界、滤波降噪、相位校正、展平、调平、像素校准,最终计算轮廓参数。这些步骤需要信号处理知识,用户往往依赖专有软件,而这类软件可能较为僵化且需要培训,从而延缓其在工厂车间的推广应用。

与此同时,大语言模型(LLM)已改变了人工智能的可能性边界。ChatGPT、Gemini、Claude、Grok和LLaMA等模型现已能够处理图像以及文本和结构化数据,可执行计算、读取图像并对工程和检测任务中的物理量进行推理。在医学领域,多模态LLM已用于OCT扫描的报告撰写等任务;在制造业,LLM已用于故障发现和质量检查。但迄今尚未有人系统测试多模态LLM能否直接从OCT图像中估计表面粗糙度参数。大多数OCT粗糙度研究使用手工制作的算法或需要在大规模标注数据集上进行监督训练的人工智能方法。而LLM或许能够从OCT图像中提取信息并计算粗糙度指标,无需任何自定义特征提取,前提是提供适当的提示。这种基于LLM的工作流程并非要消除所有OCT数据准备——OCT系统级重建、像素到物理单位的缩放、校准和图像导出仍然是必要的;其 intended simplification 在于去除专门的特定于应用的表面提取和参数计算阶段。

## 关键技术方法

本研究采用三种并行分析方法:从理想几何形状进行解析计算、基于MATLAB的OCT B扫描提取,以及基于LLM的OCT图像估计。研究使用五种具有精确预定义形状的解析定义体模(G1–G5):锯齿形、圆顶形(半圆柱形)、城堡墙形(稀疏矩形)、微光栅形(密集矩形)和尖峰阵列形。所有体模通过光聚合树脂增材制造( Anycubic Basic光敏树脂 )制备,具有20 mm × 20 mm的平底和图案化顶面,垂直特征高度保持在1.7 mm以内以匹配OCT系统的轴向成像范围。

成像使用中心波长为930 nm的SD-OCT系统,轴向扫描速率为1.2 kHz,最大成像深度1.7 mm,空气中轴向分辨率7 μm,标准配置下横向分辨率约8 μm。每个OCT B扫描由512×512像素组成,对应轴向视场1.7 mm和横向扫描长度10 mm。分析参数严格对应ISO 21920-2定义的初级轮廓(P参数),包括Ra、Rq、Rp、Rv、Rt、Rsk(偏度)和Rku(峰度),在10 mm评估长度上计算。

LLM分析使用ChatGPT(GPT-5.2版本,后期确认使用GPT-5.5 Thinking),通过网页界面上传未预处理的PNG格式OCT图像,在提示中提供轴向和横向尺度信息(10 mm横向/512像素;1.7 mm轴向/512像素)。为评估重复性,每种几何形状使用相同图像和提示进行10次独立估计。

## 研究结果

**理论参考与OCT成像验证。** 解析推导的表面粗糙度参数提供了基于理想几何定义的理论参考,区分了不同几何形状在振幅、空间频率和对称性方面的差异。原始OCT图像显示所有几何形状的主要表面界面均位于轴向成像范围内,证实了制造的宏尺度结构特征。

**MATLAB提取结果。** 以城堡墙几何为例,MATLAB分析得到Ra = 0.120 mm,Rq = 0.127 mm,Rp = 0.183 mm,Rv = 0.192 mm,Rt = 0.375 mm,Rsk = −0.216,Rku = 1.390,表明接近对称的高度分布和低峰度,与平台主导的台阶形貌一致。该程序同样应用于其余几何形状。

**LLM估计结果与比较分析。** 对于锯齿形表面,LLM估计Ra = 0.122 mm,Rq = 0.141 mm,Rp = 0.248 mm,Rv = 0.283 mm,Rt = 0.531 mm,Rsk ≈ −0.03,Rku = 1.84。LLM结果与MATLAB结果直接比较显示,振幅参数Ra和Rq的一致性最佳,而极端值参数差异较大。五种几何按Ra的排序在MATLAB和LLM方法间完全一致(圆顶形<光栅形<城堡墙形<锯齿形<尖峰阵列形),Spearman秩相关系数为1.00。

**重复性评估。** LLM重复性测试中,锯齿形的变异系数(Coefficient of Variation, CV)为Ra 3.8%、Rq 4.2%、Rp 3.5%、Rv 2.8%、Rt 3.1%。所有测试表面的Ra和Rq变异保持在3–5%,Rt低于5%。

## 讨论与结论

该研究验证了多模态LLM作为OCT图像表面粗糙度筛选工具的可行性。振幅参数Ra和Rq的估计与理论值和MATLAB提取值都较为接近,反映了OCT图像中存在的振幅信息,这使得模型能够较好地恢复这些参数。然而,H很高sp和Rv、Rt等极端值参数差异较大,研究结论需要谨慎解释。LLM对Ra和Rq的估计反映OCT图像中存在的振幅信息,而对Rsk和Rku等高阶矩量化趋势相符合,但绝对一致有限。

值得注意的限制在于:LLM并非通过显式重建表面轮廓进行分析,而是从图像外观推断粗糙度特征,可能强调视觉显著特征,尤其在强对比或阴影区域。尖峰阵列的Rv极端偏差(LLM估计超出理论值146%)表明,OCT图像中的低强度或阴影区域可能被解读为更深的谷,进一步增加表观谷深。这种差异是图像纹理和轮廓提取的本质区别。

研究的重复性分析反映了LLM推理的稳定性,而非测量精密度或准确度。该重复性基于固定图像和提示条件下的多次提交,未涉及不同OCT扫描、扫描位置或样品区域的测量重复性。未来研究应包含多个独立B扫描以量化扫描间变异、空间变异和总测量不确定度。

该研究设计为受控概念验证, deliberately 限制于宏观尺度周期结构。LLM方法不替代传统图像处理或校准计量,其价值在于低代码探索性筛选、异构图像格式的快速解读、视觉检查与文本元数据的整合,以及为缺乏定制表面分析软件的用户的决策支持。但也存在非确定性输出、缺乏可审计的提取高度轮廓、视觉幻觉、延迟、计算成本以及对模型版本依赖等缺点。该方法的合适定位是比较性振幅筛选而非关键计量评估,不适用于关键缺陷深度评估或安全相关决策。

研究还指出,需要进一步探索的内容包括:更多表面类型、多扫描采样、正式不确定度评估、不同材料类别(金属、聚合物、纺织品等)、更高分辨率成像系统、以及使模型输出中间步骤(如提取的轮廓坐标)以提升透明度和可审计性。实时实施需要基于API或本地模型部署、固定模型版本、优化提示和专用延迟基准测试。

生物通微信公众号
微信
新浪微博


生物通 版权所有