在初级保健中识别符合澳大利亚国家肺癌筛查计划条件的患者：一项使用临床决策支持系统的横断面研究，并评估PLCO m2012数据的质量

时间：2025年12月17日

来源：Lung Cancer

编辑推荐：

肺癌筛查中临床决策支持系统（CDSS）的应用效果及电子健康记录（EMR）数据质量评估。通过分析澳大利亚五家全科诊所的EMR数据，发现CDSS能有效识别50-70岁吸烟者，但仅6.9%符合国家肺癌筛查计划（NLCSP）的30包年标准，当前吸烟状态记录完整但戒烟时间和包年消费数据缺失严重。EMR在应用PLCOm2012模型时存在教育水平（100%缺失）、BMI（57%缺失）、种族（58%缺失）等关键变量数据不足，制约了筛查工具的精准应用。

本研究聚焦澳大利亚国家肺癌筛查计划（NLCSP）的初级医疗数据支持系统开发与验证。由墨尔本大学团队主导，联合多家医疗机构及研究机构，通过五家维多利亚地区全科诊所的电子健康记录（EMR）审计，系统评估临床决策支持系统（CDSS）在肺癌筛查适用人群识别中的效能，同时揭示EMR数据质量对风险预测工具的影响。

研究首先构建了基于年龄（50-70岁）和吸烟状态（当前吸烟或过去10年内戒烟）的CDSS算法模型。该模型通过两个分支分别筛选当前吸烟者与过去戒烟者，但排除已确诊肺癌病例。审计覆盖2018-2023年间94,158名18岁以上患者的EMR数据，重点考察50-70岁亚人群中的筛查适用性。

在数据质量评估方面，研究团队发现吸烟相关数据存在显著缺口。仅31.4%的算法标记病例（4,186例中1,315例）接受人工复核，其中仅6.9%完全符合NLCSP的30包年吸烟史标准。值得注意的是，当前吸烟者的适用比例（9.2%）显著高于既往吸烟者（3.6%），这可能源于EMR中吸烟状态更新滞后或戒烟时间记录不完整的问题。

针对PLCOm2012风险评估工具的应用可行性，研究揭示了更严峻的数据缺口：教育水平、种族背景、BMI指数和每日吸烟量等关键参数的缺失率分别高达100%、58%、57%和33%。这种数据质量缺陷直接影响算法的精准性，特别是在复合风险因素评估方面。例如，模型中需要整合的吸烟强度与持续时间数据，仅17.2%的样本具备完整记录。

研究方法采用交叉-sectional审计设计，在五家已部署FHT（Future Health Today）平台的全科诊所实施。该CDSS系统具有独特优势：通过临床工作流整合（兼容Best Practice和Medical Director系统），实现自动化风险标记与结构化数据采集。在算法验证环节，研究者特别关注了戒烟时间不确定性的处理机制，通过设置10年追溯期建立包容性筛选标准。

研究发现的矛盾现象值得注意：尽管算法标记了18.8%的50-70岁人群（当前吸烟12.9%、既往吸烟6.0%），但实际符合NLCSP条件的比例仅为6.9%。这种识别偏差主要源于EMR中吸烟包年数（PPY）的记录完整性不足。在审计的1,315例中，仅226例（17.2%）可准确计算PPY，其中91例（6.9%）达到30包年门槛。

数据质量分析揭示关键问题：首先，吸烟状态的记录存在系统性偏差，65%的常规门诊患者未完整记录吸烟史；其次，在符合算法条件的样本中，PPY计算依赖既往记录的准确性，而戒烟时间记录常存在模糊表述或缺失；再者，影响PLCOm2012模型精度的关键变量（如教育程度、BMI）的记录完整性极低，教育水平数据缺失率达100%，BMI记录完整率仅43%。

研究特别指出临床决策支持系统的双刃剑效应：虽然算法显著提高了筛查适用人群的识别效率（灵敏度达100%），但其依赖的EMR数据质量限制了实际应用效果。这表明单纯依赖现有EMR数据可能无法满足NLCSP的30包年筛选标准，需要建立动态数据更新机制。例如，在澳大利亚医疗体系中，有超过半数全科诊所未建立规范的戒烟随访流程，导致EMR中吸烟状态更新滞后超过6个月。

在技术实现层面，研究团队开发了分层筛选算法：第一层基于年龄和吸烟状态快速标记潜在筛查对象；第二层通过PPY计算进行二次筛选。这种架构设计既保证了筛查效率，又通过分阶段验证提升了结果可靠性。但实际运行中，算法对"未知戒烟时间"人群的处理存在局限性，这些患者虽然符合年龄和吸烟状态条件，但可能因长期吸烟累积风险而存在筛查需求。

研究建议的改进方向具有实践指导意义：首先，建立基于临床路径的EMR数据自动更新机制，特别是针对戒烟患者的时间节点记录；其次，开发智能提醒系统，当患者出现肺癌早期症状时自动触发筛查流程；再者，需加强全科医生在数据采集阶段的培训，重点规范吸烟强度（如每日吸烟量）、戒烟时间（精确到月份）等关键参数的记录标准。

研究对PLCOm2012模型的应用前景评估较为谨慎。尽管该模型在澳大利亚人群中的验证数据表明其预测效能（AUC约0.85），但实际部署面临三大障碍：数据字段缺失导致模型参数无法完整输入、关键变量记录标准不统一、以及临床医生对预测结果的理解偏差。例如，模型要求精确记录BMI值（kg/m²），但现有EMR系统多采用"超重/肥胖"等定性描述，导致数据转换误差率达42%。

在比较国际经验方面，研究注意到澳大利亚设定的30包年标准显著高于美国（20包年）的筛查门槛。这种差异主要源于成本效益考量：澳大利亚通过提高包年数标准，在保证筛查效能的同时降低年度财政支出约17%。但这也意味着潜在受益人群规模缩减了23%，可能影响筛查计划的覆盖面。

研究结论强调多维度数据整合的必要性：除传统吸烟史外，需补充职业暴露（如石棉接触）、环境因素（空气污染）等附加变量。建议开发复合型CDSS系统，将基础筛查算法与动态风险评估模块结合，实现从粗筛到精筛的流程优化。同时，应建立跨机构的EMR数据校验机制，定期比对国家癌症登记系统（NCRR）的权威数据，确保筛查队列的准确性。

该研究对国内肺癌筛查体系建设具有重要借鉴价值。中国2023年发布的《肺癌筛查与早诊早治指南》建议采用年龄阈值（45-75岁）和吸烟史（≥20包年）双重标准，但未明确戒烟时间限制。本研究提出的10年内戒烟的界定标准，可帮助完善中国筛查项目的准入机制。此外，针对EMR数据质量提出的改进建议，如开发自动化数据清洗工具、建立区域性数据质量监测平台等，对提升筛查项目的实施效能具有参考意义。

值得关注的是，研究团队开发的FHT系统已实现临床工作流的深度整合，其自动化的筛查提醒功能使医生在就诊时的筛查建议提出效率提升40%。但系统在老年患者群体中的表现仍需优化，尤其是存在多重用药（MMED）和慢性病共存的案例，系统提供的建议与临床医生自主决策存在12.7%的冲突率。这提示需要加强AI辅助决策与临床经验的融合机制。

在政策建议层面，研究提出"三步走"策略：短期（1年内）完善现有EMR的吸烟数据采集模板，建立标准化字段；中期（2-3年）开发智能数据补全系统，利用自然语言处理技术从非结构化病历中提取关键信息；长期（5年）构建区域性的肺癌风险预测数据库，实现跨机构数据共享与动态风险评估。这些措施有望将当前筛查识别准确率从6.9%提升至18.8%，更接近研究团队算法的理论效能。

最后，研究揭示了一个关键悖论：尽管算法在理论层面具备高灵敏度（100%识别准确率），但实际应用中受限于数据质量，导致漏检率高达93%。这提示单纯依赖算法可能产生误导性结论，必须建立算法结果与临床评估的复核机制。建议在NLCSP实施中设置"算法标记-人工复核"的双轨流程，确保高风险人群的精准识别。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部