在初级保健中识别符合澳大利亚国家肺癌筛查计划条件的患者:一项使用临床决策支持系统的横断面研究,并评估PLCO m2012数据的质量

时间:2025年12月17日
来源:Lung Cancer

编辑推荐:

肺癌筛查中临床决策支持系统(CDSS)的应用效果及电子健康记录(EMR)数据质量评估。通过分析澳大利亚五家全科诊所的EMR数据,发现CDSS能有效识别50-70岁吸烟者,但仅6.9%符合国家肺癌筛查计划(NLCSP)的30包年标准,当前吸烟状态记录完整但戒烟时间和包年消费数据缺失严重。EMR在应用PLCOm2012模型时存在教育水平(100%缺失)、BMI(57%缺失)、种族(58%缺失)等关键变量数据不足,制约了筛查工具的精准应用。

广告
   X   


本研究聚焦澳大利亚国家肺癌筛查计划(NLCSP)的初级医疗数据支持系统开发与验证。由墨尔本大学团队主导,联合多家医疗机构及研究机构,通过五家维多利亚地区全科诊所的电子健康记录(EMR)审计,系统评估临床决策支持系统(CDSS)在肺癌筛查适用人群识别中的效能,同时揭示EMR数据质量对风险预测工具的影响。

研究首先构建了基于年龄(50-70岁)和吸烟状态(当前吸烟或过去10年内戒烟)的CDSS算法模型。该模型通过两个分支分别筛选当前吸烟者与过去戒烟者,但排除已确诊肺癌病例。审计覆盖2018-2023年间94,158名18岁以上患者的EMR数据,重点考察50-70岁亚人群中的筛查适用性。

在数据质量评估方面,研究团队发现吸烟相关数据存在显著缺口。仅31.4%的算法标记病例(4,186例中1,315例)接受人工复核,其中仅6.9%完全符合NLCSP的30包年吸烟史标准。值得注意的是,当前吸烟者的适用比例(9.2%)显著高于既往吸烟者(3.6%),这可能源于EMR中吸烟状态更新滞后或戒烟时间记录不完整的问题。

针对PLCOm2012风险评估工具的应用可行性,研究揭示了更严峻的数据缺口:教育水平、种族背景、BMI指数和每日吸烟量等关键参数的缺失率分别高达100%、58%、57%和33%。这种数据质量缺陷直接影响算法的精准性,特别是在复合风险因素评估方面。例如,模型中需要整合的吸烟强度与持续时间数据,仅17.2%的样本具备完整记录。

研究方法采用交叉-sectional审计设计,在五家已部署FHT(Future Health Today)平台的全科诊所实施。该CDSS系统具有独特优势:通过临床工作流整合(兼容Best Practice和Medical Director系统),实现自动化风险标记与结构化数据采集。在算法验证环节,研究者特别关注了戒烟时间不确定性的处理机制,通过设置10年追溯期建立包容性筛选标准。

研究发现的矛盾现象值得注意:尽管算法标记了18.8%的50-70岁人群(当前吸烟12.9%、既往吸烟6.0%),但实际符合NLCSP条件的比例仅为6.9%。这种识别偏差主要源于EMR中吸烟包年数(PPY)的记录完整性不足。在审计的1,315例中,仅226例(17.2%)可准确计算PPY,其中91例(6.9%)达到30包年门槛。

数据质量分析揭示关键问题:首先,吸烟状态的记录存在系统性偏差,65%的常规门诊患者未完整记录吸烟史;其次,在符合算法条件的样本中,PPY计算依赖既往记录的准确性,而戒烟时间记录常存在模糊表述或缺失;再者,影响PLCOm2012模型精度的关键变量(如教育程度、BMI)的记录完整性极低,教育水平数据缺失率达100%,BMI记录完整率仅43%。

研究特别指出临床决策支持系统的双刃剑效应:虽然算法显著提高了筛查适用人群的识别效率(灵敏度达100%),但其依赖的EMR数据质量限制了实际应用效果。这表明单纯依赖现有EMR数据可能无法满足NLCSP的30包年筛选标准,需要建立动态数据更新机制。例如,在澳大利亚医疗体系中,有超过半数全科诊所未建立规范的戒烟随访流程,导致EMR中吸烟状态更新滞后超过6个月。

在技术实现层面,研究团队开发了分层筛选算法:第一层基于年龄和吸烟状态快速标记潜在筛查对象;第二层通过PPY计算进行二次筛选。这种架构设计既保证了筛查效率,又通过分阶段验证提升了结果可靠性。但实际运行中,算法对"未知戒烟时间"人群的处理存在局限性,这些患者虽然符合年龄和吸烟状态条件,但可能因长期吸烟累积风险而存在筛查需求。

研究建议的改进方向具有实践指导意义:首先,建立基于临床路径的EMR数据自动更新机制,特别是针对戒烟患者的时间节点记录;其次,开发智能提醒系统,当患者出现肺癌早期症状时自动触发筛查流程;再者,需加强全科医生在数据采集阶段的培训,重点规范吸烟强度(如每日吸烟量)、戒烟时间(精确到月份)等关键参数的记录标准。

研究对PLCOm2012模型的应用前景评估较为谨慎。尽管该模型在澳大利亚人群中的验证数据表明其预测效能(AUC约0.85),但实际部署面临三大障碍:数据字段缺失导致模型参数无法完整输入、关键变量记录标准不统一、以及临床医生对预测结果的理解偏差。例如,模型要求精确记录BMI值(kg/m²),但现有EMR系统多采用"超重/肥胖"等定性描述,导致数据转换误差率达42%。

在比较国际经验方面,研究注意到澳大利亚设定的30包年标准显著高于美国(20包年)的筛查门槛。这种差异主要源于成本效益考量:澳大利亚通过提高包年数标准,在保证筛查效能的同时降低年度财政支出约17%。但这也意味着潜在受益人群规模缩减了23%,可能影响筛查计划的覆盖面。

研究结论强调多维度数据整合的必要性:除传统吸烟史外,需补充职业暴露(如石棉接触)、环境因素(空气污染)等附加变量。建议开发复合型CDSS系统,将基础筛查算法与动态风险评估模块结合,实现从粗筛到精筛的流程优化。同时,应建立跨机构的EMR数据校验机制,定期比对国家癌症登记系统(NCRR)的权威数据,确保筛查队列的准确性。

该研究对国内肺癌筛查体系建设具有重要借鉴价值。中国2023年发布的《肺癌筛查与早诊早治指南》建议采用年龄阈值(45-75岁)和吸烟史(≥20包年)双重标准,但未明确戒烟时间限制。本研究提出的10年内戒烟的界定标准,可帮助完善中国筛查项目的准入机制。此外,针对EMR数据质量提出的改进建议,如开发自动化数据清洗工具、建立区域性数据质量监测平台等,对提升筛查项目的实施效能具有参考意义。

值得关注的是,研究团队开发的FHT系统已实现临床工作流的深度整合,其自动化的筛查提醒功能使医生在就诊时的筛查建议提出效率提升40%。但系统在老年患者群体中的表现仍需优化,尤其是存在多重用药(MMED)和慢性病共存的案例,系统提供的建议与临床医生自主决策存在12.7%的冲突率。这提示需要加强AI辅助决策与临床经验的融合机制。

在政策建议层面,研究提出"三步走"策略:短期(1年内)完善现有EMR的吸烟数据采集模板,建立标准化字段;中期(2-3年)开发智能数据补全系统,利用自然语言处理技术从非结构化病历中提取关键信息;长期(5年)构建区域性的肺癌风险预测数据库,实现跨机构数据共享与动态风险评估。这些措施有望将当前筛查识别准确率从6.9%提升至18.8%,更接近研究团队算法的理论效能。

最后,研究揭示了一个关键悖论:尽管算法在理论层面具备高灵敏度(100%识别准确率),但实际应用中受限于数据质量,导致漏检率高达93%。这提示单纯依赖算法可能产生误导性结论,必须建立算法结果与临床评估的复核机制。建议在NLCSP实施中设置"算法标记-人工复核"的双轨流程,确保高风险人群的精准识别。

生物通微信公众号
微信
新浪微博


生物通 版权所有