人工智能(Artificial Intelligence, AI)已成为法庭科学领域极具前景的工具,通过对生物学数据与影像学数据的自动化分析,为个体识别提供了新的可能。基于AI的方法已日益广泛地应用于性别推断、个体识别、祖源推断及亲缘关系分析等任务中。本系统综述旨在综合现有证据,阐明AI模型在法医个体识别中的应用现状、方法学特征及性能表现。研究人员遵循PRISMA指南,在PubMed/MEDLINE与Scopus数据库中进行了系统性文献检索,纳入所有探讨AI在法医识别中应用的研究。数据提取聚焦于研究特征、数据集类型、AI模型架构、法医任务类别、验证策略及报告的性能指标。最终共有89项发表于2012年至2026年间的研究符合纳入标准。绝大多数研究集中于性别推断(63%),其次为个体识别、祖源推断、多任务预测及亲缘关系验证。多数研究依赖影像学数据集,尤其是计算机断层扫描(Computed Tomography, CT)与X线影像。深度学习(Deep Learning, DL)模型是最常用的分析方法。报告的整体准确率普遍较高,在报告单值准确率指标的研究中,中位准确率为91.4%,四分位距为88.9%~95.0%。深度学习方法的性能往往略优于传统机器学习模型。AI在支持法医个体识别方面展现出巨大潜力,尤其在基于影像学的应用中。然而,方法学异质性、特定人群数据集及外部验证有限仍是重要挑战。未来研究应优先考虑标准化验证方案、多人群数据集及透明化报告,以确保基于AI的识别系统在法医实践中的适用性。
引言
法医个体识别是法庭科学的核心目标之一,在未明尸体、大规模灾难及刑事调查案件中尤为关键。确定死者身份对法律调查和人道主义工作均至关重要,包括灾难受害者识别(Disaster Victim Identification, DVI)和为家属提供慰藉。生物画像重建——通常包括性别、年龄、祖源和身高——在识别过程中发挥着基础性作用,特别是当软组织缺失、尸体严重腐烂、碎裂或白骨化时。传统上,法医识别依赖多个互补学科,包括法医人类学、法医牙科学和法医遗传学。牙齿结构与颅面特征因其耐久性和个体差异性而具有重要价值,可用于刑事调查和大规模灾难场景中的受害者识别。同时,DNA分型已成为个体识别的金标准,能够提供高可靠性的遗传证据,将生物样本与个体进行高统计置信度的关联。此外,当遗传物质无法获取或发生降解时,骨骼结构的形态学与测量学分析仍是法医人类学估计生物学特征的基础工具。近年来,计算技术的快速发展通过引入人工智能为法医调查带来了新的可能性。AI是一个广义术语,指能够执行通常需要人类智能才能完成的任务的计算系统。在AI范畴内,机器学习(Machine Learning, ML)指能够从数据中学习模式以进行预测或分类而无需显式编程的算法。深度学习则是机器学习的一个子集,基于多层人工神经网络,特别适用于分析复杂的影像学和高维数据集。这些技术已在多个医学和科学领域展现出巨大潜力,实现了对复杂生物学、影像学及遗传数据的自动化分析。AI融入法庭科学正受到越来越多的关注,其应用涵盖法医病理学、犯罪现场分析、法医放射学及个体识别等领域。机器学习算法可通过识别大型数据集中的模式、提高分类准确率、支持决策过程,同时减少主观偏倚,从而为法医专家提供辅助。特别是,基于AI的方法已在多个识别相关领域得到探索,包括面部重建、骨骼分析、基因分型和基于微生物组的识别。尽管研究数量不断增长,但现有证据仍分散于不同的法医学科和方法学路径中,且常局限于特定领域,缺乏对AI在法医个体识别这一更广泛背景下应用的综合性综合。因此,有必要对当前文献进行系统评估,以更好地理解该技术在该领域的潜力、局限性与方法学挑战。本系统综述旨在分析与综合AI技术在法医个体识别中应用的现有证据。
材料与方法
本研究设计为系统综述,旨在评估AI技术在法医个体识别中的应用,遵循《系统综述和荟萃分析优先报告条目》(Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA 2020)指南进行报告。研究方案预先定义,包括研究问题、纳入标准和数据提取策略,以确保方法学透明度和可重复性,并在开放科学框架(Open Science Framework, OSF)平台上进行前瞻性注册。研究旨在调查用于法医个体识别的基于AI的方法的性能、适用性和局限性,包括基于影像数据的个体识别、性别推断、祖源或人群亲缘关系推断以及法医背景下的面部识别。研究采用改良后的PICO框架构建研究问题:研究对象/数据包括法医影像学、牙科学、人类学或其他生物学数据集;干预措施为基于AI的分析方法;对照为传统法医方法或人类专家评估(若有);结局指标为识别性能指标,如准确率、灵敏度、特异度、曲线下面积(Area Under the Curve, AUC)、等错误率(Equal Error Rate, EER)和排序准确率。纳入标准为原创性研究、涉及AI方法、应用于法医或个人法律相关的个体识别、使用影像学、人体测量学、牙科学或其他生物学数据进行识别、报告定量性能指标且为英文同行评审文章。排除标准包括仅关注临床诊断无法医相关性、社论、信件、会议摘要及观点类文章、缺乏客观性能指标的研究,以及专门聚焦法医年龄推断的研究。研究人员在MEDLINE(通过PubMed)和Scopus中进行了系统性文献检索,检索时间从建库至2026年3月1日,并通过回溯与向前引文追踪补充检索。所有检索记录导入Zotero软件去重后,由两名独立评审员进行两轮筛选:题目和摘要筛选、全文资格评估,分歧通过讨论达成共识。数据提取使用预先标准化的表格,收集作者、发表年份、期刊、数据集特征、AI模型架构、任务类型、性能指标、对照方法及方法学局限性等信息,并由两名评审员交叉核对以确保准确性。方法学质量和偏倚风险使用适用于诊断性和预测性AI研究的工具进行评估,重点关注数据集不平衡、缺乏外部验证和潜在过拟合等AI研究特有的偏倚来源,并定性评估对AI报告标准(如CLAIM或TRIPOD-AI)的遵循情况。鉴于数据集、模型架构和结局指标的预期异质性,计划以叙述性综合作为主要分析方法,并按主要应用领域分组,在方法学同质性足够时考虑定量比较性能指标。
结果
文献检索共识别出1266条记录,去重并剔除撤稿后剩余1080篇进行题目和摘要筛选,排除863篇不符合标准者,对217篇文章进行全文获取与评估,最终89项研究纳入定性综合。研究发表时间跨度为2012年至2026年,涵盖亚洲、欧洲、南美洲和北美洲等多个地区,样本量差异显著,最小为微生物组识别研究的10例个体,最大为超过200000张X线影像的大型牙科数据集。最常用的数据源包括CT扫描、牙科全景X线片、常规X线片、三维骨骼重建、骨骼元素照片、面部及耳部生物特征图像、遗传和微生物组图谱,其中CT衍生测量值和影像学数据集最为常见。使用的AI模型种类多样,包括卷积神经网络(Convolutional Neural Networks, CNNs)、人工神经网络(Artificial Neural Networks, ANNs)、随机森林(Random Forest, RF)、支持向量机(Support Vector Machines, SVMs)、k近邻(k-Nearest Neighbors, KNN)、逻辑回归(Logistic Regression, LR)、梯度提升和XGBoost模型,深度学习架构如ResNet、EfficientNet、GoogLeNet和VGG系列网络频繁出现,部分研究采用集成学习方法结合多种算法。影像学数据集主要使用深度学习架构,而形态测量或骨测量研究更多使用传统机器学习算法。大多数研究集中于性别推断,其他任务包括个体识别、祖源推断、亲缘验证和多任务预测。AI方法在大多数应用中表现出较高的预测性能,性别推断研究报告的准确率常超过85%~90%,多项深度学习模型准确率高于95%,CT深度学习研究在骨盆和颅骨分析中甚至接近100%,基于牙科X线片的识别系统排序准确率也常超过90%。在报告单值准确率的研究中,中位准确率为91.4%,四分位距为88.9%~95.0%。按模型类别分层显示,深度学习方法的中位准确率略高于传统机器学习算法,但分布存在大量重叠。研究在地理分布上集中于亚洲的中国、土耳其、日本、韩国和泰国,欧洲也有相当数量研究,非洲、南美洲和多祖源人群代表性不足。时间趋势显示,2012年最早的研究主要应用机器学习于耳部识别等生物特征任务,2015年至2019年逐步引入更先进的机器学习技术,2020年后随着深度学习架构普及和大型医学影像数据集可用性的提高,发表数量显著增加,近期研究频繁使用ResNet、EfficientNet、Transformer网络和混合深度学习框架,性能优于传统方法。整体趋势表明,法医人类学和识别领域正从传统形态测量统计模型向数据驱动的AI方法转变。
讨论
本综述分析的证据表明,基于AI的方法在多项法医任务中均表现出较高的预测性能,性别推断是最常研究的领域,深度学习尤其是应用于放射学和摄影数据集的卷积神经网络是最常用的模型架构。AI模型在性别推断中取得的高性能与骨盆和颅骨等骨骼区域的明确两性异形密切相关,这些解剖差异提供了可被机器学习算法有效捕捉的生物学信息特征,AI方法可通过自动识别多维数据集中的复杂模式并减少观察者变异性来增强传统形态测量分析。在模型比较方面,深度学习方法在影像学数据中倾向于获得略高的准确率,这得益于其从高维图像数据中自动提取分层视觉特征的能力,但在依赖结构化形态测量数据的研究中,随机森林、支持向量机或集成学习方法的表现可与深度学习相媲美,提示最优建模策略很大程度上取决于可用数据的类型和结构。医学影像学数据集在本领域研究中占据主导地位,计算机断层扫描、常规X线片和牙科全景X线片是最常用的数据源,死后计算机断层扫描在法医实践中的日益普及很可能促进了AI分析方法的快速应用。尽管性能令人鼓舞,但方法学和实际挑战依然存在。最突出的问题是数据集的地理和人口分布不均,大量研究集中于亚洲和欧洲人群,非洲和南美人群代表性严重不足,由于遗传、环境和发育因素导致的骨骼形态和生物学特征的群体间差异,在特定人群数据集上训练的模型在应用于不同人口背景的个体时泛化能力可能受限。此外,研究间的方法学异质性——包括样本量、解剖结构、模型架构和评估指标的差异——限制了正式荟萃分析的可行性,阻碍了研究间的直接比较。许多研究还存在训练数据集小、类别不平衡、模型开发透明度有限以及缺乏外部验证等问题,仅依赖内部交叉验证或留出法测试可能导致高估模型在真实案件中的预测能力。本综述的发现与先前强调AI在法庭科学中日益增长的作用的研究一致,AI不应被视为取代法医专业知识,而应作为一种补充工具来支持专家决策并提高分析效率。同时,AI在法医识别中的整合也引发了重要的伦理和法律考量,算法输出的透明性、可解释性和方法学稳健性是基本要求,复杂“黑箱”模型可能限制专家解释预测依据的能力,从而在需要明确论证的专家证言场景中产生挑战,而人群特异性数据集的使用若应用于代表性不足的群体可能引入潜在偏倚。本综述的优势在于提供了跨学科的综合视角、遵循PRISMA指南并预注册方案,但局限性包括对英文同行评审文献的限制可能引入发表偏倚,以及快速演变的研究领域可能导致新进展在检索完成后才出现。未来研究应优先发展更大规模、更多样化的人群数据集,将外部验证作为标准实践,并整合可解释AI技术以提高透明度和可解释性。
结论
本系统综述全面概述了AI在法医个体识别中的当前应用。研究结果表明,基于AI的方法,特别是应用于影像学数据集的深度学习模型,在性别推断、个体识别、祖源推断和亲缘分析等多项法医任务中展现出高预测性能。数字成像数据(如计算机断层扫描和X线数据集)可用性的提高,在促进法医研究中AI驱动分析方法的开发中发挥了关键作用。尽管结果令人鼓舞,但人群特异性数据集占主导、研究间方法学异质性以及经外部验证模型的可用性有限仍是重要挑战,凸显了对更标准化研究方案和多人群数据集的需求。此外,与算法输出的透明性、可解释性及潜在法医用途相关的伦理和法律考量必须在广泛实施前得到审慎解决。总体而言,AI应被视为支持而非取代人类专业知识的补充工具。未来研究应聚焦于提高模型透明度、扩大训练数据集的人群多样性,并开发标准化验证框架,以确保基于AI的识别系统的可靠性和法医适用性。
打赏