人工智能赋能饮食评估应用的有效性在肥胖女性群体中的局限性

时间:2026年3月19日
来源:npj Digital Medicine

编辑推荐:

本研究关注AI饮食评估工具临床验证不足的问题。研究团队利用双标水法(DLW),在自由生活条件下开展横断面观察验证研究,评估了AI图像饮食评估应用SNAQ在肥胖女性中的有效性。结果显示,相比DLW测得的每日总能量消耗(TDEE),SNAQ系统性地低估了能量摄入达25%,且在个体水平上一致性较差。这凸显了当前AI算法性能与临床可行性之间存在转化鸿沟,强调了工具投入应用前需进行标准化临床验证的重要性。

广告
   X   

在追求健康体重的道路上,精确掌握“吃进去多少”和“消耗掉多少”能量,是制定科学减重方案、评估干预效果的基础。随着移动互联网和人工智能(AI)的迅猛发展,各种宣称能通过图像识别自动计算食物热量、评估营养摄入的手机应用层出不穷,为大众提供了看似便捷高效的自我管理工具。然而,这些由前沿算法驱动的应用,其声称的精准度在真实的临床场景中、在面对复杂多样的个人饮食习惯时,是否依然可靠?这背后隐藏着一个“转化鸿沟”——实验室里表现优异的算法模型,距离成为医生和营养师手中可信赖的评估工具,可能还差一场严格的、以生理金标准为参照的临床验证。这正是《npj Digital Medicine》期刊上这项研究所关注的核心问题。
为了填补这一知识空白,一个研究团队将目光投向了一款名为SNAQ的AI图像饮食评估应用。他们提出了一个直接而关键的问题:在自由生活的真实条件下,这款应用对于特定人群(本研究聚焦于肥胖女性)的饮食评估到底有多准?为了回答这个问题,研究人员设计了一项横断面观察性验证研究。他们没有在实验室的受控环境中进行,而是让20名肥胖女性参与者在完全自由的日常生活状态下,完成了一项为期7天的研究协议。研究的“裁判”是能量代谢测量领域的金标准——双标水法(Doubly Labelled Water, DLW)。这种方法通过分析尿液或血液中稳定同位素(如2H和18O)的排泄速率,可以精确计算出人体在特定时期内的总每日能量消耗(Total Daily Energy Expenditure, TDEE)。在能量平衡(体重稳定)的假设下,TDEE可以近似等于总每日能量摄入。与此同时,参与者需要使用SNAQ应用记录她们所有的饮食,并通过传统的24小时膳食回顾法(24-hour dietary recall, 24HR)向研究人员汇报饮食情况。通过将SNAQ和24HR估算的能量摄入,与DLW测得的TDEE(代表“真实”能量摄入的替代指标)进行对比,研究团队旨在客观评估这款AI工具在群体和个体两个层面的有效性。
主要技术方法概述
研究采用横断面观察设计,在自由生活条件下对20名肥胖女性进行评估。核心技术是对比金标准双标水法与两种评估方法:AI图像饮食评估应用SNAQ和传统的24小时膳食回顾。具体流程为:参与者摄入经精确称量的双标水(2H2O和H218O),并在第1天(基线)和第8天(终点)提供尿液样本,通过同位素比值质谱仪分析,计算得到总每日能量消耗。在7天研究期内,参与者需用SNAQ为所有摄入的饮食拍照记录,并在第8天完成一次24小时膳食回顾访谈,由专业营养师分析能量摄入。
SNAQ显著低估能量摄入
在与DLW测得的TDEE(3004 ± 481 kcal/天)对比时,SNAQ表现出明显的系统偏差。在群体水平上,SNAQ平均低估能量摄入达817 kcal/天,相对低估幅度为25%。其一致性界限(limits of agreement)范围极宽,为-3707至2073 kcal/天,这意味着对于某个个体,SNAQ的评估结果与“真实值”的差异可能高达数千卡路里。相比之下,传统的24HR方法低估更为严重,幅度达到50%。这一结果表明,尽管SNAQ采用了先进的AI架构,但其在群体水平上仍存在显著且一致的低估倾向,其绝对误差在临床实践中可能影响能量平衡的判断和干预方案的制定。
个体水平一致性极差
除了群体水平的偏差,研究更关注个体层面评估的一致性,这对于个性化营养指导至关重要。分析显示,SNAQ在个体水平上与DLW参考方法的一致性几乎可以忽略不计。组内相关系数(ICC)的计算结果低至0.00,这表明SNAQ无法可靠地区分不同个体间的能量摄入差异,或者说,其评估结果在个体层面的重复性和可靠性极差。这意味着该应用难以作为追踪个体饮食变化或评估个人干预效果的有效工具。
研究结论与重要意义
本研究的结论明确而有力:尽管SNAQ应用了先进的人工智能技术,但在针对肥胖女性群体的实际验证中,它表现出了系统性的群体水平低估和糟糕的个体水平一致性。这清晰地揭示了在饮食评估领域,算法模型的技术性能与临床环境下的实际可行性之间存在着显著的“转化鸿沟”。高精度的图像识别并不自动等同于准确的能量估算,后者受到食物数据库完备性、份量估计准确性、用户使用依从性、个体代谢差异等多重复杂因素的影响。
这项研究的意义深远。首先,它为日益蓬勃的“数字营养”和移动健康领域敲响了警钟,强调仅仅依靠算法创新和便捷性不足以赢得临床信任,必须经过以生理金标准为参照的、严格设计的临床验证研究。其次,它凸显了在肥胖等特定人群中验证工具的特殊重要性,因为通用模型可能无法应对该人群特定的饮食模式或代谢特征。最后,研究呼吁建立标准化临床验证框架的必要性,以确保未来投入市场的AI饮食评估工具具备可靠的有效性证据,从而真正转化为可助力公共健康和临床管理的有效手段,而非可能产生误导的“数字玩具”。论文最终发表在《npj Digital Medicine》期刊,也体现了数字医学领域对工具临床有效性的高度重视。

生物通微信公众号
微信
新浪微博


生物通 版权所有