基于多任务深度LASSO的MASLD数据驱动分型预测肝内外疾病进展

时间:2026年1月30日
来源:Chinese Medical Journal

编辑推荐:

本研究通过开发新型多任务深度LASSO算法,对经活检证实的代谢相关脂肪性肝病(MASLD)患者进行数据驱动聚类分析,成功识别出四个具有显著异质性的临床亚型。这些亚型在肝纤维化风险、心血管-肾脏-代谢(CKM)综合征及全因死亡率等方面表现出截然不同的预后特征,并结合遗传变异(如PNPLA3、TM6SF2等)进一步揭示了疾病进展的分子机制。该分类系统在健康体检队列和NHANES III队列中得到验证,为MASLD的精准风险分层和个体化管理提供了重要依据。

广告
   X   

引言
代谢相关脂肪性肝病(MASLD)是一种临床异质性很高的疾病,全球有超过30%的个体受累,其结局变异性大。在中国,这种情况尤为严重,构成了重大的公共卫生挑战。MASLD的分类通常基于组织学进展,包括单纯性脂肪变、代谢功能障碍相关脂肪性肝炎(MASH)以及纤维化/肝硬化。更重要的是,除了肝脏进展,MASLD还会增加2型糖尿病(T2DM)、慢性肾脏病(CKD)和心血管疾病(CVD)的风险。目前,缺乏针对MASLD的个性化治疗和管理方案。因此,迫切需要一种能够预测肝脏和肝外结局、指导临床决策的预后分层系统。
大量证据表明,MASLD预后的异质性受多种因素影响,如年龄、性别、胰岛素敏感性、糖脂代谢以及遗传背景。先前的研究已经结合经验推导的血清学标志物来定义MASLD亚型,以识别CVD高风险个体。然而,部分由于缺乏病理学验证,目前的亚型分型系统无法提供全面或准确的肝脏和肝外结局风险估计。此外,在现有的分类框架内,遗传变异对MASLD患者纤维化进展的影响仍不清楚。为了解决这些空白,研究者假设,通过基于深度学习的特征选择,整合临床、组织学和遗传数据得出的精细化MASLD分类,对于精确分层肝脏和肝外并发症风险以及指导个性化管理策略至关重要。
研究方法
本研究遵循《赫尔辛基宣言》及所有其他相关伦理准则。南京鼓楼医院伦理委员会批准了研究方案(编号:2022-444-02),并在ClinicalTrials.gov注册(编号:NCT05560997)。所有参与个体均签署了书面知情同意书。
研究人群方面,发现队列的横断面数据来自2016年1月至2023年6月期间因代谢手术而同时接受肝活检的个体。验证阶段使用了两个健康体检队列。第一个验证队列(健康体检队列)包括2018年1月至2022年12月期间在体检中心进行年度健康检查的个体的基线和纵向数据。第二个验证队列由1988年至1994年间纳入的NHANES III研究的参与者组成。
测量指标包括临床生化、身体成分和各类定义。临床生化数据回顾性收集自电子病历。NHANES III的数据来自其官方网站。计算了贫困收入比(PIR)、稳态模型评估(HOMA2)指数、纤维化-4(FIB-4)指数和甘油三酯-葡萄糖指数(TyG)。通过中性粒细胞-淋巴细胞比值(NLR)和全身免疫炎症指数(SII)评估全身炎症。身体成分使用双能X线吸收测定法(DXA)进行评估。计算了四肢骨骼肌质量指数(ASMI)和安卓脂肪与女性型脂肪质量比(AGR)。
MASLD的定义基于影像学或肝组织学显示的肝脂肪变,并伴有任何心血管代谢危险因素。在发现队列中,肝脂肪变定义为至少5%的脂肪变。MASH定义为MASLD且非酒精性脂肪性肝病活动度评分(NAS)≥5。显著肝纤维化定义为纤维化评分≥2。CVD病史基于自我报告。在没有CVD病史的个体中,基于弗雷明汉心脏研究计算30年预测的CVD风险。高CVD风险定义为有CVD病史或基于弗雷明汉心脏研究的30年全面CVD风险≥40%。CKD通过自我报告的医生诊断或估算肾小球滤过率(eGFR)<60 mL·min–1·1.73m–2或尿白蛋白-肌酐比值(UACR)≥30 mg/g(两次测量,至少间隔3个月)来识别。T2DM、高血压和血脂异常的诊断均基于相应最新标准。在健康体检队列中,肝脂肪变通过超声或CT识别,晚期纤维化/肝硬化通过超声、放射学或FIB-4≥2.67诊断。通过颈动脉超声或CT扫描评估的亚临床动脉粥样硬化被定义为高CVD风险。在NHANES III中,肝脂肪变程度分为无、轻度、中度或重度。
数据处理、特征选择和聚类分析是本研究的核心。首先,排除了缺失数据超过20%的变量,对剩余的52个变量使用简单插补法进行填补,插补性能良好。特征选择采用了一种新颖的多任务深度LASSO方法,该方法通过对输入特征相对于损失的梯度施加群LASSO惩罚来促进特征梯度的稀疏性。其目标函数和特征重要性计算公式在文中详细给出。该方法使用多层感知器作为主干网络,学习跨多个任务的共享表示。通过正则化所有任务的梯度,可以识别并修剪对准确预测多个目标无关的输入特征。本研究重点关注显著纤维化和CVD风险这两个任务,并根据特征重要性(FI)筛选出前六个变量。同时采用了五折交叉验证以确保特征选择的稳定性。
聚类分析对标准化后的值进行,使用K均值聚类法确定参与者集群。最佳聚类数量通过间隙统计量和肘部法确定。为了评估所识别集群的稳健性,比较了K均值聚类和层次聚类的结果,两者显示出高度相似性(余弦相似度为0.90)。使用t分布随机邻域嵌入(t-SNE)进行降维和可视化。为了验证发现队列中的集群,分别在健康体检队列和NHANES III中应用K均值聚类。通过重采样数据集(5000次)并计算与原始集群的Jaccard系数来评估集群稳定性。
此外,在发现队列中对五个与肝纤维化相关的遗传变异(PNPLA3-rs738409, TM6SF2-rs58542926, HSD17B13-rs72613567, MBOAT7-rs641738, GCKR-rs1260326)进行了基因分型。
统计分析中,连续变量以中位数(第25和第75百分位数)表示,分类变量以计数(百分比)表示。使用逻辑回归计算比值比(OR)、调整后比值比(aOR)及其95%置信区间(CI)。生存分析采用两种互补方法:(1)Cox比例风险模型,报告粗风险比(HR)和调整后风险比(aHR);(2)考虑竞争风险的Fine-Gray亚分布风险模型,报告亚分布风险比(sHR)及其95% CI。所有回归模型均纳入Tukey-Kramer多重性调整以进行集群间两两比较。生存曲线通过以下方式生成:用于亚临床动脉粥样硬化、晚期纤维化/肝硬化和全因死亡率的Kaplan-Meier估计量,组间差异通过分层对数秩检验评估;用于病因别死亡率的累积发生率函数,组间差异通过Gray's k样本检验比较。认为双侧P值<0.05具有统计学显著性。所有数据分析均使用Python 3.6.5和R 4.3.1完成。
研究结果
在发现队列的聚类分析中,共纳入1111名受试者,其中973名患有MASLD(平均年龄31.0岁,平均BMI 38.9 kg/m2),138名无脂肪性肝病(SLD)(平均年龄30.4岁,平均BMI 35.8 kg/m2)。通过多任务深度LASSO模型筛选出前六个变量(年龄、BMI、HbA1c、TyG、TC/HDL、GGT/PLT)。随后使用这些变量进行K均值聚类,确定最佳聚类数量为4(k=4)。Jaccard系数分别为0.861、0.796、0.872和0.854,表明分析结果稳定。
这四个已识别的MASLD集群显示出独特的临床和身体成分特征。集群1(n=398, 40.9%)患者较年轻,致动脉粥样硬化性血脂异常标志物较低(较低的TG和LDL,较高的HDL),血糖水平也较低。他们拥有最高的体脂百分比和大腿脂肪百分比,但内脏脂肪水平最低(低AGR)。集群2(n=256, 26.3%)表现出显著的脂质谱紊乱和严重的肝损伤(肝酶升高证据),以及轻度高血糖。集群3(n=186, 19.1%)特征为最低的肌肉量、明显的慢性全身性炎症(NLR和SII升高)、中度升高的糖脂代谢标志物和年龄较大。集群4(n=133, 13.7%)则以严重的胰岛素抵抗(HOMA2-IR和TyG升高)、血糖控制不佳、不利的脂质谱、严重的肝损伤和高内脏脂肪(AGR增加)为特征。
接下来评估了这四个集群与不同肝脏和肝外并发症的关联。以非SLD个体为参照。在经活检证实的MASLD中,29.1%患有MASH,14.7%有显著纤维化。约26.5%的MASLD患者具有高CVD风险,20.7%患有CKD。
集群1患者表现出代谢有利的特征,显示出显著较低的CVD风险(aOR: 0.385),与CKD或肝纤维化无显著关联。集群2包含患有晚期肝病的患者,其中32.0%符合MASH标准,16.8%表现出显著纤维化。该集群显示显著纤维化的风险升高(aOR: 2.377),但肝外合并症发生率与参照组相当。集群3呈现了一种独特的全身代谢失调表型,表现出最高的心血管合并症负担(患病率56.5%;aOR: 14.651)和肾脏表现(CKD患病率22.6%;aOR: 1.981)。值得注意的是,该集群未显示与显著肝纤维化的显著关联。集群4代表了最严重的肝脏表型,同时表现出最高的MASH患病率(43.6%)和与显著纤维化的最强关联(aOR: 3.987;患病率28.6%)。该集群还同时表现出显著的心血管和肾脏负担,CVD患病率49.6%(aOR: 7.255),CKD患病率45.1%(aOR: 4.391)。集群间合并症模式的差异通过事后分析得到统计学确认。
为了进一步探索遗传变异对纤维化的影响,在一个子集(n=442)中分析了SNP基因型与表型的关联。集群4在PNPLA3(CG和GG: 73.9%)、TM6SF2(CT和TT: 23.2%)和MBOAT7(CT和TT: 53.6%)中表现出最高的风险等位基因频率,其次是集群2。携带PNPLA3 rs738409 C>G变异体的个体,CG基因型患者显著纤维化风险增加3.2倍(aOR: 4.214),GG基因型患者风险增加2.7倍(aOR: 3.737)。TM6SF2和MBOAT7的变异也与显著纤维化风险增加显著相关。
外部验证在健康体检队列和NHANES III中进行。为了检验MASLD分类是否适用于更广泛的人群,在健康体检队列(包括6172名成年人,MASLD患病率43.9%,平均随访27.6个月)和NHANES III(包括7406名参与者,MASLD患病率37.3%,平均随访280.2个月)中重复了聚类分析。总体而言,在两个队列中均发现了一致的集群(k=4)。
在健康体检队列中,亚临床动脉粥样硬化在集群3中最常见(65.3%),其次是在集群4(44.4%)。观察到晚期纤维化/肝硬化在集群4(3.1%)和集群2(1.3%)中更为常见。随后应用Cox比例风险回归来识别集群间在亚临床动脉粥样硬化和晚期纤维化/肝硬化方面的差异。集群4患者晚期纤维化/肝硬化风险显著增加(aHR: 5.004),亚临床动脉粥样硬化风险升高(aHR: 1.534)。集群3患者表现出最高的亚临床动脉粥样硬化风险(aHR: 2.853),而集群2患者显示出适度升高的晚期纤维化/肝硬化风险(aHR: 2.446)。相比之下,集群1患者的临床结局较好,亚临床动脉粥样硬化风险降低约54%(aHR: 0.463),晚期纤维化/肝硬化风险增加不显著。这些结果与在发现队列中获得的结果一致。Kaplan-Meier分析显示,集群3的亚临床动脉粥样硬化累积发生率最高,中位发病时间为23.8个月,其次是集群4,中位发病时间为35.0个月。晚期纤维化/肝硬化的累积发生率在集群2和集群4中显著高于其他集群。
在NHANES III中,集群3和集群4与较高的全因死亡率、心血管死亡率和癌症相关死亡率相关。具体而言,集群4显示全因死亡风险增加(aHR: 2.240)、心血管死亡风险增加(sHR: 1.854)和癌症相关死亡风险增加(sHR: 1.575),集群3也是如此(全因死亡aHR: 2.182,心血管死亡sHR: 1.393,癌症相关死亡sHR: 2.113)。此外,使用Kaplan-Meier曲线和累积发生率函数的生存分析进一步支持了这些发现。使用对数秩检验或Gray's k样本检验的P值评估健康体检队列和NHANES III中集群间的生存差异,结果与之前的发现保持一致。
讨论
本研究基于新型算法选择的变量,识别出四个MASLD集群,这些集群在肝脏(如肝纤维化)和肝外(如代谢紊乱、CVD或CKD)并发症方面表现出显著差异。结合三个独立队列的临床特征、身体成分、遗传信息以及全因和病因别死亡率,对这四个集群进行了详细描述。这些发现为理解MASLD的异质性提供了见解,并可能有助于MASLD的个体化管理。
CVD是MASLD个体死亡的主要原因。同时,MASLD与CKD风险增加显著相关。CKD和CVD共享多种共同危险因素,并且相互 predispose 和加剧。最近,美国心脏协会引入了心血管-肾脏-代谢(CKM)健康框架,以标准化全面筛查和管理,从而改善患者结局。在本研究中,集群3表现出CVD和CKD风险均增加,但肝脏相关并发症未见相应增加,因此将其称为"高CKM风险亚组"。集群3的特征是糖脂代谢紊乱,这与先前主要基于代谢特征对MASLD进行CVD风险分型的研究一致。值得注意的是,集群3表现出明显的慢性全身性炎症、较低的肌肉量和较高的年龄。长期暴露于慢性炎症是CKM的危险因素。循环中的促炎和促氧化应激因子加剧了动脉粥样硬化、心肌损伤、肾缺氧和纤维化所涉及的病理生理过程。此外,最近的研究强调,炎症标志物水平升高与肌肉质量减少和肌力下降相关,再加上与年龄相关的肌肉衰退,进一步增加了心血管风险。骨骼肌在调节脂质和葡萄糖摄取和利用中起着关键作用,这与该集群中观察到的代谢紊乱相符。管理集群3中MASLD个体的主要挑战在于降低CKM风险。因此,基于上述发现,除了有效的代谢控制外,应考虑抗炎和增肌策略,尤其是在老年人中。
建议对每位MASLD患者进行晚期纤维化筛查。然而,现有的集群分类未能区分具有潜在高不良肝脏相关结局风险的患者。集群2表现出较高的纤维化风险,但不良心血管或肾脏结局未见相应增加。因此,集群2被标记为"高纤维化风险亚组"。其特征是严重的脂质代谢紊乱和肝损伤。肝细胞脂毒性是肝损伤发展的主要事件,并有助于炎症,导致肝纤维化。推测该亚组很可能代表一种过渡表型,需要更长的随访时间来确认长期结局。该集群中的患者将从积极的降脂治疗和改善胰岛素敏感性中受益,以进一步减轻其长期不良结局风险。
集群4的特征是严重的胰岛素抵抗、肝损伤和内脏脂肪堆积。大量内脏腹部脂肪被认为是肝脏疾病和胰岛素抵抗的危险因素,这进一步加剧了肝纤维化的进展。肝细胞长期暴露于高血糖或/和高脂血症诱导的氧化应激,导致炎性细胞因子释放和胶原沉积,促进纤维化。先前的研究表明,PNPLA3-rs738409基因型加上糖尿病显著增加了MASLD受试者肝硬化的风险分层。一致地,由于该集群中PNPLA3风险等位基因频率最高且高达98%患有糖尿病,集群4具有最高比例的MASH或显著纤维化。尽管遗传风险通常被认为是不可改变的,但严格的血糖控制和改善胰岛素敏感性对于预防集群4的纤维化可能很重要。此外,严重的胰岛素抵抗不仅加速肝纤维化进展,还促进心血管和肾脏疾病的发生。因此,除了具有与集群2相似的较高肝纤维化风险外,集群4还表现出显著增加的心血管和肾脏并发症风险,以及更高的全因死亡率和心血管死亡率。考虑到代谢危险因素对肝纤维化、CKD和CVD的深远影响,以及肝脏在维持代谢稳态中的关键作用,建议将集群4患者纳入"心血管-肝脏-肾脏-代谢(CLKM)综合征"的管理范畴,以有效实施综合防控策略。因此,将集群4命名为"高CLKM风险亚组"。
值得注意的是,脂肪变的存在并不总是独立地与CVD风险的临床显著增加相关。迫切需要一种能够识别低风险患者的预后分类,从而将医疗资源集中在有更差结局风险的患者身上。集群1患者拥有更多的大腿脂肪分布,但腹部内脏脂肪显著较低。他们的表型,包括较低的血浆致动脉粥样硬化性血脂异常标志物、较高的胰岛素敏感性和更强的β细胞功能,类似于代谢健康型肥胖。正如预期,该集群赋予较低的心血管并发症风险,以及较低的全因和病因别死亡率。因此,该集群被标记为"低CVD风险亚组"。越来越多的证据表明,皮下脂肪对心脏代谢疾病和死亡率具有保护作用。这与我们的发现一致,表明脂肪分布可能比BMI与CVD风险更相关。因此,该集群有助于识别表现为"相对代谢健康"的MASLD患者。另一个重要问题是,必须指出集群1中的个体相对年轻,这也可能有助于降低CVD风险。认识到他们独特的代谢特征和体脂分布,可以制定量身定制的综合治疗计划,旨在长期维持他们的代谢健康。
本研究存在一些局限性。首先,所识别的四个集群是否代表MASLD进展的不同阶段,以及一个亚组中的患者是否会随时间转移到另一个亚组,需要在未来具有连续随访的前瞻性研究中评估。其次,队列异质性,特别是MASLD患病率和随访时间的差异,可能影响结果的可比性。虽然在MASLD患病率不同(43.9%和37.3%)的外部队列中观察到了相似的集群,但在解释结果时应考虑这些差异。此外,在尝试验证四个集群与CKD风险的关联时,由于健康体检队列和NHANES数据集中缺乏相关数据,无法重复该发现。未来纳入这些数据集或其他相关队列的研究可能会解决这一空白。最后,本研究使用的是经过指南和权威机构验证的替代终点,而非硬终点结局。考虑到潜在的偏倚,需要进行更大规模的研究,并且需要更长期的随访来确认观察到的关联。
总结
本研究识别出四个MASLD集群,其独特的临床特征与不同的肝脏和肝外结局风险相关。这种精细化的分类不仅有助于根据临床表型识别和分层MASLD患者,而且代表了向个性化治疗策略迈出的关键一步。此外,本研究强调了代谢危险因素、肝纤维化、CKD和CVD之间的相互作用,这些相互作用对MASLD的并发症和死亡率具有深远影响。

生物通微信公众号
微信
新浪微博


生物通 版权所有