基于计算语言学与机器学习的青少年精神健康障碍超高风险检测研究

时间:2025年7月17日
来源:Schizophrenia

编辑推荐:

本研究针对青少年精神障碍早期诊断难题,创新性地采用计算语言学分析结合机器学习技术,通过80名超高精神病风险(UHR)青少年与329名健康对照者的语音转录文本,系统考察了情感变异性、词汇复杂度等六大语言学特征。研究发现UHR群体呈现情感波动减弱(β=-0.07)、语言偏离常规语域(β=-0.16)等五大特征模式,构建的机器学习模型平均AUC达0.70。该成果为精神障碍的客观生物标志物发现提供了新范式,发表于《Schizophrenia》。

广告
   X   

在全球青少年精神健康问题日益严峻的背景下,早期识别精神病前驱期症状成为临床实践的重大挑战。传统诊断方法依赖主观评估,存在识别率低、时效性差等问题,而语言作为思维表达的直接载体,其计算语言学特征可能隐藏着精神障碍的客观生物标志物。

新加坡国立大学的研究团队在《Schizophrenia》发表创新研究,通过分析429名青少年(含80名UHR个体)在"最具魅力人物"模拟面试中的45秒语音转录文本,首次系统评估了情感变异性、词汇复杂度等六大语言学维度对UHR的预测价值。研究揭示UHR个体的语言呈现"情感钝化-语域偏离-形态简化"的独特模式,构建的机器学习模型展现出临床级鉴别能力,为建立非侵入性早期筛查工具提供了关键技术路径。

研究采用多模态技术策略:1)通过HiSoC任务获取标准化语音样本;2)应用EVA、TAALES等6种计算语言学工具提取1154个文本特征;3)采用Boruta算法进行特征选择;4)通过因子分析构建五大语言学主题;5)建立逻辑回归和随机森林分类模型。所有分析均通过LYRIKS队列的伦理审查。

【Sentiment Intensity and Variability】

情感分析显示UHR组存在显著的情感钝化现象:最长快乐岛最大情感值(FS_MAXHI)降低(β=-0.07),积极情感峰值总和(FS_SPP)减少,同时伴随持续负性情感波动(FS_SVAR)。这与精神分裂症阴性症状的核心表现——快感缺乏(anhedonia)的神经机制相吻合。

【Linguistic Register Alignment】

TAALES工具分析发现,UHR组在COCA语料库的小说(β=-0.16)、杂志等语域的三元组分布显著偏离常规模式,提示其语言组织存在潜在紊乱。这种偏离程度与既往研究中精神障碍患者的"语言解构"现象具有连续性。

【Phonographic Uniqueness and Recognizability】

语音邻域分析揭示UHR组使用更多语音独特词(OG_N↓)但识别准确率更低(WN_SD_CW↑),这种"非常用词-低识别"模式与思维形式障碍(formal thought disorder)的临床特征高度相关。

【Morphological Complexity and Imageability】

形态学分析显示UHR文本呈现"双低"特征:内容词形象值(MRC_Imageability_CW)降低反映抽象思维增强,而屈折词比例(Inflected_Tokens)和词缀频率(suffix_freq_per_cw)下降提示形态复杂度简化,这与精神分裂症患者的语法加工缺陷研究相互印证。

【Lexical Richness and Typicalness】

词汇典型性分析发现UHR组词汇决策准确率(LD_Mean_Accuracy_CW)降低但三元组互信息(COCA_spoken_tri_2_MI)增高,这种"低典型-高预测"组合可能指向思维贫乏(poverty of content)的早期语言标记。

该研究首次系统证实了语音衍生文本特征在UHR检测中的临床价值,其构建的五大语言学主题框架为精神障碍生物标志物研究提供了新维度。特别值得注意的是,研究采用的45秒短时语音样本即能达到0.70的AUC值,突破了传统长时访谈的技术限制。与大型语言模型(LLM)的对比实验显示,专业设计的计算语言学特征在诊断解释性方面具有不可替代的优势。

研究存在的队列规模限制和新加坡英语(Singlish)的方言影响,可通过多中心验证加以改进。未来方向包括:1)整合面部表情等多模态数据;2)开发文化适应性特征集;3)探索特征与神经生物学指标的关联。这项成果为建立客观、可扩展的精神健康监测系统奠定了关键技术基础,对实现精神障碍的"数字表型"分析具有里程碑意义。

生物通微信公众号
微信
新浪微博


生物通 版权所有