近年来,机器学习方法被日益广泛地应用于基于社交媒体文本数据的心理健康风险检测任务中。然而,现有研究在目标结局、数据来源、标注策略及评估实践等方面存在显著差异,针对该领域近期进展的结构化全景概览仍然有限。本研究采用范围综述(scoping review)方法,旨在系统描绘2021年1月至2026年1月期间,基于机器学习的社交媒体文本心理健康风险检测的研究格局。研究人员严格遵循PRISMA ScR(Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews)指南,系统检索了PubMed、Web of Science及IEEE Xplore数据库中的同行评审期刊文献。纳入标准为应用机器学习或深度学习技术处理社交媒体文本数据以进行心理健康风险检测的研究,并通过描述性方法进行综合合成。最终共纳入136项研究。分析结果显示,大多数研究聚焦于抑郁、焦虑及自杀或自伤相关风险。心理健康风险的操作化定义主要依赖于源自用户生成内容的代理指标(proxy indicators),基于调查关联或临床锚定标签的研究较为有限。传统机器学习、深度学习及基于Transformer架构的模型在研究中并存,且在验证策略和性能指标上存在显著的异质性。当前研究主要靶向基于代理指标的心理健康风险信号,而非临床诊断。本综述厘清了该领域主流的研究重点与方法学实践,支持将基于社交媒体的分析方法用于人群层面的监测及早期风险识别。
1 引言
全球范围内,心理健康问题已成为公共卫生领域的重大挑战,抑郁症、焦虑症及自杀风险等心理障碍呈现持续上升趋势,给个体福祉、社会功能及医疗系统带来巨大压力。传统的心理健康检测与评估主要依赖临床访谈、自评问卷及面对面诊断,但此类方法往往难以动态捕捉个体情绪状态的实时变化,也难以覆盖尚未主动求助或进入医疗系统的潜在高风险人群,在覆盖范围、时间敏感性及生态效度方面存在局限。随着互联网与社交媒体的普及,个体的情感表达、生活经历及社会互动日益通过在线平台呈现,形成了兼具实时性与情境性的用户生成内容(User-Generated Content, UGC),主要包括文本表达及其伴随的发帖频率、话题参与及语言使用模式等交互特征。Twitter、Reddit、微博等平台产生的大规模文本数据被认为蕴含丰富的心理线索,包括情感词汇、主题焦点及叙事风格,因此日益被视为传统心理测量方法的重要补充,推动了计算社会科学、心理信息学及自然语言处理(Natural Language Processing, NLP)领域的跨学科研究发展。近年来,机器学习与深度学习技术在文本分类、情感分析及风险预测任务中取得快速进展,为基于社交媒体文本数据的数据驱动型心理健康监测提供了重要的方法论基础。研究人员广泛采用支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest, RF)、卷积神经网络(Convolutional Neural Network, CNN)、长短期记忆网络(Long Short-Term Memory, LSTM)以及基于Transformer的预训练模型(如双向编码器表征Bidirectional Encoder Representations from Transformers, BERT)等方法,识别与抑郁、焦虑、自杀风险相关的语言模式与表达特征。现有实证研究表明,基于NLP的方法能够从社交媒体文本中提取与情感体验及心理困扰相关的语言特征,支持心理状态识别与风险检测。例如,有研究通过NLP方法对用户文本进行情绪相关标注,在焦虑与抑郁检测任务中达到了约81%的准确率;还有研究利用LSTM对用户发帖行为进行序列建模以识别潜在高风险人群,凸显了序列方法在早期预警中的应用潜力。此外,情感分析模型在包含否定表达的复杂语言现象下仍表现出一定的鲁棒性。近期研究也开始探索基于Transformer架构的预训练模型在该领域的适应性与扩展性,但整体研究格局在方法与任务上仍呈现出显著的异质性。尽管现有综述多关注特定精神健康主题、特定社交平台或单一算法范式,从跨结局、跨平台及多样化机器学习方法整合视角系统描绘该领域研究结构与方法论全景的工作仍然有限,且不同研究在模型选择、评估指标及数据规模上的巨大差异进一步降低了进行综合比较的可能性。基于此,本研究采用范围综述方法,系统考察2021年至2026年初发表的相关文献,旨在厘清该领域的时间趋势、地理分布、目标结局类型、模型应用分布及性能评估指标,构建整体知识图谱,识别研究热点与结构缺口,为未来研究与公共卫生实践提供方法学参考。
2 方法
本研究遵循PRISMA ScR指南开展范围综述。检索策略方面,研究人员于2026年1月16日系统检索了PubMed、Web of Science及IEEE Xplore三个数据库,限定检索语言为英语,检索词组合涵盖社交媒体平台(如Twitter、Reddit、微博)、机器学习技术(如深度学习、NLP、Transformer、BERT)及心理健康结局(如抑郁、焦虑、自杀风险)。纳入标准包括:使用社交媒体文本数据或文本中心的用户生成内容进行心理健康风险检测;采用机器学习或深度学习模型;关注预测或分类模型;为同行评审期刊文章;发表于2021年1月1日至2026年1月16日期间;以英语发表。排除标准包括:未明确社交媒体文本数据集来源;仅依赖人工编码或标注而无机器学习建模、预测或验证流程;缺乏性能指标或方法学细节;非同行评审出版物(如会议摘要、社论、综述、报告、学位论文及纯定性研究)。文献筛选分为三个阶段:首先去除重复记录并下载全文;其次由两名研究人员独立进行标题与摘要筛选;最后独立进行全文评估并确定纳入文献,分歧通过讨论解决,必要时引入第三位研究人员。在标题与摘要筛选阶段计算了Cohen's Kappa系数以评估评分者间一致性。数据提取采用标准化表格,由两名研究人员独立提取研究特征、预测模型及训练数据源等信息,并使用叙述性方法进行综合。心理健康结局被归纳为五类主题类别,同时系统记录了机器学习预测模型、训练数据源、样本量、心理健康问题类型、性能评估指标及最佳检测性能。在数据提取阶段,对10%的样本进行了一致性检验,并计算了Cohen's Kappa系数。
3 结果
3.1 检索结果
经筛选,最初从三个数据库共检索到619条记录。去重后,排除综述、会议相关文献、非同行评议文献、目标年份或语言外的文献、撤稿或预印本记录及无法获取全文的文献,剩余332篇文章进入标题与摘要筛选。此阶段移除了135篇不相关记录和5篇缺乏可复现机器学习建模与性能评估信息的定性研究,192篇文章进入全文筛选。全文筛选阶段进一步排除了56篇文章,主要原因是未明确社交媒体文本数据来源、未涉及机器学习模型、缺乏性能指标或关键方法学细节,或仅依赖人工编码而未构建机器学习模型。最终纳入136篇文章。两名研究人员在标题与摘要筛选阶段的评分者间一致性较高,Cohen's Kappa系数为0.78;数据提取阶段的一致性亦较高,Cohen's Kappa系数为0.82。
3.2 纳入研究的特征
2021至2025年间,该领域发文量呈明显上升趋势,从2021年的17篇增至2024年的36篇,表明近年学术界对该主题持续关注,2023至2024年为相对活跃期。2025年发文量回落至27篇,但仍高于早期年份,显示研究活动总体维持在稳定高位。地理分布上,相关研究呈现明显的跨区域特征,亚洲是主要产出地区,中国(23篇)与印度(16篇)贡献最多,其次为沙特阿拉伯与澳大利亚(各7篇);北美以美国(16篇)和加拿大(8篇)为主;欧洲产出相对分散;非洲与拉丁美洲亦有少量研究,显示出该主题的一定全球覆盖度。
3.3 心理健康状况
在136项纳入研究中,研究目标主要集中在常见心理健康问题上。具体而言,常见心理健康问题占比最高(63项,46.3%),主要涉及抑郁、焦虑、抑郁焦虑共病、社交焦虑、创伤后应激障碍(Post-Traumatic Stress Disorder, PTSD)及抑郁伴压力状态(不含自杀结局)。其次为自杀与自伤结局(38项,27.9%),反映了社交媒体研究的强风险预警导向。心理痛苦状态(非诊断性)占12项(8.8%),侧重于情绪反应或过程性状态;一般心理健康与幸福感同样占12项(8.8%),多从宏观视角考察整体心理健康、情绪韧性或集体情绪反应。严重或复杂精神疾病的研究相对有限(11项,8.2%),主要涉及精神分裂症、双相情感障碍、神经精神症状、神经性厌食症及多重共病,主要关注疾病相关语言模式作为心理脆弱性的代理指标,而非直接的临床标志物。
3.4 心理健康标注标准
纳入研究中最常用的标注方法是基于社区或平台的代理标签(104项,76.5%),通常依赖特定话题社区、关键词、标签或用户自我描述,通过规则匹配或弱监督、模型驱动的标注策略推断风险,而非基于个体临床诊断。其次为结合机器学习与人工识别的混合标注策略(19项,14.0%)。相比之下,基于调查的临床或自评测量方法占比较低(7项,5.1%),直接使用临床或行政服务记录作为标注来源的研究最少(6项,4.4%)。总体而言,现有研究强烈倾向于依赖平台级代理标签,真实临床数据的使用十分有限。
3.5 社交媒体文本数据源与机器学习模型
研究主要依赖少数主流平台,Twitter使用最多(63项),其次为Reddit(39项)和微博(16项)。部分研究整合多平台数据,最常见的是Twitter与Reddit结合(16项),其他多平台组合较为罕见。在预测模型方面,支持向量机和随机森林仍是最常用的传统机器学习模型,广泛应用于不同平台的研究中;朴素贝叶斯、k近邻和逻辑回归等经典算法也频繁出现。深度学习模型的使用显著增加,CNN和LSTM被广泛应用;门控循环单元(Gated Recurrent Unit, GRU)、多层感知机(Multilayer Perceptron, MLP)、XGBoost及基于Transformer的模型(如BERT和XLNet)在近期研究中日益增多,少数研究引入了大语言模型(Large Language Models, LLMs)或任务定制算法,显示出向更复杂表征学习和生成式建模发展的趋势。传统机器学习方法仍占主导,但深度学习与预训练模型的应用增长表明方法论格局日益多元化。模型性能评估方面,几乎所有研究都报告了至少一项量化指标。准确率和F1分数是最常用的核心指标,精确率和召回率也常作为补充指标出现。AUC、Cohen's Kappa、相关系数等指标仅在少数研究中使用。不同数据源的性能范围差异显著,基于Twitter和Reddit数据的模型性能分布较广,而基于微博数据的研究性能多处于中高水平。语言使用上,研究样本以英语数据为主,中文数据集中于微博及相关平台研究,少数研究涉及阿拉伯语、西班牙语、日语等其他语言或多语言分析。样本量方面,参与者或文本数据规模差异巨大,最小样本约300例,最大可达数亿例。
4 讨论
4.1 关键发现与技术考量
本综述表明,该领域主要将“风险”操作化为用户生成内容中捕获的代理指标,如痛苦相关表达、自我披露的症状及与脆弱性相关的语言模式,而非确诊的临床事件。研究多集中于抑郁、焦虑和自杀自伤相关结局,这些结局在社交媒体话语中往往具有更易观察的表达标记。严重或复杂精神疾病的研究较少,且多强调疾病相关语言相关性而非诊断效度。这种结局集中性对模型解释有重要影响:即使预测性能表现强劲,也主要反映的是特定平台背景下代理标签分组的可分离性,而非临床诊断准确性。多数研究依赖平台或社区代理标签,仅有少数研究将标签与调查或自评测量相关联,后者虽提升了构念对齐度,但通常受限于样本规模和抽样约束。建模选择方面,传统机器学习模型仍被广泛使用,深度学习与Transformer架构方法并存。Transformer及增强型BERT风格模型常被用于上下文表征,包括跨语言或多语言场景。模型复杂度并不自动转化为更好的现实效用,需在数据需求、鲁棒性和可解释性之间进行权衡。评估实践也存在显著差异,校准、外部验证和时间鲁棒性测试未被一致采纳。因此,应在各自研究语境下对报告的性能进行描述性解读,除非任务定义、标签构建和验证协议保持一致,否则不宜进行跨研究比较。
4.2 伦理与临床启示
伦理层面,代理标签的主导地位意味着误分类和过度推断的风险不容忽视,社区标签和自我披露启发法可能将痛苦表达与精神障碍的存在混为一谈,若模型输出被解释为诊断主张,则可能加剧污名化。假阳性可能导致不必要的标记、焦虑或个人社会后果,假阴性则可能延误对严重风险的识别和及时支持,尤其在自杀相关情境中。因此,明确区分风险信号识别与临床诊断至关重要。临床转化层面,现有证据显示将社交媒体风险检测模型直接应用于临床存在显著制约。大多数研究未明确算法识别风险后的责任归属结构或干预方案,目前尚无成熟的临床路径将此类信号整合入常规心理健康护理。因此,应谨慎将这些模型定位为筛查和监测辅助工具,而非独立的诊断工具。模型输出更适用于聚合层面的应用,如社区趋势监测或早期预警,而非个体层面的标记。此外,模型输出可能反映平台参与和语言规范中嵌入的社会文化偏见,例如神经性厌食症建模中提出的性别偏见问题,提示模型行为可能在人口统计学群体间存在差异,若不加审计可能强化有害刻板印象。鉴于预训练模型和大语言模型使用的增加,可解释性和问责制变得愈发关键。
4.3 局限性与未来研究
数据来源方面,纳入证据的构成受平台生态和可及性限制,主要依赖Twitter和Reddit等高可用性文本平台,文化和情境普适性可能受限。虽然存在多语言或非英语研究,但英语数据仍占主导,非英语数据集往往规模较小或抽样标注异质性较高,影响跨文化可迁移性。多数研究仍以文本为中心,较少整合非文本或交互层面信号。未来研究可扩展跨平台和跨语言验证,探索融合文本与行为、交互特征的多模态设计,同时保持透明的数据溯源和隐私保护。方法学层面,本综述的检索窗口限定在2021至2026年初,可能遗漏了塑造早期任务表述和标注惯例的探索性研究;检索限于三个数据库且限定英语,可能遗漏其他数据库或其他语言的相关研究,存在数据库和语言相关的选择偏差;少量因无法获取全文而未能评估的记录构成了潜在的可用性偏差。此外,原始研究在代理标注、验证协议和报告实践上存在显著异质性。未来研究应加强构念对齐,明确每项任务中“风险”的具体指代,标准化标签和评估指标的报告,并采用更强的验证层级,包括跨平台测试、时间分离评估和独立复现。
5 结论
本范围综述系统描绘了基于机器学习从社交媒体文本数据中检测心理健康风险的研究格局。综合分析表明,当前研究主要靶向抑郁、焦虑及自杀或自伤相关风险,并将心理健康风险操作化为源自用户生成内容的代理指标,而非临床诊断。基于平台或社区的标注是最常用策略,而基于临床的锚定验证仍然有限。通过对136项研究的综合,本综述厘清了该领域的主流研究重点与方法学实践,强调了基于社交媒体的机器学习方法作为人群层面监测和早期风险识别工具的作用,并为未来旨在提升概念清晰度、验证严谨性及负责任应用的研究提供了参考框架。
打赏