基于机器学习的青少年社交媒体自伤自杀风险分级检测:算法开发与验证研究

时间:2026年1月25日
来源:JMIR Mental Health

编辑推荐:

为解决青少年在私密社交媒体对话中自伤自杀(SH-S)风险语言的精准识别难题,研究人员开展了利用机器学习(ML)和自然语言处理(NLP)技术进行风险分级检测的研究。他们利用青少年捐赠的Instagram私信数据,开发了可解释模型,超越了传统的二元分类,能够识别SH-S表达谱系(包括“自我披露”、“他人经历”和“夸张表达”)。研究结果表明,DistilBERT模型在区分SH-S信息方面表现出色(准确率99%),而将分析层面从单条信息扩展到子对话层面后,模型在细粒度三分类任务中的准确率提升至91%。这项研究强调了上下文理解对于区分SH-S话语中细微差别的重要性,为开发更精准、更具情境意识且符合伦理的数字干预措施奠定了基础,对青少年心理健康领域具有重要意义。

广告
   X   

在数字时代,社交媒体已成为青少年表达情感、寻求支持的重要空间,甚至包括自伤或自杀(Self-Harm or Suicide, SH-S)这类高度敏感的话题。然而,青少年在表达这些内容时,常常使用动态的俚语、夸张的言辞和间接的语言线索,这使得传统的自动化检测系统面临巨大挑战。这些系统往往难以区分真实的求助信号与无恶意的幽默或夸张表达,从而导致误报(将玩笑视为风险)或漏报(忽略真实的危险信号)的风险。这种困境凸显了开发能够理解上下文、精准识别不同风险等级的自伤自杀语言检测工具的紧迫性。
为了应对这一挑战,一项发表在《JMIR Mental Health》上的研究应运而生。该研究旨在开发一种情境敏感的框架,用于检测和分类青少年私密通信中不同类型的SH-S语言。研究人员不再满足于简单的“是”或“否”的二元分类,而是致力于识别SH-S表达的完整谱系,包括个人自我披露(self)、谈论他人的SH-S经历(other)以及非严肃的、夸张的提及(hyperbole)。通过这种细粒度的分类,目标是实现对风险的精准分级,从而为不同危急程度的个案提供更有针对性的干预支持。
研究人员利用来自Instagram数据捐赠(IGDD)项目的真实数据集,该数据集包含了青少年(13-21岁)捐赠的私人直接消息。研究团队对其中2019个子对话(源自1224个与SH-S相关的对话)进行了人工标注,并将其分为上述三个类别。为了回答核心研究问题,研究评估了多种机器学习模型,包括传统的分类器(如支持向量机SVM、随机森林、朴素贝叶斯、极限梯度提升XGBoost)和基于Transformer的架构(如BERT和其蒸馏版本DistilBERT)。除了原始文本,研究还融入了上下文特征、心理语言学特征(使用LIWC词典)、情感分析(使用VADER工具)和词汇特征(如TF-IDF)以提高检测准确性。此外,研究还系统性地评估了不同大小的上下文窗口(从单条信息级别到包含更多对话历史的子对话级别)对模型性能的影响。
研究的关键技术方法主要包括:利用Transformer模型(如DistilBERT)进行端到端的文本分类;结合心理语言学词典(LIWC)和情感分析工具(VADER)进行特征工程;采用数据增强技术(如BertAug)平衡数据集;并使用分层K折交叉验证和早停法等策略评估和优化模型性能,确保结果的稳健性。研究所用的核心数据来源于青少年捐赠的真实私密社交媒体对话。
研究结果
自动化分类性能(研究问题1)
在二元分类(区分SH-S与非SH-S信息)任务中,DistilBERT模型表现最佳,准确率高达99%。然而,当任务变为更具挑战性的三分类(区分self、other、hyperbole)时,模型在单条信息级别上的准确率下降至89%。值得注意的是,当将分析范围扩大到子对话级别(包含15-20条信息的完整交流单元)时,模型的整体准确率提升至91%。这表明更广泛的对话上下文为模型提供了关键的语义信息,有助于更好地区分细微的意图差异。例如,仅看一条信息“And want to kill myself”,模型可能误判为夸张表达,但当看到对话伙伴回应“No don’t kill yourself”时,模型就能更准确地识别出其中的严肃性和紧迫性。反之,包含“cut”和“I”等词汇的信息,若在更大上下文中出现“HAHAHAHAHA”等信号,则有助于模型将其正确归类为幽默或夸张。
心理语言学及上下文特征(研究问题2)
对模型决策有重要贡献的特征分析揭示了不同类别SH-S语言的独特模式:
  • 自我披露(self):与犹豫、不确定性(tentativeness)相关的词语(如“maybe”、“if”)具有较高的预测重要性,反映了个人在表达痛苦时的复杂和矛盾心理。
  • 夸张表达(hyperbole):与空间、时间相关的语言更为突出,常用于构建生动、夸张的叙事场景。
  • 他人经历(other):与家庭、社会过程相关的词汇出现频率较高,表明这类讨论常围绕人际关系和社交环境展开。
此外,对其他语言学特征的分析发现,共情得分(EmpathyScore) 是区分三个类别的最强指标,尤其在自我披露信息中得分最高。毒性(Toxicity) 得分在夸张表达中更为常见,但值得注意的是,毒性与共情得分存在正相关,提示一些看似“有毒”的言论可能实质上是求助信号,这为内容审核系统提供了重要启示。
关于人口统计学特征,研究发现不同性别的青少年在SH-S表达方式上存在显著差异(χ²检验,P<.001)。男性参与者更倾向于使用夸张的SH-S语言;女性参与者更常讨论他人的SH-S经历;而非二元性别的参与者则更多地分享个人的SH-S经历。这些发现强调了在开发检测模型时考虑用户背景信息的重要性,以更好地理解风险表达的多样性。
研究结论与意义
本研究证实了基于Transformer的模型(特别是DistilBERT)在检测青少年私密社交媒体对话中SH-S意念方面的有效性。研究的核心创新在于超越了传统的二元分类,通过结合上下文、心理语言学、情感和词汇特征,构建了一个能够捕捉SH-S表达细微差别(从夸张表达到个人披露)的风险分级框架。研究结果强调,扩展上下文窗口至子对话级别能显著提高分类准确性,突显了对话语境在理解青少年心理健康语言中的关键作用。
这项研究为在未来临床和教育场景中应用自动化风险检测工具奠定了重要基础。通过实现风险分级(例如,区分低风险的夸张表达和高风险的自我披露内容),可以构建分诊系统,优先处理最紧急的个案,从而优化有限的心理健康资源,减少不必要的干预,并增强支持系统的有效性。研究揭示的性别相关表达模式也强调了开发包容、公平且符合伦理的检测工具的必要性,这些工具应能适应不同人群的交流方式。
当然,研究也存在一些局限性,例如依赖研究人员而非参与者自身的标注,以及数据仅限于英语和美国青少年群体。未来的研究应致力于整合参与者自我报告和临床专家的评估,将模型应用于更多元和跨文化的语境中,并进一步探索如何将这类工具安全、有效、符合伦理地整合到真实的心理健康支持流程中,最终为青少年构建更安全的网络空间和更及时的支持系统。

生物通微信公众号
微信
新浪微博


生物通 版权所有