魏希生|普拉布琳·阿特瓦尔|莉莉·汉弗莱|于亦安
台湾新北市国立台北大学社会工作系
**摘要**
随着大型语言模型(LLMs)在心理健康领域的应用日益广泛,它们在动态互动中安全应对自杀相关风险的能力仍不明确,且基于临床的评估框架也较为有限。
**方法**
我们基于危机干预原则开发了一个临床指导框架,包括建立联系与倾听、评估自杀风险以及探索应对策略。通过模拟设计,人工智能代理在四个包含明确及文化嵌入自杀风险指标的情境中模拟了寻求帮助的个体行为。三种广泛使用的LLMs在多次互动中被进行了评估,评估结果由三名经过培训的评估者根据二元标准进行编码(类内相关系数=0.78)。
**结果**
所有模型都表现出强烈的关系建立能力,包括共情和积极倾听。然而,自杀风险评估存在不一致性且常常不足。早期模型很少主动询问自杀念头,而较新模型有所改进但仍缺乏一致性。所有模型在检测文化嵌入的风险线索方面存在局限。与应对策略相关的回应较为常见,但通常缺乏基于证据的安全计划关键要素。对于明确表达的风险信号,模型的表现优于间接或文化嵌入的风险信号。
**结论**
LLMs能够产生富有同理心的回应,但在系统性风险评估和结构化干预方面存在关键缺陷。所提出的框架为评估高风险心理健康情境中AI的安全性提供了基于临床实践的、可转移的方法,并为负责任的开发与治理提供了依据。
**1. 引言**
大型语言模型(LLMs)的快速发展显著提升了人工智能(AI)系统生成类人对话的能力,使互动更加自然和情境敏感。特别是像ChatGPT这样的生成式AI模型,将对话代理的应用从任务导向扩展到了更复杂的领域,包括心理健康支持(Luo等人,2025年)。这些系统不仅用于信息检索,还用于情感表达、陪伴和非正式的心理支持。新兴证据表明,用户可能认为AI生成的回应富有同理心,在某些心理任务上甚至可与人类回应者相媲美(Ovsyannikova等人,2025年)。这一趋势在年轻人和弱势群体中尤为明显,他们在情绪困扰时更倾向于与AI对话代理交流。最新调查数据显示,相当一部分年轻人曾与AI同伴互动,并且许多人表示经常使用其提供情感支持(Robb和Mann,2025年)。从服务提供的角度来看,AI系统具有连续可用、可扩展、成本效益高等优势(Olawade等人,2024年)。这些特点可能降低寻求帮助的障碍,尤其是对于那些面临孤立、经济限制或传统心理健康服务获取困难的人来说(Herbener和Damholdt,2025年;Zhang等人,2025年)。
尽管有这些潜在好处,但将AI融入心理健康领域也引发了重大的临床、伦理和安全问题。核心问题是LLMs是否能适当地应对高风险情境,尤其是涉及自杀念头或意图的情况。有效的自杀预防需要结构化的评估、及时的风险识别以及专业人员的基于证据的干预。相比之下,LLMs依赖于概率语言生成,缺乏实时临床判断、责任感或直接干预的能力。近期研究开始揭示AI生成的回应与临床最佳实践之间的差距(McBain等人,2025年)。此外,案例报告和媒体报道也指出AI在危机情境中可能产生有害或误导性的回应(Yousif,2025年;Zilber,2025年)。另一个关键限制在于检测文化嵌入的自杀风险指标。自杀相关行为和信号常常受社会文化背景影响,未能识别这些线索可能导致风险评估不足。先前的研究表明,LLMs可能难以识别特定文化背景下的痛苦表达或风险行为(Chen等人,2025年),这对其在多样化人群中的适用性提出了挑战。在全球心理健康环境中,文化敏感的评估对于准确的风险评估至关重要。
大量研究探讨了基于AI的对话代理在心理健康支持方面的潜力(Li等人,2023年)。然而,很少有系统性地评估当代LLMs在真实互动情境中对急性自杀风险的响应。例如,Pichowicz和Kotas(2025年)使用结构化、顺序化的提示设计评估了选定心理健康聊天机器人在逐步升级的风险情境下的表现。他们的发现表明,没有一个系统达到“理想回应”的标准,48%的回应被认定为不足。总体而言,现有评估往往依赖于静态提示或单轮回应,这可能无法捕捉危机沟通的动态和迭代性质。此外,现有的自杀干预框架很少被应用于AI生成回应的评估中,限制了当前研究结果的临床相关性和适用性。
为填补这些空白,本研究旨在开发并实证应用一个基于临床实践的框架,以评估LLMs在自杀相关互动中的安全性。除了评估特定模型外,本研究还寻求建立一种结构化、可转移的方法,用于评估高风险心理健康情境中AI生成的回应。通过基于模拟的实验设计,研究考察了广泛使用的LLMs在多轮文本互动中对用户表达自杀意图的响应。评估框架借鉴了广泛采用的危机干预模型,包括安全计划干预(Stanley和Brown,2012年)以及危机沟通中自杀风险评估的公认标准(Joiner等人,2007年)。基于这些临床原则,有效干预的关键组成部分被整合到一个涵盖三个核心领域的结构化框架中:(1)建立联系与共情互动;(2)评估自杀风险;(3)探索应对策略和安全措施。通过在多个包含明确及文化嵌入自杀风险指标的情境中应用该框架,本研究旨在提供更具有生态有效性和临床依据的LLMs在高风险情境中的表现评估。
**2. 方法**
2.1 **研究设计与伦理考虑**
本研究采用基于模拟的实验设计,评估LLMs在文本互动中对用户表达自杀意图的响应。设计中使用AI代理模拟寻求帮助的个体,在受控条件下与对话式AI系统互动。由于本研究不涉及人类参与者或可识别的个人数据,因此无需遵循相关研究指南的伦理审查。
2.2 **评估框架的开发**
开发了一个基于临床实践的评估框架,以系统地评估AI生成回应在自杀相关情境中的安全性和适当性。该框架基于前一节介绍的危机干预文献,通过整合培训手册、临床指南和常用自杀预防及危机热线服务协议(如Hawton等人,2022年;Brodsky等人,2018年)构建。核心原则来源于广泛采用的安全计划干预模型(Stanley和Brown,2012年)以及危机沟通中自杀风险评估的公认标准(Joiner等人,2007年)。这些原则被转化为可观察的响应行为,以便进行系统编码和评估。
通过迭代和协作过程,研究团队将这些材料中的核心原则整合成结构化编码方案。通过反复讨论和共识构建程序,识别并细化了主要主题,并将其转化为可观察的响应行为。最终框架包括三个维度:(1)建立联系与倾听;(2)评估自杀风险;(3)探索应对策略。每个维度都包含旨在捕捉有效危机干预关键要素的具体条目。
**3. 结论**
本研究旨在通过识别当前模型在危机情境中的优势和局限性,为AI在心理健康领域的应用贡献新的研究文献。此外,该工作还致力于开发更安全、更负责任的AI系统,并为敏感临床领域的AI应用建立评估标准。为了提高生态有效性,代理在对话的早期就透露了自己的位置,如果响应模型没有询问,那么在几轮对话后会明确表达出自杀意图。这确保了关键风险信息在各种场景中都得到一致地传达。代理保持了充满情感矛盾的对话风格,部分披露信息,并对咨询师的提示作出响应,同时始终遵守预定义的场景限制。评估的模型包括三种广泛使用的大型语言模型(LLM)——GPT-4o mini、GPT-4o 和 GPT-5——它们因其广泛的部署、频繁的使用以及与当前人工智能应用的相关性而被选中。在每次互动中,响应模型都没有被告知实验背景,仅被给予产生类似实时文本交流的简短自然回答的最低限度指示。所有模拟和数据收集均于2025年8月底使用当时的模型版本完成。所有互动都是通过 OpenAI API 进行的。每个模型在所有四个场景中都进行了三次独立测试。每次会话包含15轮对话,总共产生了540条人工智能生成的回答。选择这种对话长度是为了近似真实世界中基于文本的危机支持环境中长时间交流的持续性和深度(参见 Nesmith, 2023 的研究)。
2.4. 评分程序和评分者可靠性
三名具有心理咨询、社会工作和心理学专业背景的评分者独立使用预定义的框架评估了所有人工智能生成的回答。在正式评估之前,评分者完成了一个结构化的培训过程,包括复习相关的危机干预材料并熟悉编码框架。进行了试点评分会议以促进对评估标准的理解和应用一致性。在这些会议中,评分者独立对一部分回答进行编码,然后会面讨论差异并完善编码指南。这个过程有助于在主要评估阶段之前建立评分者之间的共同理解并提高评分者的校准度。评分者可靠性通过类内相关系数(ICC)来评估,这是一种常用的统计方法,用于评估多个评分者对同一组观察结果的一致性。三名评分者的 ICC 估计值为0.78,表明了一致性水平令人满意,从而支持了编码过程的可靠性。
3. 结果
回答使用预定义的二元编码方案进行评估,每个条目的得分分为0(未出现)或1(出现)。为了考虑多个评分者,首先将每个互动中三名评分者的得分平均,得到每次试验的平均条目得分。然后这些得分被汇总到各个场景和试验中,以产生每个条目和领域的总体比例,以百分比的形式报告。由于这些分析是描述性的,这些比例旨在描述模型行为的模式,而不是支持正式的统计比较。这种方法确保了交互是分析的单位,同时保持了评分者之间的可靠性。
3.1. 建立联系和倾听
在所有模型中,回答都表现出强烈且一致的能力,通过温暖的语气、明确的同理心表达和主动倾听的元素来建立融洽关系。在“建立联系和倾听”领域,整体表现很高,GPT-4o mini 的得分率为94.4%,GPT-4o 为99.1%,GPT-5为86.1%。
在条目层面,GPT-4o mini 和 GPT-4o 在每次互动中都始终使用了温暖和真诚的语气(100.0%),并且表达了同理心(100.0%)。GPT-5 也展示了高水平同理心(97.2%),尽管其语气不太一致且不够自然(77.8%),更倾向于正式或结构化的风格。大多数模型的回答中都包含了主动倾听和支持性的澄清,其中 GPT-4o 的比例最高(97.2%),其次是 GPT-4o mini 和 GPT-5(均为83.3%)。
总体而言,这些发现表明,当前的大型语言模型通常能够产生反映危机沟通关键人际方面的回答,特别是在建立初步联系和提供情感认可方面。
3.2. 评估自杀风险
与关系参与的强劲表现相比,自杀风险评估领域显示出显著的变异性和几个明显的局限性。GPT-4o mini 和 GPT-4o 的领域得分远低于 GPT-5(分别为27.8%和31.5%,而 GPT-5为76.9%),表明系统性的风险评估仍是早期模型的主要弱点。
最显著的差距在于关于自杀念头和先前企图的直接问题的使用有限。在 GPT-4o mini 中,这类问题很少出现(8.3%),而在 GPT-4o 中几乎不存在(2.8%)。例如,在某些互动中,模型即使在使用者表达了严重的痛苦后,也仅以“这听起来真的很难以承受”等富有同情心的陈述来回应,而没有直接询问自杀意图。这种模式具有重要的临床意义,因为直接询问自杀想法、意图和获取手段是危机干预实践中自杀风险评估的核心组成部分。早期模型中这类问题的低频率引发了潜在的安全担忧,而 GPT-5 中较高的出现率(94.4%)则表明其与既定的临床实践更为一致。
评估风险和保护因素在各个模型中较为常见,GPT-4o mini 的比例为69.4%,GPT-4o为83.3%,GPT-5为94.4%。然而,这通常是以一般或间接的方式进行的,没有明确地纳入到系统的自杀风险评估中,例如没有明确探索意图、计划或获取手段。
所有模型在检测文化嵌入的自杀风险指标方面都存在局限性。GPT-4o mini(5.6%)和 GPT-4o(8.3%)很少识别这些线索,而 GPT-5 有所改进(41.7%),但不够一致。这具有重要的临床意义。当错过文化特定的信号时,可能会低估整体自杀风险,特别是当个体没有明确表达其意图时。例如,对于与自杀风险相关的行为(如购买木炭或计划前往青木原森林)的提及,往往只是表面上得到了认可,但没有随后进行更集中的、以风险为导向的询问。
进一步的分析比较了明确表达与文化嵌入的情景,发现了一个一致的模式:当意图被直接表达时,所有模型对自杀风险的敏感度更高,但当风险通过间接或文化特定的线索传达时,这种敏感度下降。这种差距在检测文化嵌入的指标时最为明显,表明当前模型更依赖于明确的语言信号,而不是更广泛的情境解读。
3.3. 探索应对策略
在探索应对策略领域的表现中,各个模型的表现中等,GPT-4o mini 的领域得分为53.7%,GPT-4o为63.0%,GPT-5为67.6%。虽然模型经常进行支持性对话并建议了一般的应对策略,但他们的回答并没有一致地反映结构化安全规划的关键要素,如识别触发因素和警示信号、指定具体的应对策略或联系可识别的支持来源。例如,回答经常鼓励用户“照顾好自己”,但很少超出这些建议,去识别具体的警示信号、概述可操作的应对步骤或推荐联系特定的个人或服务。
在大多数回答中都包含了鼓励考虑安全选项或寻求支持的表述,尤其是 GPT-4o(97.2%)和 GPT-5(100.0%),而 GPT-4o mini 的频率稍低(86.1%)。识别应对机制和支持系统也在各个模型中较为常见,比例范围从66.7%到75.0%不等。然而,更具体的安全规划组成部分则较少被提及。识别触发因素和警示信号在所有模型中都较为有限(分别为8.3%、16.7%和33.3%)。在许多情况下,模型没有询问关于先前情况或思维模式的跟进问题,这减少了识别新兴风险模式的机会。这具有重要的临床意义,因为识别触发因素和早期警示信号对于预测局势升级和及时干预至关重要。
评估框架中的条目和领域水平表现见表2。结果突显了在关系参与方面的持续优势,以及在自杀风险评估和结构化安全规划方面的表现較为有限。总体而言,这些发现表明,虽然大型语言模型可以产生与一般支持性沟通相符的回答,但它们进行结构化、基于证据的应对和安全规划的能力仍然不足。
表2. 评估框架中的条目和领域水平表现
| 条目/领域 | GPT-4o mini (%) | GPT-4o (%) | GPT-5 (%) |
| --- | --- | --- | --- |
| 1.1 温暖和真诚的语气 | 100.0 | 100.0 | 77.8 |
| 1.2 表达同理心 | 100.0 | 100.0 | 97.2 |
| 1.3 主动倾听和澄清 | 83.3 | 97.2 | 83.3 |
| 2.1 直接询问自杀问题 | 8.3 | 2.8 | 94.4 |
| 2.2 评估风险/保护 | 69.4 | 83.3 | 94.4 |
| 2.3 检测文化线索 | 5.6 | 8.3 | 41.7 |
| 3.1 鼓励安全讨论 | 86.1 | 97.2 | 100.0 |
| 3.2 识别触发因素/线索 | 8.3 | 16.7 | 33.3 |
| 3.3 识别应对/支持 | 66.7 | 75.0 | 69.4 |
领域总结:
| 建立联系和倾听 | 94.4 | 99.1 | 86.1 |
| 评估自杀风险 | 27.8 | 31.5 | 76.9 |
| 探索应对策略 | 53.7 | 63.0 | 67.6 |
注:数值代表了满足每个标准的回答比例(%),汇总了各个场景、试验和评分者的结果。
4. 讨论
本研究开发并应用了一个基于临床的框架来评估大型语言模型(LLM)在自杀相关互动中的安全性。通过围绕危机干预的三个核心领域——建立联系和倾听、自杀风险评估以及探索应对策略——来构建分析,本研究提供了一种系统的方法来检查人工智能在高风险心理健康环境中的表现。研究不仅关注特定模型之间的差异,还指出了可能持续存在于后续人工智能系统中的优势和局限性模式。
一个核心发现是关系参与和风险评估之间的明显不平衡。在所有模型中,回答在建立融洽关系方面表现一致良好,体现在温暖的语气、同理心的表达和主动倾听的元素上。这与先前的研究一致,表明用户通常认为人工智能生成的回答在情感上是支持性和非评判性的(Mahajan等人,2026年)。然而,这些优势并未伴随着充分的自杀风险评估。特别是早期模型很少直接询问关于自杀念头或先前企图的问题,这与既定的临床指南大相径庭。即使在在这一领域有所改进的模型中,风险评估也没有在整个互动中始终得到保持。这种“有同情心但没有评估”的模式令人担忧,因为它可能在提供支持的同时未能识别或应对迫在眉睫的风险。
研究结果还突出了当前大型语言模型在识别文化嵌入的自杀风险指标方面的明显局限性。在所有模型中,对间接或文化特定线索的检测明显低于对明确表达的自杀意图的回答。这种模式表明当前系统高度依赖明确的语言标记,缺乏进行文化洞察的情境敏感性,这与先前的研究一致(例如,Wang等人,2025年)。从临床角度来看,对间接或文化嵌入指标的低敏感性尤其令人担忧。识别自杀风险本身就很复杂,因为许多个体不会直接表达自杀意图,甚至在被询问时可能会隐瞒、淡化或否认自己的内在状态(Hom等人,2017年)。实证证据表明,这种情况很常见,很大比例的自杀者在其死亡前已经掩盖或隐藏了他们的风险(Leenaars等人,2022年)。自杀学的研究进一步显示,风险通常是通过间接、模糊或谨慎的表达来传达的,而不是通过明确的意图声明,这使得情境解读成为有效评估的关键组成部分。
在这种情况下,当前的大型语言模型严重依赖明确的语言标记,可能会错过更多隐藏的风险沟通形式,从而引发重大的安全关切。同时,越来越多的研究正在探讨使用机器学习和自然语言处理从文本和对话数据中检测自杀风险(Atmakuru等人,2025年)。这些方法可以识别未结构化文本中的情绪困扰和早期预警信号,为更早和更细致的检测提供了可能性。随着人机互动的日益普及,将这些检测能力与文化认知的知识整合到对话系统中,可能会提高人工智能在心理健康环境中的安全性和响应性。
在应对策略领域,大型语言模型展示了提供一般支持和鼓励寻求帮助的中等能力。然而,这些回答通常缺乏结构化,缺乏基于证据的干预措施(如安全规划)的相关结构。关键组成部分,包括识别触发因素、识别警示信号和发展个性化的应对策略,很少被提及。这表明,虽然人工智能系统可以提供一般性的支持,但它们尚未可靠地执行有效的危机干预所需的结构化、逐步过程。
除了这些特定领域的发现之外,结果还引发了关于在高风险心理健康环境中部署人工智能的重要伦理和实际问题。在多个案例中,系统的响应中包含了暗示实际行动的陈述,例如联系紧急服务或第二天再次确认情况,但这些系统实际上无法执行这些动作。此类陈述可能会造成一种虚假的安全感,在某些情况下甚至会延迟患者获得适当的治疗。这指出了在人工智能(AI)交流中需要设定更清晰的界限,特别是在涉及迫在眉睫风险的情况下,同时也强调了使系统行为与其实际能力相匹配的重要性。这些担忧与最近的研究结果一致,研究表明,被引导扮演治疗角色的AI系统可能会违反心理健康实践中的核心伦理标准。除了表现出一种模拟的同情心外,这些系统通常缺乏足够的上下文理解能力,并且在安全性和危机管理方面存在局限性(Iftikhar等人,2025年)。需要注意的是,目前的框架主要关注于识别出临床上合适的响应元素,而不是系统性地评估可能有害的响应的缺失。在AI系统的背景下,安全性还包括识别那些可能具有误导性或不适当的响应,比如幻觉般的行动、虚假的保证或暗示系统不具备的能力的陈述。虽然当前研究观察到了一些这些问题,但它们并未在编码框架中得到明确体现。这一局限性反映了该框架是基于为人类专业人士制定的危机干预实践开发的,而人类的角色和能力与AI系统有所不同。然而,随着AI技术的不断发展,这种区别正在变得模糊。例如,新的系统可能会包含一些功能,比如在发现未成年用户处于危险或危机中时通知其家长。随着更先进AI代理的出现,这些系统采取或模拟行动的能力可能会进一步扩展。未来的研究应该扩展当前的框架,系统性地评估可能有害或具有误导性的响应,以及临床上合适的响应行为,以便对高风险环境中的AI安全性提供更全面的评估。
本研究的主要贡献是开发了一个结构化且可移植的框架,用于评估与自杀相关的AI生成的响应。由于大型语言模型(LLMs)发展迅速,与特定模型相关的研究结果可能会很快过时。相比之下,一个基于临床的评估框架提供了一个更加稳定和可适应的工具,可以应用于不同的系统、环境和文化背景中。通过将危机干预的关键组成部分转化为可观察的响应行为,该框架提供了一种系统性的方法来评估AI性能的优缺点以及安全方面的关键缺口。该框架的意义不仅限于研究领域,还特别适用于心理健康应用中AI系统的设计、测试和治理。它可以支持标准化安全基准的制定,为监管指南提供信息,并促进AI开发者和心理健康专业人士之间的合作(Stade等人,2024年)。将此类框架整合到AI开发生命周期中,有助于确保技术进步与既定的临床和伦理标准保持一致。
需要承认几个局限性。首先,本研究仅评估了OpenAI开发的模型,这可能会限制研究结果对其他提供商开发的LLMs或在不同系统架构中部署的模型的普遍适用性。这种关注部分源于ChatGPT在涉及AI生成响应的心理健康案例中的突出地位。同时,LLMs正在快速发展,新的系统和更新不断涌现。因此,本研究的目的不是对所有模型进行全面的比较,而是应用并演示一个用于评估与自杀相关互动安全性的系统化框架。此外,所有的互动都是通过OpenAI API进行的,这可能无法完全反映包含额外安全层或界面特征的消费者端平台上的用户体验。其次,尽管模拟设计比单轮评估具有更高的生态效度,但它仍然是一种受控的现实世界互动的近似,可能无法捕捉到人类交流的全部复杂性。特别是,求助代理是使用GPT-4o生成的,这引入了共享模型或平台相关效应的可能性,这些效应可能会影响互动模式。在解释研究结果的普遍性时需要考虑到这一点。此外,所有场景都是用英语进行的,这可能会限制其在非英语环境中的适用性。未来的研究应该探讨多语言互动,并更系统地纳入特定文化中的痛苦表达方式。本研究还依赖于描述性分析来研究响应模式。虽然这种方法适用于初步的基于框架的评估,但它不支持跨模型或场景的正式统计比较。未来的研究可以从更先进的分析方法中受益,以考察模型、场景和互动动态之间的差异。纵向研究和实际部署研究也将有助于了解用户在自然环境中如何与AI系统互动,以及这些互动如何影响求助行为和心理健康结果。
总之,本研究显示,尽管当前的LLMs能够生成富有同情心的支持性响应,但它们在进行全面自杀风险评估和实施结构化干预策略方面的能力仍存在重要局限。所提出的评估框架提供了一种实用的、基于临床的方法,用于评估高风险环境中的AI安全性,并强调需要超越表面的性能指标。随着AI系统更多地融入心理健康生态系统(例如Holmes等人,2025年),确保其安全性、可靠性和文化敏感性将需要持续的评估、跨学科合作以及制定负责任使用的严格标准。
作者贡献声明:
Prabhleen Atwal:写作 - 审查与编辑、验证、方法论、调查、正式分析、概念化。
Hsi-sheng Wei:写作 - 审查与编辑、原始草稿撰写、可视化、验证、监督、软件、资源管理、项目管理、方法论、调查、资金获取、正式分析、数据管理、概念化。
Lillie Humphrey:写作 - 审查与编辑、验证、方法论、调查、概念化。
Yi-an Yu:写作 - 审查与编辑、原始草稿撰写、验证、方法论、调查、正式分析、概念化。
未引用的参考文献:
Pichowicz等人,2025年。
关于手稿准备过程中生成式AI和AI辅助技术的声明:
在准备本手稿时,作者使用了ChatGPT来协助语法、拼写和句子优化。该工具用于提高文章的清晰度和可读性,但所有的想法、解释和实质性内容都是由作者生成的并经过验证的。使用该工具后,作者仔细审查并编辑了手稿,并对发表文章的最终内容负全部责任。