当信任发生冲突时：通过“囚徒困境”探究人类与大型语言模型（LLM）之间的合作意愿

时间：2026年1月20日

来源：International Journal of Human-Computer Studies

编辑推荐：

LLMs快速演进赋予AI更强推理与决策能力，使其从被动工具转向自适应协作伙伴。然而其黑箱特性与幻觉导致输出不确定性，可能影响人机协作中的信任与结果一致性。本研究通过30人囚徒困境实验，探究LLM声明身份（人类/规则驱动/LLM驱动）与用户性别对合作意愿的影响，发现声明身份显著改变合作意愿，性别差异通过感知身份和信任中介作用影响结果，并揭示人机信任动态修复机制。这些成果为混合动机场景下可信赖AI系统设计提供实证基础。

姜关轩|杨世尧|王宇阳|潘辉

香港科技大学（广州），中国广州市南沙区，511453

摘要

大型语言模型（LLMs）正在迅速发展，使人工智能（AI）代理具备了更强的推理和决策能力。AI代理正从被动工具转变为更具适应性的合作伙伴。然而，LLMs的“黑箱”特性和幻觉现象使其输出结果存在不确定性，这可能影响用户在人机协作场景中的信任度，从而导致混合动机场景下的结果不一致。为了研究人类如何根据LLMs的不可预测性调整合作意图，我们与30名参与者（15名男性，15名女性）进行了多次“囚徒困境”游戏，这些参与者与具有不同声明身份的LLM代理进行了互动。结果表明，代理的声明身份、用户的性别以及他们的互动方式都影响了合作意图。半结构化访谈进一步显示，这些效应是通过性别差异对代理身份和可信度的感知来调节的。通过超越主要的合作场景，本研究揭示了代理身份与用户性别在混合动机场景中的复杂互动关系。这些发现为开发更值得信赖的AI系统以解决现实世界问题提供了实际见解。

引言

大型语言模型（LLMs）已经从对话界面发展成为能够进行多步推理、使用工具和进行长期规划的自主代理（Wu等人，2023年；Wang等人，2023a年）。如今，这些代理被应用于从软件工程到个人辅助的各个领域，它们面临着越来越多的包含模糊指令、隐藏用户偏好和部分目标不一致的情景（Yu等人，2025年）。在现实世界的LLM代理应用中，混合动机场景非常普遍。所谓混合动机场景，是指各方同时持有共同目标和冲突目标的互动情况。然而，以往的实证研究主要集中在主要合作场景上，因此在理解目标不完全一致时人类如何与LLM代理互动方面存在重要空白（Schelble等人，2022年）。

与主要合作场景不同，混合动机场景引入了关于代理意图、其战略推理以及其目标与人类目标一致性的不确定性。在经典的混合动机场景（如囚徒困境）中，即使合作对双方都有利，LLM代理也经常违反人类的预期（Phelps和Russell，2023年）。这种不可预测性引发了一个问题：人类如何应对非合作性的AI？哪些因素影响了他们与动机不明确的代理合作的意愿？虽然目前大多数关于LLMs的研究都集中在提高回答准确性和减少幻觉现象上（Farquhar等人，2024年；Chelli等人，2024年），但对于代理表现出非合作或意外行为时的人机互动动态知之甚少。特别是，关于代理身份响应如何影响人类合作意愿的研究还很少。填补这一空白对于设计能够在混合动机场景中有效运作的LLM代理至关重要，在这些场景中，合作和冲突目标共存。

人机互动中的合作意图受到人类和AI双方因素的影响。从AI的角度来看，代理呈现的身份和底层模型类型等特征可以影响用户的信任和合作意愿。LLM代理的“黑箱”特性——它们是通过数据驱动方法而非明确规则开发的——是这种战略不确定性的主要来源（Chkirbene等人，2024年；Pan等人，2025年）。当这些代理违反人类预期时，用户会试图通过赋予它们社会意图来解释它们的意外行为（Abbasiantaeb等人，2024年；He等人，2025年）。在混合动机场景中，这种关于代理真实动机的模糊性尤为有害，因为代理的目标可能与用户的不一致，从而导致信任和合作的显著削弱（Wang等人，2024年）。

这些现象可以用“计算机是社会行为体”（CASA）框架（Xu等人，2022年；Geiselmann等人，2023年）来解释，该框架认为人类会本能地将社会启发式方法应用于表现出社会线索的机器。然而，LLMs的出现改变了这些线索的强度。早期的CASA研究通常考察的是具有简单和静态线索的技术，例如预编程的问候语或拟人化头像（Lombard和Xu，2021年；Heyselaar，2023年）。相比之下，LLMs能够以高度响应的方式产生流畅且富有同理心的回应，从而创造出更加强烈的社会存在感（Yang等人，2024年）。这种模仿类人社会智能的前所未有的能力需要重新评估和扩展CASA框架。然而，在混合动机场景下，这些高级的社会感知是如何被调节的仍不清楚。

从人类的角度来看，人机互动中的信任和合作意图受到各种个体差异的影响，如人格特征、先前的AI使用经验和人口统计特征（Zhu等人，2025年；Küper和Krämer，2024年）。在这些变量中，性别特别受到关注，因为它始终能预测社会感知和对代理线索反应的差异（Jermutus等人，2022年）。鉴于有证据表明女性对社交线索和暗示代理性的信号更敏感（Jin和Eastin，2024年），CASA范式可能对女性用户的作用更为显著，可能会影响她们与LLM代理的合作决策。因此，性别是理解人类特征如何影响混合动机场景中信任和合作意图的重要因素。基于这些见解，本研究探讨了LLM代理身份（例如人类、基于规则的或由LLM驱动的）和用户性别如何影响混合动机场景中的合作意图。我们使用经典的囚徒困境模型来引出合作或非合作的选择，并探索调节这些决策的潜在机制。我们关注以下研究问题：

•

RQ1： LLM代理的声明身份如何影响用户在囚徒困境中的合作意愿？

•

RQ2： 性别如何影响用户在囚徒困境中对LLM代理的合作意愿？

本研究展示了代理身份和用户性别如何共同影响持续混合动机场景中的合作率、决策延迟和信任修复。我们的发现表明：(a) 将代理简单地声明为“由LLM驱动”会显著改变人类的合作意愿；(b) 性别既是AI身份对合作意愿影响的独立预测因素，也是调节因素；(c) 人类在与AI代理的混合动机场景中表现出信任适应。这些结果为设计在混合动机场景中运行的未来AI系统提供了实际见解。

研究片段

混合动机场景中的人机合作

随着LLMs的进步，AI代理现在能够执行与人类能力相似的认知和沟通任务（Kusal等人，2022年；Zhu等人，2024年）。基于这些进步，这些代理越来越多地展现出自主性和社会存在感，为与人类用户的互动创造了更多可能性（Pavone和Desveaud，2025年）。最近关于人机合作的研究开始探讨合作伙伴目标部分一致或

方法

为了解决上述研究问题，我们进行了实验，比较了参与者对具有不同声明身份的LLM代理的合作意愿。在初步研究之后，正式实验共有30名参与者参与。实验包括两个独立变量：代理的声明身份（人类、基于规则的或由LLM驱动的）和参与者的性别（男性或女性）。

结果

我们分别总结了每个研究问题的结果。如表3所示，我们分析了声明身份和性别对四个指标的影响。为了进一步探讨这两个变量内的影响因素，我们研究了声明身份和性别的交互效应。在我们的结果中，统计显著性用星号表示：*

.05，**

.01，以及***

.001。除了

-值外，我们还报告了效应大小（Cohen’s d，

和

讨论

LLMs的出现带来了具有复杂类人能力的代理，如细致的战略沟通、独立推理和迅速调整行为的能力。这些能力从根本上重塑了传统的人机互动范式，超越了简单的指令执行模型。现代AI代理表现出了非合作行为，将互动场景转变为复杂的混合动机场景。为了系统地

结论

本研究表明，人类对AI代理的合作意愿并非固定不变，而是受到代理的声明身份、用户性别和互动方式的影响。这超越了将AI视为单纯功能工具的传统观点，提供了实证证据，表明用户会将社会期望投射到LLMs上并相应地调整他们的合作策略。这些见解对未来的人机交互系统设计具有重要意义：AI的身份不仅仅是一个

未引用的参考文献

Alicke和Sedikides（2009年），An等人（2024年），Dvorak等人（2025年），Frodging和Peterson（2021年），Hamdi（2024年），Kuzior和Kwilinski（2022年），Li等人（2022年），Lim等人（2023年），Lu等人（2024年），Morris等人（2024年），Oh等人（2018年），Rizvi（2023年），Shen等人（2023年）