研究在2D屏幕上,由大型语言模型(LLM)驱动的虚拟角色交互过程中双方的实时注视行为

时间:2026年5月29日
来源:Proceedings of the ACM on Human-Computer Interaction

编辑推荐:

摘要:随着人工智能驱动的虚拟形象在日常应用中的日益普及,理解用户如何感知和回应这些代理变得越来越重要。一个关键的未解问题是,虚拟形象对用户注视的感知能力(即注视意识)是否有助于实现更自然、更具社交吸引力的互动,尤其是在传统的2D屏幕上。我们开发了一个实时系统,该系统结合了实时语音

广告
   X   

摘要:随着人工智能驱动的虚拟形象在日常应用中的日益普及,理解用户如何感知和回应这些代理变得越来越重要。一个关键的未解问题是,虚拟形象对用户注视的感知能力(即注视意识)是否有助于实现更自然、更具社交吸引力的互动,尤其是在传统的2D屏幕上。我们开发了一个实时系统,该系统结合了实时语音识别、大型语言模型(LLM)生成的响应以及注视反馈,以实现与虚拟形象的自然、非脚本化的对话。我们进行了一项被试内研究(N = 17),比较了具有注视意识的虚拟形象和没有注视意识的虚拟形象。眼动追踪的结果显示,注视意识显著改变了用户的眼球运动模式,增加了相互注视的次数,并产生了潜意识的注视调节。我们的发现表明,真实的注视行为在潜意识层面上影响了用户的互动,即使是在非沉浸式环境中也是如此。我们讨论了这些发现对设计未来促进自然社交存在的对话式人工智能系统的影响。

1 引言
人工智能(AI)技术的快速发展使得虚拟形象能够以越来越类似于人类对话的方式交流。文本到语音、语音到文本以及基于LLM的对话系统已经达到了一个质量水平,使得虚拟角色能够与用户进行流畅的、具有上下文意识的对话[Allbert等人,2025;Mahmood等人,2025]。这样的虚拟形象已经进入了许多领域,从客户服务聊天机器人和虚拟导师到医疗助手和陪伴应用,在这些应用中,它们代表了AI系统的可见的、社交的前端。尽管取得了这些进展,但大多数虚拟形象仍然缺乏人类互动中最基本的方面之一:真实的眼神交流。眼神交流传递了注意力、同理心和信任,其缺失甚至会让复杂的虚拟形象显得疏离或怪异[Kullmann等人,2025]。先前的研究表明,具有注视意识的虚拟形象可以提高用户感知到的社交存在感和互动的自然性[Bee等人,2010b;Garau等人,2001;Wang和Gratch,2010]。然而,大多数这类研究都集中在高度控制或沉浸式的环境中,例如虚拟现实(VR)。同时,从2D和立体显示器的销售数据来看,2D屏幕仍然主导着日常互动。由于目前有关于2D虚拟形象生成的研究[Pham等人,2024],我们预计在未来几年内,相当一部分AI互动将发生在传统的2D屏幕上。在这里,由于“蒙娜丽莎效应”——即图片上的人脸无论从哪个角度观看都会似乎在注视观察者——使得重现眼神交流变得更加困难[Boyarskaya等人,2015]。此外,2D界面通常缺乏集成的眼动追踪器,而基于网络摄像头的眼动追踪器目前还不够准确,无法检测到眼神交流。这就提出了一个问题:具有注视意识的虚拟形象所带来的好处是否值得额外的硬件成本。最后,大型语言模型(LLM)的出现引入了新的对话真实感水平,允许与AI代理进行非脚本化的互动。然而,当对话本身是实时且不可预测的时候,用户如何回应具有注视意识的行为仍然不清楚。我们探讨了2D屏幕上具有注视意识的AI驱动虚拟形象是否会影响用户的感知和眼球运动行为。我们开发了一个系统,该系统结合了实时语音识别、LLM生成的响应以及实时注视反馈,使参与者能够与虚拟形象进行自然的对话。在一项被试内研究(N = 17)中,参与者在回答测验问题时与具有注视意识和没有注视意识的虚拟形象进行了互动。在互动过程中,我们记录了虚拟形象和用户的眼球运动。我们的结果显示,尽管大多数参与者没有意识到这一点,但注视意识显著影响了用户的眼球运动模式。

对于研究社区来说,我们的工作强调了即使在非沉浸式环境中,注视仍然是人机交流中一个强大的社交线索[Klein,2025;Koller等人,2023]。它还为研究这些效应提供了实际的基础:我们的实时LLM集成系统展示了如何同步注视数据、语音和对话,以捕捉自然行为。这种方法论方法可以支持未来关于适应性虚拟形象、对话式代理和情感计算系统的研究。

2 相关工作
2.1 虚拟形象与社交存在感
虚拟形象是数字化的代表人或代理,在虚拟环境中中介社交互动。Garau等人[2001]表明,类人虚拟形象的注视行为类型显著影响了交流质量。他们发现,与对话伙伴和情境真实适应的眼球运动比随机或不协调的运动获得了更高的用户评价。同样,Nowak和Biocca[2003]证明,类人的外观增加了社交存在感——即遇到“真实他人”的感觉。
2.2 虚拟形象中的注视行为
眼球运动是人类交流中最有力的非语言信号之一。早期的研究由Lee等人[2002]开发了统计模型,用于确定虚拟形象应该在何时注视其对话伙伴或移开视线。Al Moubayed等人[2012]后来研究了“蒙娜丽莎效应”——即平面上的人脸似乎无论从哪个角度看都在注视观察者的错觉,并提出了技术调整来缓解这一效应。最近,眼球运动的生成方法从基于规则的方法转向了数据驱动的方法。Canales等人[2023]训练了机器学习模型,根据记录的人类对话合成真实的眼球和头部运动。Dembinsky等人[2024]进一步应用了生成对抗网络(GANs)来创建逼真的注视模式。这些方法表明,合理的眼球行为增强了感知的真实感和参与度。相反,不自然的眼球行为,如僵硬的注视或完全缺乏眼神交流,可能会导致不适和“恐怖谷效应”[Izumi等人,2025]。针对单个用户的研究强调了注视的重要性。Garau等人[2001]发现,具有针对对话定制的注视行为的虚拟形象显著提高了交流质量。Kipp和Gebhard[2008]引入了IGaze,这是一个沉浸式系统,其中虚拟形象的反应性眼球和头部运动遵循不同的策略。Bee等人[2010a;2010b]证实,这种响应性增加了社交存在感,并且用户会无意识地将具有注视意识的虚拟形象视为真实的伙伴。AnimeGaze提供了技术解决方案,以最小化“蒙娜丽莎效应”,并从任何视角实现令人信服的相互注视[Izumi等人,2025]。
2.3 眼神交流的社会心理学基础
社会心理学为设计可信的虚拟形象注视行为提供了理论基础。Argyle和Dean[1965]的亲密平衡理论提出,人们通过调节眼神交流和人际距离来维持舒适的熟悉度。过多的眼神交流可能会让人感到侵扰,而太少则会降低参与度。Kendon[1967]研究了发言者在轮流发言时如何使用注视:他们通常在自由发言时移开视线,然后在结束时重新建立联系。Goffman[1963]将礼貌的忽视描述为陌生人之间短暂的眼神交流,以确认彼此的存在,然后故意移开视线以避免互动。Rogers等人[2018]发现了参与者在注视眼睛区域持续时间上的一致性。Maran等人[2020]发现,在群体中会有更多的社交注视。这些发现表明,人类的注视行为遵循着大部分在意识之下运作的微妙社交规则。Garau等人[2003]表明,模仿这种行为的虚拟形象——在“思考”时移开视线,在“倾听”时寻求眼神交流——被认为更加自然。
2.4 AI驱动的虚拟形象与相互注视
人工智能的最新进展导致了语言模型和具身虚拟形象的融合。这些系统不仅可以通过文本或语音与用户互动,还可以通过手势、面部表情和注视来互动。尽管当前的AI模型在语言流畅性方面令人印象深刻,但它们在传达真实的眼神交流方面仍然有限。Izumi等人[2025]指出,虽然大型语言模型在对话方面表现出色,“AI仍然无法直视用户的眼睛”。为了解决这个问题,他们的AnimeGaze系统引入了一种硬件设置,其中相机位于半透明显示器后面,使虚拟眼睛与用户的光学路径对齐,从而实现真实的相互注视。在软件层面,Cassell等人[2000]早在2000年就提出了具身对话代理的概念,将语音与非语言行为模型结合起来。基于这一想法,Park等人[2023]展示了在虚拟环境中模拟日常惯例和社交互动的生成代理。Fink等人[2024]回顾了AI虚拟形象在教育和社交应用中的用途,强调了它们通过同步语音、表情和动作激发积极情绪和参与度的潜力。

3 研究方法
3.1 研究问题
本研究的目标是了解AI驱动的虚拟形象中的注视意识如何影响用户在2D屏幕上进行自然互动时的感知和眼球运动行为。虚拟形象的特征包括视觉和行为方面,如性别、声音、外观、身体、嘴唇和眼球运动以及模仿[Rashik等人,2024],从而产生了许多可能的组合。此外,互动的上下文,无论是空间上的还是社交上的,都会影响用户对虚拟形象的体验。空间上下文指的是观看距离和显示器大小,而社交上下文包括互动的目的(例如,专业助手、对话伙伴或虚拟伴侣)以及是否有旁观者在场。这些因素中的每一个都影响了用户的眼球运动行为,因此分离注视意识本身的作用至关重要。我们的研究专注于区分注视意识与其他可能影响用户感知的虚拟形象属性的具体影响。虚拟形象在识别和响应的用户行为类型上也可能有所不同,例如模仿、身体运动、语调或注视方向。从技术上讲,通过面部识别、情感检测和眼动追踪,现在可以实现这些形式的意识。然而,虚拟形象应该如何响应这些信号仍然是一个未解的问题。Ma等人[2022]提出了关于语音助手情感反应的问题,而Bee等人[2010b]研究了注视行为。这个设计空间的高维度使得很难确定哪些方面最强烈地影响感知到的自然性和社交存在感。鉴于所有这些不确定性,以及缺乏来自文献的可靠的效果大小估计或可变性测量,这些测量可以转移到我们特定的、实时的、基于LLM的2D虚拟形象设置中,我们设计了一项探索性研究。我们的工作专注于虚拟形象意识的一个维度——注视意识——并在控制其他因素的同时研究其影响。具体来说,我们提出以下问题:
RQ1:2D屏幕上虚拟形象的注视意识如何影响用户在与虚拟形象互动时的眼球运动行为?
RQ2:注视意识如何影响用户对互动的满意度以及用户对虚拟形象的兴趣、存在感、自然性和功能性的主观感知?
我们进行了一项被试内比较研究,参与者与具有注视意识和没有注视意识的同一虚拟形象进行了互动。该研究旨在捕捉客观测量(眼动追踪数据)和主观印象(问卷回答)。

3.2 虚拟形象与界面
为了获得自然的对话体验,虚拟形象被设计得类似于人类,同时避免进入“恐怖谷”[Mori等人,2012]。过于真实的虚拟形象可能会让人感到不安,而过于风格化或卡通化的角色可能会降低感知到的真实性。我们使用了之前研究中的一个已建立的虚拟形象模型[Izumi等人,2025],通过ChatVRM实现,这是一个开源的基于浏览器的VRM虚拟形象项目。这个选择确保了与现有工作的视觉可比性,并且可以实现可重复性。参与者可以选择男性或女性虚拟形象,并配以相应的性别特定合成声音。只提供一种性别的虚拟形象可能会引入不必要的性别相关不适或讨论,而雌雄同体的虚拟形象则不符合我们模拟人类对话环境的目标。关于语音助手的性别存在争议[West等人,2019],尽管这是一个有趣的话题,但它不是本研究的重点。虚拟形象在说话时显示了微妙的闲置身体动作和嘴唇同步,但没有面部模仿,以避免引入不受控制的情感线索。为了保持真实性,保持了闲置的眼球运动[Canales等人,2023]。

图1. 研究中使用的虚拟形象。参与者可以在通过ChatVRM实现的女性(左)和男性(右)虚拟形象之间进行选择。两个虚拟形象都包括微妙的闲置身体动作和嘴唇同步,但没有面部模仿,以确保实验控制。

3.3 注视意识模型
注视意识使虚拟形象能够感知用户的注视方向,并相应地调整自己的眼球运动。人类的眼神交流受到复杂的社会规范的影响。直接的注视通常表示注意或参与,但长时间的眼神交流也可能暗示支配或亲密[Eibl-Eibesfeldt,1997]。相互的眼神交流甚至会影响伴侣选择 [Hoffmann 等人,2024年]。我们实现了一个有限状态模型,该模型根据用户的注视输入来控制虚拟角色的眼睛行为。该模型包括三种状态:随机注视、相互注视和注视中断。在随机注视状态下,虚拟角色会进行与用户注视无关的小幅度、自然的眼球跳动。当系统检测到用户正在注视虚拟角色时,它会过渡到相互注视状态,建立虚拟的眼神交流。经过短暂的时间间隔后,模型会触发注视中断,虚拟角色会移开视线,以模仿典型的人类注视行为。这种循环过程产生了短暂而响应迅速的注视互动,看起来自然且不具侵入性。图2展示了状态转换。

图2. 控制虚拟角色注视感知行为的有限状态模型。该模型根据用户的实时眼动追踪数据,在随机注视、相互注视和注视中断状态之间切换。

3.4 互动的背景
空间背景指的是场景的视觉构成,包括虚拟角色的大小和与用户的距离。虚拟角色从腰部以上展示,提供了面部细节和身体姿势之间的平衡视图。为了避免分心,我们使用了一个没有显著元素和移动元素或可读文本的静态背景(见图3)。我们选择了一个非空白的静态背景,作为一种保守的设计选择,以避免潜在的对虚拟角色的注意力固定。两个虚拟角色的背景是相同的。

图3. 虚拟角色和视觉背景。女性虚拟角色从腰部以上展示,背景是静态的,没有显著的细节,以减少视觉分心,同时保持生态有效性。

社会背景描述了互动的目的和内容。为了保持结构化但对话式的环境,虚拟角色扮演了一个问答主持人,根据Nelson和Narens [1980] 的通用知识标准提出一般知识问题,并涵盖了各种知识领域。这种设置给参与者带来了一定的认知负担,将他们的注意力从虚拟角色上转移开。与以往通常依赖更受控设置和事后评估(包括注视感知任务)的研究 [Garau等人,2001年;Moubayed等人,2012年;Nowak和Biocca,2003年] 相比,这项任务创造了一种更自然的轮流互动动态。

3.5 技术实现
系统架构集成了多个组件,以实现实时和多模态互动(见图4)。麦克风记录参与者的讲话,通过语音转文本(STT)模块进行转录,然后传递给大型语言模型(LLM)进行对话生成。LLM的输出随后被合成为语音(TTS),并由虚拟角色与嘴唇动作同步呈现。Flask服务器2协调组件之间的通信,包括运行在Electron shell中的虚拟角色前端3、OpenAI实时API4,以及连接到Tobii 4C眼动追踪器的ZeroMQ5桥接器,后者持续报告注视坐标,用于实时更新虚拟角色的注视状态。这种实现允许在保持对话自然流动的同时,对注视行为进行控制实验。该架构可以复制或扩展,用于未来研究多模态AI互动。

图4. 实时、注视感知虚拟角色的系统架构。该系统结合了语音转文本(STT)、大型语言模型(LLM)对话生成和文本转语音(TTS)输出,并具有连续的眼动追踪反馈。一个中央Flask服务器协调模块之间的通信,确保低延迟互动。

4 用户研究
4.1 研究设计
该研究采用了被试内比较设计,有两种实验条件:(1)具有注视感知的虚拟角色;(2)作为基线的非注视感知虚拟角色。被试内设计最小化了个体间的差异,并允许参与者直接比较两种条件。由于两轮都使用了相同的虚拟角色和背景,因此在参与者之间平衡了条件顺序,以减轻学习或疲劳的影响。
自变量是注视感知(两个水平:具有注视感知 vs. 无注视感知)。因变量包括主观和客观测量:
• 主观测量:参与者对虚拟角色的兴趣、感知、自然度以及总体满意度的评价,以及对其中一个版本的偏好。
• 客观测量:描述用户和虚拟角色注视行为的眼动追踪指标,包括注视时间比例、平均注视持续时间、注视事件频率和注视回避模式。
参与者在两种条件下各进行一轮问答互动,同时记录他们的注视方向和虚拟角色的注视方向。每轮结束后,参与者通过完成一份简短的问卷和两轮后的比较问卷来评估虚拟角色。

4.2 设备
所有会话都在一台16英寸的笔记本电脑上进行,显示器下方安装了Tobii 4C眼动追踪器。参与者坐在距离屏幕约60-70厘米的地方,房间光线较暗,以确保眼动追踪性能的可靠性。音频通过笔记本电脑的扬声器播放,麦克风记录参与者的讲话。系统使用了第3.5节中描述的架构。

4.3 参与者
参与者通过大学邮件列表和个人联系招募。他们自愿参与,没有经济报酬,并根据机构伦理指南提供了知情同意。参与者收到了关于研究、数据隐私以及他们随时撤回权利的书面和口头信息。

4.4 程序
每次会话持续约25分钟,分为四个阶段:介绍和设置、第一轮、第二轮和总结。参与者完成了一份简短的人口统计表格,并使用标准的五点校准方法校准了Tobii 4C眼动追踪器。参与者被告知,这个测验不会评估他们的知识水平,而是用于研究与虚拟角色的自然互动。与以往通常依赖更受控设置和事后评估(包括注视感知任务)的研究 [Garau等人,2001年;Moubayed等人,2012年;Nowak和Biocca,2003年] 相比,这项任务创造了一种更自然的轮流互动动态。

4.5 限制
该研究在受控的实验室环境中进行,以确保眼动追踪的稳定性和系统性能的一致性。尽管这种环境可能无法捕捉到日常互动的所有细微差别,但在可复制的条件下隔离注视感知的效果是至关重要的。虚拟角色的行为被有意简化——没有面部表情、手势或情感语调——以控制混淆因素。这种简化使实验专注于注视行为,确保观察到的效果可以具体归因于注视感知,而不是多模态表达能力。实时语音合成过程中可能会出现轻微的时间变化;然而,延迟测量和参与者反馈表明对话流程保持自然。这些受控条件代表了人机交互(HCI)实验中的标准权衡,不影响报告结果的有效性。该研究仅涉及17名参与者,因此应对结果谨慎解读。研究中有许多刻意的设计决策,其效果尚未完全理解。与虚拟角色的互动是一个持续的研究领域,所呈现的工作为未来的研究提供了有价值的方向。

5 结果
5.1 参与者
共有17名志愿者(11名男性,6名女性)参与了这项研究。他们的年龄范围从18岁到54岁(平均年龄=30.5岁,标准差=9.3岁),大约一半在26岁到32岁之间;有两名参与者超过50岁。两名参与者报告使用了矫正镜片。六名女性参与者中有五名选择了女性虚拟角色,十一名男性参与者中有八名选择了男性虚拟角色。显然,参与者更倾向于选择与自己性别相同的虚拟角色。然而,这种偏好可能因文化而异,这一发现不应被普遍化。

5.2 眼动追踪结果
眼动追踪数据使用Python脚本预处理,并按参与者和条件汇总。基于用户和虚拟角色的注视向量之间的空间和时间重叠(用户的8.0°×5.0°,虚拟角色的3.9°×1.7°)检测出相互注视事件。对于每种条件,我们计算了:
• 注视时间比例:注视虚拟角色的总互动时间的比例。
• 平均注视持续时间:连续注视事件的平均长度。
• 事件频率:每秒的注视事件数量。
• 相互注视时间:用户和虚拟角色相互注视的时间比例。
• 回避指标:用户在相互注视期间移开视线的频率和持续时间。
假设数据呈正态分布,使用配对样本t检验来分析眼动追踪数据。我们分析了三个互动指标:用户→虚拟角色的注视、虚拟角色→用户的注视以及相互注视,以及注视回避行为。表1总结了描述性和推断性统计信息。

表1. 指标 单位 基线 具有注视感知的(16) p MSD MSD
用户→虚拟角色 时间比例 –0.524 0.152 0.458 0.155 2.215.042
平均注视持续时间 0.919 0.462 0.752 0.304 2.527.022
事件频率 1/s 0.671 0.335 0.694 0.379 -0.488.632
虚拟角色→用户 时间比例 –0.084 0.024 0.553 0.123 -16.153 <.001
平均注视持续时间 0.975 0.162 1.883 0.430 -10.842 <.001
事件频率 1/s 0.089 0.031 0.295 0.049 -16.356 <.001
相互注视 时间比例 –0.033 0.022 0.306 0.103 -12.171 <.001
平均注视持续时间 0.394 0.249 0.511 0.159 -1.889.077
事件频率 1/s 0.088 0.047 0.627 0.277 -8.624 <.001
基线和具有注视感知条件下的客观注视指标(N = 17)。表格显示了所有注视方向的时间比例、平均注视持续时间和事件频率,以及配对样本t检验的结果。
当虚拟角色具有注视感知时(M = 0.46),参与者注视虚拟角色的时间略少(p =.042),比基线条件(M = 0.52;p =.042)。平均注视持续时间(见图6)也更短(p =.022)。这种模式表明,一旦虚拟角色建立了眼神交流,参与者倾向于更快地移开视线,这种行为符合人类对话的规范。
正如模型实现所预期的那样,在具有注视感知的条件下,虚拟角色更频繁且更长时间地注视用户(p <.001)。相互注视时间从总互动时间的3%急剧增加到31%,表明具有注视感知的虚拟角色成功建立了动态的眼神交流。相互注视事件的平均持续时间(见图6)略有增加,但并不显著(p =.077)。

图5. 在基线和具有注视感知条件下,三种注视指标下的互动时间比例。相互注视和虚拟角色→用户的注视随着注视感知的增加而增加。趋势标记:† p <.10。显著性标记:* p <.05,** p <.01,*** p <.001。
图6. 用户、虚拟角色和相互注视方向的平均注视持续时间。在具有注视感知的条件下,相互注视事件略长。趋势标记:† p <.10。显著性标记:* p <.05,** p <.01,*** p <.001。
图7. 在基线和具有注视感知条件下,三种注视指标下的注视事件频率。趋势标记:† p <.10。显著性标记:* p <.05,** p <.01,*** p <.001。
回避指的是虚拟角色注视用户而用户移开视线的情况。在具有注视感知的条件下,回避率显著更高(p =.003),而回避事件的平均持续时间较短(p =.013)(表2,图8)。这表明参与者更频繁地移开视线,但每次移开的持续时间较短,当虚拟角色保持与自然对话调节相一致的注视行为时。
图8. 注视回避指标。在具有注视感知的条件下,回避率(左)更高,平均持续时间(右)更短,表明注视中断更频繁但持续时间更短。显著性标记:* p <.05,** p <.01
表2. 回避指标 基线 具有注视感知的(16) p
率(1/s) 0.706 ± 0.323 0.968 ± 0.362 -3.54.003
平均持续时间(秒) 2.875 ± 3.203 0.721 ± 0.420 2.80.013
配对样本t检验的结果,包括平均值和标准差。

5.3 问卷结果
使用双尾Wilcoxon符号秩检验比较了具有注视感知和基线条件下的问卷评分。所有项目的描述性统计(平均值和标准差)都有报告。
如表3和图9所示,对于大多数项目,具有注视感知的虚拟角色的评分在数值上更高,尽管差异没有达到统计显著性。在感知自然度(Q3)方面,具有注视感知的条件的得分更高(M = 3.41,SD = 1.00),与基线条件(M = 2.94,SD = 0.75;W = 13.5,p =.07)相比。总体满意度(Q4)也略高(Δ = +0.29),而在感知功能(Q5)方面,基线条件略好(Δ = −0.29)。感知兴趣(Q1)和存在感(Q2)之间的差异很小。表3。

问题 | Wneffp | ΔBL | M ± SD | GA | M ± SD |
|------|------|------|------|------|
| Q1 | 兴趣 | 12.07 | 7.70 | +0.06 | 3.65 ± 0.79 |
| | | | | 3.71 ± 0.92 |
| Q2 | 存在感 | 10.57 | 7.52 | +0.12 | 3.47 ± 0.87 |
| | | | | 3.59 ± 0.94 |
| Q3 | 自然感 | 13.51 | 11.07 | +0.47 | 2.94 ± 0.75 |
| | | | | 3.41 ± 1.00 |
| Q4 | 满意度 | 3.06 | 6.09 | +0.29 | 3.53 ± 1.07 |
| | | | | 3.82 ± 1.13 |
| Q5 | 功能性 | 3.06 | 6.09 | -0.29 | 4.41 ± 0.87 |
| | | | | 4.12 ± 0.93 |

描述性统计(M ± SD)和Wilcoxon符号秩检验结果用于比较基线和注视感知条件下的五个李克特量表项目。Δ表示平均差异(GA − BL)。

图9. 项目Q1–Q5的平均李克特评分(± SD)。趋势标记:† p < 0.10。显著性标记:* p < 0.05, ** p < 0.01, *** p < 0.001。在大多数方面,注视感知条件的得分数值上更高,特别是在自然感(Q3)方面。

除了项目评分外,参与者还直接比较了两个版本。一些参与者报告说他们没有注意到任何差异。参与者大部分时间都集中在测验上,没有注意到虚拟角色的注视。当被问及哪个虚拟角色看起来更自然时,8名参与者(47%)更喜欢注视感知版本,6名(35%)更喜欢基线版本,3名(18%)认为两者同样自然(χ2(2) = 2.24, p = 0.33, φ = 0.36)。关于未来使用的问题的回答显示了相同的分布(表4,图10)。

表4. 结果

| 基线 | 注视感知 | 相等 | 测试 | p值 | 效应大小 |
|------|------|------|-----|------|
| 感知自然感 | 6(35%) | 8(47%) | 3(18%) | χ2(2) = 2.24, p = 0.33, φ = 0.36 |
| 未来使用选择 | 6(35%) | 8(47%) | 3(18%) | χ2(2) = 2.24, p = 0.33, φ = 0.36 |

图10. 参与者对感知自然感和未来使用偏好的选择。略多一些的参与者更喜欢注视感知的虚拟角色,尽管差异在统计上并不显著。

总体而言,主观评分和偏好略微倾向于注视感知的虚拟角色,特别是在感知到的注视自然性方面。

6. 讨论与局限性
本研究探讨了AI驱动的虚拟角色中的注视感知如何影响用户在2D屏幕上进行实时互动时的感知和注视行为。结果表明,注视感知显著增加了用户与虚拟角色之间的眼神交流。参与者相应地调整了他们的注视模式,当虚拟角色回望时,他们会更频繁但更短暂地移开视线。这些结果表明,反应性的注视行为在很大程度上是在潜意识层面上影响用户的,这加强了眼神交流作为社交线索的重要性,即使在人机交互中也是如此。

6.1 将注视研究扩展到实时AI互动
先前的研究表明,具有响应性注视行为的虚拟角色可以提高沉浸式或脚本化环境中的社交存在感和对话真实性[Bee等人2010b;Garau等人2001;Wang和Gratch 2010]。我们的发现证实了这些效果中的几个——在注视感知条件下,相互注视显著增加,参与者无意识地以类似人类的方式调整了他们的注视。这支持了长期以来关于注视作为非语言亲密感和轮流交流调节器的模型[Argyle和Dean 1965;Kendon 1967]。

同时,我们的研究在几个方面扩展了这一领域。我们证明了即使在传统的2D屏幕上,也能出现真实的社交注视效果,表明动态的眼球运动可以克服诸如蒙娜丽莎效应之类的限制。与之前使用预脚本或奥兹巫师对话的研究[Kipp和Gebhard 2008]不同,我们的系统实现了由大型语言模型驱动的即兴、实时互动。在这些条件下出现类似的注视动态表明,已建立的社会机制可以推广到现代AI驱动的虚拟角色。此外,参与者自我报告与客观注视数据之间的差异突显了社交注视的隐含性质,为未来的研究提供了方法论线索。最后,使用简单的有限状态模型表明,即使是轻量级的注视实现也能有意义地影响用户行为,提供了实用的设计见解。

6.2 对AI驱动虚拟角色的影响
行为数据显示,当与具有注视感知的虚拟角色互动时,用户以系统化、类似人类的方式调整了他们的注视模式。一旦虚拟角色与他们对视,参与者会更快地移开视线,这反映了在人类对话中观察到的亲密感调节策略。这些反应主要是在无意识的情况下发生的,表明反应性注视行为即使在非沉浸式的AI中介环境中也能触发隐性的社交反应。这一发现为注视感知虚拟角色的设计和研究提供了几个启示。

即使是最微小的注视提示也能传达出注意力和响应性,而无需复杂的动画。观察到的潜意识反应表明,设计师可以使用轻量级的注视模型来促进2D应用中的社交存在感,例如数字导师、伴侣或客户服务代理。

参与者无意识地调整他们的注视以适应虚拟角色的行为,表明注视作为一种低级别的调节信号。设计师可以使用这些线索在多模态系统中传达轮流交流或倾听的状态。例如,短暂的注视移开可以表示思考暂停或注意力转移,而无需明确的言语表达。

虚拟角色自信的注视风格在我们的中性测验设置中表现良好,但在其他情境下可能需要更微妙或更谦逊的行为。系统设计师可以参数化注视的频率和持续时间,以表达不同的个性或匹配用户的偏好和舒适度。

在2D屏幕上观察到的效果表明,可以在没有沉浸式技术的情况下研究有意义的社交注视现象。这为可访问的、可复现的研究设置提供了机会,并支持开发在日常平台上运行的实时、注视感知的AI系统。

7. 未来工作
我们的工作为未来的研究提供了许多起点。

- 虚拟角色外观。如上所述,虚拟角色有许多可能的风格外观。这如何影响用户的反应仍然是一个未解决的问题,可以在未来的研究中进行探索。
- 多模态反馈。本研究有意将注视作为唯一的反应模式。未来的工作可以研究注视如何与其他非语言线索(如面部表情、手势或韵律变化)相互作用。结合这些渠道可能会产生对多模态反馈如何塑造社交存在感和用户舒适度的更细致的理解。
- 自适应注视个性。我们的虚拟角色采用了自信的、寻求参与的注视策略。探索其他策略,如害羞、中立或顺从的注视模式,可以揭示虚拟角色个性和用户特征之间的相互作用。这样的工作可以为适应系统提供信息,使注视行为根据用户偏好或情境上下文进行调整。
- 技术发展。尽管我们的原型依赖于专用的眼动追踪器,但基于计算机视觉的注视估计技术的进步可能很快就能使用标准网络摄像头实现类似的功能。评估这些轻量级解决方案的准确性、延迟和用户接受度对于将注视感知界面扩展到日常设备非常重要。
- 或者,未来的日常设备可以提供集成的眼动追踪器,就像许多VR眼镜已经做的那样。是否需要额外的硬件成本取决于购买设备的客户以及现有的注视感知虚拟角色的数量。
- 情感和个性建模。一个长期的挑战是理解个性特征和情绪状态如何体现在身体动作、面部表情和注视模式中。来自情感计算和人格心理学的见解[Digman 1990;Völkel等人2020]可以为开发不仅对用户注视做出反应,还能表达一致社交个性的虚拟角色提供信息。这样的模型还可以更精确地分析人机交互中的用户行为。
- 伦理和体验考虑。随着注视感知虚拟角色变得越来越真实,透明度、用户自主性和情感依恋的问题变得越来越重要。因为注视在意识之下运作,它可以微妙地影响用户的连接感和情感舒适度。因此,开发者应该透明且合乎伦理地使用注视反馈,确保它增强理解和信任,而不是操纵。
- 未来的研究应该探讨反应性注视如何影响信任和同理心,以及如何设计支持有意义、尊重性的注视行为,而不培养依赖或操纵。

8. 结论
这项工作表明,即使用户没有意识到潜在的注视响应性,注视感知的虚拟角色也能影响用户的眼球运动和互动行为。参与者无意识地调节他们的视觉注意力以响应虚拟角色的注视反射模式,这在人类对话中也有观察到。这些发现证实了注视在人机交互中作为一种隐性的社交信号,并表明即使在传统的2D屏幕上,在非脚本化的实时对话中也会出现这种效果。因此,实现注视感知是朝着更自然、更符合社交需求的AI虚拟角色迈出的重要一步。我们的结果表明,即使是微小的反应性注视也能引发类似人类的行为反应,为对话系统提供了一个轻量级但强大的设计原则。因为注视在意识之下运作,设计师必须考虑其伦理使用及其对用户感知和情感舒适度的潜在影响。通过结合实证证据和技术可行性,这项工作为开发更自然、更透明、更负责任的AI支持虚拟角色奠定了基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有