摘要
基于网络摄像头的眼动追踪是一种成本效益高、可扩展的远程研究方法,能够有效覆盖更广泛的人群。然而,不受控制的环境和硬件多样性导致众包数据质量不稳定。为了评估当前的做法,我们对2011年至2025年的众包眼动追踪进行了范围审查。审查确认了报告的碎片化以及缺乏既定的质量基准。为了解决这一缺乏预测性的问题,我们使用RealEye平台对AI公平性访谈(N = 205)进行了案例研究。通过对平台质量指标应用有序逻辑回归(OLR),我们发现行为和技术因素显著预测了数据质量。具体来说,在RealEye平台中,更高的注视次数、更短的会话时间和操作系统选择能够产生显著更高的质量等级。基于这项审查和平台特定的预测性见解,我们提供了可操作的建议,以提高未来人机交互(HCI)和行为科学中众包网络摄像头眼动追踪的可靠性、透明度和可重复性。
图1. 我们评估AI访谈期间众包网络摄像头眼动追踪参与者数据质量的方法概述。行为和设备相关因素预测数据质量,使用有序逻辑回归(OLR)模型来估计不同质量等级的概率。视觉效果使用GPT-5.3生成,并由作者进行了细化。
1 引言
基于网络摄像头的眼动追踪是一种低成本且可扩展的方法,它使眼动追踪和行为研究民主化 [James等人 2025; Patterson等人 2025; Prystauka等人 2024; Van der Cruyssen等人 2024; Vos等人 2022; Yang和Krajbich 2021]。通过利用参与者的消费级网络摄像头,它实现了远程研究并能够接触多样化的人群 [Bertrand和Chapman 2023; Huang等人 2018],将研究的范围扩展到了实验室之外。尽管网络摄像头眼动追踪器有所进步,但研究人员仍然缺乏对众包网络摄像头注视数据可靠性的系统理解。最近的研究报告了不同硬件配置下的采样精度和校准稳定性不一致 [Heck等人 2023; Patterson等人 2025]。与红外(IR)眼动追踪器不同,基于网络摄像头的方法在不受控制的条件下运行 [Bánki等人 2022; Semmelmann和Weigelt 2018]。照明变化 [Yang和Krajbich 2021]、摄像头质量 [Kim等人 2017]、硬件性能 [Thilderkvist和Dobslaw 2024] 以及参与者行为 [Kandel和Snedeker 2025] 会引入噪声,从而降低空间和时间精度 [Gagné和Franzen 2023; Juantorena等人 2023; Thilderkvist和Dobslaw 2024]。与IR基准相比,注视估计可能会滞后约300毫秒 [Slim和Hartsuiker 2023],并且不同设备之间的采样频率或位置精度也有所不同 [Ribeiro等人 2023]。然而,先前的研究很少量化参与者行为和设备配置如何影响数据可靠性。个别研究评估了特定因素,如头部运动 [Sharafi等人 2020; Thilderkvist和Dobslaw 2024] 和屏幕距离 [Juantorena等人 2023],但很少有研究对这些效应进行统计建模,特别是对于像RealEye这样的商业平台。没有这样的预测框架,研究人员无法主动识别或缓解远程眼动追踪数据中的可靠性问题,从而限制了向稳健、可重复性结果的进展。尽管我们的实证分析使用了RealEye平台提供的数据,但我们检查的因素,如注视次数、测试持续时间和操作系统,并不特定于RealEye。相反,它们反映了无监督、众包、基于网络摄像头的眼动追踪的一般挑战,我们的发现可以帮助研究人员理解在这些设置中影响数据质量的因素。为了构建这项研究,我们调查了以下研究问题(RQs):
RQ1. 哪些方法论和验证实践定义了基于网络摄像头的眼动追踪研究的发展?
RQ2. 哪些行为和技术因素预测了众包网络摄像头眼动追踪的数据质量?
我们通过对2011年至2025年的基于网络摄像头的眼动追踪研究进行范围审查和对参与者级别数据质量的实证分析来回答这些问题。审查确定了三个研究领域:系统开发、验证和应用。此外,它还强调了质量报告和预测建模方面的研究空白。我们的实证分析使用了在RealEye平台上进行的人工智能(AI)公平性访谈中的205名参与者的数据。我们使用有序逻辑回归(OLR)研究了行为和技术因素如何预测注视数据的质量。我们选择这种设置是因为AI访谈是一项社交互动且需要注意力的任务,反映了现实中的基于网络摄像头的互动。据我们所知,这是第一项将范围审查与新兴的AI公平性领域的实证众包眼动追踪分析相结合的研究。
我们的研究表明,网络摄像头注视数据的质量是系统性的而非随机的。每个参与者会话中检测到的注视总数更多以及测试持续时间更短与更好的数据质量相关,设备相关因素也有显著贡献。这些见解有助于完善研究设计、参与者筛选和数据质量评估的指南,推进了对基于网络摄像头的眼动追踪的方法论理解。为此,我们做出了两项贡献:
调查。
我们对跨任务、平台和验证方法的众包网络摄像头眼动追踪研究进行了范围审查。审查总结了报告的准确性和数据丢失度量,概述了当前的方法,并指出了方法论透明度的空白。
实证。
我们提供了关于影响众包网络摄像头眼动追踪数据质量的因素的实证证据。使用有序逻辑回归(OLR)对一个众包的社会感知数据集(N = 205)进行了分析,评估了行为和技术变量与获得高质量注视数据的可能性之间的关系。
2 相关工作
眼动追踪已应用于扩展现实(XR)、移动设备和基于网络摄像头的平台,每种平台都带来了不同的方法论挑战。最近的审查强调了由低成本传感器和深度学习驱动的注视估计、交互设计和数据分析方面的进展 [Adhanom等人 2023; Bozkir等人 2025; Katsini等人 2020; Lei等人 2023; Plopski等人 2022]。然而,它们也指出了校准可靠性、数据噪声和不受控制环境中的报告不一致等持续存在的问题。
方法论标准。先前的审查提出了设计和报告眼动追踪研究的指南,强调了一致的校准、透明的排除标准和标准化的质量指标 [Blascheck等人 2014; Carter和Luke 2020]。在此基础上,Patterson等人 [2025] 检查了基于网络摄像头和众包的研究,发现了报告的碎片化,并建议对采样率、校准准确性和排除阈值进行结构化记录。类似的问题也出现在XR和移动研究中,其中研究报告了可扩展性和精度之间的权衡,以及关于隐私和稳健性的反复关注 [Bozkir等人 2025; Lei等人 2023]。总的来说,这些工作强调了需要标准化的报告框架,以提高透明度并促进未来的跨平台可比性。
系统比较。基于网络摄像头和IR眼动追踪器之间的实证比较揭示了众所周知的问题,包括空间不准确性和校准不稳定性 [Shehu等人 2021]。尽管深度学习提高了估计的稳健性,但网络摄像头系统仍然面临时间精度和参与者不配合的局限性 [Patterson等人 2025; Vos等人 2022]。大多数审查仍然是描述性的,侧重于硬件或算法性能,而不是量化行为或上下文因素如何影响数据可靠性。
研究空白。尽管方法论进展迅速,但验证和报告实践并未跟上步伐。现有的审查主要关注系统准确性和硬件性能,但很少研究行为和技术因素如何共同影响基于网络摄像头的眼动数据质量。因此,可重复性仍然有限,跨平台基准仍然缺失。为了开始解决这一空白,我们将范围审查与实证建模分析相结合。审查总结了当前的方法、验证策略和基于网络摄像头和众包的眼动追踪应用。建模分析使用现有的RealEye数据集来探索参与者行为和设备因素与数据质量之间的关系,为更通用、平台独立的模型迈出了第一步。
3 范围审查
为了解决RQ1,我们在Google Scholar上搜索了2011年至2025年的出版物。我们使用了查询“crowdsourcing” AND (“eye tracking” OR “eye movement” OR “gaze”) AND “webcam” AND (“data quality”)。我们没有限制来源,以避免偏向于单一社区,因为基于网络摄像头的眼动追踪涵盖了人机交互(HCI)、心理学、计算机视觉和市场营销。我们从五篇调查论文开始作为种子文章 [Bozkir等人 2025; Katsini等人 2020; Patterson等人 2025; Plopski等人 2022; Shehu等人 2021],并通过反向和正向引用追踪扩展了集合。数据库搜索发现了169条记录。去除重复项(n=6)后,筛选出163条独特记录,如图2a所示,40篇论文符合纳入标准。图2b总结了识别、筛选和纳入过程。我们包括了关于基于网络摄像头或众包眼动追踪的同行评审的英文研究,这些研究报告了实证发现或方法论评估。我们排除了论文、社论、立场文件、仅工具的笔记和非英文文章。两位研究人员独立筛选了标题和摘要,并在必要时评估了全文。筛选决策的评分者间可靠性很高(Cohen’s κ = 0.78)。通过讨论解决了分歧,最终确定了40篇纳入的研究。
图2. 范围审查过程概述。 (a) 查询返回的出版物数量。合并并去除重复项后,筛选出163条独特记录,纳入了40项研究。 (b) 研究识别、筛选和纳入的PRISMA流程图。
我们的范围审查确定了三个主要的研究方向,这些方向追踪了基于网络摄像头和众包眼动追踪研究的发展:(1) 方法论,专注于开发和改进技术;(2) 验证性,通过与基于实验室的系统的比较来建立实证可信度;(3) 应用,将基于网络摄像头和众包的眼动追踪方法应用于不同应用领域的行为、认知和其他研究问题。
3.1 方法论
这一研究方向开发了低成本和基于网络摄像头的眼动追踪的核心基础设施。在文献中,出现了三个主要方向:(1) 系统和算法开发;(2) 数据集贡献;(3) 校准和流程改进。这些进步降低了传统眼动追踪设置所需的成本和专业知识,使得可以在实验室环境之外进行可扩展的研究。
系统 and 算法开发。方法论工作主要集中在使基于网络摄像头的注视追踪可扩展的系统和方法上。有两种主要方法:直接网络摄像头眼动追踪和注意力代理方法。早期使用直接网络摄像头眼动追踪的工作包括TurkerGaze [Xu等人 2015],它通过Amazon Mechanical Turk展示了众包注视收集,而WebGazer.js [Papoutsaki等人 2016] 引入了一个开源的、基于浏览器的实时注视估计库,使用隐式校准。WebGazer随后被集成到实验框架中,如jsPsych [James等人 2025; Juantorena等人 2023; Ribeiro等人 2023; Vos等人 2022; Yang和Krajbich 2021] 和Gorilla [Bogdan等人 2024; Prystauka等人 2024]。SearchGazer [Papoutsaki等人 2017] 将这种方法扩展到搜索任务,通过隐式交互改进了漂移校正。其他网络摄像头系统包括UnitEye [Wagner等人 2024] 用于3D环境,以及基于Raspberry Pi的深度学习注视预测器 [Panja等人 2025]。相比之下,注意力代理方法如BubbleView [Kim等人 2017]、FocalVid [Shaghaghi等人 2025] 和TurkEyes [Newman等人 2020] 通过鼠标点击或路径来近似视觉注意力,当网络摄像头追踪不可用或涉及隐私时提供了可扩展的替代方案。
数据集贡献。第二个关键方向涉及构建用于训练、验证和基准测试远程眼动追踪和注意力模型的数据集。这些数据集支持深度学习的发展,并能够在不同的硬件和参与者之间进行性能评估。WebQAmGaze [Ribeiro等人 2023] 提供了一个多语言的网络摄像头阅读数据集,使用WebGazer收集并针对EyeLink实验室数据进行了验证。CrowdEyes [Othman等人 2017] 使用低成本的头戴式网络摄像头和CrowdFlower进行众包,收集大规模的瞳孔定位和注视标记数据,将算法训练扩展到实验室环境之外。BubbleView [Kim等人 2017] 和TurkEyes [Newman等人 2020] 类似地贡献了众包注意力图和注释框架,既作为数据集也作为实验平台。总的来说,这些努力为测试和改进基于网络摄像头的注视估计方法奠定了实证基础。
校准和流程改进。朝着稳健的网络摄像头眼动追踪迈出的一个关键步骤是开发既可靠又用户友好的校准方法。最近的研究专注于提高效率和个性化,以减少现实世界网络摄像头数据中的噪声和变异性。例如,fast-PACE [Huang等人 2018] 基于个性化自动校准眼动追踪(PACE)框架,该框架根据自然用户交互(如点击或打字)自动调整注视估计,从而减少了显式校准的需要。Saxena等人 [2022] 评估了简化的校准任务,包括简短的追踪程序和设备距离估计,表明较短的程序可以在最小化参与者努力的同时保持准确性。总体而言,这些研究表明,适应性和轻量级的校准策略对于使基于网络摄像头的眼动追踪在实验室环境之外既准确又实用至关重要。
3.2 验证性
这一研究方向通过将其性能与实验室级系统进行比较来评估基于网络摄像头的眼动追踪的实证有效性。出现了三个主要的验证级别:(1) 系统级别,评估技术和测量的等效性;(2) 任务级别,测试行为和认知的可重复性;(3) 程序级别,定义在不受控制条件下可靠数据收集的最佳实践。系统级研究将基于网络摄像头的眼动追踪器与实验室级别的红外系统(如EyeLink和Tobii)进行比较,以评估其技术性能[Asghari等人2022年;Hammond和Wang 2023年;Kaduk等人2024年;Patterson等人2025年;Slim和Hartsuiker 2023年;Vos等人2022年]。研究发现三个主要限制:空间精度不足、时间精度有限以及系统偏差。基于网络摄像头的眼动追踪器通常显示出约3°到4.5°的空间误差[Asghari等人2022年;Kaduk等人2024年;Patterson等人2025年;Vos等人2022年],且12–30 Hz的采样率限制了其对快速眼球运动的检测能力,而红外系统的采样率为100–1000 Hz。这些系统还存在中心偏差,例如视线聚集在屏幕中心,以及垂直压缩现象,即由于头部运动、光照变化和几何失真导致y轴上的数据低估[Kaduk等人2024年;Slim和Hartsuiker 2023年;Vos等人2022年]。尽管基于卷积神经网络(CNN)的模型可以将误差降低到约2.6°[Asghari等人2022年],但它们仍无法完全克服消费级网络摄像头的硬件和环境限制。尽管如此,基于网络摄像头和实验室的眼球追踪轨迹之间存在强相关性,相关系数约为r =.8到.r =.9[Kaduk等人2024年;Slim和Hartsuiker 2023年;Vos等人2022年],这支持使用基于网络摄像头的方法进行注意力分析和兴趣区域(AOIs)研究。总体而言,这些发现界定了基于网络摄像头的眼动追踪产生有效行为数据的技术范围,并激发了我们对预测众包环境中数据质量因素的分析。
任务级验证。这种类型的验证评估基于网络摄像头的眼动追踪是否能够再现已知的行为和认知效应。在视觉注意力、语言理解和早期认知发展方面,网络摄像头追踪能够复制已建立的眼球运动模式,包括预测性注意力、新奇性反应和实时语言处理,尽管效应大小较小(仅为实验室结果的40–60%)且存在200–700 ms的时间延迟[Bánki等人2022年;Bogdan等人2024年;Prystauka等人2024年;Slim和Hartsuiker 2023年;Swanson等人2024年;Van der Cruyssen等人2024年;Vos等人2022年]。Van der Cruyssen等人[2024年]复制了三种经典的眼球运动效应,而Vos等人[2022年]仅用50 ms的延迟就复制了动词时态处理。情绪-注意力[Bogdan等人2024年]和婴儿注视时间[Bánki等人2022年]的研究证实了其广泛的适用性,尽管空间精度较低。总体而言,当分析目标为较大的兴趣区域或持续的注视时,网络摄像头追踪能够提供有效的行为测量结果。
程序级验证。这一层次的研究探讨了包括校准程序、参与者指导和招募质量在内的程序因素如何影响非控制在线环境中的数据可靠性。Patterson等人[2025]强调,透明报告校准阈值、采样率标准和参与者指导对于可复制的网络摄像头眼动追踪至关重要。同样,Uittenhove等人[2022]比较了在线和实验室数据收集,发现大多数数据丢失是由于参与者不遵守规定和样本质量问题,而非测试环境本身。他们报告称远程测试仅导致质量略有下降,并建议增加约20%的采样率,同时优先考虑参与者筛选程序。这些研究定义了提高大规模基于网络摄像头的眼动追踪研究可靠性和可重复性的程序标准。
尽管取得了这些进展,但目前仍不清楚哪些参与者和情境因素最能强烈预测数据质量。我们的研究通过建模行为和技术因素如何影响众包网络摄像头眼动追踪环境中的数据可靠性,来填补这一空白。
3.3 应用
基于网络摄像头的眼动追踪在三个主要领域展示了其应用价值:(1)注意力和界面研究,用于研究用户参与度和视觉显著性;(2)认知和语言研究,将经典实验范式适应到在线环境中;(3)决策制定和行为经济学,分析眼球运动动态如何影响复杂决策中的注意力和选择。
注意力和界面研究。基于网络摄像头的眼动追踪的一个主要应用是了解人们如何关注和与数字界面互动。Bertrand和Chapman [2023]研究了屏幕互动过程中的视线与光标协调情况,而Chen-Sankey等人[2023]分析了年轻人在真实网络环境中如何查看电子香烟营销材料。James等人[2025]证明,尽管存在空间精度限制,经典注意力范式仍可在在线环境中复制,支持行为研究。在无障碍研究方面,Edughele等人[2022]回顾了基于眼动的辅助系统,这些系统使有运动障碍的人能够进行交流和界面控制。Singh等人[2023]引入了多模态EngageNet数据集来模拟在线学习中的用户参与度,Katsaounidou等人[2025]开发了iMedius框架来监测对在线新闻和错误信息的关注。Haveriku等人[2025]进一步表明,眼球运动特征可以增强语言预测和跨语言泛化能力。总之,这些研究表明基于网络摄像头的眼动追踪在互动、无障碍、媒体和语言研究中具有广泛的应用价值。
认知和语言研究。基于网络摄像头的眼动追踪也被应用于认知和语言研究。Juantorena等人[2023]使用基于网络的原型进行了抗扫视任务,证明在线上可以可靠地测量抑制控制和反应时间效应。Thilderkvist和Dobslaw [2024]研究了程序员如何阅读和理解源代码,发现眼球运动模式和阅读线性与自然语言不同,揭示了不同的认知策略。Yuksel Elgin和Elgin [2025]研究了模拟视野缺陷如何影响信息处理,表明视力丧失会增加认知负担并通过改变眼球行为降低理解能力。这些研究表明,基于网络摄像头的方法能够远程研究执行控制、理解和信息处理,将认知和语言研究扩展到实验室之外。
决策制定和行为经济学。基于网络摄像头的眼动追踪通过捕捉选择过程中的眼球运动动态来揭示人们如何做出决策。Yang和Krajbich [2021]发现,更长和更频繁的注视可以预测选择并表明决策冲突,支持注意力漂移扩散模型(aDDM),该模型认为受关注的信息会获得更大的权重。Bertrand等人[2023]报告说,更困难的选择会引发更长的观看时间和更多的停留。Wong [2023]表明,供应商质量的正面或负面框架会改变注意力和购买决策,眼球运动在此过程中起到了中介作用。同样,Sarvi等人[2025]观察到视觉上不同的物品会吸引更早和更长时间的注视,将显著性与消费者偏好联系起来。
尽管已有研究在行为领域使用了基于网络摄像头的眼动追踪,但很少有研究在这些环境中考察参与者层面的数据质量。我们利用AI面试实验的数据,对预测现实世界条件下网络摄像头眼球追踪可靠性的行为和技术因素进行了建模。
4 案例研究:AI面试中的公平性
为了回答RQ2,我们分析了一个在基于AI的面试过程中收集的众包网络摄像头眼动追踪数据集[Lau等人2026]。原始研究关注参与者的信任和公平感知,而我们的目标是评估RealEye在这种社交互动和无人监督环境中的网络摄像头追踪可靠性。我们通过将RealEye的质量等级与任务期间记录的行为和技术因素相关联来建模参与者数据质量。
4.1 参与者
最终样本包括205个有效数据集,排除了228名参与者中的不完整会话和技术错误。参与者都是英语流利的成年人,主要来自美国、英国和德国。所有参与者都自报视力正常或经过矫正至正常。样本在人口统计上具有多样性(平均年龄约为40岁),代表了在线众包研究的典型异质性。在不同质量等级的参与者之间没有观察到显著的人口统计差异。详细的参与者人口统计信息见附表2.4。
4.2 数据集和程序
我们采用了2 × 2的被试间设计,操纵参与者身份与AI面试官头像之间的匹配或不匹配,依据种族和性别。选择这些头像类别是为了反映雇佣歧视与显著视觉身份线索(如肤色)相关的证据,这些线索表明了感知的文化距离[Zschirnt和Ruedin 2016]。参与者通过Prolific [Prolific 2026b]在2025年7月2日至17日期间招募。资格要求包括英语流利、功能正常的网络摄像头和麦克风以及稳定的互联网连接。每次会话持续约20分钟,参与者根据Prolific的公平薪酬政策获得4.27英镑(=每小时12.80英镑)的报酬[Prolific 2026a]。整个研究流程,包括招募、校准、AI面试和反馈总结在图3中。所有程序均获得了慕尼黑工业大学机构审查委员会(IRB)的批准,参与者在参与前提供了知情同意。
图3. 从招募到AI面试的实验流程。
图4. 在AI面试官上定义的面部和身体兴趣区域(AOIs)。
4.3 网络摄像头眼动追踪设置
眼动追踪数据使用RealEye平台(版本18.49.0)收集,这是一个基于浏览器的系统,可以根据设备性能以10–60 Hz的名义采样率从网络摄像头视频中估计眼球位置。该平台首先进行39点校准,然后进行3点验证;两次验证未通过的参与者会自动退出并得到补偿。根据RealEye的文档,只有当估计的眼球位置与三个验证目标中的每一个相差在150像素以内时,验证才被视为通过。RealEye的文档还显示,全屏准确率约为100–125像素,其中中心区域的准确率最高。RealEye在研究过程中不使用重复校准网格进行中途重新校准。相反,该平台使用“虚拟下巴支撑”机制来保持数据质量:如果参与者偏离校准位置太远,系统会提示他们返回正确位置后再继续追踪。目前,RealEye不提供可导出的指标来显示在会话期间触发虚拟下巴支撑的次数,这限制了我们在参与者层面量化追踪稳定性的能力。
我们整合了RealEye的嵌入式SDK [RealEye 2026],定义了两个兴趣区域,分别对应面试官的面部和身体,如图4所示。我们仅定义这两个区域为兴趣区域,因为它们是面试情境中的主要社会相关目标。我们没有定义背景兴趣区域,因为背景内容因刺激而异,且与我们的研究问题无关。为了减轻基于网络摄像头的眼动追踪器在空间精度和注视准确性方面的已知限制[Patterson等人2025年;Semmelmann和Weigelt 2018年;Sharafi等人2020年],我们将兴趣区域定义得足够大,以捕捉所有相关的注视。
4.4 测量和分析
结果变量是参与者质量等级(1 = 非常低到6 = 完美),RealEye根据四个内部信号指标计算得出:采样率(Hz)、注视检测(即系统是否能够计算注视的二元指标,需要20 Hz的采样率)、眼动追踪数据长度(也称为数据完整性,反映了收集到的眼球数据中的间隙程度)以及屏幕上的注视时间百分比[RealEye 2025b]。由于RealEye不提供以视觉角度表示的每个参与者的注视估计误差,我们依赖平台的质量等级作为主要结果指标。由于这些信号定义了等级本身,我们排除了它们作为预测因子,以避免循环性。我们使用了RealEye提供的其他未用于等级计算的指标,以及我们单独收集的信息。
预测因子分为三类:(1)行为因素:注视次数和测试持续时间(秒),均由RealEye导出。由于注视次数来自识别连续眼球流中注视点的事件检测程序[Kasneci等人2014],我们在这里主要将其视为参与度的行为代理,而不是直接的质量指标。注视次数来自RealEye的事件检测流程,但不属于等级公式的一部分;移除它会使模型拟合度降低Δ AIC = 120,这证实了它作为参与度预测因子的价值;(2)设备因素:浏览器宽度(像素)和操作系统,分别记录;(3)人口统计因素:参与者年龄(如果在RealEye元数据中可用)。
我们基于模型标准误差报告95%的Wald置信区间。我们使用部分比例优势(PPO)模型测试了比例优势假设,该模型允许操作系统有非平行效应。PPO并没有改善拟合度(LR = 10.998,df = 8,p =.202;AICPO = 543.9 vs. AICPPO = 548.9),因此我们保留了比例优势模型。分析是在Python(版本3.9.6)和RStudio(版本2025.05.1+513)中进行的。
4.5 结果:质量分析
为了研究参与者特征和会话因素如何与数据质量相关,我们拟合了一个OLR模型来预测参与者质量等级。所有预测因子的多重共线性都很低(VIFs < 2),模型诊断表明拟合度适当(AIC = 519.9;McFadden的伪R2 = 0.212)。表1展示了完整的OLR结果。模型确定了四个统计上显著的参与者质量等级预测因子:注视次数、测试持续时间、浏览器宽度和操作系统。参与者年龄不是一个显著的预测因子。我们在下面按行为因素、设备相关因素和操作系统对这些结果进行了描述。为了评估稳健性,我们运行了一个OLS模型来预测平均采样率(Hz),结果见附表3。研究结果确认了效应的方向一致性(R2 = 0.64),表明所识别的行为因素和设备因素不仅能够预测平台的综合质量等级,还能预测其构成指标之一——采样率。这种一致性表明,所识别的预测因子并非RealEye综合评分方案的偶然结果。
表1. 变量 Coef Std. Err zP > |z| [0.025] [0.975]
注视次数 0.025 3*** 0.003 8.527 0.000 0.019 0.031
参与者年龄 -0.017 5 0.012 -1.493 0.135 -0.040 0.005
测试时长(秒) -0.067 3*** 0.009 -7.680 0.000 -0.084 -0.050
测试浏览器宽度(像素) 0.001 3** 0.000 3.054 0.002 0.000 0.002
操作系统(Mac OS X) 0.735 8* 0.319 2.304 0.021 0.110 1.362
分界点 1/2 -1.521 7 1.057 -1.440 0.150 -3.593 0.550
2/3 0.550 9** 0.186 2.959 0.003 0.186 0.916
3/4 0.334 3* 0.142 2.360 0.018 0.057 0.612
4/5 0.542 7*** 0.114 4.777 0.000 0.320 0.765
模型拟合 观测数量 205 Log-Likelihood -250.96
AIC 519.9 BIC 549.8
McFadden’s pseudo R2 0.212
显著性:*p < 0.05, **p < 0.01, ***p < 0.001
有序逻辑回归预测参与者质量等级。正系数表示达到更高质量等级的可能性更高。
**行为因素**:如表1和图5a所示,注视次数与参与者数据质量呈正相关。在其他变量保持不变的情况下,每次额外的注视使属于更高质量等级的概率增加约2.5%(OR ≈ 1.025)。相比之下,如表1和图5b所示,较长的测试时长与较低的质量等级相关。利用拟合模型,我们估计了一个质量阈值,即具有平均协变量的参与者有50%的概率获得低质量等级(等级≤3)的测试时长。估计的阈值为137秒,大约是5分钟眼动追踪时间的46%。这个值反映了我们实验设置的具体情况,应被视为一种情境指导,而非普遍适用的截止标准。整个会话包括访谈、访谈前后的阶段以及访谈后的问卷调查,持续了约20分钟。
**设备相关因素**:如表1所示,浏览器宽度与参与者质量等级呈正相关。尽管效应大小较小,但这种关联可能反映了实验设置中特定的显示几何形状和观看条件(例如,台式显示器与较小笔记本电脑显示器之间的差异)。
**操作系统**:如表1和图5c所示,操作系统与参与者质量等级相关。与Windows基线相比,Mac OS X用户获得更高质量等级的概率更高。
**图5. 关键预测因子与参与者质量等级之间的关联。**(a) 不同质量等级下的注视次数。(b) 不同质量等级下的测试时长;虚线表示预测的50%低质量阈值(约137秒)。(c) 不同操作系统下的质量等级分布(*,p = 0.021),星号表示显著的成对比较。推断统计结果在表1中报告。**
**5. 讨论**
5.1 **研究结果总结**
我们的研究通过范围审查和实证质量分析回答了两个研究问题。RQ1探讨了影响基于网络摄像头和众包的眼动追踪研究的方法论和验证实践。范围审查确定了三个主要领域:系统开发、验证和应用。研究表明,尽管系统、算法和数据集发展迅速,但验证和报告实践并未跟上步伐。很少有研究报告标准化的质量指标或基准,这限制了跨平台的可重复性。大多数验证工作仍然针对系统级准确性,而不是参与者或情境因素,且程序标准报告不一致。这些差距突显了需要像本研究这样的预测建模方法,将行为和技术变异性与可测量的数据质量联系起来。
在回答RQ2时,回归分析确定了显著影响基于网络摄像头的眼动追踪可靠性的行为和设备相关因素,而年龄等人口统计变量没有显示出显著效应。
**行为因素**:我们的结果显示,较高的注视次数预示着更高质量等级,表明专注和一致的观看行为支持更可靠的追踪。这一发现与之前的基于阅读的数据集(如WebQAmGaze [Ribeiro等人,2023])一致,其中注视密度预测了理解准确性。这也与我们之前的任务级验证结果一致,这些结果显示基于网络摄像头的眼动追踪在较大的感兴趣区域(AOIs)和持续的注视下最为可靠 [Prystauka等人,2024;Vos等人,2022]。我们的结果和之前的研究都表明,注视次数同时捕捉了注意力参与度和物理稳定性,这两者是在不受控制环境中进行准确估计的必要条件。在我们的研究中,所有参与者都达到了RealEye的最低采样率(20 Hz),用于注视检测,这表明注视次数的变化反映了观看行为的差异,而非检测失败。
相反,较长的测试时长预示着较低的质量。这种模式与观察结果一致,即延长测试时间通常是由于重新校准尝试或头部移动造成的中断 [Patterson等人,2025;Vos等人,2022]。虽然我们的数据集没有记录重新校准事件的次数,但RealEye平台包含了一个虚拟下巴支撑功能,当检测到明显的头部移动时,会提醒参与者返回校准后的头部位置 [RealEye 2025a]。这种机制可能解释了为什么较长的测试时长与较低的质量等级相关。简而言之,测试时长是参与者疲劳和校准不稳定性的间接标志,而不是参与度的直接体现。
**设备相关因素**:数据质量在参与者不同的技术设置中也存在系统性的差异。如表1所示,较宽的浏览器窗口与较高的质量等级相关。然而,浏览器宽度(以像素计)并未考虑物理屏幕大小或像素密度,可能只是整体硬件和显示质量的代理指标(例如,台式显示器与较小的笔记本电脑)。由于我们任务中的感兴趣区域(AOIs)位于中心位置,这种效应可能反映了我们访谈设置的特定观看条件,而不是浏览器宽度与数据质量之间的普遍关系。操作系统差异支持了之前的系统级发现 [Kaduk等人,2024;Vos等人,2022]。使用macOS的参与者获得了更高的质量等级,这可能是由于标准化的相机驱动程序和一致的GPU计时减少了采样变异性 [Kaduk等人,2024;Vos等人,2022]。尽管如此,操作系统、浏览器和硬件之间的相互作用仍然是在线眼动追踪中测量差异的主要来源 [Brandl等人,2024;Prystauka等人,2024;Uittenhove等人,2022],在某些情况下这种模式会逆转:由于相机距离更近和照明更稳定,移动用户可能会产生更稳定的信号 [Chen-Sankey等人,2023]。总体而言,设备效应取决于任务情境和环境,反映了硬件-软件生态系统的相互作用,而不仅仅是单一平台。
**人口统计因素**:参与者的人口统计特征(如年龄)对数据质量没有显著影响,这与之前的基于网络摄像头和智能手机的研究结果一致,这些研究未发现人口统计因素对数据可靠性有影响 [Bánki等人,2022;Panja等人,2025;Ribeiro等人,2023]。大多数数据丢失是由于不遵守规定、注意力不集中或头部移动造成的 [Bánki等人,2022;Uittenhove等人,2022]。
**5.2 方法论教训**
进行这项研究是我们首次将众包招募与基于网络摄像头的眼动追踪结合用于社交互动AI访谈的经验。受到Burch和Kurzhals [2024]的启发,我们从两个角度总结了我们的方法论教训:研究者的角度和平台设计的角度。
**从研究者的角度**:我们的经验表明,与公众参与者进行基于网络摄像头的眼动追踪研究既面临技术挑战也面临程序挑战。对于许多首次使用者来说,校准和持续追踪需要相当大的努力。一些参与者报告了在开放式反馈中的困难,例如快速的头部移动导致RealEye的虚拟下巴支撑重新出现(“绿色点出现了两次,花费了很长时间才完成”)。这些报告表明,虽然RealEye的虚拟下巴支撑旨在提高数据质量,但它也可能降低参与者体验。未来的研究应考虑在研究前提供培训或交互式校准指导,特别是在与非专家参与者合作时。例如,研究人员可能会受益于提供简短动画来说明适当的照明和姿势,或提供简单的实时反馈以支持参与者在校准过程中的自我纠正。
**从平台设计的角度**:一些可用性问题源于眼动追踪平台与我们的实验界面之间的交互。在某些情况下,RealEye的客户端界面元素干扰了任务刺激,例如,一位参与者报告说:“我的眼睛在圆圈中的弹出窗口出现了几次,它挡住了退出按钮或覆盖了采访者。” 这些冲突突显了需要更好地整合眼动追踪平台与依赖实时渲染的实验环境。此外,提高RealEye处理数据丢失方式的透明度将有助于研究人员评估有效性和可重复性。提供简单的指标(如每个参与者触发虚拟下巴支撑的次数)将有助于了解追踪的稳定性。我们鼓励提供者分享额外的质量指标,以支持基于证据的方法论决策。
**5.3 建议**
基于我们的发现和方法论反思,我们提出了三项建议,以改进众包基于网络摄像头的眼动追踪研究的设计和成功率。
**建议1:提供清晰的设置和同意指导**:参与者直接收到的指导量直接影响基于网络摄像头的眼动追踪研究的数据质量。如之前的工作 [Bánki等人,2022;Patterson等人,2025;Simmelmann和Weigelt 2018] 所指出的,研究人员应提供关于设备设置、照明和头部稳定性的清晰、分步指导,以及对数据使用和隐私保护的透明解释。在我们的研究中,参与者被告知“不会存储任何视频或音频记录,只处理注视数据”,并完成了一个简短的检查表来验证网络摄像头的功能、互联网稳定性和校准准备情况。清晰的准备可以减少追踪丢失,确保公平参与,并增强对远程数据收集的信任。为了支持可重复性,附录表4提供了一个简洁的基于网络摄像头的眼动追踪研究报告检查表。
**建议2:尽早评估平台架构和集成**:基于网络摄像头的眼动追踪平台在数据收集和校准的处理方式上有所不同。一些平台依赖于屏幕录制或基于浏览器的注视估计,而其他平台则将实验直接嵌入到它们的界面中。这些差异影响了实验控制和数据访问。在我们的研究中,RealEye的嵌入式设计限制了对校准和界面渲染的控制。研究人员应尽早评估这些限制,以确保所选平台符合他们的实验目标。
**建议3:将数据质量用于筛选和排除**:研究人员可以使用行为指标(如注视次数或测试时长)作为事后筛选变量来操作化数据质量。例如,异常长的会话或非常低的注视次数可能表明追踪不稳定或参与者疲劳,可以根据预先注册的标准进行标记或排除。我们在分析中确定的这些预测因子为定义众包基于网络摄像头的眼动追踪研究中的质量阈值提供了实用指导。
**5.4 局限性和未来工作**
**缺失的空间精度指标**:RealEye没有提供每个参与者的注视估计误差(以视觉角度度为单位),也没有导出原始的验证偏移量。根据平台在初始验证任务中报告的精度(大约106像素 [RealEye 2024])以及对典型观看距离(50–60厘米)和屏幕像素密度(0.17–0.27毫米/像素)的假设,我们估计空间精度为1.7°至3.3°。由于没有记录观看距离或物理屏幕大小,这个估计应被视为近似值,而不是参与者级别的测量。我们鼓励平台提供者为每个参与者报告在校准期间观察到的平均注视偏移量,以度为单位,以支持独立的质量评估。
**数据质量与任务表现无关**:我们没有发现质量等级与访谈时长或转录字数之间存在显著关联(Spearman,N = 205,所有p >.40;Kruskal–Wallis,所有p >.10),尽管鉴于缺乏明确的精度结果,这些代理指标可能无法捕捉到有意义的性能变化。先前的研究表明,空间不准确性可能会扭曲基于注视的测量(如停留时间 [Brandl等人,2024;Holmqvist等人,2012]),并且数据质量会调节阅读行为和模型预测之间的相关性 [Morger等人,2022]。未来的研究可以将招募平台上的参与者注意力检查通过率与他们的眼动追踪质量等级相关联,以评估招募级别的筛选是否可以预测众包环境中的追踪可靠性。
**平台和任务的普遍性**:OLR结果特定于RealEye的算法和质量评分系统,可能不会直接转移到其他基于网络摄像头的平台上。同样,我们的AI访谈任务涉及有限的一组参与者的人口统计和头像身份。虽然这些因素限制了普遍性,但建模方法为识别跨系统和研究设计的数据质量预测因子提供了一个可复制的模板。未来的工作可以测试这些预测因子是否可以在不同平台和任务之间推广,例如,通过使用其他商业网络摄像头眼动追踪服务或任务类型(如阅读或视觉搜索)来复制分析。
**样本特征**:在我们的实验中,质量等级的分布不均匀,极端的参与者较少。为了分析,我们将等级5和等级6合并,因为最高等级的样本量较少(n = 3)。模型诊断确认了足够的稳定性,但未来的研究可以通过分层招募来确保更平衡的样本分布。此外,我们的研究没有过度采样以补偿由于校准失败导致的数据丢失,这是众包基于网络摄像头的眼动追踪中的常见问题。根据最近的建议[Patterson等人,2025年],未来的研究可以将样本量增加20-40%,超出先前的功效估计值。6 结论:本研究结合了范围审查和案例研究,以评估影响众包式、基于网络摄像头的眼动追踪中参与者数据质量的因素。审查发现,报告实践存在碎片化现象,并且对影响数据可靠性的行为和技术因素考虑不足。在我们的案例研究中,通过RealEye平台收集的数据分析表明,注视次数、测试时长和操作系统是预测参与者数据质量的一致性指标。这些发现为评估和改进远程注视数据提供了实证基础。我们鼓励采用透明的报告标准、可复制的分析流程以及与平台无关的质量模型,以提高未来基于网络摄像头的眼动追踪研究的可靠性和可比性。7 社会影响声明:基于网络摄像头的眼动追踪为不同参与者提供了可扩展的访问方式,但也引发了关于隐私和数据主权的担忧。在本研究中,仅记录了注视坐标(未录制视频),所有程序均遵循了IRB批准的同意书和公平补偿标准。我们强调透明的数据处理方式,并倡导开放报告,以促进未来众包式基于网络摄像头的眼动追踪研究中的隐私意识和伦理实践。8 开放科学:为了支持研究的可重复性,我们在https://gitlab.lrz.de/hctl/crowdsourced-webcam-eyetracking-analysis提供了完整的分析流程和数据处理脚本。
打赏