基于注视的个人记忆:利用眼动追踪提升文本检索系统的相关性

时间:2026年5月29日
来源:Proceedings of the ACM on Human-Computer Interaction

编辑推荐:

摘要:随着数字文本内容的快速增长,用户在重新发现过去遇到的信息时面临越来越多的挑战。传统的搜索引擎缺乏区分用户实际查看的内容和仅在屏幕上显示的内容的能力。我们提出了一种方法,该方法在阅读过程中同时捕获文本段落和相应的注视数据,并将它们存储在一个可搜索的知识库中。然后,我们探索了提

广告
   X   

摘要:随着数字文本内容的快速增长,用户在重新发现过去遇到的信息时面临越来越多的挑战。传统的搜索引擎缺乏区分用户实际查看的内容和仅在屏幕上显示的内容的能力。我们提出了一种方法,该方法在阅读过程中同时捕获文本段落和相应的注视数据,并将它们存储在一个可搜索的知识库中。然后,我们探索了提升策略,通过优先显示用户实际查看的段落来改进文本检索,从而提高搜索结果的个性化和相关性。为此,我们重新利用了最近的g-Rel-READER数据集来评估各种基于注视的增强技术,并解决了由于缺乏文本、注视和相关性数据的结合而产生的研究空白。评估表明,注视数据可以作为搜索的增强标准,其平均精度(MAP)比纯文本检索提高了33%以上。

图1. 所提出的系统持续记录注视数据及其对应的文档段落,并将它们存储在个人记忆中。当用户后来感觉他们之前遇到过某些信息时,可以查询这个个性化记忆。在文档检索过程中,系统利用之前记录的注视数据来优先显示之前阅读的段落,使用基于注视的增强策略。为此,我们的g-Rel-RANKER数据集使得这些策略的系统优化和评估成为可能。

1 引言:书面文本数据的量每年都在增加,这一趋势由于大型语言模型的快速采用而进一步加速,这些模型能够用很少的努力从少量提示中生成大量的文本。尽管这些技术使得生成信息比以往任何时候都更容易,但研究和验证信息仍然严重依赖于人类的专业知识。在日常和专业环境中,个人经常阅读各种数字内容——从网站和报告到博客文章和科学论文。这就产生了帮助用户重新发现他们过去遇到的信息的需求。传统的搜索引擎可以识别和索引网页内容,甚至可以记录用户访问过的页面,但无法区分用户实际查看的内容和仅在屏幕上显示的内容。

为了解决这一限制,本研究探讨了将眼动追踪数据整合到信息检索系统中。为此,我们提出了一种方法,利用阅读过程中收集的眼动追踪数据来增强对之前阅读过的文本的检索。更具体地说,该方法概述了一个搜索引擎,它捕获并处理文本段落和相应的注视数据,并将它们存储在一个可搜索的知识库中。随后,眼动追踪数据可以用于增强方法中,以优先显示用户实际查看的段落,从而提高搜索结果的相关性和个性化。所提出的系统通过解决日常和专业环境中遇到的文本信息量激增的问题,显著提高了可访问性。通过结合眼动追踪数据,我们的方法个性化了检索过程,强调了用户主动查看的段落,从而减少了认知负担,并促进了更高效的信息重新发现。这种基于注视的优先级排序支持具有不同认知能力的用户,包括那些有障碍或注意力缺陷的用户,通过根据个人的阅读行为定制搜索结果。此外,基于视觉注意力的动态适应促进了更直观和易于使用的界面,最终扩大了数字信息检索系统的包容性和可用性。

然而,如上所述,基于注视的检索结果增强目前仍是一个未被充分探索的研究问题。推进这一领域的一个重大挑战是缺乏包含文本数据、用户查询、注视信息和相关性注释的公开可用数据集。这样的数据集对于系统评估和优化提供基于注视的个人记忆的搜索引擎至关重要。因此,目前还没有成熟的方法能够有效地增强查看过的内容,使其得到适当的优先处理,而不会过度掩盖其他相关材料。为了解决这些挑战,我们引入了一个新的数据集,专门用于评估不同的增强策略,并在广泛使用的信息检索引擎Elasticsearch [13] 中进行了测试,从而促进了基于注视的信息检索的可重复研究和基准测试。

总之,本研究做出了以下贡献:
- 我们引入了g-Rel-RANKER,这是一个用于系统评估信息检索系统中基于注视的增强的数据集。该数据集扩展了最近的g-Rel-READER数据集 [16]——它提供了触发问题、文档和注视信息——并增加了额外的背景文档和相关性评估。为了促进未来的研究,我们将在https://zenodo.org/records/18564970下公开提供该数据集(包括基准代码)。
- 我们提出了一种将眼动追踪数据整合到搜索中的新方法,以增强对之前阅读过的信息的检索。基于这种方法,我们开发了一个原型搜索引擎和数据集,将文本段落和注视数据结合起来进行可重复的评估。
- 我们在Elasticsearch中评估了多种增强策略,以优先显示用户实际查看的内容。使用g-Rel-RANKER,我们测试、选择并优化了多种增强策略。结果表明,如果校准得当,基于注视的增强可以显著提高对过去查看过的段落的检索效果,同时适度降低对未查看段落的检索效果。

图1提供了系统的概览。虽然我们的基于注视的个人记忆可以用来记录实时的注视数据和文档,但使用g-Rel-RANKER数据集可以更方便、更彻底地研究不同的增强策略。在这项工作中,我们详细介绍了这个数据集,并讨论了各种增强策略,以提供更可靠和个性化的文档检索系统。

2 相关工作:以下部分概述了与我们的工作最相关的研究。具体来说,我们研究了实现个性化记忆和召回机制的系统,以及那些利用注视数据来量化阅读任务并将这些信息用于检索目的的系统。

个人记忆:即使在计算机出现之前,人们就已经想象出了可搜索的人类记忆扩展,例如Vannevar Bush的Memex [8],它提出了用于记忆和分享用户阅读内容的早期形式的超链接。Lifelogging [15] 是另一种通过连续多媒体记录来扩展记忆的形式。在这里,通过自动识别视频中的语义概念,可以对多媒体内容中的特定事件、人物或活动进行文本搜索。最近,在大型语言模型(LLMs)的背景下,记忆扩展变得相关,这些模型可以检索与用户问题相关的文档,并将它们添加到提示中,从而扩展了它们的记忆,这一概念被称为检索增强生成(RAG)。OpenAI通过其最近的Atlas Browser [27] 的浏览器记忆概念,使用RAG来扩展ChatGPT的记忆,包括用户的浏览历史,从而个性化聊天机器人的回答。

对于许多行业的知识工作者来说,数字设备屏幕上显示的内容是一个重要的信息来源,很多知识工作涉及重新找到和重用之前看到的信息。为此,提出了各种记忆扩展方法,例如通过记录访问过的文件内容(如Microsoft的“Stuff I’ve Seen”系统 [11]),或者通过捕获截图、使用OCR识别其中的文本并对其进行索引以方便检索 [9, 29]。最近,大型视觉语言模型在不依赖OCR的情况下改进了从截图文档中检索文本的能力 [22]。我们的贡献是通过优先显示实际查看的内容,而不是仅仅显示的内容,从而增强了检索的相关性和个性化。

阅读检测和阅读指标:上述工作中没有一项将注视集成进来,即区分了可见的内容和实际看到的内容(或阅读的内容)。然而,有很多关于分析注视数据以用于信息检索的工作。作为低级基础任务,基于眼动追踪的阅读行为分析已经被研究。其目标是确定一个人是在阅读文本还是在执行其他视觉活动,例如仅仅浏览某个区域。为此,分析了特征性的眼球运动模式,主要是注视点和扫视。提出的阅读检测解决方案包括启发式方法 [4] 或基于机器学习的方法,例如Biedert等人 [3] 的方法。这些方法产生了软件解决方案——既有商业解决方案如Tobii Pro Lab [33],也有开源解决方案如EyeLiveMetrics [18]——它们提供了各种手动或启发式的方法来定义屏幕上的兴趣区域,并将这些区域与注视数据实时关联起来,从而提供中级阅读指标,例如在某些单词上的总注视时间和平均注视时间。最后,随着AR/MR应用的普及,注视分析越来越受到关注,因为预计佩戴轻便舒适的眼镜(如Ray-Ban Meta或Apple Vision Pro)将变得更加普遍。在这种情况下,阅读分析和基于阅读的索引目前正受到关注,这体现在新的数据集和倡议中,如“Reading Recognition in the Wild” [1]。然而,我们不知道有任何关于AR/MR应用中基于注视的文本索引/搜索的工作。

阅读模式中的任务特异性:其他研究表明,注视模式与用户的意图/任务相关。Bektaş等人 [2] 发现,在AR环境中,高级活动类别(阅读与检查对象与搜索)可以以90%的准确率区分开来。其他工作研究了阅读类别之间的更细微差异:Strukelj等人 [32] 研究了阅读/浏览/拼写检查对扫视长度、注视持续时间、单词跳过和总阅读时间的影响。Kaakinen等人 [21] 比较了校对与理解性阅读,发现了时间和空间方面的差异,如初始着陆位置、扫视长度和重新注视概率。Cole等人 [10] 研究了新闻和基因组学研究中的各种领域特定信息搜索任务,并在EZ Reader模型 [30] 中发现了任务之间的显著参数差异(特别是在从扫描到阅读和从阅读到扫描的转换中)。这些结果表明,用于个人记忆的基于注视的增强模型应该能够处理多样化的任务特定注视模式,从而利用不同层次的记忆。

在信息检索(IR)中使用注视数据:准确检索的关键是理解用户搜索时的意图/信息需求。注视被认为是一个非常有趣的信号,因为用户注视停留的内容似乎与用户当前的信息需求相匹配。这一假设已在多项研究中得到验证:Miller和Agne [25] 使用注视来识别读者特别感兴趣的文档部分,并研究使用从这些区域提取的关键词是否有助于检索更多相关的文档。Buscher等人 [5] 使用注视来识别结果文档中似乎特别有趣的段落,并使用查询扩展和/或重新排名技术将这些段落添加到用户查询中,展示了这种细粒度反馈在检索准确性方面的改进。同样,Eickhoff等人 [12] 提取了单词级别的注视点(结合鼠标光标轨迹),并使用这些注意力信息来建议查询扩展。其他IR工作探讨了用户在使用检索结果时的注视模式是否可以直接推断相关性,即注视是否可以提供隐性的相关性反馈。Buscher等人 [4] 证明阅读模式确实可以指示给定触发问题的相关性。Barz等人 [1] 使用机器学习对17个常见的注视特征进行预测段落相关性。该研究证实,眼球运动可以有效地模拟完全显示在一个屏幕上的短新闻文章的感知相关性,但也指出了局限性,因为所提出的建模方法对较长文档的泛化能力有限,并且难以区分在主题上匹配但无关的文档。同样,Xu等人 [35] 使用注视来构建用户模型,通过将用户的注意力时间从过去的项目转移到预测检索中的候选项目。眼动追踪还与显示时间进行了比较,作为相关性检测的易于访问的代理信号 [7],结果表明眼动追踪提供了更细粒度的反馈,但对于重新排名和查询扩展目的,显示时间几乎同样有效。最后,Gwizdka和Cole最近发布了g-Rel-READER [16],这是一个用于深入分析相关性判断过程的数据集。除了标记了相关性的文档外,该数据集还包括24名用户在判断文档与21个触发问题相关性时的注视和脑电图(EEG)记录。g-Rel-READER构成了我们研究的基础,因为我们将其扩展为一个用于基于注视的检索评估的数据集。

**使用注视数据检索个人记忆**:上述所有工作都关注在检索时使用注视数据,旨在分析用户在查看搜索结果时的阅读行为或直接在此之前的行为。它们的目的是检索出除被查看内容之外的其他相关段落。与此不同,我们的重点是利用对某段落的注视来后续检索该段落本身,即作为个人记忆的一部分。我们只知道少数几项具有这种特定焦点的工作:Filetti等人[14]引入了PeyeDF,这是一种自索引的PDF阅读器,它在阅读过程中记录注视数据,并将其存储到个人数据存储中以供后续使用。然而,他们的实验并不旨在检索已阅读的内容。相反,他们展示了强烈阅读的内容可以在一周后更好地被总结。其他工作通过自动基于注视的书签功能[17, 36]支持在重新访问文档或网站时更有效地消化内容,但没有解决搜索或排名问题。Buscher等人[6]提出了基于注视的注释,这些注释丰富了文档信息,表明了哪些部分被查看以及查看的时间长度。他们讨论了重新找到信息作为一个有趣的用例,但没有提出或评估具体的评分方法。

总体而言,我们发现检索过去阅读过的文档段落是一个很少被研究的问题。我们认为,缺乏用于设计适当的基于注视的排名/提升功能的公共数据集是这一研究的限制因素,并提出通过引入一个新的数据集(g-Rel-RANKER)并评估几种基于注视的评分方法来填补这一空白。

**图2.** 来自g-Rel-READER数据集[16]的一个示例文档。参与者在给定问题“UPS的CEO是谁?”的情况下阅读了该文档,产生了注视数据(红色)。该文档包含四个段落,其中第3段被标记为与回答问题相关(黄色)。

**数据集**
所展示的基准测试的基础是g-Rel-READER[16],这是一个用于分析基于文本的问题回答中相关性判断过程的最新数据集。该数据集包含了TREC-14 2005[34]中的202个问题。每位参与者都收到了所有问题。给定一个问题后,参与者阅读了几篇与该问题主题相关的简短新闻文档——同时记录了注视和EEG数据——然后被要求判断这些段落的相关性。数据集包括:(a)带有每个单词屏幕坐标的新闻文档,(b)注视数据,(c)将新闻文档分割成段落的系统,以及(d)段落级别的相关性评分。图2显示了针对问题“UPS的CEO是谁?”的一个示例文档,以及用户的注视情况。第3段被标记为相关。

我们将g-Rel-READER扩展为一个用于支持个人记忆中检索的基准测试,并将其命名为g-Rel-RANKER。为此,我们交换了数据集的阶段:在g-Rel-READER中,用户首先被给出触发问题,然后阅读文档;而在g-Rel-RANKER中,我们假设阅读发生在回答问题之前:
- 在第1阶段,我们假设文档已经被阅读,并为后续检索进行了索引。为此,我们重新使用了g-Rel-READER的文档和注视数据。
- 在第2阶段,我们假设有信息需求的用户(即提出问题的人)希望稍后检索相关段落。为此,他们搜索他们的个人记忆(即他们在第1阶段阅读的文档),以及可能包含答案的其他背景材料。

因此,我们的关键问题是研究如何在第1阶段记录的注视数据可以用于第2阶段更准确的检索。为了建立一个现实的检索基准测试,我们用包含相关性判断的背景文档集合来补充g-Rel-READER(其中包含的文档非常少)。由此产生的语料库包括:(a)个人记忆中的相关和非相关段落。这些段落主要来自g-Rel-READER语料库中的注视数据。该语料库还包含(b)没有注视数据的相关和非相关段落(来自背景文档),代表了用户过去从未遇到过的内容,以及用户过去在屏幕上看到但未主动查看的内容。数据集的统计概览见表1。

**表1.**
| 来源 | 段落数量 | 每个问题的相关段落数量 | 每个用户的带有注视的段落数量 |
| --- | --- | --- | --- |
| g-Rel-READER | 262 | 227 | 1.35 ± 0.79 |
| Wikipedia | 264 | 562 | 323 | 1.15 ± 1.49 |
| | 0.0 | 0.0 | |

**3.1 收集背景文档**
搜索的目标数据不仅包括已阅读的文档,还包括用户从未遇到或虽然可见但未主动感知的其他内容。为了模拟这种背景材料,我们添加了来自英文Wikipedia的2,645,623个段落,从中随机抽取了266,341个段落,以及248个手动选择的段落,以覆盖g-Rel-READER的20个问题。我们通过分行分割将文章分割成每段约58.7 ± 75.3个单词的段落。这些段落可能包含标题、章节或小节,但去除了表格和图片。此外,这些段落至少有80个字符长。这些背景段落没有注视信息。

**3.2 数据整理和相关性判断**
g-Rel-READER中的文档是英文的,每个文档被分割成平均42.2 ± 25.7个单词的4.23 ± 0.77个段落。我们发现某些问题的表述缺乏足够的上下文,不适合用于信息检索:例如,“谁是唯一获得该奖项的女性?”这个问题在没有特定新闻文档的上下文中是模糊的,因此被修改为“谁是唯一获得美国荣誉勋章的女性?”。我们以这种方式修改了20个问题中的15个,目的是增加上下文,同时不改变它们在g-Rel-READER中的原始含义。这些修改是在实验之前完成的,即在不了解任何检索结果的情况下进行的。

为了评估段落的相关性,我们结合了人类专家和基于大语言模型(LLM)的评判者:
- **g-Rel-READER段落的相关性判断**:g-Rel-READER已经包含了段落级别的相关性判断。我们通过两阶段过程审查了这些现有的真实标签:首先,我们构建了六个评判LLM,结合了三种不同的OpenAI模型(分别是gpt-4o、gpt-4o-mini和gpt-5-mini)和两种提示模板——一种宽松的模板和一种更严格的模板,后者明确要求答案必须包含在目标段落中(提示的详细信息可以在补充材料中找到)。如果任何评判LLM给出的结果与现有的真实标签不同,一个由三名人类专家组成的委员会会讨论相应的标签并进行多数投票。这个过程是在不知道任何检索结果的情况下进行的,结果修改了87个案例中的3个。
- **背景段落的相关性判断**
收集所有260万个背景段落的相关性标签被认为是不可行的。因此,遵循信息检索(IR)研究中的既定做法,采用了汇总方法[24]。检索使用了广泛采用的BM25关键词评分模型[31],并配置了基线设置(不整合注视数据;详见第5节)。对于每个问题,检索到的前100个段落被汇总,然后由LLM自动进行评分。未包含在这个汇总中的段落被视为不相关的。用于自动评分的LLM是gpt-4o-mini,它使用了宽松的提示,选择它是基于其与g-Rel-READER数据集中手动整理的真实标签的对齐程度,其准确率为96.55%。这个评判器被应用于汇总结果中的所有(段落,问题)对。

**4. 方法**
本工作的核心假设是,个人记忆系统中的有效段落检索应该由段落文本内容与用户问题的匹配程度以及用户之前与每个段落的注视互动程度共同决定。具体来说,假设用户之前阅读过的段落对未来的信息需求具有更高的相关性。因此,段落p的相关性应该由其文本内容(text(p))和注视数据(gaze(p))共同决定。为了计算这些注视数据,我们推导出段落在屏幕坐标中的边界框(area(p)),即覆盖段落所有单词的最小边界框。然后我们定义注视数据(gaze(p))为所有注视点的集合,这些注视点要么位于area(p)内,要么——为了考虑眼动追踪的不准确性——至少与area(p)的欧几里得距离≤dmax(dmax = 100像素)。给定一个问题q和段落p,我们计算得分(用于对搜索结果进行排名)如下:
**score(q,p) = score(q,text(p)) × boost(p)**,其中标准基于文本的检索得分与基于注视的增强值相乘。对于文本评分,我们使用了BM253,这可能是最广泛使用的基于关键词的评分函数。BM25通过结合词频、逆文档频率和文档长度标准化来平衡不同文档大小的信息量和公平性。

**4.1 注视增强**
我们的研究重点是研究基于注视的增强的不同选项。具体来说,我们调查了以下选项。所有这些选项都使用了注视数据和段落的单词及几何信息:
- **布尔过滤器**:这种方法作为对照实验,其中只检索过去查看过的内容。我们定义:
`boost(p) = {1 if area(p) 与至少一个注视点重叠; 0 otherwise}`。注意,使用这种增强方法,检索将只返回过去查看过的段落,这是一种硬过滤。然后根据它们的基于文本的检索得分对这些段落进行排名。
- **距离加权注视点计数(DGC)**:DGC的基本思想是根据用户查看段落所花费的时间来增强,这与注视点的数量成正比。为了考虑眼动追踪的不准确性,我们还添加了一个(折扣后的)注视点计数,这些注视点位于area(p)附近但不在其内部。具体来说,计算每个注视点wi的权重,基于该点与边界框area(p)中最接近点的欧几里得距离di:
`wi = {1 − 1/dmax^2 · di^2 if 0 ≤ d ≤ dmax; 0 otherwise}`。注意,对于位于边界框area(p)内的注视点,wi = 1。然后我们根据注视点权重的总和来定义注视增强:
`boost(p) = c + log(1 + ∑i wi)`。自由参数c平衡了注视相对于基于文本的检索得分的重要性。
- **阅读强度**:上述加权和没有进行归一化,因为长而大的段落可能包含许多注视点,但不一定意味着被强烈阅读。因此,我们建议使用另一种评分函数,称为阅读强度,我们通过段落的单词数量n来进行归一化,得到增强函数:
`boost(p) = c + log(1 + 1/n ∑i wi)`。同样,自由参数c平衡了注视和文本的重要性。
- **阅读速度**:最后的增强方法基于这样的假设:阅读与特定的速度有关。具体来说,对段落短暂的注视持续时间表明了浏览行为,而过长的注视可能表明用户分心或心不在焉。因此,通过将段落的单词数量除以记录的注视点总数来近似阅读速度:
`v(p) = n ∑i wi`。然后使用这个速度在增强函数中惩罚偏离预期速度μ的情况:
`boost(p) = {exp(−1/2σ^2 · (v(p) − μ)^2) if area(p) 与[−0.3em]至少有一个注视点重叠; otherwise}`。其中μ和方差σ2是通过在g-Rel-READER数据集上使用最大似然估计学到的,c模拟了未查看段落的可检索性。

**图3.**
左图:搜索界面允许配置不同的注视增强选项,并按得分降序显示结果。结果会显示段落文本和文档。右图:点击文档将打开一个突出显示相关段落的图像。

**4.2 原型**
这些增强方法实现在一个基于Web的原型中,允许用户(1)在阅读Wikipedia文档时收集注视数据,(2)将生成的段落和注视数据存储到Elasticsearch索引中,(3)允许用户从这个索引中搜索文档,从而使用第4.1节中介绍的注视增强选项。用户可以在收集阶段创建的不同索引中选择,并且还可以选择不同的提升方法来调整结果列表,如图3所示。搜索结果按照分数降序显示,每个结果都附有相应段落的预览和用户注视数据。点击文档会打开该文档并高亮显示相应的段落,包括注视数据。

5 实验
我们的实验试图回答以下问题:
(RQ1)上述基于注视的提升方法中,哪种方法最适合提高用户过去查看过的相关段落的检索效果?
(RQ2)基于注视的提升方法是否能够保持检索系统检索未见过的相关文档的能力?
(RQ3)我们在g-Rel-RANKER数据集上的发现是否可以推广到使用我们的原型记录的实际视觉记忆场景中?

为了回答这些问题,我们采用了定量实验设计。每种基于注视的提升功能都是通过执行来自g-Rel-RANKER数据集的问题/搜索事件或用户使用我们的搜索原型来评估的。对于每个事件,都会在一个包含段落的索引上进行搜索,其中一些段落附有注视数据,而其他的是来自维基百科的未查看的背景段落。

5.1 度量标准
检索的准确性使用以下众所周知的度量标准进行评估:平均倒数排名(MRR)、平均精确度(MAP)和 Hits@K。

平均倒数排名(MRR):单个问题qi的倒数排名定义为最佳排名相关文档的排名位置的倒数:RR(qi)=1/ranki,其中ranki表示排名列表中第一个相关结果的位置。如果结果列表的前100个段落中没有相关文档,则RR设置为0。MRR是所有查询和用户的这些倒数排名的平均值(宏观平均)。较高的MRR表明相关项目倾向于在排名中更早出现。

表2. 不同提升方法的MRR、MAP和Hits@K值

| 方法 | MRR (%) | MAP (%) | Hits@3 (%) | Hits@5 (%) | Hits@10 (%) |
|--------------|---------|---------|---------|---------|
| 无提升 | -32.72 (± 0.07) | 21.18 (± 0.03) | 35.00 (± 0.00) | 45.00 (± 0.00) |
| 布尔过滤器 | -68.67 (± 7.69) | 50.27 (± 4.63) | 66.04 (± 7.07) | 71.04 (± 8.72) |
| DGC | 0.06 | 6.89 (± 8.48) | 50.06 (± 5.76) | 66.46 (± 8.14) |
| Intensity | 67.44 (± 7.84) | 51.61 (± 5.23) | 66.67 (± 7.89) | 72.71 (± 10.53) |
| DGC(c=4.0) | 66.01 (± 5.47) | 54.37 (± 4.28) | 67.08 (± 5.50) | 88.54 (± 2.75) |
| DGC(c=1) | 66.87 (± 6.73) | 72.08 (± 8.96) | 86.67 (± 5.04) |
| Gaze Boost | 52.84 (± 4.50) | 66.25 (± 8.75) | 72.71 (± 10.53) | 86.46 (± 8.66) |
| Gaze Boost(c=4.0) | 1.06 | 7.76 (± 6.93) | 52.84 (± 4.50) | 66.87 (± 6.73) |
| Gaze Boost(c=1) | 67.44 (± 7.84) | 51.61 (± 5.23) | 66.67 (± 7.89) | 72.71 (± 10.53) |
| DGC(c=1) | 1.06 | 7.76 (± 6.93) | 52.84 (± 4.50) | 66.87 (± 6.73) |
| Gaze Boost(c=4.0) | 67.44 (± 7.84) | 51.61 (± 5.23) | 66.67 (± 7.89) | 72.71 (± 10.53) |
| Gaze Boost(c=1) | 1.06 | 7.76 (± 6.93) | 52.84 (± 4.50) | 66.87 (± 6.73) |
| DGC(c=1) | 67.44 (± 7.84) | 51.61 (± 5.23) | 66.67 (± 7.89) | 72.71 (± 10.53) |
| Intensity(c=1) | 64.14 (± 10.10) | 49.40 (± 7.07) | 65.00 (± 11.03) | 72.71 (± 10.11) |
| Intensity(c=1) | 53.32 (± 5.67) | 49.40 (± 7.07) | 65.00 (± 11.03) | 72.71 (± 10.11) |
| Intensity(c=1) | 40.66 (± 5.47) | 54.37 (± 4.28) | 67.08 (± 5.50) | 88.54 (± 2.75) |
| Intensity(c=1) | 40.66 (± 5.47) | 54.37 (± 4.28) | 67.08 (± 5.50) | 88.54 (± 2.75) |
| Intensity(c=1) | 32.04 (± 2.88) | 30.70 (± 1.92) | 46.04 (± 4.66) | 58.75 (± 3.69) |
| Intensity(c=1) | 25.67 (± 8.48) | 25.99 (± 15.91) | 71.57 (± 14.84) | 75.28 (± 17.40) |
| Intensity(c=1) | 25.99 (± 15.91) | 71.57 (± 14.84) | 75.28 (± 17.40) | 77.13 (± 17.26) |
| Intensity(c=1) | 1.06 | 56.53 (± 19.30) | 25.99 (± 15.91) | 71.57 (± 14.84) |
| Intensity(c=1) | 1.06 | 56.53 (± 19.30) | 25.99 (± 15.91) | 71.57 (± 14.84) |
| Intensity(c=1) | 1.06 | 56.53 (± 19.30) | 25.99 (± 15.91) | 71.57 (± 14.84) |
| Intensity(c=1) | 1.06 | 56.53 (± 19.30) | 25.99 (± 15.91) | 71.57 (± 14.84) |

5.2 实验1:g-Rel-RANKER数据集
为了回答研究问题1,我们测量了g-Rel-RANKER数据集中24名参与者在20个问题上的检索准确性(总共480个搜索事件)。所有提升方法以及没有提升的基线的全球检索指标可以在表2中找到。可以观察到,所有基于注视的提升方法都显著提高了准确性(与基线“无提升”相比):例如,MAP从基线的21.18%提高到了最佳模型DGC(c=4)的54.37%。因此,不同的检索指标对于不同的提升方法有不同的表现:MRR——仅奖励检索列表中的第一个相关项目——对于布尔过滤器来说表现最好,因为它只积极检索用户过去查看过的段落。由于这显著限制了段落的候选范围,这种方法最可靠地找到了一个带有注视的段落(因此其MRR很高)。然而,由于它完全无法从背景材料中找到相关文档,其MAP和Hits@K与其他提升方法相比较低。总体而言,DGC(c范围在1-4之间)和Intensity(c=1)似乎是不错的选择。DGC和Intensity似乎一致优于Reading Velocity。表2显示,用户之间的标准差始终较低(σ≤14.66%)。混合效应二项模型显示所有排名指标的用户间方差很小(Hits@3、Hits@5、Hits@10),类内相关系数(ICCs)在0.018到0.023之间,表明用户差异占排名性能总方差的不到2.4%。鉴于Shapiro-Wilk测试(p < 0.05)表明大多数指标偏离正态分布,我们采用了非参数统计分析。Wilcoxon符号秩检验表明所有提升方法在所有评估指标上显著优于基线(无提升)(pmax = 0.00003,Wmax = 5.0,对于提升方法“Reading Intensity”在Hits@10上)。每个指标的箱线图在补充材料中提供。总体而言,这些结果表明——关于RQ1——基于注视的提升可以显著提高过去查看内容的检索准确性。

表3. 不同提升方法的MRR、MAP和Hits@K值

| 方法 | MRR (%) | MAP (%) | Hits@3 (%) | Hits@5 (%) | Hits@10 (%) |
|--------------|---------|---------|---------|---------|
| 无提升 | -37.38 (± 20.50) | 18.50 (± 16.26) | 49.44 (± 27.31) | 55.00 (± 24.78) |
| 布尔过滤器 | -68.70 (± 14.30) | 22.59 (± 10.99) | 71.57 (± 14.84) | 75.28 (± 17.40) |
| DGC | 0.06 | 4.77 (± 19.10) | 21.76 (± 11.52) | 69.72 (± 14.22) |
| Gaze Boost | 25.51 (± 19.30) | 25.99 (± 15.91) | 71.57 (± 14.84) | 75.28 (± 17.40) |
| DGC(c=4.0) | 65.51 (± 19.30) | 27.30 (± 16.55) | 73.43 (± 15.19) | 77.13 (± 17.26) |
| Gaze Boost(c=1) | 67.40 (± 19.37) | 27.30 (± 16.55) | 73.43 (± 15.19) | 77.13 (± 17.26) |
| Gaze Boost(c=8.0) | 8.06 | 7.47 (± 18.92) | 27.13 (± 16.49) | 73.43 (± 15.19) |
| Gaze Boost(c=1) | 16.06 | 0.49 (± 18.49) | 25.15 (± 15.41) | 73.43 (± 17.32) |
| Gaze Boost(c=4.0) | 32.05 | 4.58 (± 15.83) | 22.74 (± 14.99) | 63.24 (± 22.24) |
| Gaze Boost(c=8.0) | 69.72 (± 21.90) | 0.05 | 2.04 (± 17.70) | 16.93 (± 8.40) |
| 布尔过滤器 | 56.85 (± 26.33) | 69.72 (± 16.48) | 75.28 (± 17.40) |
| Gaze Boost(c=1) | 54.42 (± 18.71) | 21.87 (± 12.93) | 58.70 (± 27.66) |
| Intensity | 58.70 (± 27.66) | 73.43 (± 15.19) | 77.13 (± 17.26) |
| Intensity(c=1) | 67.40 (± 19.37) | 27.30 (± 16.55) | 73.43 (± 15.19) | 77.13 (± 17.26) |
| Intensity(c=1) | 8.06 | 7.47 (± 18.92) | 27.13 (± 16.49) | 73.43 (± 15.19) |
| Intensity(c=1) | 16.06 | 0.49 (± 18.49) | 25.15 (± 15.41) | 73.43 (± 17.32) |
| Intensity(c=1) | 74.81 (± 19.01) | 76.67 (± 18.93) | 32.05 (± 15.83) |
| Intensity(c=1) | 25.15 | 73.43 (± 17.32) | 74.81 (± 19.01) | 76.67 (± 18.93) |

5.3 实验2:实际搜索场景的迁移
我们确定了两个潜在的将g-Rel-RANKER上的发现迁移到实际搜索场景的可行性问题:(1)实际环境中的眼动追踪质量可能较低;(2)我们改变了问题和阅读的顺序:在g-Rel-RANKER中,每个问题q都是在捕获阅读数据之前直接展示给参与者的,即阅读时考虑了信息需求q。相比之下,在视觉记忆场景中,用户阅读时的信息需求q′可能与进行搜索的问题q不同,这可能导致不同的阅读模式(见第2节),例如在g-Rel-RANKER中更倾向于略读。

为了回答研究问题2——即提升已查看内容与掩盖未查看内容之间的权衡——我们分别估计了已查看和未查看段落的检索准确性。图4绘制了Hits@K,并为每种提升方法展示了两个图表:左侧只考虑了g-Rel-READER中的段落(大部分被查看过),而右侧只考虑了背景材料中的段落(从未被查看过)。大多数图表显示了不同参数c值的曲线组合。此外,所有图表都显示了无注视基线的准确性(灰色虚线)作为参考结果。虽然这个基线的检索准确性大致相同( Hits@15约为50%),但所有基于注视的提升方法都提高了已查看段落的检索效果,同时降低了未查看段落的检索效果。这种效应在布尔过滤器上最为极端,它很好地检索了已查看的段落(Hits@15接近90%),而未检索到未查看的段落(Hits@15=0%)。对于其他方法,这种效应的程度通过相应的超参数c来控制。通过适当的c值,一些方法能够显著提高已注视文档的检索效果,同时保持未注视文档的类似性能,例如Intensity(c=4,红色)或DGC(c=8,紫色)。总体而言,可以得出结论,即使是简单的基于注视的提升方法也能整体提高检索准确性。

图4. 对于主要查看的内容(左侧图表)和未查看的内容(右侧图表),四种不同基于注视的提升方法的检索准确性。

5.3 实验2:实际搜索场景的迁移
我们确定了两个将g-Rel-RANKER上的发现迁移到实际搜索场景的潜在问题。(1)实际环境中的眼动追踪质量可能较低;(2)我们改变了问题和阅读的顺序:在g-Rel-RANKER中,每个问题q都是在捕获阅读数据之前直接展示给参与者的,即阅读时考虑了信息需求q。相比之下,在视觉记忆场景中,用户阅读时的信息需求q′可能与进行搜索的问题q不同,这可能导致不同的阅读模式(见第2节),例如在g-Rel-RANKER中更倾向于略读。

为了回答研究问题2——即提升已查看内容与掩盖未查看内容之间的权衡——我们使用我们的原型进行了一项小规模研究:九名用户(M=9,F=0,X―=30.2,σ = 7.4)被要求快速浏览一篇或两篇维基百科文章,自发选择段落,并阅读两分钟。阅读过程中记录了他们的注视(我们在实验前应用了Beam注视追踪器进行了简短校准)。阅读后,用户被要求进行搜索,包括(a)针对他们刚刚阅读的具体内容提出问题,以及(b)针对可能未阅读的内容提出预定义的问题。这总共产生了49个不同的问题(13个预定义的和36个用户定义的)。对于每个问题,用户被要求在检索到的段落中搜索答案并提供段落级别的相关性评分。我们使用与实验1相同的程序,用LLM生成的评估来补充这些用户评分。同样,就像在实验1中一样,14个不精确的问题(如“什么是缩写?”)在未经语义修改的情况下进行了修正。与g-Rel-RANKER一样,搜索索引中的段落还补充了随机的维基百科文章。由于所有实验参与者都是德语母语者,因此这个问题和段落都是德语的。我们将结果数据以及g-Rel-RANKER数据集公开提供。

实验的结果——如表3所示——广泛证实了g-Rel-RANKER上的发现。我们观察到类似的改进,例如MRR提高了多达31%(用户研究)至36%(g-Rel-RANKER),其中布尔过滤器和DGC的表现最好。此外,所有方法的最佳参数设置范围也有很强的重叠:对于DGC,范围是0.25 − 8(用户研究)对比0.25 − 8(g-Rel-RANKER);对于速度,范围是0 − 0.45对比0;对于强度,范围是0.25 − 4对比1 − 4。此外,大多数基于注视的提升指标都显著优于我们的基线(p < 0.05)。结果对于每个用户来说都是一致的,如低标准差所示。ICC范围从0.13到0.17。关于实验2的统计显著性以及箱线图的更多信息在补充材料中提供。尽管这远非对现实世界个人记忆场景中准确性的全面考察,但这表明了g-Rel-RANKER上的发现的有效性,至少在使用我们案例中的简单聚合注视统计数据的情况下是如此。

6 局限性和展望
提供的数据集g-Rel-RANKER是系统评估基于注视的文本检索方法在个人记忆中的首次尝试。我们已经通过用户研究解决了实际应用中的潜在威胁(见第5.3节)。由于这项研究的规模、范围和时间框架有限,用户意图的多样性及其导致的阅读模式等问题需要进一步研究。关于未来研究的其他方向,我们仅研究了一种已建立的检索方法(使用BM25)和简单的注视统计数据进行提升。然而,以g-Rel-RANKER为基础,现在可以研究更多的其他选项:应该将更现代的检索方法与注视行为结合起来,例如文本嵌入[26]——这些方法被认为对释义和语言变化具有鲁棒性——甚至可以是文档图像嵌入[22]。更重要的是,可以研究更复杂的基于注视行为的提升分数计算方法,从阅读特定的指标[18]到能够区分阅读和浏览的实际阅读分类器[3],再到更复杂的基于机器学习的相关性估计模型。尽管提出的g-Rel-RANKER数据集可能不足以支持这些复杂的机器学习方法,但我们希望我们的贡献能够促进这一有趣方向的进一步研究。

7. 伦理声明
虽然我们的方法为信息检索和可访问性研究提供了显著的好处,但使用人类行为数据本质上会引发隐私问题。注视模式、自定进度的阅读数据和自动截图过程可能会在用户不知情或未经同意的情况下无意中泄露敏感的个人信息或认知特征[19, 20, 23]。然而,实验1的结果完全基于公开可用的g-Rel-READER数据集[16],其中包含的是去除了个人身份信息的匿名眼动追踪数据。根据之前的实验,实验2中的用户研究风险被评估为最小。因此,根据该机构的法律框架,本研究没有邀请任何伦理审查委员会参与审查。参与是自愿的,数据已被匿名处理,并且参与者提供了书面同意。关于隐私问题,实施过程中需要特别注意。主要的隐私问题并不在于注视信号本身。已经发现,聚合的注视统计信息缺乏用于用户重新识别所需的时间和生物特征信息[19, 20]。更重要的是文档标题、地址和内容的存储问题。然而,这并不是基于注视的检索所独有的问题,而是所有个性化搜索和记忆系统的核心问题[28]。尽管如此,未来的工作应该解决隐私合规的应用问题,例如应用于段落内容的差分隐私机制,以及让用户可以选择是否参与注视追踪的控制措施。

8. 结论与未来工作
本研究引入了基于注视行为的提升方法,通过整合阅读过程中捕获的眼动追踪数据来增强个人记忆系统中的段落检索能力。使用新开发的g-Rel-RANKER数据集,系统评估显示,与仅使用文本的方法相比,检索精度有了显著提高。值得注意的是,使用基于距离加权的注视计数(DGC)和阅读强度的注视行为提升方法始终优于其他方法,平均精度(MAP)提高了33%以上。布尔过滤器方法获得了最高的互反排名,但代价是忽略了相关的未查看内容,这突显了在已查看段落上的精度与未查看文档上的召回率之间的权衡。进一步分析表明,虽然注视行为提升增强了已查看段落的检索效果,但可能会降低从未查看过段落的检索性能。然而,适当校准提升参数可以平衡检索质量,在已查看和未查看的内容上都保持竞争力强的精度。这表明注视行为作为一种隐式的、细粒度的相关性信号,能够补充传统的文本检索方法。未来的工作可以关注几个有前景的方向。将先进的基于嵌入的检索方法与关注注视行为的提升方法相结合,可以提高对释义和语义变化的鲁棒性。更复杂的注视建模,结合时间动态和多模态信号(如EEG),可能会产生更丰富的用户意图表示。扩大数据集以涵盖更多类型的文档、用户群体和现实世界任务,将促进泛化能力和实际应用性。此外,将这些方法扩展到增强现实和混合现实环境中,将解决沉浸式计算中出现的新的信息检索挑战。在这里,用户可以在户外行走时捕获文本,从而重新发现熟悉的地方。总体而言,这些发展旨在推进个性化、基于认知的检索系统,更好地支持人类的记忆和信息需求。

致谢
本研究得到了德国联邦研究、技术和空间部(BMFTR)HAW-For-schungsPraxis计划、SLIMDOC项目(FKZ: 13HAW15PX4)的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有