一窥专家用语：航空英语中的行为学证据

时间：2026年5月10日

来源：Acta Psychologica

编辑推荐：

希拉里·温恩汉利·埃默里英国牛津大学摘要使用专门的语言往往是某一领域（如医学、航空）专家的固有特征。我们采用了一种听觉句子处理任务，并结合即时回忆测试，来比较专家（拥有超过200小时培训经验的飞行员，n=42）与非专家（在该领域没有接受过任何培训的听众，n=54）

希拉里·温恩汉利·埃默里英国牛津大学
摘要
使用专门的语言往往是某一领域（如医学、航空）专家的固有特征。我们采用了一种听觉句子处理任务，并结合即时回忆测试，来比较专家（拥有超过200小时培训经验的飞行员，n=42）与非专家（在该领域没有接受过任何培训的听众，n=54）的行为反应（反应时间、准确性）。听觉刺激是专门设计的，旨在再现标准的航空操作环境：录音由航空专业人士制作，采用了真实的无线电通话节奏，并混合了模拟的调度塔背景噪音。

正如预期的那样，反应时间明显显示出专业技能的影响：专家在匹配条件的试验中的反应速度显著快于不匹配条件的试验，而非专家则没有显示出可靠的区别。更重要的是，准确性分析结果表明，专家对措辞非常敏感，在听到话语中的单个非标准词汇后，他们在回忆任务中的准确性显著降低。综合这些结果，我们可以认为航空无线电通话领域的专家主要对非标准的措辞非常敏感。这些发现不仅对专家词汇的组织方式有所启示，也对标准航空环境中使用正确措辞的重要性具有意义。

1. 引言
专家知识指的是个体在特定领域或学科中拥有的深入、专业的理解和能力。许多研究都探讨了专业技能对心理感知和处理能力的影响，包括计算机编程（Adelson, 1984; Kuo & Prat, 2024）、国际象棋（de Groot, 1965; Simon & Chase, 1973; Simon & Gilmartin, 1973; Gobet, 1998; Gobet & Simon, 1998）、物理学（Chi et al., 1981）、心算（Staszewski, 1990）、医学专业知识（Norman et al., 1989; Rikers et al., 2002; Schmidt & Boshuizen, 1993）、天文学（Bryce & Blown, 2012）以及音乐（Maturi & Sheridan, 2020）。研究发现，专家和非专家在知识组织上存在差异：这体现在特定领域知识的数量、知识结构以及使用这些知识时的策略和程序上（参见Kalverkämper, 1983, 1996）。例如在国际象棋中，这种知识表现为“存储在长期记忆中的复杂知识块……即模式的棋子集群”（Gobet & Simon, 1998）。尽管认知科学和心理学领域的越来越多的研究（参见Hoffman, 1998; Kozma, 2020; Murphy & Wright, 1984）关注专家与非专家之间的差异，但关于语言对专业技能贡献的研究相对较少。

除了程序和概念的专门知识外，Kalverkämper（1996）还将专业沟通（“Fachkommunikation”）和沟通习惯（“Kommunikationsgewohnheiten”）列为特定领域知识的重要组成部分。实际上，使用和理解专门语言往往是成为某一领域专家的必要条件（例如航空和海洋操作）。这种语言通常采用特定用途英语（ESP），其教学重点是根据特定领域或职业的学习者的具体需求，而非通用语言技能；这通常要求说话者激活、理解并使用特殊的语言特征，如有限的词汇、特定的词类、语法限制和固定表达方式（参见Gotti, 2008）。一个重要的问题是：这种专业技能在语言能力方面具体表现为什么？

大多数关于语言处理的研究都考察了说话者和听者对一般语言中结构偏离的反应（如语法错误、语义异常或语用违规）。这些研究表明，这些偏离会对行为反应产生影响，包括反应时间延长和准确性降低，表明认知负荷或处理难度增加。然而，关于特定领域语言中偏离的处理方式知之甚少。有限的研究表明，学习过专门语言的专家对这些语言结构中的异常更加敏感。例如，Kuo和Prat（2024）发现，编程人员对Python语言中的代码违规更为敏感；具体来说，Python代码片段中的语法违规会触发P600事件相关电位（ERP），即在刺激后500–800毫秒窗口内的正偏移，反映了语法预期的违反。这种效应在经验更丰富的Python程序员中更为明显，作者认为这是因为专家语言的语法规则随着经验的积累而变得更加内化。然而，仍需进一步研究的是特定类型的偏离对语言能力的具体影响——即那些在一般语言中可以接受但在特定领域中无效的偏离。

专门语言的一个最显著特征是单参照性：也就是说，虽然在常规话语中单词（和短语）可以有多种含义，但在专门语言中它们只能有一个参照对象（即一个含义）（Gotti, 2008）。例如，在标准海洋导航词汇中，“foul”一词只能指电缆、绳索缠绕在锚或螺旋桨上。在这种专门语言中，“foul”不能被同义词替代（如“tangled”）或通过意译替换（如“all wrapped up”）（参见Strevens & Johnson, 1983）。这提出了一个重要的但尚未被探索的问题：听者如何在认知上处理那些在日常语言中语法或语义上有效，但在专门语言的严格句法和语义结构中不存在的单词或短语？在专家领域中，偏离标准语言的情况很常见；毕竟，300–400个词汇的词汇量（如航空领域）只能涵盖有限的情况。通过研究偏离如何影响理解过程和任务表现，我们旨在能够区分特定领域预期和学习语言约束的作用。

在本研究中，我们采用了一种句子处理范式结合单词回忆的方法，来探讨航空英语这种专门语言中单参照性违规的影响。我们提出的问题是：（1）专家和非专家是否以不同的方式处理专门语言中的违规，这是否体现在我们的两种行为测量结果（反应时间和准确性）的显著差异上；如果确实如此，（2）单参照性违规对这些测量结果有何影响？研究仅在特定领域内异常或不一致的偏离的影响，可以揭示领域专业知识、语境规则和专门惯例如何塑造语言处理——这不仅对专业知识理论有影响，也对语言理解有影响。

2. 专家与非专家：实验证据
相关文献在不同领域分散，因此目前尚不存在关于专家语言能力结构的统一认识。最近的研究集中在专家的词汇广度、深度或通过设计来测量语义记忆和联想过程的范式来探讨专家的词汇获取（参见Ballot et al., 2024; Barbero & Amaro, 2024; Kim et al., 2011; Masrai et al., 2021; Vintar & Saksida, 2023）。例如，Kim等人（2011）发现，在涉及专家专业领域的事件书面评估中，专家倾向于使用更广泛的名词（包括普通名词、代词和人称代词），而新手则更多依赖于形容词和动词。此外，专家每句话产生的单词数量也显著更多。Vintar和Saksida（2023）对喀斯特学（研究喀斯特和洞穴景观）领域的专家和非专家进行了词汇关联任务，发现专家在其描述词上更加专业化（例如使用专门术语“karst”而不是更通用的“cave”），表明他们形成了高度紧凑的领域特定知识。

少数心理语言学研究直接比较了专家和非专家如何检索同一组单词。Wiedenbeck（1985）发现，Fortran编程专家在两个不同任务中的反应时间更快、准确性更高：1）需要检测语法错误的任务（例如*IF(X = Y) GO TO 1000 对比 IF (X .EQ. Y) GO TO 1000）；2）涉及描述性短语（例如赋值语句）的决策任务，接着是Fortran代码片段（例如F = F + TOT），参与者判断该短语是否正确描述了代码。Postal（2004）发现，熟练的足球运动员和教练在处理含有高程度语境信息的“结构化”句子（例如“对于这场比赛，教练选择了Julien负责防守”）时，阅读广度得分高于非专家（新手和支持者）。Toth等人（2019）测试了三组Counter-Strike玩家（低水平、中级和高级），并将他们与一组非玩家进行了Stroop任务比较。他们发现，高级玩家的响应更快、更准确，所有玩家组（无论等级）都快于非玩家。

还有越来越多的神经生理学证据表明，专家和非专家（或知识水平高者与低者）在处理特定领域语言方面存在差异。Bergum等人（2024）使用EEG（脑电图）结合眼动追踪技术，研究了具有不同自我报告经验的程序员的大脑活动。刺激材料包括Java源代码片段。眼动追踪结果显示，熟练的程序员对较少的代码元素停留时间更短，表明他们更高效地处理了源代码。时间频率分析的EEG数据显示，高效程序员的beta波功率较低，而alpha波和gamma波功率较高，研究者据此认为专家组的认知负荷低于经验较少的程序员。Troyer和Kutas（2020）研究了专家对“哈利·波特知识”（即哈利·波特小说中的叙事世界相关知识）违规的N400电位反应，发现违规程度与个体的领域特定知识水平有关。Kuo和Prat（2024）在他们的研究中还引发了语义上不可信的代码的N400电位反应，他们认为这表明程序员在视觉处理代码时依赖于语境合理性；这一点在所有经验水平的程序员中都存在。Walla等人（2024）发现法律专家和非专家在事件相关电位（ERPs）上存在差异；关键的是，这些差异与被视为标准刺激偏离的项目有关（即与法律相关 vs 与法律无关）。具体而言，他们在刺激后约450毫秒时，在顶叶和前中央区域（以左半球为主）发现了法律无关词汇的负电位增加。

因此，尽管相关证据有限，但心理语言学研究表明词汇表征存在层次性，这些层次性影响了领域特定词汇的访问效率及其与通用语言选项的竞争。现有的神经语言学研究还强调了专家和非专家之间的一些差异，特别是在专家知识（尤其是领域特定的参照对象和概念系统）方面，这些差异在ERP和时间频率分析中都有可测量的神经学痕迹。总体而言，研究结果表明，专业知识不仅涉及新术语的获取及其专门的语义网络构建，还涉及这些词汇在词汇表中并行、上下文敏感的表征路径的发展。然而，目前仍缺乏关于专家和非专家如何区分词汇表征与一般认知技能（注意力、工作记忆、预测处理）的实验证据。

本研究通过句子处理范式结合单词回忆，探讨了航空英语这种专门语言中单参照性违规的影响。我们提出的问题是：（1）专家和非专家是否以不同的方式处理专门语言中的违规，这是否体现在我们的两种行为测量结果（反应时间和准确性）的差异上；如果是这样，（2）单参照性违规对这些测量结果有何影响？研究仅在特定领域内异常或不一致的偏离的影响，可以揭示领域专业知识、语境规则和专门惯例如何塑造语言处理——这不仅对专业知识理论有影响，也对语言理解有影响。

3. 专家与非专家：实验证据
相关文献在不同领域分散，因此目前尚不存在关于专家语言能力结构的统一认识。最近的研究聚焦于专家的词汇广度、深度或通过测量语义记忆和联想过程的范式来探讨词汇的获取（参见Ballot et al., 2024; Barbero & Amaro, 2024; Kim et al., 2011; Masrai et al., 2021; Vintar & Saksida, 2023）。例如，Kim等人（2011）发现，在涉及专家专业领域的事件书面评估中，专家倾向于使用更广泛的名词（包括普通名词、代词和人称代词），而新手则更依赖形容词和动词。此外，专家每句话产生的单词数量也显著更多。Vintar和Saksida（2023）对喀斯特学领域的专家和非专家进行了词汇关联任务，发现专家在描述词上更加专业化（例如使用专门术语“karst”而不是更通用的“cave”），表明他们形成了高度紧凑的领域特定知识。

少数心理语言学研究直接比较了专家和非专家如何检索相同的单词集合。Wiedenbeck（1985）发现，Fortran编程专家在两个不同任务中的反应时间更快、准确性更高：1）需要检测语法错误的任务；2）涉及描述性短语的决策任务（例如赋值语句），随后是Fortran代码片段（例如F = F + TOT），参与者判断该短语是否正确描述了代码。Postal（2004）发现，熟练的足球运动员和教练在处理包含高程度语境信息的“结构化”句子（例如“对于这场比赛，教练选择了Julien负责防守”）时，阅读广度得分高于非专家（新手和支持者）。Toth等人（2019）测试了三组Counter-Strike玩家（低水平、中级和高级），并将他们与一组非玩家进行了Stroop任务比较。他们发现，高级玩家的响应更快、更准确，所有玩家组（无论等级）都快于非玩家。

还有越来越多的神经生理学证据表明，专家和非专家（或知识水平高者与低者）在处理特定领域语言方面存在差异。Bergum等人（2024）使用EEG结合眼动追踪技术，研究了具有不同自我报告经验的程序员的大脑活动。刺激材料包括Java源代码片段。眼动追踪结果显示，熟练的程序员对代码元素的注视时间更短，表明他们更高效地处理了源代码。时间频率分析的EEG数据表明，高效程序员的beta波功率较低，而alpha波和gamma波功率较高，研究者据此认为专家组的认知负荷低于经验较少的程序员。Troyer和Kutas（2020）研究了专家对“哈利·波特知识”违规的N400电位反应，发现违规程度与个体的领域特定知识水平有关。此外，Kuo和Prat（2024）在他们的研究中还引发了语义上不可信的代码的N400电位反应，他们认为程序员在视觉处理代码时通常依赖于语境合理性；这一点在所有经验水平的程序员中都存在。Walla等人（2024）发现法律专家和非专家在事件相关电位（ERPs）上存在差异；关键的是，这些差异与被视为标准刺激偏离的项目有关（即与法律相关 vs 与法律无关）。具体而言，他们在刺激后约450毫秒时，在顶叶和前中央区域（以左半球为主）发现了法律无关词汇的负电位增加。

因此，尽管相关证据有限，但心理语言学研究表明词汇表征存在层次性，这些层次性影响了领域特定词汇的访问效率及其与通用语言选项的竞争。现有的神经语言学研究还强调了专家和非专家在某些方面的差异，特别是在专家知识（尤其是领域特定的参照对象和概念系统）方面，这些差异在ERP和时间频率分析中都有可测量的神经学痕迹。总体而言，研究结果表明，专业知识不仅涉及新术语的获取及其专门的语义网络构建，还涉及这些词汇在词汇表中并行、上下文敏感的表征路径的发展。然而，目前仍缺乏关于专家和非专家如何在专业知识相关的行为差异中区分词汇表征与一般认知技能（注意力、工作记忆、预测处理）的实验证据。

本研究探讨了专家说话者和听者中专门语言系统与通用语言系统的交互，特别关注这些系统是如何实时访问和协调的。为了解决这一空白，本研究采用了一个专门设计的实验环境，以突出语言处理，并尽量减少概念问题解决、领域特定推理或身体熟练度等非语言因素的干扰。这种方法使得可以直接研究专家在处理指向相同参照对象但专业化程度不同的刺激时如何导航、激活和整合这两种语言系统。哈里斯（Harris，1982）将语言分为不同的类别，这些类别是根据使用这些语言的说话者/听者以及它们所展示的语言特征来划分的。这些语言有专门的使用者社区，他们共享专业知识，并且通常包含反映领域语义的独特词类、有限的词汇量、特殊词汇、独特的词汇类别、受限的句子语法、领域特定的词类、受限的文本语法，以及词出现的统计特征（Kittredge，1982）。航空领域对清晰度和安全性有严格要求，因此形成了专门的子语言——航空英语（Aviation English）。这是一种简化的、专门为航空通信设计的英语子集，旨在支持高效且无歧义的交流（参见ICAO Doc 9835）。航空英语常被称为“无线电通话语言”（Radiotelephony），属于“特定用途英语”（English for Specific Purposes, ESP）的范畴。它是一种高度专业化的语言，仅由受过训练的人员在专用无线电频率上使用。这些人员掌握了通过航空培训获得的专业知识，包括飞行动力学、导航、天气术语、机械系统、机场操作和其他程序技能。

由于航空英语大量依赖于某些元素的重复（如高度、航向、许可指令），因此无效信息的传递被降至最低。这种子语言有规定的数字和字母读出系统以及非常有限的词汇量（300-400个词）。航空英语还使用专门的词汇（如Roger、Charlie）、缩写（ILS、VFR）和专业术语（如squawk、swing），以及长短语的省略形式（例如‘Wilco’代表“will comply”，‘Ident’代表“identify”）。航空英语的句子结构非常严格，以至于在自然语言中这些表达可能被认为是不合语法的或偏离常规的。请参见下面的例子1，其中一位控制员指示飞机进入跑道并保持当前位置。

例子1：
Shuttle Two Lima，Heathrow Tower，跑道一五右，保持当前位置。

航空英语中的表达不仅存在随意的词序，而且这种词序的变化不会改变表达本身的意义：

例子2：
[获准降落] [跑道一九右]
[跑道一九右] [获准降落]

这是因为每个组成部分（例如[获准降落]）都有特定的语义意义，可以独立使用。在上面的例子1中，控制员的指令[保持当前位置]只能与特定的命令相关联：起飞的飞行员明确知道他们只是被指示进入跑道，而不是开始起飞。

航空英语中单指性（Monoreferentiality）至关重要。下面的例子3a是一条标准的航空英语指令，控制员要求飞行员爬升到特定高度并保持在那里。这也意味着飞行员不得离开该高度。尽管短语“保持在该高度”（Example 3b）在日常英语中与“维持”的意思相同，但在航空英语中永远不能替换。

例子3a：
爬升并*保持*四千米高度。
b：
爬升并*保持*在四千米高度。

因此，标准航空英语中的词汇可预测性是完全预先确定的。“维持”不能被同义词或释义替代（如下面的例子4）：

例子4：
爬升并*保持*在/ *前往/ *停留在*四千米高度。

尽管这种严格要求看起来可能过于严格，但这样的错误可能导致信息传递失败或更严重的后果。2012年12月16日，一名飞行员在美国南卡罗来纳州的一个机场进行仪表进近时遇到了方向指示器故障。他告知控制员他没有陀螺仪（即没有使用罗盘等陀螺仪飞行仪器），并请求更换一个能提供更好能见度的备用机场，这样进近会更安全。然而，控制员对“没有陀螺仪”的含义不清楚，仍然指示飞行员进行另一次仪表进近——结果飞行员在进近过程中失去了对飞机的控制（NTSB ERA13FA088）。

专家语言的结构（层次结构、类别、缩写）反映了知识在认知上的组织方式。在航空领域，专家的词汇形成了与飞机系统、操作程序和决策环境紧密相关的术语网络。这个系统使飞行员能够将口头指令转化为精确的、通常是自动化的行动，体现了深厚的领域知识和任务熟练度。发展专长需要学习跨多个语言层面的专业语言和文本结构，这些包括（但不限于）特定声音、词汇、固定短语和句法模式。同时，通过日常使用获得的一般语言知识仍然活跃，并且可能会产生干扰，特别是在领域特定形式与更自然或熟悉的结构发生冲突时。这种现象在无线电通话中随处可见：缩略语、理由陈述、复杂的句法、间接言语行为、词汇替换、行话、失误、预期错误和移位错误都是日常航空交流中的常见现象（参见Wynne，2025关于航空领域非标准语言的例子）。

在处理听觉语言时，我们会访问记忆中的词汇并将其含义映射到传入的语音信号上（Schiller，2021）。记忆中的词汇（参见Aitchison，2012）是每个人一生中学习到的词汇及其含义的存储库：它包含了关于词汇的音系学、意义、拼写、形态学、语法属性以及它与其他词汇的关系等信息。当大脑接收到音素信息时，它开始在记忆中的词汇中搜索可能的匹配项。这一过程是渐进和预测性的：一旦在记忆中的词汇中找到匹配项，大脑就会访问与该词相关的所有信息，并将其含义整合到语句的上下文中。

证据表明，当信号中包含多义词（即具有多个含义的词，例如“bank”）时，大脑经常会同时或快速连续地激活所有已知的含义（Bilenko等人，2008；Onifer & Swinney，1981；Swinney，1979；Thompson-Schill等人，1997）。在选择正确的解释时，语句的上下文（即词汇、句子结构、主题、语气等）在确定哪个含义最相关方面起着关键作用。一旦选择了正确的含义，大脑会主动抑制无关的含义以避免混淆并保持流畅的理解；如果上下文薄弱或延迟，大脑可能会倾向于更常见或主导的含义（例如，将“bank”理解为银行而不是河流的岸边）。

为了研究领域特定语言中的这种情况，我们使用了一种句子处理范式，并结合了即时词汇回忆任务，来探究专业语言中的违规如何影响专家，以及他们的反应与非专家有何不同。具体来说，我们的目标是考察专家（飞行时间超过200小时的飞行员）和非专家（不具备航空知识的母语者）在面对标准和非标准专业语言（本例中为航空英语）时的行为反应差异（反应时间和准确性）。因此，我们的第一组预测集中在专家和非专家之间的预期差异上。我们预测由于航空英语对非专家来说显然是陌生的（甚至可能是无法理解的），这无疑会影响参与者的反应速度和准确性。第二组预测仅针对专家群体：在这些说话者中，我们预测标准航空英语短语的违规会使词汇回忆任务变得更加困难，从而导致不对称的反应时间和准确性。本研究的结构如下：首先介绍我们的实验设计和刺激材料，然后在第5部分展示专家的结果，在第6部分展示非专家群体的结果。我们在第7部分进行组别层面的比较，并在第8部分讨论我们的发现。

4.1. 设计
实验刺激包括80对关键句子：40条标准航空英语语句（例如“保持这个频率”）和40条包含非标准短语的语句（例如“保持在这个频率上”），这些语句在语义上与期望的范例相关。即时词汇回忆任务包含目标词汇，这些词汇要么与语句中的违规部分匹配，要么不匹配。还有80个填充语句（例如“下降并维持3000米高度”），其中40个包含不相关的语义违规（例如“routine”）。这导致总共有160次试验，分布在两个列表中。我们的关键比较是语句类型（合法的，即航空英语；非法的，即非标准短语）和回忆条件（匹配/不匹配；详见表1）。

表1. 示例刺激和条件。
刺激语句类型回忆词汇回忆条件
保持这个频率合法 REMAIN MATCH STAY MATCH
保持在这个频率非法 STAY MATCH REMAIN Mismatch

由于标准短语的性质，航空英语中的词汇（如“remain”）的出现频率远低于违规词汇（如“stay”）；它们在拼写长度（视觉刺激中的字母数量）上也不同（见表2）。条件在各个会话中进行了平衡，以便参与者在每个会话中看到相同数量的项。试验是伪随机的，以防止相似的语句相互相邻，并避免在同一会话中重复相同类型的语句。

表2. 回忆词汇测量。
语句类型回忆条件出现频率（ppm）音素长度拼写长度余弦相似度
合法 MATCH 238 16.5 8.1
不匹配 198 1.4 6.5 15.0
非法 MATCH 198 1.4 6.5 15.0
不匹配 238 16.5 8.1 10.2

4.2. 材料
所有听觉刺激材料均由一位只说英语的航空英语测试设计者以典型的空中交通管制（ATC）传输的节奏和结构录制，并添加了计算机生成的背景噪音，以模拟标准操作环境。所有刺激的强度也调校为75分贝，平均信噪比为22.2分贝。所有试验都遵循相同的设计，每个刺激都以相同的飞机识别符“Latitude 721”开始，以模拟对操作中的飞行员的传输。

4.3. 程序
实验通过Pavlovia在参与者的计算机上实施，并使用PsychoPy进行编码。由于试验数量庞大，实验分为两个大约各20分钟的部分。每个部分包含四个20次试验的区块。每个区块之间，参与者可以短暂休息。参与者首先参加了一个包含10个练习项的练习会话，其中提供了正确回答的反馈（“正确/错误”）。对于实验试验，不提供任何反馈。
每个试验（见图1）以150毫秒的注视期开始，随后是听觉刺激，然后出现视觉回忆提示，直到按键。每个视觉刺激以Courier字体、50号字号、白色背景呈现。参与者被要求尽可能快速准确地回答屏幕上的每个词，通过键盘上的“y”和“n”键来决定是否听到了该词。参与者有最多3000毫秒的时间作出决定。反应时间是从视觉回忆提示开始到按键的这段时间。

4.4. 数据分析
数据和分析代码以及用于复制分析和图表的资料可在OSF上获取：https://osf.io/uv4ef/overview?view_only=1a410d6328c040a29186a3db01286f99。
所有分析都使用了R统计软件（R Core Team，2015）、‘lme4’包（Bates等人，2015）和‘DHARMa’包（Hartig，2024）进行。所有文件都使用相同的程序进行了清洗：任何超出参与者平均值两个标准差的数据点都被视为异常值并移除；准确性低于70%的参与者也被移除。

准确性和反应时间（RTs）分别进行了分析。准确性是一个分类结果，使用逻辑混合效应模型进行建模，而RTs是连续的，使用线性混合效应模型进行分析。在RT分析中包括错误试验是不合适的，因为错误回答通常反映了不同的处理状态，并表现出不同的RT分布，可能会扭曲模型估计。因此，分别分析这两个指标可以确保模型的假设适当且解释更清晰。对于反应时间，统计分析是使用限制性最大似然（REML）拟合线性混合效应模型来进行的。参与者被视为随机因素。为了检查模型对数据的拟合优度，进行了多项诊断测试：这些测试包括残差的正态性、无共线性以及独立性。对于残差的正态性，通过散点图、直方图和分位数-分位数（QQ）图来可视检查是否存在异方差性模式。当固定效应或其与其它变量的交互作用具有显著性时，会进一步使用Tukey HSD进行配对比较测试，以确保所有比较的显著性水平得到统一应用。对于误差分析，采用了二项广义线性模型。

**实验1：专家处理**

5.1. 参与者
通过社交媒体平台和口口相传的方式招募了55名以英语为母语的参与者（平均年龄=37.4岁）。所有参与者都报告说英语是他们的母语。75%的参与者表示飞行时间超过500小时，另有9%的参与者飞行时间超过2000小时。85%的参与者目前从事航空乘务工作（11%在其他航空相关领域工作），89%的参与者来自英国和/或欧洲。参与者的性别分布为75.4%男性和24.6%女性。所有参与者都进行了知情同意，并且每完成20分钟的实验会获得相应的报酬。该实验由第一作者所在大学的伦理审查委员会监督。

5.2. 结果
由于响应时间过长或技术错误，有13名参与者被排除在外（剩余N=42）。数据清洗过程后又排除了14.5%的数据。反应时间（以毫秒为单位，见表3）被作为匹配程度（匹配 vs. 不匹配）和合法性（合法 vs. 非法）的函数进行了分析。初步的反应时间模型显示匹配程度有显著的主效应，但匹配程度与合法性的交互作用不显著。由于交互作用不显著，因此重建了一个不包括该交互作用的简化模型。在简化模型中，匹配程度仍然是一个显著预测因素，β=87.25，SE=26.51，t=3.29，不匹配的尝试产生的反应时间更长（见表4）。合法性对反应时间没有显著影响，β=-3.66，SE=24.68，t=-0.148。因此，反应时间主要受匹配任务中是否包含与话语相匹配的词汇的影响，而非话语是否为标准或非标准格式。

**表3. 专家的反应时间（毫秒）、标准差和95%置信区间（按匹配程度×合法性分类）**

| 听觉条件 | 例句 | 回忆条件 | 回忆词汇 | 平均RT（毫秒） | SD RT（毫秒） | 95% CI |
|--------|--------------|---------|---------|-----------|---------|
| Legal | Remain this frequency | REMAIN | 1700 | [1700 ± 51] | [1700 ± 51] |
| Legal | Remain this frequency | STAY | 1763 | 985 | [1763 ± 48] |
| Illegal | Stay on this frequency | REMAIN | 1688 | 916 | [1688 ± 44] |
| Illegal | Stay on this frequency | REMAIN | 1744 | 954 | [1744 ± 46] |

**表4. 专家反应时间的固定效应**

| 固定效应 | | | | | |
| Interception | 1717.04 | 7.46 | 29.87 | |
| Match | 87.25 | 26.51 | 3.29 | |
| Legality | -3.65 | 82.46 | -0.148 | |

**准确性（通过错误率衡量，见表5）**使用带有随机截距的逻辑混合效应模型3进行分析。匹配程度（χ2(1) = 41.83, p < .001*）和合法性（χ2(1) = 65.83, p < .001*）有显著的主效应，匹配程度与合法性的交互作用（χ2(1) = 20.33, p < .001*）也有显著效应（见表6、表7）。模型预测结果显示，当听觉条件为标准航空英语且回忆词汇匹配时（例如“Remain this frequency”），准确性最高；当话语非标准且回忆词汇匹配时（例如“Stay on this frequency”），准确性最低。模型诊断显示没有违反一致性、分散性或零膨胀的规则。

**表5. 专家的错误率**

| 听觉条件 | 例句 | 回忆条件 | 错误率 |
|--------|--------------|---------|-----------|
| Legal | Remain this frequency | REMAIN | 6.13 |
| Legal | Stay on this frequency | STAY | 9.1 |
| Illegal | Stay on this frequency | REMAIN | 15.7 |

**表6. 专家错误率的偏差分析（III型Wald卡方检验）**

| 对比 | 估计值 | SE | z |
|--------|---------------|---------|-----------|
| Match illegal - mismatch illegal | 0.73 | 0.11 | 6.46 |
| Match illegal - match legal | 1.08 | 0.13 | 8.11 |
| Match illegal - mismatch legal | 0.96 | 0.12 | 7.95 |
| Mismatch illegal - match legal | 0.35 | 0.15 | 0.07 |
| Mismatch illegal - mismatch legal | 0.23 | 0.13 | 1.72 |

**实验2：非专家处理**

6.1. 参与者
通过招聘平台Prolific招募了55名以英语为母语的参与者（平均年龄=32.4岁）。所有参与者都报告说英语是他们的母语；其中3名参与者还报告会说第二语言。没有参与者表示熟悉航空英语。所有参与者都进行了知情同意，并且每完成20分钟的实验会获得10英镑的报酬。该实验由第一作者所在大学的伦理审查委员会监督。

6.2. 结果
由于反应时间过长，有1名参与者被排除在外（剩余N=54）。数据清洗过程又排除了11.1%的数据。对对数转换后的反应时间使用线性混合效应模型4进行分析，其中匹配程度、合法性及其交互作用作为固定效应。由于残差分布的偏斜，反应时间的值经过了对数转换（λ = -0.58）。分析显示匹配程度没有显著的主效应（β=0.0004，SE=0.021，t=0.02），表明匹配和不匹配的尝试在整体反应速度上没有差异（见表9）。相比之下，合法性有显著的主效应（β=0.0447，SE=0.0116，t=3.87），说明合法项引起的反应更慢。重要的是，这种效应受到匹配程度与合法性交互作用的修饰（β=-0.0622，SE=0.0269，t=-2.31）。

**表8. 非专家的反应时间（毫秒）、标准差和95%置信区间（按匹配程度×合法性分类）**

| 听觉条件 | 例句 | 回忆条件 | 平均RT（毫秒） | SD RT（毫秒） | 95% CI |
|--------|--------------|---------|---------|-----------|
| Legal | Remain this frequency | REMAIN | 1022 | [1022 ± 22.5] |
| Legal | Stay on this frequency | STAY | 1000 | [1000 ± 24.0] |
| Illegal | Stay on this frequency | REMAIN | 1075 | [1075 ± 24.5] |

**表9. 非专家反应时间的固定效应**

| 对比 | 估计值 | SE | z |
|--------|---------------|---------|-----------|
| Match | 0.0004 | 0.021 | 3.50 |
| Legality | -0.0447 | 0.0115 | 6.38 |
| Match*legality | -0.0622 | 0.0268 | -2.31 |

**表10. 配对比较（用于澄清对数转换后反应时间模型中匹配程度与合法性的交互作用）**

| 对比 | 估计值 | SE | z |
|--------|---------------|---------|-----------|
| Match illegal - mismatch illegal | -0.0003 | 0.021 | 3.74 |
| Match illegal - match legal | -0.0446 | 0.138 | 9.50 |
| Match illegal - mismatch legal | 0.0171 | 0.127 | 8.11 |
| Mismatch illegal - match legal | 0.0443 | 0.150 | 0.07 |
| Mismatch illegal - mismatch legal | 0.23 | 0.131 | 1.72 |

**表11. 错误率（按匹配程度和合法性分类）**

**表12. 固定效应：非专家的错误率**

**表13. 组别分析**

我们对反应时间进行了组别分析，将组别、匹配程度和合法性作为变量。为反应时间拟合了一个线性混合效应模型6，参与者作为随机效应包括在内（见表13）。组别对匹配程度与不匹配程度的对比有显著效应（β=-22.5，SE=6.8，z=-3.3）。专家在匹配尝试上的反应明显更快（β=-76.62，SE=17.3，z=-4.41），而非专家组则没有明显的匹配效应（β=13.53，SE=21.3，z=0.64）。这表明专家在任务相关反应时间上的差异主要存在于专家组。

**表14. 组别比较的固定效应**

**表15. 准确性的二项广义线性混合效应模型**

该模型使用了group、match和legality作为固定效应，并为参与者设置了随机截距。模型通过glmer软件和bobyqa优化器进行拟合，最大评估次数为2×10^5次。组别、匹配程度和合法性之间存在三-way交互作用（F(1, 10339) = 7.78，p=.005）：总体而言，专家在准确率上显示出比非专家更强且更一致的效果（见表15）。对于专家来说，包含标准航空术语的尝试（例如“Stay on this frequency”）的正确响应概率更低。而非专家在法律和非法项目之间的差异较小，匹配效应也相对较弱。

**图2. 专家与非专家的比较**

**8. 总结**
专家的词汇是一个高度互联的、层次分明且概念化的术语网络，支持快速的检索、问题解决和灵活使用，反映了陈述性知识和程序性专长。专家语言的结构（层次结构、类别、缩写）反映了知识的认知组织方式。专家知识和语言紧密相连：专家语言编码、构建并激活深刻的概念理解，同时实现快速、精确的沟通和推理。虽然现有研究表明专家对领域特定术语和通用术语保持不同但重叠的词汇和概念表示，但大部分实证证据来自涉及复杂推理、领域问题解决或多模态处理的任务。

为了探究专家心中领域特定语言的组织方式，我们使用了一种句子处理任务结合词汇回忆的方法，向专家（飞行员）和非专家（没有航空无线电通信知识的人）呈现包含标准航空术语或非标准表达的听觉刺激。

我们的研究结果如下：
1. 专家与非专家的准确性模式存在显著差异。专家对合法性和词汇匹配度都非常敏感，在不同条件下表现出较大的准确性差异。对于专家来说，标准航空术语提高了表现：两种类型的回忆项目在标准术语条件下的准确率都很高。相反，当专家听到非标准术语时，错误率增加，尤其是在他们听到并看到非标准术语的情况下（例如“Stay on this frequency”）。
2. 在组内分析中，非专家在匹配尝试中的错误率高于不匹配尝试，表明他们在准确识别听觉输入方面有困难。虽然专家对航空术语有较高的期望，但非专家没有这种预期：“Remain this frequency”对这些听者来说没有特殊含义。尽管“Stay on this frequency”不违反非专家心理词典中的特定条目，但由于专家语言的独特性，合法和非法项目对他们来说都同样陌生。这表明，没有航空特定框架，非专家形成的信息表示不够准确，使得基于匹配的决策比简单的排斥决策更困难。
3. 专长带来了显著的性能优势，尤其是在处理非法（非标准）项目时。专家在涉及标准术语的对比中始终表现出色，正确响应的概率是其他条件的2到3倍。这些效应在专家中普遍且显著，而非专家中则不明显。
4. 专家在反应时间上表现出强烈的匹配效应；非专家则没有。专家在匹配尝试中的反应速度明显快于不匹配尝试，表明他们有效地利用了线索与响应之间的对应关系。非专家没有显示出可靠的RT差异，表明他们没有从匹配关系中受益。

综上所述，我们的研究结果表明，航空语言专长具有高度的领域特异性，是通过大量练习、高质量的反馈和长时间沉浸在无线电通信惯例中培养出来的。专家不仅仅拥有更多的知识；他们拥有更加结构化、更加程序化的知识，这使得他们能够更有效地整合语言线索与操作预期，从而更迅速、更准确地检测非法或不寻常的术语表达。相比之下，非专家（他们缺乏这种专门的表征结构）对错误/非标准的表达方式敏感度较低，且在使用匹配线索方面也不那么可靠。在航空领域，专家们建立起了一套与他们使用的系统、遵循的程序以及必须做出的决策紧密相关的心理词汇。因此，他们遇到的短语不仅作为语言输入，还作为映射到熟练动作的线索，从而实现快速高效的处理。达到这种专业水平需要掌握跨多个语言层次的专门语言模式，从音系学到短语结构。然而，个人的一般语言系统仍然保持活跃状态。这种通过终身使用建立起来的更广泛的语言知识，在日常表达与航空通信中所需的严格标准化形式发生竞争时可能会引发干扰。越来越多的研究表明，专家和非专家通常会对同一指称对象保持平行的词汇表征，专门的词汇节点和常见的词汇节点共存（而不是互相替代）。这通常被描述为一般词汇和专门词汇之间的区别，每种词汇编码不同层次的概念粒度，并参与不同结构的语义网络（Cabré, 2010; Meyer & Mackintosh, 2000）。专门的词汇单元往往嵌入在密集的、特定领域相关的关系结构中，支持精确的推理，而通用语言中的对应词汇则反映了同样的现实，但有时较为朴素。最近的建模研究表明，这两种词汇只有部分重叠：专家发展出含义更窄且关联性更强的专门节点，同时仍能够访问与普通说话者共享的更通用节点（参见Barbero & Amaro, 2024）。我们的结果支持这种双节点理论，表明词汇表征的深度影响着特定领域词汇的访问效率以及它们与通用语言替代词之间的竞争。这两种系统（专门系统和通用系统）之间的相互作用可能解释了专家和非专家之间表现上的差异，尤其是在沟通偏离规定标准时。我们的结果共同表明，航空通信中的专业知识不仅体现在对表达方式的熟悉程度上，还体现在随着时间压力发展出的一个有组织的认知系统中，该系统能够解释、预测和回应特定领域的语言。

心理语言学和神经语言学方法论的技术进步（例如在线行为实验、眼动追踪和脑成像）正变得越来越容易获得，为更有效的研究合作铺平了道路。我们的发现提供了重要的心理语言学证据，证明专门的语言系统在心理上是以结构化的方式被表征的：简而言之，专业知识从根本上重塑了语言处理方式。这些发现还提供了关于特定领域约束认知作用的新证据，表明专业知识导致了对允许形式的强烈预测性期望。最后，这些发现对航空通信领域也有实际意义。它们表明，标准表达方式不仅仅是程序性的，而且在认知上也是有益的。即使对于受过培训的专业人士，偏离标准表达方式也可能增加误解的风险。

9. 研究的局限性和未来方向
本研究的一个关键局限性在于数据收集的在线模式。尽管在线实验在某些情况下可以覆盖更广泛的参与者样本，但在不受控制的环境中收集的测量结果可能不如实验室环境中获得的测量结果精确。参与者所处的硬件、软件、互联网延迟和输入设备等方面的差异可能会在反应时间测量等数据中引入额外的噪声，从而降低数据的可靠性。
第二个局限性在于该研究仅依赖于行为测量。虽然这些测量可以为处理效率和决策过程提供宝贵的见解，但它们并不能直接揭示特定领域表达方式处理过程中涉及的神经机制（特别是对这些表达方式的偏离）。行为结果代表了多个认知过程的最终产物，这使得很难确定偏离何时开始影响理解。因此，未来的研究可以扩展使用神经生理学方法（如脑电图EEG），以揭示与语言预测（N400）或增加的整合努力（P600）相关的神经信号，从而更详细地描述专业知识如何塑造专家领域的语言处理。

**CRediT作者贡献声明**
Hilary Wynne：撰写 – 审阅与编辑、撰写 – 原稿、可视化、资源管理、方法论设计、研究实施、资金获取、正式分析、数据管理、概念化。
Henry Emery：资源管理、方法论设计、数据管理、概念化。

**关于写作过程中生成式AI和AI辅助技术的声明**
在准备这项工作期间，我们使用了ChatGPT 5.0来协助编辑第一作者编写和准备的R脚本。使用该工具/服务后，作者们对内容进行了必要的审查和编辑，并对发表文章的内容负全责。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部