解开基于大语言模型的自动作文评分“黑箱”:特征权重模式与评分效度新解

时间:2026年3月21日
来源:Computers and Education: Artificial Intelligence

编辑推荐:

本研究旨在揭示基于大型语言模型(LLM)的自动作文评分(AES)的底层机制。研究人员通过比较三种主流LLM与人类评分员在非母语学习者英语作文上的评分行为,并深入分析十六个文本特征的权重差异,发现LLM评分在整体分数上与人类高度一致,但在特征权重、跨水平组一致性和特征交互方面存在显著偏好,更强调形式精度与语言复杂性,而人类评分员更关注内容完整性。这为理解LLM评分的透明性、效度及其在教育中的公平应用提供了重要实证依据,并提出了实用的模型优化与校准建议。

广告
   X   

在人工智能席卷各行各业的今天,教育评估领域也迎来了新的“考生”——大型语言模型。这些模型,比如我们熟悉的ChatGPT、Gemini,凭借其强大的文本理解和生成能力,开始被尝试用于自动化地评估学生的作文。想象一下,一位老师可以瞬间获得数百份作文的评分和初步反馈,这听起来像是教学效率的革命。然而,在这份“高效”的背后,却隐藏着一个巨大的“黑箱”:我们并不清楚这些模型打分的内在逻辑。它们和人类老师的评判标准真的相同吗?它们是否会更偏爱某些华丽的辞藻或复杂的句式,而忽略了文章思想的深度和内容的完整性?这种不透明性,不仅让教育者心存疑虑,更可能对来自不同语言背景、不同写作水平的学生产生潜在的评分不公。为了揭开这个“黑箱”,一队来自北京大学的研究人员,对三种主流大语言模型(Qwen、GPT-4o、Gemini-2.5-Pro)的“判卷”行为进行了一次系统性的“体检”。
这项研究聚焦于一个非常具体且普遍的场景:中国高中生的英语作文。研究人员收集了505份由高三学生手写的英语通知作文,并邀请了20位经验丰富的高中英语教师进行评分。同时,他们让三个大语言模型“扮演”评分员,在相同的提示词(包括写作任务、评分量表和范文示例)下,对同样的作文进行独立评分。这就像安排了一场“人机评分大赛”。但研究的精髓远不止于比较总分高低,而在于深入剖析评分背后的“思维过程”。研究人员从作文中提取了跨越语法、用法、结构、风格和组织五个维度的十六个具体文本特征,例如语法错误数、句子复杂度、词汇多样性、内容点覆盖率、书写工整度等。通过建立统计模型,他们精确地量化了每一个特征对最终分数的影响力(即“特征权重”),从而清晰地描绘出人类评分员和AI评分员各自心中的“评分地图”。
研究的主要技术方法包括:1) 使用光学字符识别(OCR)技术将手写作文转换为机器可读文本,并从中提取预定义的十六个文本特征;2) 采用精心设计的提示工程(Prompt Engineering)流程,通过逐步增加范例和专家评分理由,校准三种大语言模型(Qwen-VL-Max, GPT-4o, Gemini-2.5-Pro)的评分行为,使其尽可能模拟人类评分流程;3) 运用多元线性回归模型,量化分析人类与AI评分员在各项文本特征上的权重差异,并进行跨作文水平(高分组与低分组)的子群分析;4) 引入交互项回归模型,探究不同文本特征(如内容覆盖与语言错误)在评分过程中的相互影响模式。
4.1. 整体分数比较
从总分上看,AI和人类展现了惊人的“默契”。三种大语言模型给出的分数与人类评分员分数的相关系数高达0.797至0.823,而模型之间的相关性更是超过了0.92,说明AI们“英雄所见略同”。分数分布图也显示,AI的评分曲线与人类的几乎重叠。然而,魔鬼藏在细节里。进一步分析分数差异发现,大语言模型表现出一种“分数压缩”倾向:对于质量较低的作文,它们倾向于打更高的分;对于质量很高的作文,它们则倾向于打更低的分。这就像一位“老好人”评委,不自觉地把极好和极差的分数向中间靠拢。
4.2. 特征权重分析
当深入到每个评分细节时,人类和AI的“审美”差异便显露无遗。研究发现,大语言模型是严格的“语法学家”和“语言炫技爱好者”。它们对语法错误、拼写错误、不地道表达的惩罚力度,普遍比人类评分员高出60%-70%。同时,它们显著奖励句子复杂性和词汇多样性(如较低的常用词比例、较高的型例比(TTR))。换句话说,一篇用了更多复杂从句、生僻词的文章,更容易获得AI的青睐。
而人类评分员则更像是“内容经理”和“印象派”。他们最看重的两个特征是“内容覆盖度”和“视觉呈现质量”(即书写是否工整)。对于不影响理解的小语法错误,人类展现出更大的包容性。模型可量化的文本特征能解释AI评分变异的比例(R2= 0.78-0.84)高于对人类评分变异的解释比例(R2= 0.74),这表明AI的评分逻辑更依赖于这些表面、可计量的语言特征。
4.3. 子群分析
研究将学生按作文水平分为高分组和低分组,进一步检验评分的公平性与稳定性。结果发现,人类评分员如同一杆“公平秤”,他们对各项特征的权重在不同水平组间保持相对稳定。无论学生水平高低,内容、结构等核心要素的权重变化不大。
相比之下,大语言模型则像是“变脸艺术家”,其评分标准随着学生水平变化而大幅摆动。对于低水平学生,模型会格外严厉地惩罚他们的语言错误;而对于高水平学生,模型则转向大力奖赏他们的语言复杂性和修辞风格(如词汇多样性、被动语态使用)。这种不稳定的评分框架,可能对处于不同学习阶段的学生造成系统性偏差。
4.4. 文本特征间的交互效应
研究还探索了评分员如何“综合考量”不同特征。例如,当一篇文章内容覆盖全面但错误较多时,分数会如何变化?分析发现,大语言模型的评分逻辑具有更强的“特征整合性”。对于AI,内容上的得分会显著受到语言错误数量的“拖累”——错误越多,内容全面的加分效果就越被打折扣。而这种“拖累”效应在低水平学生作文中尤为明显。相反,人类评分员则能将“内容”和“语言”两个维度区分得更开,不会仅仅因为有些语法错误,就否定其内容上的完整性。这种差异在高风险标准化考试中尤其值得警惕,因为它可能导致对语言能力尚在发展中、但已理解任务核心的学生的低估。
综合以上结果,本研究的结论与讨论部分强调了几个核心观点。首先,大语言模型在自动作文评分上表现出“表面和谐,内里分化”的特点。尽管总分高度相关,但其底层评分机制与人类存在本质差异:AI更偏向“形式主义”,注重语言的精确与复杂;人类更侧重“实质主义”,关注内容的完成与交流的有效。其次,这种差异导致了公平性隐忧。AI评分标准在不同水平学生间的不稳定性,以及其将语言错误与内容质量高度绑定的倾向,可能对第二外语学习者,特别是低水平学生,造成不公,削弱了评分的效度(Validity)。最后,在交互模式上,AI表现出更复杂的特征间耦合,这虽类似人类的整体性阅读感受,但与强调维度独立、标准清晰的标准化评分原则存在张力。
这项研究的意义深远。它如同一份详尽的“AI评分员测评报告”,不仅揭示了当前技术的潜力与局限,更重要的是为如何负责任地在教育中应用AI指明了方向。研究者建议,不应将大语言模型视为教师的替代者,而应定位为“辅助评分员”或“初筛工具”。在高风险决策中,AI评分必须结合人类审核。同时,可以通过“提示词校准”等技术手段,明确要求模型降低对表面语言特征的过度关注,并保持跨群体评分标准的一致性,甚至可以将“内容”与“语言”评分分开进行,以获取更清晰、公平的评估结果。总之,打开AI评分的“黑箱”,是实现其教育价值、确保评估公平与透明的关键一步。未来的研究方向包括在更多样化的写作体裁、学生群体和文化背景下验证这些发现,并探索如何将人类评分智慧更有效地嵌入AI系统,最终发展出既高效又人性化、既智能又可解释的教育评估新范式。

生物通微信公众号
微信
新浪微博


生物通 版权所有