解开基于大语言模型的自动作文评分“黑箱”：特征权重模式与评分效度新解

时间：2026年3月21日

来源：Computers and Education: Artificial Intelligence

编辑推荐：

本研究旨在揭示基于大型语言模型(LLM)的自动作文评分(AES)的底层机制。研究人员通过比较三种主流LLM与人类评分员在非母语学习者英语作文上的评分行为，并深入分析十六个文本特征的权重差异，发现LLM评分在整体分数上与人类高度一致，但在特征权重、跨水平组一致性和特征交互方面存在显著偏好，更强调形式精度与语言复杂性，而人类评分员更关注内容完整性。这为理解LLM评分的透明性、效度及其在教育中的公平应用提供了重要实证依据，并提出了实用的模型优化与校准建议。

在人工智能席卷各行各业的今天，教育评估领域也迎来了新的“考生”——大型语言模型。这些模型，比如我们熟悉的ChatGPT、Gemini，凭借其强大的文本理解和生成能力，开始被尝试用于自动化地评估学生的作文。想象一下，一位老师可以瞬间获得数百份作文的评分和初步反馈，这听起来像是教学效率的革命。然而，在这份“高效”的背后，却隐藏着一个巨大的“黑箱”：我们并不清楚这些模型打分的内在逻辑。它们和人类老师的评判标准真的相同吗？它们是否会更偏爱某些华丽的辞藻或复杂的句式，而忽略了文章思想的深度和内容的完整性？这种不透明性，不仅让教育者心存疑虑，更可能对来自不同语言背景、不同写作水平的学生产生潜在的评分不公。为了揭开这个“黑箱”，一队来自北京大学的研究人员，对三种主流大语言模型（Qwen、GPT-4o、Gemini-2.5-Pro）的“判卷”行为进行了一次系统性的“体检”。

这项研究聚焦于一个非常具体且普遍的场景：中国高中生的英语作文。研究人员收集了505份由高三学生手写的英语通知作文，并邀请了20位经验丰富的高中英语教师进行评分。同时，他们让三个大语言模型“扮演”评分员，在相同的提示词（包括写作任务、评分量表和范文示例）下，对同样的作文进行独立评分。这就像安排了一场“人机评分大赛”。但研究的精髓远不止于比较总分高低，而在于深入剖析评分背后的“思维过程”。研究人员从作文中提取了跨越语法、用法、结构、风格和组织五个维度的十六个具体文本特征，例如语法错误数、句子复杂度、词汇多样性、内容点覆盖率、书写工整度等。通过建立统计模型，他们精确地量化了每一个特征对最终分数的影响力（即“特征权重”），从而清晰地描绘出人类评分员和AI评分员各自心中的“评分地图”。

研究的主要技术方法包括：1) 使用光学字符识别(OCR)技术将手写作文转换为机器可读文本，并从中提取预定义的十六个文本特征；2) 采用精心设计的提示工程(Prompt Engineering)流程，通过逐步增加范例和专家评分理由，校准三种大语言模型(Qwen-VL-Max, GPT-4o, Gemini-2.5-Pro)的评分行为，使其尽可能模拟人类评分流程；3) 运用多元线性回归模型，量化分析人类与AI评分员在各项文本特征上的权重差异，并进行跨作文水平（高分组与低分组）的子群分析；4) 引入交互项回归模型，探究不同文本特征（如内容覆盖与语言错误）在评分过程中的相互影响模式。

4.1. 整体分数比较

从总分上看，AI和人类展现了惊人的“默契”。三种大语言模型给出的分数与人类评分员分数的相关系数高达0.797至0.823，而模型之间的相关性更是超过了0.92，说明AI们“英雄所见略同”。分数分布图也显示，AI的评分曲线与人类的几乎重叠。然而，魔鬼藏在细节里。进一步分析分数差异发现，大语言模型表现出一种“分数压缩”倾向：对于质量较低的作文，它们倾向于打更高的分；对于质量很高的作文，它们则倾向于打更低的分。这就像一位“老好人”评委，不自觉地把极好和极差的分数向中间靠拢。

4.2. 特征权重分析

当深入到每个评分细节时，人类和AI的“审美”差异便显露无遗。研究发现，大语言模型是严格的“语法学家”和“语言炫技爱好者”。它们对语法错误、拼写错误、不地道表达的惩罚力度，普遍比人类评分员高出60%-70%。同时，它们显著奖励句子复杂性和词汇多样性（如较低的常用词比例、较高的型例比(TTR)）。换句话说，一篇用了更多复杂从句、生僻词的文章，更容易获得AI的青睐。

而人类评分员则更像是“内容经理”和“印象派”。他们最看重的两个特征是“内容覆盖度”和“视觉呈现质量”（即书写是否工整）。对于不影响理解的小语法错误，人类展现出更大的包容性。模型可量化的文本特征能解释AI评分变异的比例(R²= 0.78-0.84)高于对人类评分变异的解释比例(R²= 0.74)，这表明AI的评分逻辑更依赖于这些表面、可计量的语言特征。

4.3. 子群分析

研究将学生按作文水平分为高分组和低分组，进一步检验评分的公平性与稳定性。结果发现，人类评分员如同一杆“公平秤”，他们对各项特征的权重在不同水平组间保持相对稳定。无论学生水平高低，内容、结构等核心要素的权重变化不大。

相比之下，大语言模型则像是“变脸艺术家”，其评分标准随着学生水平变化而大幅摆动。对于低水平学生，模型会格外严厉地惩罚他们的语言错误；而对于高水平学生，模型则转向大力奖赏他们的语言复杂性和修辞风格（如词汇多样性、被动语态使用）。这种不稳定的评分框架，可能对处于不同学习阶段的学生造成系统性偏差。

4.4. 文本特征间的交互效应

研究还探索了评分员如何“综合考量”不同特征。例如，当一篇文章内容覆盖全面但错误较多时，分数会如何变化？分析发现，大语言模型的评分逻辑具有更强的“特征整合性”。对于AI，内容上的得分会显著受到语言错误数量的“拖累”——错误越多，内容全面的加分效果就越被打折扣。而这种“拖累”效应在低水平学生作文中尤为明显。相反，人类评分员则能将“内容”和“语言”两个维度区分得更开，不会仅仅因为有些语法错误，就否定其内容上的完整性。这种差异在高风险标准化考试中尤其值得警惕，因为它可能导致对语言能力尚在发展中、但已理解任务核心的学生的低估。

综合以上结果，本研究的结论与讨论部分强调了几个核心观点。首先，大语言模型在自动作文评分上表现出“表面和谐，内里分化”的特点。尽管总分高度相关，但其底层评分机制与人类存在本质差异：AI更偏向“形式主义”，注重语言的精确与复杂；人类更侧重“实质主义”，关注内容的完成与交流的有效。其次，这种差异导致了公平性隐忧。AI评分标准在不同水平学生间的不稳定性，以及其将语言错误与内容质量高度绑定的倾向，可能对第二外语学习者，特别是低水平学生，造成不公，削弱了评分的效度(Validity)。最后，在交互模式上，AI表现出更复杂的特征间耦合，这虽类似人类的整体性阅读感受，但与强调维度独立、标准清晰的标准化评分原则存在张力。

这项研究的意义深远。它如同一份详尽的“AI评分员测评报告”，不仅揭示了当前技术的潜力与局限，更重要的是为如何负责任地在教育中应用AI指明了方向。研究者建议，不应将大语言模型视为教师的替代者，而应定位为“辅助评分员”或“初筛工具”。在高风险决策中，AI评分必须结合人类审核。同时，可以通过“提示词校准”等技术手段，明确要求模型降低对表面语言特征的过度关注，并保持跨群体评分标准的一致性，甚至可以将“内容”与“语言”评分分开进行，以获取更清晰、公平的评估结果。总之，打开AI评分的“黑箱”，是实现其教育价值、确保评估公平与透明的关键一步。未来的研究方向包括在更多样化的写作体裁、学生群体和文化背景下验证这些发现，并探索如何将人类评分智慧更有效地嵌入AI系统，最终发展出既高效又人性化、既智能又可解释的教育评估新范式。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部