公平的AI在教育预测中的应用：一种基于强化学习的多组公平性方法

时间：2026年2月3日

来源：The Internet and Higher Education

编辑推荐：

教育机器学习中基于强化学习的多组公平性优化框架研究，提出动态数据重加权方法平衡预测精度与跨群体公平性，结合AUC基线公平度指标和可解释AI技术，在Algebra Nation平台及州考试数据验证其有效性，解决传统单属性公平方法难以应对交叉性身份及数据分布动态变化的问题。

张帆|邢万利|李成璐|姜一涵

美国佛罗里达大学

摘要

机器学习（ML）已成为在线教育不可或缺的一部分，它提高了预测能力、个性化程度和自动化评估水平。然而，算法偏见仍然是实现公平学习的重要障碍，因为ML模型可能会系统性地低估或高估某些特定人群的结果。现有的公平性方法——尤其是那些仅关注种族或性别等单一属性的方法——无法捕捉到影响学生体验的复杂且交叉的身份特征。即使在多群体公平性方法中，也存在一些关键限制，包括计算可扩展性和难以适应数据分布及公平性优先级的变化。为了解决这些问题，本研究提出了一种基于强化学习（RL）的预处理框架，该框架能够动态重新加权数据，以优化预测准确性和多群体公平性，同时保护隐私。基于AUC的公平性指标确保了随着子群体组合的增加而保持稳定性，而可解释AI（XAI）技术则增强了模型的可解释性。利用来自Algebra Nation和州级评估的大规模数据，结果表明所提出的框架在提高公平性的同时保持了预测准确性，为教育领域中的可信AI提供了一条可扩展、模型无关且保护隐私的路径。

引言

在当代教育环境中，随着个人电子设备和先进高速网络的广泛使用，在线学习已成为K-12教育和高等教育中的主要教学方式（Caplan & Graham, 2004; Li et al., 2022b; van Joolingen et al., 2005）。然而，这种学习方式也存在挑战，尤其是学生与教师之间的联系往往较为薄弱，这可能会阻碍教师对学生学习进度的了解，并妨碍在线环境中的有效干预（Naeve, 2001; Xing & Du, 2022）。为了解决这些问题，机器学习（ML）被广泛应用于教育领域，通过特定的应用来增强预测分析、个性化学习和自动化评估，显著提高了教学和学习效果。例如，ML模型被广泛用于预测学生表现并识别高风险学习者。Yağcı（2022）强调了使用随机森林和支持向量机等算法分析期中成绩和人口统计数据的重要性，从而能够及时干预有困难的学生。Musso等人（2020）利用人工神经网络（ANN）根据平均成绩（GPA）、学术保留率和学位完成情况等因素将学生分类为高绩效组和低绩效组，显示出在预测关键教育结果方面的高准确性。此外，ML在个性化学习中也发挥着重要作用，它能够根据个人需求定制教育内容。Villegas-Ch等人（2024）展示了分类算法和神经网络如何动态调整材料，从而提高学生的参与度和学术表现。Davuluri（2021）详细介绍了个性化学习路径，允许实时调整教学内容，促进包容性并满足不同学习者的需求。此外，基于ML的自动化评估工具解决了手动评估的可扩展性限制。例如，Paiva等人（2022）展示了这些系统如何为编程作业提供即时反馈，提高了学习效率并减轻了教师的工作负担。Nehm等人（2011）指出，基于ML的评分系统在评估书面科学解释方面比人工评估更具成本效益和一致性。这些应用凸显了ML在现代教育中的变革潜力。

尽管ML在教育领域取得了令人鼓舞的成果，但解决算法偏见仍然是一个关键挑战（Gardner et al., 2019; Li et al., 2022a）。算法偏见指的是系统性地低估或高估某些特定人群的结果，这可能严重影响ML的决策过程，导致教育干预不公平，阻碍学习系统的平等性和公正性（Mehrabi et al., 2021; Yapo & Weiss, 2018）。关于教育中算法偏见的研究主要集中在三个领域：概念化、评估和偏见缓解。首先，算法偏见的概念化涉及定义和理解其起源、影响及其在教育中的含义。例如，Kizilcec和Lee（2020）以及Baker和Hawn（2021）探讨了算法偏见的定义和原因，揭示了嵌入在ML模型中的偏见如何不成比例地影响某些学生群体。其次，ML模型中偏见的评估侧重于评估不同人群之间的性能差异。Hutt等人（2019）使用绝对ROC区间面积（ABROCA）等指标来评估随机森林分类器预测大学毕业率的公平性，证明了其在不同种族和社会经济地位群体间的平衡表现。最后，缓解策略旨在通过创新方法减少算法偏见。这些方法大致可以分为两类：一类是关注种族或性别等单一人口统计属性的单群体公平性方法（Dwork et al., 2012; Dwork et al., 2020），另一类是解决交叉身份特征的多群体公平性方法（Collins, 2015）。鉴于学生本质上具有多个重叠的人口统计特征，这些特征相互作用影响他们的学习体验，多群体公平性已成为一个重要的研究领域（Foulds & Pan, 2020; Hall et al., 2022）。然而，现有的多群体公平性方法在教育环境中面临显著限制，包括在处理指数级增长的子群体组合时的计算可扩展性挑战，以及当前方法无法动态适应数据分布和公平性需求的变化（Jui & Rivas, 2024; Zhang, 2024）。此外，教育应用中的公平性方法还必须应对隐私限制以及公平性和预测准确性之间的固有权衡（Das Jui和Rivas（2024）、Pessach和Shmueli（2022）、Shui等人（2022）所强调的）。

为了解决这些挑战——特别是在隐私和性能约束下的多群体公平性问题——我们采用了一种以数据为中心的预处理策略，并结合了强化学习（RL）。预处理在模型训练之前进行，以纠正数据集中的偏见；RL组件学习一种数据重新加权策略，该策略在多目标奖励中平衡预测效用和跨交叉亚群体的多群体公平性信号。通过引入RL，我们的框架（1）避免了手动处理可能呈指数级增长的多群体数据，（2）通过策略更新动态适应数据分布变化和公平性优先级的演变。我们的策略还确保了敏感属性的有效混淆或匿名化，保护隐私并符合伦理准则。通过整合RL，我们旨在创建一个强大的预处理框架，以解决多个群体之间的公平性挑战，同时保持数据完整性和遵守隐私标准。此外，我们设计了一种基于AUC的公平性指标，该指标在子群体交集数量呈指数级增长时仍然保持稳健。最后，我们使用可解释AI（XAI）进一步验证了我们公平性策略的可行性，并提高ML系统的透明度和可解释性。总之，本研究的目标是（1）开发一个利用RL动态调整预测并减轻多个群体偏见的模型，（2）使用Algebra Nation在线数学学习平台的数据和州级考试结果来评估该模型在平衡公平性和预测准确性方面的有效性，（3）探索从单群体公平性方法向能够解决教育环境中多群体偏见问题的框架的转变。为了指导这项工作，我们提出了两个研究问题：

•

基于RL的预处理方法是否可以用来在保持数据效用和隐私的同时减轻教育ML模型中的多群体偏见？

•

当应用于在线学习平台中的多群体学生成功预测时，所提出的RL框架在多大程度上提高了教育ML模型的公平性和透明度？

部分摘录

机器学习和教育中的公平性交叉性

ML中的算法偏见指的是系统性和不公平的结果偏差，这些偏差对特定人群不利。这种偏见可能源于训练数据中的历史不平等、模型开发中的设计选择或优化目标的不利后果。例如，训练集中特定人群的代表性不足可能会扭曲预测结果，加剧现有的差异（Mehrabi et al., 2021; Pessach & Shmueli, 2022）。同样，某些目标

数据描述

在这项研究中，我们使用了来自Algebra Nation（AN）的全面数据集，这是一个由佛罗里达大学Lastinger学习中心和Study Edge共同开发的虚拟学习环境。该数据集来自美国南部的一个学区，包含了我们分析所需的多样化数据点。数据收集过程经过精心规划和执行，包括收集学生的AN ID、人口统计信息等

实验

实验分为三个阶段：（1）数据预处理，（2）ML模型训练，（3）RL训练。

数据预处理。 首先我们对数据进行预处理，并按子群体和代数成就水平划分训练集。具体来说，我们首先进行模式验证和去标识化（移除直接标识符并统一特征类型），然后处理重复数据和缺失数据（数值变量使用中位数插补，分类变量使用众数插补）。接下来进行训练

结果

多类分类结果总结在表4中（准确率、宏观F1分数、精确度和召回率）。如图所示，最近邻算法和高斯朴素贝叶斯在评估的模型中表现最佳，优于逻辑回归、浅层神经网络和支持向量机。因此，我们选择了这两种分类器作为后续比较实验的基准模型。

图4记录了RL过程中损失、准确率和偏见评估的变化

如果基于RL的预处理方法可以用来在保持数据效用和隐私的同时减轻教育ML模型中的多群体偏见？

在预处理中集成RL代表了一种解决教育ML模型中多群体偏见的创新方法。传统的ML模型在处理多群体场景时常常面临公平性问题，因为重叠和交叉的身份特征会加剧偏见。我们提出的基于RL的预处理方法通过使用先进的去偏见指标（如组间BPSN AUC范围、方差和标准差）来评估和减轻偏见。

局限性和未来工作

我们基于RL的框架的一个局限性在于它依赖于数据重新加权作为预处理原则。这种方法本质上依赖于数据集的质量和完整性。在数据集较小或不完整的场景中，该框架可能会在准确性和公平性之间出现明显的权衡。这种权衡可能导致预测性能或结果公平性的降低，突显了重新加权方法对数据质量的敏感性。

CRediT作者贡献声明

张帆：写作——审稿与编辑、撰写初稿、可视化、验证、监督、软件开发、资源管理、方法论研究、资金获取、正式分析、数据整理、概念构建。邢万利：写作——审稿与编辑、研究、正式分析。李成璐：写作——审稿与编辑、监督、方法论研究、资金获取、正式分析、数据整理、概念构建。姜一涵：写作——