机器学习揭示择偶中的性别效应与种族偏见:迈向伦理化匹配算法

时间:2025年11月27日
来源:Scientific Reports

编辑推荐:

本刊编辑推荐:为应对传统约会应用的局限并构建更伦理化的匹配技术,研究人员利用自动化机器学习(AutoML)技术,基于公开速配数据集,开展了预测双向兴趣(Match)的研究。结果表明,机器学习模型预测匹配的准确率(Acc)高达85.4%-86.4%,并成功构建了性能近似、但可规避种族信息的“种族盲”(Race-Agnostic)模型。此项研究为开发更具包容性和行为导向的伦理人工智能(AI)应用提供了重要方法论支持。

广告
   X   

在当今数字时代,寻找伴侣的方式发生了翻天覆地的变化,在线约会应用已成为主流。然而,用户普遍面临信息过载、匹配质量参差不齐,甚至遭遇不受欢迎的骚扰信息等问题,这导致了所谓的“应用倦怠”。与此同时,人们对更具结构性和安全性的传统社交方式,如快速约会(Speed Dating),重新产生了兴趣。快速约会通过一系列简短的面对面交流,让参与者能在短时间内接触多位潜在伴侣,并仅在双方都表示有兴趣(即达成“匹配”,Match)时交换联系方式,这在一定程度上保护了个人隐私并提升了匹配效率。
这一现象引起了学术界的关注。此前,已有研究利用哥伦比亚大学商学院收集的速配数据集,通过传统统计模型(如线性概率模型)探讨了择偶中的种族偏好和性别差异。例如,有研究发现,女性在择偶决策中表现出更强的种族偏好,而男性则更易受伴侣外貌吸引力的顺序对比效应影响。尽管这些研究揭示了有趣的社会行为模式,但它们尚未利用现代人工智能(AI)的核心分支——机器学习(Machine Learning, ML)技术,来深入挖掘数据中复杂的预测模式,也未能探索构建规避敏感属性(如种族)的伦理算法的可能性。
机器学习,特别是监督式机器学习(Supervised Machine Learning),能够从带有明确标签的数据中学习并做出预测。当与特征选择(Feature Selection, FS)技术结合时,它能够识别出对预测目标变量(如是否匹配)最关键的因素。近年来,自动化机器学习(Automated Machine Learning, AutoML)的发展,例如名为 df-analyze 的公共领域软件,将复杂的机器学习流程(包括数据预处理、特征选择、多种算法比较、超参数调优和验证)封装成一个可复现的命令行工具,极大地降低了高级数据分析的门槛,并促进了研究的可重复性。df-analyze 此前已被应用于医疗诊断(如精神分裂症、慢性肾病)和社会问题(如预测交通拦截结果中的种族和性别偏见)研究,展示了其在不同领域解决复杂问题的能力。
在此背景下,由 Aimee Hastings-James, Andrew Hinman, Derek Berger 和 Jacob Levman 组成的研究团队在《Scientific Reports》上发表了题为“Gender effects and racial biases in mate selection as revealed by machine learning”的研究论文。该研究首次将先进的 AutoML 技术应用于经典的速配数据集,旨在解决几个核心问题:机器学习能否高精度预测速配中的双向兴趣?在预测模型中,是否存在基于性别和种族的显著差异?更重要的是,能否开发出不依赖种族信息、但仍保持高预测性能的“种族盲”机器学习模型,从而为构建更伦理、更包容的约会推荐系统提供技术基础?
为了回答这些问题,研究人员开展了一项系统性的计算分析研究。他们主要利用了公开可用的自动化机器学习软件 df-analyze 和一个同样公开的、来自哥伦比亚大学商学院“HurryDate”项目的速配数据集。该数据集包含了8,378个样本,记录了参与者的人口统计学信息(如年龄、性别、种族)、自我评估、对约会对象的评分(如吸引力、真诚度、幽默感)以及每次约会后是否愿意再次见面的决定。研究中,匹配(Match)被定义为双方都同意交换联系方式的二进制目标变量。分析前,研究人员排除了可能直接泄露匹配结果的变量(如“对伴侣的兴趣”),以确保模型学习的是真正的预测因素而非 trivial 的关联。研究采用了多种主流的机器学习算法,包括轻量级梯度提升机(Light Gradient Boosting Machine, lgbm)、随机森林(Random Forest, rf)、逻辑回归(Logistic Regression, lr)、随机梯度下降(Stochastic Gradient Descent, sgd)和 K最近邻(K Nearest Neighbour, knn)。这些算法与多种特征选择方法(包括无选择(none)、基于过滤器的关联法(assoc)和预测法(pred),以及嵌入式线性法(embed_linear)和嵌入式 lgbm 法(embed_lgbm))进行了 exhaustive 组合。模型性能通过留出法(Hold-out,40% 数据作为测试集)和5折交叉验证(5-Fold Validation)进行评估,主要指标包括准确度(Accuracy, Acc)和受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC)等。研究设计包含了几个关键对比:基于全部数据(包含种族信息和两性)的基线模型、排除种族信息的“种族盲”模型,以及分别针对女性和男性数据构建的性别特异性模型(各自又包含包含种族和不包含种族的版本),从而能够细致地比较不同条件下模型的性能和所依赖的特征。
研究结果
全部数据的基线模型与种族盲模型
在包含所有特征(包括种族和两性数据)的基线数据集上,表现最佳的模型(使用 lgbm 算法并结合多种特征选择方法)预测匹配的准确度达到了86.2%。值得注意的是,这些模型在特征选择过程中都纳入了与种族相关的特征。当研究人员构建“种族盲”模型(即从训练数据中移除所有种族信息)时,最佳模型的准确度仍然达到了85.9%(使用 lgbm 或 rf 算法)。这表明,即使不利用种族信息,机器学习模型也能达到与包含种族信息的模型相近的预测性能。
女性数据的基线模型与种族盲模型
在仅针对女性数据构建的模型中,包含种族信息的基线模型最高准确度为85.5%。而当移除种族信息后,构建的“种族盲”模型最高准确度仅轻微下降至85.4%。这一结果再次证实,对于女性群体的匹配预测,种族信息并非不可或缺的关键因素。
男性数据的基线模型与种族盲模型
在针对男性数据的分析中,包含种族信息的基线模型取得了本次研究中的最高准确度——86.4%。而对应的“种族盲”模型也表现优异,最高准确度达到86.3%。这表明,即使在男性数据中种族特征被模型选中,其对于达到顶尖预测性能的贡献也是有限的,可以被其他行为特征所替代。
女性和男性队列的比较
通过比较针对不同性别构建的高性能模型所依赖的特征,研究揭示了有趣的性别差异:
  • 男性模型的关键特征:男性特异性模型强烈依赖于男性对女性伴侣吸引力(attractiveness) 的感知(在所有特征选择方法中均被选中)。此外,一些可能反映男性自信心的指标也显得尤为重要,例如男性预期对自己感兴趣的女性数量、男性认为伴侣喜欢自己的可能性以及男性预期能匹配成功的女性数量。统计分析显示,这些“自信心”代理指标与匹配结果呈显著正相关。
  • 女性模型的关键特征:女性特异性模型则更侧重于其他维度。真诚度(sincerity) 在女性模型中被重点强调(例如在 embed_lgbm 方法中作为领先特征),而幽默感(being funny)共同兴趣(shared interests) 的相关特征也在多个特征选择方法(如 pred, embed_lgbm, assoc)中被频繁选中。有趣的是,女性对男性幽默感的评分也是男性模型中的一个重要预测因子,说明幽默是跨性别的重要因素。
  • 模型复杂性与特征数量:分析还发现,为女性构建最佳模型所需选择的特征数量通常多于男性,且女性模型的预测准确度略低于男性模型。这可能暗示女性在速配决策过程中的考量因素更为复杂和多元,因此需要更复杂的模型来捕捉其决策模式。
  • 种族特征的选择:尽管“种族盲”模型表现良好,但在包含种族信息的基线模型中,种族特征确实被模型选择为预测因子,这支持了先前研究关于择偶中存在种族效应的结论。例如,在 embed_linear 方法中,对于男性模型,伴侣是否为欧洲/白种美国人(European/Caucasian-American) 是领先特征之一;对于女性模型,自身种族是否为欧洲/白种美国人或黑种人/非洲裔美国人(Black/African American) 也被选中。
研究结论与讨论
本研究通过应用自动化机器学习技术,首次在速配匹配预测中系统性地探讨了性别效应和种族偏见,并成功构建了性能相当的“种族盲”模型。主要结论如下:
首先,研究证实了机器学习能够以高准确度(85.4% - 86.4%)预测速配中的双向兴趣。更重要的是,它证明了开发不依赖种族信息的伦理机器学习模型具有可行性。这些“种族盲”模型在全部数据、女性数据和男性数据上的性能损失微乎其微(准确度差异在0.1%-0.2%之间)。这一发现具有重要的现实意义:它表明未来的约会应用和匹配算法可以在设计上主动排除种族等敏感信息,从而在技术上避免 perpetuating(永久化)历史数据中可能存在的种族偏见,推动建立更具包容性的匹配系统。
其次,研究通过性别特异性模型的对比,清晰地揭示了择偶决策中存在的性别差异。男性模型更侧重于外貌吸引力和与自信心相关的自我感知,而女性模型则更关注伴侣的真诚、幽默和共同兴趣等内在特质。这些发现与早期基于同一数据集的传统研究结论相互印证,但机器学习提供了更细粒度的特征重要性排序,揭示了多个特征协同作用的复杂模式。此外,女性模型需要更多特征且准确度略低的现象,提示女性的择偶决策可能涉及更复杂的心理和社会因素,这为未来更深入的研究指明了方向。
本研究也存在一些局限性。数据集采集于21世纪初,仅包含异性恋和顺性别(cisgender)参与者,未能反映当今社会性别和性取向的多样性。数据中高加索人种样本占多数,限制了进行种族特异性深入分析的可能性。此外,“种族盲”模型虽然不直接使用种族信息,但其训练数据本身源于存在社会偏见的环境,模型仍有可能通过与其他特征的相关性间接学习到偏见模式。最根本的解决方案可能是在数据收集阶段就避免采集种族信息,并致力于招募更具多样性和包容性的参与者。
总之,这项研究展示了机器学习,特别是AutoML工具,在分析复杂社会行为、揭示潜在偏见以及推动伦理人工智能发展方面的强大能力。它不仅为理解人类择偶行为提供了新的计算视角,更重要的是,为开发公平、透明、负责任的下一代社交匹配技术奠定了方法论基础。未来的研究可以在此基础上,扩展至更 diverse 的数据集,探索可解释人工智能(Explainable AI)以更好地理解模型决策,并尝试预测匹配质量的连续值(回归问题)而非简单的二分结果,从而获得对人际吸引力学更 nuanced 的理解。

生物通微信公众号
微信
新浪微博


生物通 版权所有