摘要
本研究将生成式人工智能(GAI)与人类采购专业人士在供应商评估任务上的表现进行了比较。通过对2023年1月至2024年12月期间俄亥俄州政府发布的31个项目中的123份供应商投标文件进行结构化主题建模(STM)分析,我们将三种推理模型(o3、Grok-3-Mini、DeepSeek R1-0528)的评估结果与人类评估者的评估结果进行了对比。从信号理论的角度出发,我们发现GAI与人类评估者在信号处理上存在差异。GAI在评估合规性信号(例如技术规格)时表现出高一致性和强相关性,这使其适用于资格筛选。然而,在评估竞争性信号(例如增值提案)时,GAI的评分波动性较大,表明人类判断在评估差异化方面仍然至关重要。我们还发现,投标者的数量会影响信号构成,在竞争较少的招标中,合规性信号更为普遍。研究结果表明,可以采用两阶段评估框架:GAI负责合规性筛选,而人类则专注于竞争性评估。GAI评分的波动性可以作为警示信号,提示何时需要人类监督。
1 引言
供应链管理者应在何时允许生成式人工智能(GAI)为他们做出决策?我们通过将GAI对123份政府供应商投标的评估结果与人类采购专业人士的评估结果进行比较来探讨这个问题。研究发现,GAI在检测合规性信号(例如最低技术能力)方面表现出色,但在处理竞争性信号(例如战略差异化因素)时存在困难。GAI的评分波动性和市场竞争可以作为“预警信号”,表明何时需要人类专业判断。我们发现三种大型语言模型(LLMs)o3、Grok-3-Mini和DeepSeek-R1-0528在性能上没有显著差异。这一发现提示需要进一步研究GAI模型在供应商评估过程中的表现。在工业领域,GAI的采用正在加速。84%的公司计划在未来5年内将人工智能(AI)整合到核心供应链任务中(Bailey等人,2025年),这反映了人们越来越相信AI可以提高决策的速度、一致性和可扩展性(Brau等人,2024年)。特别是,GAI工具越来越多地应用于采购和合同审查等需要大量判断力的非结构化任务中(Cui等人,2022年;Spring等人,2022年)。然而,关于AI是否能产生可信的评估结果仍存在疑问(Hasija和Esper,2022年;Klumpp和Zijm,2019年)。在供应商选择方面,这种矛盾尤为突出,因为GAI已经在实际应用中接受测试(Deshmukh,2025年)。不可靠的GAI在供应商选择中的风险包括将合同授予劣质供应商、错过与新供应商合作的机会,以及面临不公平或不透明评估过程带来的法律挑战。采购专业人士在不断变化的法规和日益复杂的背景下,还面临着快速评估投标的持续挑战。在这种环境下,评估供应商投标既高风险又时间敏感,而GAI能够快速从投标文件中提取和整合相关信息(Cui等人,2022年)。从信号理论的角度来看,供应商投标代表了供应商通过这些信号向买家传达其资格和价值的方式(Steigenberger和Wilhelm,2018年)。然而,部署GAI取决于理解其评估结果与人类经验判断的一致性或差异。我们通过提出以下问题来探讨这一核心研究问题:“GAI和人类评估者在供应商评估方面是否存在差异?是什么信号特征导致了这些差异?”
本研究采用信号理论视角,将投标文件视为包含技术、成本和专业线索的信号组合(Connelly等人,2011年,2025年)。我们的探索性方法分为三个阶段。首先,我们定义并测量了与GAI性能相关的关键变量:人类-AI评分一致性、LLM评分波动性和市场竞争。接下来,我们使用结构化主题建模(STM)提取潜在信号(Roberts等人,2014年)。最后,我们定性解释这些信号,以确定适合GAI评估的任务。数据集包括2023年1月至2024年12月期间俄亥俄州为31个信息技术(IT)服务合同发布的123份公共采购投标文件。这些文本量较大的文件在内容和结构上差异很大,非常适合在不同IT环境中比较GAI和人类的评估结果。我们的分析发现了两类不同的信号:合规性信号(例如最低技术要求)显示出强烈的人类-AI一致性和高GAI评分一致性,表明GAI可以可靠地评估这些方面;而竞争性信号(即差异化因素)也与人类评分一致,但在竞争较少的合同中,LLM的评分波动性更大。这一发现意味着GAI的一致性可能表明何时需要人类关注。从管理角度来看,这项研究暗示了一种两阶段评估方法的可行性:GAI负责合规性筛选,而人类则专注于竞争性评估。
2 概念背景
人工智能在供应链中的整合正在迅速扩展,人们对如何在复杂决策环境中部署AI和GAI的兴趣日益增加。大多数现有研究集中在传统AI在预测(需求规划、库存管理)或分类任务(风险类别、客户细分)中的应用(Pournader等人,2021年;Schoenherr和Speier-Pero,2015年;Waller和Fawcett,2013年)。然而,最近在LLMs方面的进展使得分析非结构化文本数据成为可能,而人类判断和专业知识在此过程中至关重要(Bansal等人,2020年;Egami等人,2022年)。新兴研究探讨了LLMs在支持涉及非结构化文本数据的决策中的作用,包括市场文案生成、法律审查和客户服务(Spring等人,2022年;Demirci等人,2024年)。尽管如此,关于AI是否能产生可信评估结果的问题仍然存在(Hasija和Esper,2022年;Klumpp和Zijm,2019年)。在供应商选择方面,这种矛盾尤为突出,因为GAI已经在实际应用中接受测试(Deshmukh,2025年)。不可靠的GAI在供应商选择中的风险包括将合同授予劣质供应商、错过与新供应商合作的机会,以及面临不公平或不透明评估过程带来的法律挑战。采购专业人士还面临着在法规变化和复杂性增加的情况下快速评估投标的持续挑战。在这种环境下,评估供应商投标既高风险又时间敏感,而GAI具有快速从投标文件中提取和整合相关内容的潜力(Cui等人,2022年)。从信号理论的角度来看,供应商投标代表了供应商通过这些信号向买家传达其资格和价值的方式(Steigenberger和Wilhelm,2018年)。然而,部署GAI取决于理解其评估结果与人类经验判断的一致性或差异。我们通过提出以下问题来探讨这一核心研究问题:“GAI和人类评估者在供应商评估方面是否存在差异?是什么信号特征导致了这些差异?”
本研究采用信号理论视角,将投标文件视为包含技术、成本和专业线索的信号组合(Connelly等人,2011年,2025年)。我们的探索性方法分为三个阶段。首先,我们定义并测量了与GAI性能相关的关键变量:人类-AI评分一致性、LLM评分波动性和市场竞争。接下来,我们使用结构化主题建模(STM)提取潜在信号(Roberts等人,2014年)。最后,我们定性解释这些信号,以确定适合GAI评估的任务。数据集包括2023年1月至2024年12月期间俄亥俄州为31个信息技术(IT)服务合同发布的123份公共采购投标文件。这些文本量较大的文件在内容和结构上差异很大,非常适合在不同IT环境中比较GAI和人类的评估结果。我们的分析发现了两类不同的信号:合规性信号(例如最低技术要求)显示出强烈的人类-AI一致性和高GAI评分一致性,表明GAI可以可靠地评估这些方面;而竞争性信号(即差异化因素)也与人类评分一致,但在竞争较少的合同中,LLM的评分波动性更大。这一发现意味着GAI的一致性可能表明何时需要人类关注。从管理角度来看,这项研究暗示了一种两阶段评估方法的可行性:GAI负责筛选供应商投标的合规性,而人类则专注于竞争性评估。
3 理论背景
人工智能在供应链中的整合正在迅速扩展,人们对如何在复杂决策环境中部署AI和GAI的兴趣日益增加。大多数现有研究集中在传统AI在预测(需求规划、库存管理)或分类任务(风险类别、客户细分)中的应用(Pournader等人,2021年;Schoenherr和Speier-Pero,2015年;Waller和Fawcett,2013年)。然而,最近在LLMs方面的进展使得分析非结构化文本数据成为可能,而人类判断和专业知识在此过程中至关重要(Bansal等人,2020年;Egami等人,2022年)。新兴研究探讨了LLMs在支持涉及非结构化文本数据的决策中的作用,包括市场文案生成、法律审查和客户服务(Spring等人,2022年;Demirci等人,2024年)。在供应链环境中应用LLMs的研究尚处于起步阶段,关于如何应用GAI的例子很少(Simchi-Levi等人,2025年)。这些研究探讨了LLMs在网络设计(Li等人,2023年)、数据分析(Aghaei等人,2025年)以及一些采购活动(如合同审查)中的应用(Simchi-Levi等人,2025年)。然而,尽管采用压力不断增加(Hillcox,2025年),但目前还没有研究探讨GAI辅助的供应商选择。这一差距很重要,因为部署产生不可靠供应商评估结果的GAI系统可能导致表现不佳。在公共采购中,这些风险尤为严重,因为系统性的评估错误可能会损害公众信任。供应商评估通常是一个两阶段过程:资格评估(满足基本要求)和差异化评估(区分合格的供应商)(Jin等人,2014年;Chai和Ngai,2015年)。虽然一些供应商决策取决于成本最小化,但许多其他决策关注技术能力或合规历史等属性。这些属性通常通过文本量较大的投标文件传达,需要评估者的判断。因此,供应商投标是用于向买家传达其资格和价值的混合信号组合。
4 方法论与结果
为了探讨GAI和人类评估者在信号解释方面的差异,我们应用结构化主题建模(STM)分析了俄亥俄州的公共采购数据(Roberts等人,2014年;Schmiedel等人,2019年;Egami等人,2022年)。STM非常适合分析信号组合,因为它将每个文件视为潜在主题的混合体,反映了供应商投标如何组合多种信号类型。这种方法能够大规模识别共现信号的主题模式(Blei等人,2003年;Roberts等人,2014年)。每个文件代表一个供应商投标包,包括针对提案请求(RFPs)提交的技术和成本提案。我们的目标是研究这些信号组合的主题结构在评估过程中的变化,并评估人类-GAI评分差异是否与不同的信号模式相关。详细信息和理论依据见附录A。我们通过信息自由法案(FOIA)请求从俄亥俄州行政服务部门获得了569份采购文件,涵盖了2023年1月至2024年12月期间进行的31个IT采购项目。我们的最终数据集包括123份供应商投标包,文件页数从1页到2856页不等(平均值=143.7页,标准差=324.4页,中位数=17页)。每个RFP都包含评分标准和已完成的人类评估评分卡,我们将其作为GAI评估的基准。有关RFP和投标包的更多详细信息,请参见附录A.1。GAI评估使用了三种推理LLMs进行:OpenAI o3(OpenAI,2025年)、xAI Grok-3-Mini(xAI,2025年)和DeepSeek R1-0528(DeepSeek-AI,2025年)。这些LLMs与检索增强生成(RAG)流程集成,模拟了类似人类的评估过程。我们使用复制程序对每个投标进行了15次评估,以考虑LLM的随机性,样本大小根据随机系统的既定程序确定(Law和Kelton,1982年)。每个LLM使用评分卡模板对每个供应商投标进行评分,从而可以直接比较LLM和人类的评分。完整的工作流程细节见附录A.2。我们在STM中使用了三个定量指标和一个定性指标(完整的理论解释和推导细节见附录A.3):
- 人类-AI评分一致性(HASC):衡量每个供应商投标的人类评分和GAI评分之间一致性的标准化指标。
- LLM评分波动性(LSV):每次投标的15次评估运行中LLM内部的标准差的对数转换值。
- 市场竞争(MC):为每个项目提交投标的供应商数量。
- LLM身份(LLM_ID):表示生成评分的LLM的分类指标。
图2显示了不同模型之间的HASC分布,显示出与人类评分的中等到高度一致性。图3绘制了模型内部的LSV分布,较高的值表示每个LLM对个别供应商提案的评分变化较大(详见表1)。MC的范围是从每个项目2到8份投标(平均值=3.97,标准差=1.70,中位数=4),显示出竞争强度的变化。
所有AI模型在评分行为上与人类评估者表现出中等到高度一致性。所有AI模型在重复评估中显示出相对一致的评分行为,偶尔会出现高波动性的异常值。表1提供了人类-AI评分一致性(HASC)和LLM评分波动性(LSV)的描述性统计信息。指标 模型
N 均值 标准差 中位数 第一四分位数 第三分位数 最小值 最大值 四分位距
DeepSeek-R1-0528 102 0.81 0.11 0.81 0.72 0.90 0.50 0.99 0.18
Grok 3 Mini 102 0.80 0.12 0.81 0.71 0.90 0.48 0.98 0.19
o3 102 0.81 0.12 0.80 0.72 0.91 0.48 1.00 0.18
DeepSeek-R1-0528 123 113.0 163.0 50.6 30.3 148.0 0 1227 118.0
Grok 3 Mini 123 51.7 53.6 39.4 23.7 61.6 0 349 37.9
o3 123 72.4 140.0 43.3 31.1 64.6 0 1389 33.5
注:不同指标的样本量有所不同。某些指标需要人类和AI的评分(每个模型N=102),而其他指标则基于所有AI评分的投标进行计算(每个模型N=123)。在指定协变量后,我们估计了STM并评估了模型质量。我们通过评估平衡语义连贯性和排他性的诊断指标来选择主题数量,最终确定最佳模型包含18个主题(Roberts等人,2014年;Bischof和Airoldi,2012年)。然后,我们将主题的普遍性作为上述四个协变量的函数进行建模。虽然这种结构支持回归式的解释,但主题的普遍性是潜在的和概率性的,因此传统的模型拟合统计量(例如)不适用。相反,STM模型质量是通过特定于主题的诊断指标(连贯性和排他性)以及保留的似然性来评估的,这些是通过对变分贝叶斯推断估计的潜在变量模型的标准方法(Roberts等人,2014年)。详细的估计程序和结果见附录A.4和A.5。
4.1 结果
STM分析(见表2-4)揭示了文档级协变量如何系统地影响主题普遍性的模式。MC显示出最显著的关联(18个主题中的10个,符号混合),表明竞争投标的数量从根本上决定了存在的信号类型,某些主题在竞争激烈的项目中更为普遍(或不那么普遍)。LSV显著预测了三个主题的普遍性,表明某些主题导致了AI评估中的评分不一致性。当AI评估不一致时,主题7的普遍性更高(β=0.068,p<0.01),而主题9(β=-0.031,p<0.05)和主题17(β=-0.019,p<0.05)则表现出相反的模式。这些结果表明,某些主题反映了在AI评估中引入的更大模糊性或主观性。
表2. STM协变量对主题普遍性的影响——主题1-6
协变量 主题
1 2 3 4 5 6
-0.006 0.001 -0.003 -0.004 -0.008 0.004
(0.007) (0.006) (0.009) (0.010) (0.009)
0.000 -0.009 -0.012 0.016 0.017 -0.005
(0.011) (0.007) (0.012) (0.012) (0.012)
-0.063** 0.002 -0.096** 0.029 -0.056* 0.039
(0.024) (0.016) (0.030) (0.030) (0.026) (0.029)
-0.002 -0.003 -0.003 0.006 0.005
(0.023) (0.017) (0.026) (0.029) (0.026)
-0.002 -0.001 -0.003 0.001 0.000
(0.021) (0.016) (0.026) (0.028) (0.027)
注:括号内为标准误差。***p<0.001,**p<0.01,*p<0.05,p<0.10。
表3. STM协变量对主题普遍性的影响——主题7-12
协变量 主题
7 8 9 10 11 12
0.030 -0.008 0.001 0.005 -0.021
(0.017) (0.013) (0.010) (0.009)
0.068** 0.002 -0.031* -0.015
-0.022 (0.013) (0.014) (0.013)
-0.098* 0.105** -0.063* -0.020
0.044 0.053 (0.049)
(0.049) (0.032) (0.030) (0.051)
-0.008 -0.004 -0.004 0.002
(0.047) (0.029) (0.030) (0.045)
注:括号内为标准误差。***p<0.001,**p<0.01,*p<0.05,p<0.10。
表4. STM协变量对主题普遍性的影响——主题13-18
协变量 主题
13 14 15 16 17 18
-0.008 0.009 -0.014 0.021
(0.008) (0.012) (0.010) (0.015)
0.000 0.006 -0.019* -0.003
(0.010) (0.016) (0.014) (0.017)
-0.090*** -0.139*** 0.140***
0.029 0.063** (0.024) (0.037)
(0.023) (0.033) (0.029) (0.022)
-0.001 0.002 -0.001 -0.005
(0.023) (0.033) (0.028) (0.036)
(0.021) (0.022) (0.021)
注:括号内为标准误差。***p<0.001,**p<0.01,*p<0.05,p<0.10。
HASC与主题17的普遍性显著相关(β=0.020,p<0.011),但对主题7的相关性仅具有边际显著性(β=-0.030,p<0.10)。这些结果表明,当这些主题出现在投标中时,人类和AI评估者更有可能得出相似的评分。其他研究(如Pournader等人,2021年;Schoenherr和Speier-Pero,2015年)探讨了AI如何通过预测和需求规划等预测任务来增强供应商选择过程,但它们通常假设改进是统一的,而没有区分任务类型。而我们的研究表明,评估质量受到信号组成的影响。因此,这项研究支持一种混合的人类-GAI评估方法,类似于两阶段的供应商评估策略(Jin等人,2014年;Chai和Ngai,2015年)。这种方法预计会保留人类在竞争性差异化方面的关注,因为专家判断最具价值。LLM评分的波动性可以作为这种重新分配的实际诊断工具:在多次AI评估中得分波动较大的投标表明需要人类监督。我们还发现市场竞争会影响信号组合。某些信号会随着投标者数量的增加而变化,表明IT合同的可取性或资格要求存在变异性。这一发现表明,采购团队应根据市场竞争情况调整GAI的部署,因为市场结构决定了评估者遇到的信号组合。
5.1 理论意义
这项研究为供应链、AI和信号理论文献做出了贡献。首先,我们将信号组合的概念扩展到人类注意力有限的复杂信息环境中,以识别个别信号之间的相互作用。虽然之前的研究考察了信号对接收者的影响(Steigenberger和Wilhelm,2018年),但供应商的投标包可能包含数千页内容,其中包含大量相互关联的信号。因此,众多信号争夺有限的人类注意力。我们展示了合规性和竞争性信号是如何从与人类-GAI对齐和GAI评分一致性相关的潜在主题模式中产生的。此外,我们比较了不同类型的接收者如何处理相同的信号组合,这表明信号组合理论也应考虑接收者的异质性。因此,我们提出:
**命题1**:在评估合规性信号时,人类-GAI的对齐度将高于评估竞争性差异化信号时。其次,GAI评分的波动性在存在合规性信号时降低,但在存在竞争性差异化信号时增加。这为何时需要人类监督提供了一个可测量的诊断标准,可以作为采购环境中的“矿井中的金丝雀”。因此:
**命题2**:在评估合规性信号时,GAI评分的一致性将高于评估竞争性差异化信号时。最后,我们发现市场竞争会影响信号组合的构成。随着投标者数量的增加,竞争性信号(主题7)的普遍性降低。这种模式有两种解释:供应商可能在早期阶段优先考虑标准化合规性,而在后期评估中保留差异化;或者竞争较少的招标可能反映了合格供应商较少,从而减少了强调基础能力的压力,增加了对增值差异化的关注。这两种解释都表明,竞争强度是决定信号组合的因素。因此:
**命题3**:随着市场竞争的增加,供应商投标中的竞争性差异化信号将变得不那么普遍。这项研究将信号理论应用于实际应用(Craighead等人,2019年),从而提供了关于如何将GAI整合到供应商评估过程中的见解,考虑到GAI和人类的独特互补优势。我们发现,供应商选择的结果取决于评估者能力和信号组合的匹配程度。这一发现引发了关于在AI增强型采购系统中部署人类专业知识的战略问题。
5.2 管理意义
这项研究为采购团队和供应商提供了指导。结果表明,采用两阶段资格-差异化方法进行供应商评估是可行的。表5将这一框架与我们的信号模型(图1)联系起来:供应商是发送信号的一方(信号组合),买家是接收信号的一方。使合规内容适合GAI评估的信号特征也使其适合GAI辅助的准备工作;需要人类解释判断的竞争性差异化信号同样受益于人类专业知识。
5.2 管理意义
这项研究为采购团队和供应商提供了指导。结果表明,采用两阶段资格-差异化方法进行供应商评估是可行的。表5将这一框架与我们的信号模型联系起来:买家制定策略,供应商准备投标文件。当买家实施GAI辅助的供应商评估时,第一阶段侧重于合规性和技术要求,此时GAI显示出高一致性;第二阶段强调竞争性差异化,此时人类判断最具价值。采购团队应根据竞争强度调整GAI的部署,因为竞争激烈的招标通常包含更多适合自动化的合规内容。在组织层面,公司不应将GAI视为人类评估者的替代品,而应将其视为一种补充系统,重新分配注意力和专业知识。同样,供应商可以使用GAI来自我评估其投标是否满足基本合规要求,但不应依赖GAI来评估竞争性差异化内容的说服力。我们的发现明确了哪些投标概况在GAI辅助的筛选中需要更多的人类关注。强烈满足合规要求但竞争差异化有限的提案适合自动化资格评估,但受益于人类审查,以评估战略契合度、实施风险或标准化标准未涵盖的价值来源。相反,如果主要通过GAI进行评估,强调竞争差异化而仅少量关注合规性的投标则风险更大,因为有说服力的叙述或过去的绩效声明可能会掩盖资格或执行问题。在这两种情况下,将人类注意力重新分配给这些概况可以提高混合人类-GAI评估系统的有效性。附录A.2报告了一个详细的GAI流程,组织可以复制。然而,管理者应建立治理程序,以规范人类-GAI的工作流程,包括结构化的交接协议、基于GAI波动性的升级标准,以及监控人类-GAI对齐情况的校准过程。组织还应实施模型不可知的平台,以便在架构演变时切换GAI提供商,建立定期重新校准的参考评估集,并设计将高波动性评估路由给人类审查员的流程。最后,虽然我们的发现明确了GAI在投标评估中有效采用的边界条件,但我们也指出了买家和供应商需要注意的三个关键脆弱性。首先,GAI系统仍然容易受到幻觉和输出错误的影响。投标评估的后果最终由人类决策者负责,这意味着人类监督必须保持中心地位。其次,我们的假设买家和供应商的行为是良性的。然而,机会主义方可能会通过例如对抗性格式策略(包括白色文本或关键词填充)来操纵GAI评估。最后,GAI评估的可靠性和公平性受到用于训练模型的数据的影响。嵌入在训练语料库中的偏见可能会产生不公平的结果,特别是在评估与性别或语言风格等属性交叉时。