综述:《巨大的鸿沟:一项关于人工智能驱动与传统产品待办事项优先级排序之间差距的实证研究》

时间:2026年5月16日
来源:Array

编辑推荐:

米洛什·贝尔切维奇|德拉甘·帕穆查尔 贝尔格莱德大学,组织科学学院,塞尔维亚贝尔格莱德 **摘要** 产品待办事项的优先级排序是软件开发中的关键步骤,通常由产品经理(PM)、产品负责人(PO)或其他产品专业人士执行。实践中使用的传统优先级排序方法存在各种挑战,如偏见

广告
   X   

米洛什·贝尔切维奇|德拉甘·帕穆查尔
贝尔格莱德大学,组织科学学院,塞尔维亚贝尔格莱德

**摘要**
产品待办事项的优先级排序是软件开发中的关键步骤,通常由产品经理(PM)、产品负责人(PO)或其他产品专业人士执行。实践中使用的传统优先级排序方法存在各种挑战,如偏见或效率低下。尽管学术界开发了许多替代方法,但这些方法在行业实践中仍很少被采用。这可能是由于缺乏宣传和科学交流、技术难题或惯性所致。本研究通过一种混合方法来解决这一差距:系统文献回顾(SLR)和调查。SLR揭示了多种优先级排序方法,并将其分为九个方法论类别。对307名产品专业人士的调查中,有287人因近期优先级排序经验符合条件而纳入最终分析,结果显示了传统方法以及基于人工智能/机器学习(AI/ML)的方法在满意度和使用水平方面的关键趋势。MoSCoW、RICE和WSJF等传统方法最为常见,但满意度各不相同。只有7.3%的受访者经常使用AI和ML方法;然而,63.4%的受访者表示未来愿意尝试这些方法,这表明它们具有潜在的采用前景。本研究呼吁加强学术创新与行业实践之间的联系,其发现为理解待办事项优先级排序的趋势提供了实证基础。

**1. 引言**
在现代软件开发中,产品待办事项列表包含了产品团队所需的各种任务,如史诗级项目、用户故事、功能需求、漏洞等(Dalton, 2019)。更新、完善和改进产品待办事项列表的过程称为“待办事项整理”。待办事项优先级排序作为整理的一部分,旨在在最小化开发工作的同时最大化客户满意度。这使其成为一个多目标优化问题,通常被称为“下一个发布问题”(NRP)。负责优先级排序的专业人士通常是产品经理(PM)、业务分析师(BA)或产品负责人(PO)。实践中最常用的产品待办事项优先级排序方法是MoSCoW、RICE和WSJF等传统方法,但这些方法在效率、可扩展性、适应性和一致性方面面临显著挑战。它们严重依赖人类判断,这可能导致偏见、不一致性以及随着待办事项列表增长而产生的决策疲劳。学术文献探讨了许多新颖和先进的优先级排序方法,如基于机器学习(ML)、人工智能(AI)、自然语言处理(NLP)、大型语言模型(LLM)等方法。然而,这些方法在行业中的实际应用仍然非常有限。这可能是由于学术研究未能广泛传播给产品管理专业人士,技术要求较高,以及产品专业人士普遍缺乏专业知识。因此,产品待办事项优先级排序往往仍然是一个基于启发式的、临时性的过程,而不是系统优化的过程。

**下载:**
- 下载高分辨率图片(149KB)
- 下载全尺寸图片

**图1. 混合研究设计的方法论工作流程,包括初始SLR、调查设计和实施、最终SLR以及后续的数据整合。**

**下载:**
- 下载高分辨率图片(774KB)
- 下载全尺寸图片

**图2. Prisma 2020流程图(Page等人,2021)**,展示了从8,745条初始记录中筛选出纳入SLR的50项研究的过程。
*前100条搜索结果。总结果未知,可能达到数万条。**
**搜索结果来自前5页。总结果约为92,300条,数量庞大,难以全部筛选。**
*****排除非英语文章,以及2015年之前发表的文章,或标题中未包含“优先级排序”、“需求”或“待办事项”的文章。**
******如果某条记录实际上并不描述新的优先级排序方法,则将其排除。**
*******在之前的步骤中,共有16条2015年之前发表的文章未被排除。**

**下载:**
- 下载高分辨率图片(193KB)
- 下载全尺寸图片

**图3. 符合条件的调查受访者中的专业角色分布(n = 287)。**

**下载:**
- 下载高分辨率图片(232KB)
- 下载全尺寸图片

**图4. 研究中涉及的公司规模分布,从微型企业到大型企业(n = 287)。**

**下载:**
- 下载高分辨率图片(237KB)
- 下载全尺寸图片

**图5. 根据产品管理经验年限划分的受访者资历分布(n = 287)。**

**下载:**
- 下载高分辨率图片(208KB)
- 下载全尺寸图片

**图6. 符合条件的受访者中基于AI/ML的优先级排序方法的当前采用率(n = 287),按使用频率从不使用到频繁使用划分,还包括未来尝试的意愿。**

**下载:**
- 下载高分辨率图片(189KB)
- 下载全尺寸图片

**图7. 未来在待办事项优先级排序中采用AI/ML方法的可能性,采用5点量表进行衡量(n = 287)。**

**下载:**
- 下载高分辨率图片(190KB)
- 下载全尺寸图片

**图8. 符合条件的受访者对传统优先级排序方法的比较使用率(n = 287)。**
百分比反映了受访者在过去12个月内使用过该方法的情况。

**下载:**
- 下载高分辨率图片(255KB)
- 下载全尺寸图片

**图9. 根据受访者资历分类的AI/ML方法的采用情况(n = 287)。**
通过卡方检验(χ2 = 13.33, df = 6, p = 0.03, V = 0.15)发现显著的人口统计差异。

**在新型方法中,基于AI/ML的方法尤其值得注意。**
然而,关于这些方法的一些重要问题仍未得到解答:在实际应用中,AI和ML方法是否优于传统方法?产品和开发团队是否已经采用了它们?他们是否具备适当的条件来采用这些方法?本研究通过一项针对307名产品专业人士的国际调查来探讨这些问题。这些发现是理解实际产品待办事项优先级排序趋势的首个大规模实证基础。

**1.1. 本研究动机**
科学进展似乎与行业趋势脱节,新型优先级排序方法的采用率仍然很低。本研究的目的是弥合这一差距,通过SLR提供科学的新型优先级排序方法的清晰图景,并通过调查了解307名产品专业人士的实际使用情况。研究结果为进一步的科学研究和这些方法在实践中的应用奠定了坚实基础。

**1.2. 研究差距与问题**
许多研究侧重于介绍新型优先级排序方法,但它们的实际采用情况和有效性尚未得到记录。除了某些案例研究和实验外,似乎没有关于这些方法在现实世界中的使用情况和有效性的研究。本研究通过SLR和调查来解决这一差距。SLR将新型方法分为九个方法论类别。调查重点关注这些方法在实践中的采用情况和满意度。结果显示,虽然科学文献中存在许多新型优先级排序方法,但在实际应用中采用率很低。传统方法如MoSCoW、RICE和WSJF最为常用。相比之下,30.6%的受访者使用了基于AI/ML的方法,但只有7.3%的受访者频繁使用它们。本研究的目的是更好地理解这些方法(特别是基于AI/ML的方法),并推动其在实践中的采用,从而弥合学术创新与行业实践之间的差距。

**1.3. 贡献**
本研究通过结合系统文献回顾和大规模国际调查,弥合了现代软件开发中优先级排序理论与行业应用之间的差距。它提供了以下贡献:
**C1:**大规模实证研究,探讨新型优先级排序方法在行业中的采用情况
据作者所知,这是唯一一项关于当前实际行业采用率和趋势的大规模实证研究(n = 287名符合条件的受访者;N = 307)。
**C2:**方法论分类
本研究将新型待办事项优先级排序方法分为九个方法论类别,包括基于LLM的方法和受自然启发的算法等新兴领域。
**C3:**人口统计采用情况、洞察和障碍
调查结果揭示了AI在产品待办事项优先级排序中的显著采用趋势,以及技术和管理实施障碍。
**C4:**可操作的管理建议
研究提出了具体的策略来弥合“巨大差距”,如员工培训、解决惯性问题以及改进工具集成和选择。

**1.4. 研究组织**
本研究由六个主要部分组成,后面附有支持性文档和附录。第一部分是引言。第二部分描述了方法论,即结合系统文献回顾(SLR)和调查的混合方法。第三部分展示了SLR的发现,并将当前的技术水平分为九个方法论类别。第四部分呈现了关键调查结果,揭示了学术理论与行业实践之间的脱节,并提供了可操作的管理建议。第六部分作为结论,总结了研究结果并提出了未来研究的方向。

**2. 方法论**
本研究采用混合方法设计,以弥合学术创新与行业实践之间的差距。2025年1月进行了初步的探索性文献回顾,以确定方法论框架并识别研究差距,直接指导调查的设计。在2025年1月31日至2月28日期间进行了调查,随后在2026年1月进行了最终SLR,以确保51份研究报告的分类是最新和全面的。在讨论部分,通过对比SLR中发现的新科学框架与287名符合条件的受访者报告的实证采用率和障碍,对这些数据进行了整合。这种整合有助于分析为什么尽管新型方法在理论上具有优势,但在实际产品待办事项优先级排序中仍很少被采用。

**2.1. SLR方法论**
初步的探索性SLR于2025年1月进行,以指导调查设计。2026年1月,在Scopus、Web of Science Core、Google Scholar和ResearchGate等多个科学数据库中进行了最终SLR,由一名独立评审员完成。搜索关键词为“requirements prioritization”和“product backlog prioritization”,重点关注2015年至2026年间的文献。数据筛选采用手动方式,但在Web of Science Core数据库中使用了LLM辅助的相关性筛选(由于记录数量庞大,共421条)。该案例中使用的基础模型是Google的Gemini。

**2.1.1. 研究问题和搜索策略**
SLR由三个核心研究问题(RQs)指导:
RQ1:近期科学研究中开发了哪些新型优先级排序框架和方法?
RQ2:如何将这些方法分类为一个连贯的方法论体系?
RQ3:这些方法在行业中的实际采用情况如何?
回顾在2026年1月针对Scopus、Web of Science Core、Google Scholar和ResearchGate数据库进行。搜索使用了以下关键词:“requirements prioritization”或“product backlog prioritization”。

**2.1.2. 纳入/排除和筛选协议**
方法论针对2015年至2026年间发表的研究。论文的纳入或排除基于以下标准:
**纳入标准:**
- 用英语撰写的原创研究,描述新型优先级排序方法;
- 标题中包含“requirement”、“requirements”或“backlog”的论文。
**排除标准:**
- 非英语论文;
- 2015年之前发表的论文;
- 未描述新型优先级排序方法的论文。
筛选由一名独立评审员完成。由于Web of Science Core数据库中的记录数量庞大(421条),使用了Google开发的Gemini系列中的LLM来根据标题相关性进行筛选。Google未公开具体使用的模型版本。在421条记录中,有115条被选中进行进一步手动审查(306条被排除)。使用的提示指导LLM根据标题选择与产品待办事项优先级排序或需求优先级排序相关的文章,并提供了正面和负面的示例。完整提示见附录F,LLM仅用于根据标题进行相关性排序(二元:相关/不相关)。为了检查假阴性结果,作者手动对排除的记录进行了随机10%的审计,并且100%的记录都得到了对齐。在审查和选择相关文档后,我们可以定义九种用于新产品待办事项优先级排序的新方法论家族,这些方法在文献部分(2)中有详细描述。大多数研究侧重于介绍新的产品待办事项优先级排序模型和方法,而不是研究这些模型和方法的采用程度。传统的优先级排序方法似乎没有受到足够的科学关注。本研究旨在解决这些不足。

2.2. 调查方法
该调查是基于2025年1月进行的初步系统文献回顾(SLR)的发现以及关于新优先级排序框架实际采用情况的识别研究空白而设计的。调查的目的是评估1)传统优先级排序方法的采用情况和感知价值,2)基于AI/ML的优先级排序方法的采用情况和感知价值,以及3)对未来可能采用基于AI/ML的方法的态度。

2.2.1. 目标人群和抽样框架
目标人群是积极参与产品待办事项优先级排序的专业人士,如产品经理、产品负责人、业务分析师等。
抽样框架包括以下数字社区中的成员:
- LinkedIn:作者的联系人(约4,000名成员)以及LinkedIn群组“Creative Product Managers”、“Leading Product Management”和“The Accidental Product Manager”(合计约194,000名成员)。
- Slack社区“Mind The Product”(约72,000名成员)、“Product School”(约140,000名成员)和“Serbian Product Community”(约400名成员)。
- Toptal内部群组:一个经过筛选的约1,200名产品经理的网络。
- Reddit社区r/productmgmt(每周约1,400名访问者)。
该研究使用非概率便利抽样方法从上述数字社区中抽取样本。一个强制性的资格问题将最终样本限制在“在过去12个月内积极参与产品待办事项优先级排序”的受访者中。在总共307名受访者中,有287名符合最终分析的条件(6.5%,即20名受访者被排除)。

2.2.2. 构念清晰度(“AI/ML工具”)
“AI/ML工具”这一构念被有意设计得较为宽泛,以便捕捉“AI/ML工具”在实际应用中的模糊含义——从常见的聊天界面(如ChatGPT或Gemini)到专门的软件。术语“AI/ML工具”、“基于AI/ML的方法”、“AI辅助工具”和“机器辅助优先级排序”可以互换使用。

2.2.3. 调查设计和实施
调查问题被分为5个部分:(1)人口统计和角色,(2)活跃的优先级排序经验(资格问题),(3)当前方法的使用情况,(4)感知价值/满意度,以及(5)对未来AI采用的态度。问题都是封闭式的,并采用1到5的Likert量表。调查于2025年1月31日至2月28日期间通过Google Forms进行。为了防止重复提交,每个Google账户只能提交一次回答。没有向参与者提供任何财务激励。

2.2.4. 数据分析计划
数据分析使用Python(Pandas、NumPy、Matplotlib和Seaborn库)进行。鉴于这项研究的创新性质,旨在为产品待办事项优先级排序建立实证基线,所有推断性和非参数测试都被视为探索性的。主要目标是识别专业领域内的显著趋势和关联,以指导未来的研究,而不是作为决定性的确认性研究。分析计划如下:
- 描述性统计:总结受访者的基本信息和优先级排序方法。
- 推断性测试:使用Pearson的卡方(χ2)检验来检查不同分类变量之间的关系。
- 非参数测试:由于满意度和可能性数据是序数的,因此使用Kruskal-Wallis H检验来确定组间的显著差异。
- 效果大小和显著性:使用Cramér的V值来计算卡方检验的效果大小,使用ε2值来计算Kruskal-Wallis检验的效果大小,以解释结果的实用意义。显著性阈值设定为α = 0.05。

3. 系统文献回顾 – SLR(研究结果)
本次回顾的目的是全面识别和分类科学研究中提出的新产品待办事项优先级排序方法。为了确保文档的完整性和透明度,回顾及其报告遵循PRISMA 2020声明指南。方法论在SLR方法论部分(3.1)中有进一步描述。

3.1. 新方法的分类
共有50项研究(包含51份研究报告)被认定为符合描述新产品待办事项优先级排序框架的标准。如下表(及附录E中的完整版本)所示,这些方法根据其算法方法或理论基础被归纳为九个方法论家族:基于聚类的方法、基于NLP的方法、基于LLM的方法、基于AI/ML的方法、受自然启发的方法、基于遗传算法(GA)的方法、半自动化方法以及其他混合方法。

3.2.1. 基于聚类的方法
基于聚类的方法通过根据相似性将项目分组来改进复杂和大型产品待办事项的处理。这些方法通常利用K-means和K-medoids等算法来提高需求优先级排序和组织的效率与准确性,以及敏捷产品开发中的其他关键流程(如需求收集)。尽管取得了一定的成功,但大多数作者指出需要进一步发展才能获得更好的结果,例如实施欧几里得距离等相似性度量(Kumar等人,2023年)。以下研究关注基于聚类的方法。作者希望未来能够开发出进化算法和聚类算法的混合体。Kumar等人(2023年)提出了一种利用k-means算法对产品待办事项进行聚类的方法,通过相似性度量对相似的故事进行分组。测试结果表明,增加k的值可以提高结果簇的质量。为了确保平衡的聚类,该方法采用了TF-IDF向量化,这比计数向量化更有效。Sharma和Kumar(2023年)专注于使用聚类算法消除重复项。该论文还提供了将所提出的算法整合到敏捷发布计划中的建议。Yang等人(2023年)提出了一种使用NLP自动聚类用户故事的新方法。该方法涉及分析和识别用户故事元模型中的关键结构,从而自动生成用户故事聚类的基础。Kumar等人(2023年)比较了K-means和K-medoids聚类算法,分析结果显示K-means算法在所有簇大小上的轮廓系数始终高于K-medoids算法。这表明K-means在敏捷工程中的用户故事聚类方面表现更好。

3.2.2. 基于NLP的方法
基于NLP的方法指的是使用自然语言处理来分析、排序和排列需求。NLP算法被用来从文本需求描述中提取有意义的见解,从而实现基于相关性、依赖性、影响或利益相关者重要性等因素的自动化或半自动化优先级排序。在一些先前的研究中,NLP方法与其他方法结合使用,例如将TF-IDF向量化与聚类算法结合(Kumar等人,2022年)。然而,以下研究将NLP作为主要方法(而不仅仅是过程的补充),并被认定为基于NLP的需求优先级排序的关键示例。Izhar等人(2024年)引入了RAR-P(基于规则的自动化需求优先级排序),该方法使用文本预处理、分词、向量化、余弦相似性和K-Means聚类来根据语义重要性对用户需求进行优先级排序。通过自动化决策,RAR-P提高了与利益相关者需求的匹配度,克服了传统方法的局限性。Ko等人(2024年)提出了一种方法,该方法利用之前的变更订单来评估项目的影响,并使用NLP根据最相关的工作项目自动对需求进行分类。作者通过案例研究验证了所提方法的可行性。Shafiq等人(2021年)引入了NLP4IP,这是一种半自动方法,考虑了现有产品待办事项(PBI)的优先级和努力属性,并为新添加或修改的PBI开发了推荐模型。McZara等人(2015年)提出了一种名为SNIPR的方法,并将其与加权求和模型进行了比较。SNIPR利用NLP和SMT(满足性模理论)求解器。

3.2.3. 基于LLM的方法
基于LLM的方法基于BERT(双向编码器表示)或广受欢迎的GPT(生成预训练变换器)等技术。这项技术最近因ChatGPT等工具而变得流行。在51份研究报告中,只有2份专门关注基于LLM的优先级排序(见表2中的LLM相关行)。Sami等人(2025年)探索了在软件开发相关活动中使用LLM:质量评估(QA)、生成产品待办事项和优先级排序。为此,他们设计了一个包含不同角色(如产品负责人(PO)、质量保证(QA)或开发者的多代理系统。这些角色的合作表明LLM可以有效用于待办事项管理。在研究中,他们使用了OpenAI的基础模型GPT-3.5和GPT-4o。在之前的预印本中,作者评估了更多模型的性能,如LLaMA3-70和Mixtral-8B(Sami等人,2024年)。

表1. SLR涵盖的每个数据库的确切查询字符串
数据库 | 确切查询字符串 | 搜索字段 | 过滤器/限制
Scopus | (TITLE-ABS-KEY ( requirements prioritization ) OR TITLE-ABS-KEY ( product backlog prioritization ) ) AND PUBYEAR > 2014 AND PUBYEAR < 2027 | 标题、摘要、关键词 | 年份:2015–2026;语言:英语
Web of Science (Core) | ALL=("requirements prioritization" OR "product backlog prioritization") AND PY=(2015-2026) AND LA=English | 所有年份:2015–2026;语言:英语
Google Scholar | "requirements prioritization" OR "product backlog prioritization" | 年份:2015–2026
ResearchGate | "requirements+prioritization"+OR+"product+backlog+prioritization"&type=publication&subfilter%5B publicationType%5D=article%2FliteratureReview%2Fthesis%2Fbook%2FinProceedings%2Fdataset%2Fpreprint%2Fpresentation%2Fposter&subfilter%5BstartYear%5D=2015&subfilter%5BendYear%5D=2026 | 年份:2015–2026

表2. SLR结果的简要总结表 – 9个方法论家族。完整表格见附录E
方法论家族 | 描述 | 研究数量 | 参考文献
基于聚类的 | 将相似的待办事项分组以提高大型数据集的效率 | 4 | Kumar等人(2022年)、Kumar等人(2023年)、Sharma和Kumar(2023年)、Yang等人(2023年)
基于NLP的 | 使用自然语言处理分析、排序和排列需求 | 4 | Izhar等人(2024年)、McZara等人(2015年)、Ko等人(2024年)、Shafiq等人(2021年)
基于LLM的 | 基于BERT或GPT等大型语言模型和技术 | 2 | Sami等人(2024年)、Sami等人(2025年)
基于AI/ML的 | 其他机器学习(ML)和人工智能(AI)方法 | 1 | Somohano-Murrieta等人
受自然启发的 | 源自自然系统的不同生物过程和集体行为 | 2 | Alrezaamiri等人(2020年)、Ibrahim Alfassam等人(2025年)
基于模糊逻辑的 | 基于模糊逻辑 | 15 | Achimugu等人(2015年)、Ahmad等人(2017年)、Devadas(2019年)、Gerogiannis和Tzikas(2017年)
基于遗传算法的 | 模拟自然选择以迭代演化解决方案 | 2 | Ahuja等人(2018年)、Marghny等人(2017年)
半自动化的 | 结合自动化和人工输入以提高效率 | 4 | Asif等人(2017年)、Chua等人(2022年)、Gupta和Gupta(2022年)、Shao等人(2017年)
混合方法和其他 | 混合多种方法和其他未分类的方法 | 17 | Achimugu等人(2015年)、Aljohani等人(2025年)、Babar等人(2015年)、Brahmam等人(2024年)

3.2.4. 基于AI/ML的方法
大多数基于机器学习(ML)的方法文章发表于2015年之前,因此被排除在SLR之外。Somohano-Murrieta等人(2021年)提出了一种更简单的AHP版本用于需求优先级排序。他们的方法通过来自开发软件系统的现有数据集得到了验证,并被证明更加准确。

3.2.5. 受自然启发的方法
受自然启发的优先级排序方法受到自然系统中不同生物过程和集体行为的启发。以下研究提供了关于不同自然启发优先级排序方法的见解,特别是利用群体智能的蜜蜂群体优化(ACO)算法。Alrezaamiri等人(2020年)将待办事项优先级排序问题表述为一个受限的多目标优化(MOO)问题,并引入了一个围绕主从模型构建的并行算法。使用多目标问题标准,他们将他们的方法与几种元启发式算法进行了比较。Ibrahim Alfassam等人(2025年)引入了Black Hole Algorithm(BHA)用于需求优先级排序,并将其与许多最先进的自然启发算法(如ACO、GAO、GWO等)进行了比较。使用三个真实世界数据集进行评估,BHA的表现始终优于竞争技术。

3.2.6. 基于模糊逻辑的方法
基于模糊逻辑的优先级排序方法在不断变化和主观决策场景中特别有帮助。基于模糊逻辑的方法代表了最成熟的研究领域,在更多研究中出现(见表2中的基于模糊逻辑的条目)。这远远超过了SLR涵盖的任何其他方法。以下研究探讨了模糊逻辑在待办事项优先级排序中的应用,强调了其在平衡多个标准和提高优先级排序准确性和效率方面的作用。Hassan等人(2022年)使用社交网络识别和分析主要利益相关者,并结合模糊方法对大量收集的需求进行优先级排序。Gerogiannis等人(2024年)专注于基于利益相关者满意度和不满的中等到大型软件项目需求优先级排序,使用了Krasimir Atanassov提出的模糊集理论扩展。Gerogiannis和Tzikas(2017)提出了一种方法,该方法应用了基于群体的模糊多标准技术,并结合了多个利益相关者提供的语言评估。Jawale等人(2017)使用了现有的FHCV——模糊层次累积投票技术,并添加了一个自适应机制,开发出了一种新的方法“自适应模糊层次累积投票”(AFCHV),其结果优于FHCV。Devadas(2019)对模糊需求优先级排序的文献进行了综述。Achimugu等人(2015)引入了“模糊多标准决策”(FMCDM)方法。Mishra等人(2016)提出了一种多层次的基于质量的需求 elicitation 程序,该程序利用模糊规则,并结合了需求质量的概念来系统地构建需求。Gulzar等人(2017)设计了一个框架,通过将冲突的可用性需求属性映射到用户的语言评估上来确定优先级,该框架使用了模糊逻辑。基于最常被引用的优先级排序方法之一MoSCoW,Ahmad等人(2017)开发了一种基于模糊的变体方法Fuzzy_MoSCoW。Sadia和Faisal(2019)提出了一种需求优先级排序技术,该技术承认需要根据基于模糊的方法进行持续的重排序,并利用语言输入来进行优先级排序。Mougouei等人(2019)引入了优先级和部分选择(PAPS)框架,这是一种用于安全需求优先级排序的基于模糊的框架,该框架通过在可行的情况下部分满足需求来减少被忽略的需求。Martinis等人(2022)提出了一种基于模糊集扩展的方法,该方法能够表达利益相关者的正面、负面和中立评估,即直觉模糊集(IFSs)。此外,Tzimos等人(2022)也提出并在推荐系统中测试了IFS。Mougouei等人(2021)引入了优先级和部分选择(PAPS)框架,用于减少从理想子集中排除具有正面价值的需求的可能性。最后,模糊集也被用来根据重要性对利益相关者进行优先级排序(Sadiq, 2017)。

3.2.7 基于遗传算法的方法
基于遗传算法(GA)的优先级排序方法模拟自然选择,迭代演化潜在解决方案。优先级排序基于考虑成本、利益相关者偏好、可行性和系统约束的适应度函数进行优化。因此,GA提供了一种结构化但灵活的方法来处理复杂的需求优先级排序问题。尽管基于GA的方法由于能够动态适应不同的优先级排序标准而受到关注,但该领域的研究似乎并没有取得太大进展。研究主要集中在探索混合技术和改进方法上。Marghny等人(2017)将元启发式技术与修改后的多目标函数结合使用。他们将待办事项优先级排序建模为一个多目标优化问题,有两个关键目标:最小化总体系统开发成本和最大化总体客户满意度。遗传算法被调整以解决这一问题的实际案例,并在两个真实数据集上进行了测试。案例研究的结果证明了所提出的多目标方法的有效性。在公开可用的数据集上的实验表明,改进后的GA优于学术文献中之前发表的相关算法。Ahuja等人(2018)引入了一种利用基于最小二乘法的随机GA来改进需求优先级排序的新技术。在这种方法中,随着数据点数量的增加,“距离”会略微增加。该过程可以通过仔细研究少数选定的起始数据排列(部分顺序)或随机选择起始数据来开始。

3.2.8 半自动化方法
半自动化方法结合了自动化和人工输入,以提高效率和准确性。下面列出了相关的工作。Shao等人(2017)引入了DRank方法,该方法利用RankBoost和加权PageRank算法来考虑利益相关者的输入和需求依赖性。Gupta和Gupta(2022)引入了一种基于语言值、执行前后(EBA)关系和机器学习的方法。DRank方法和Gupta和Gupta的方法都优于分析层次过程(AHP)。Chua等人(2022)引入了SARiP,这是一种基于分类树和排序算法的半自动化需求优先级排序框架。Asif等人(2017)提出了SAFFRON——软件需求优先级排序的半自动化框架。SAFFRON预测利益相关者的评分,以减少交互,并确定最有可能对给定产品需求进行评分的利益相关者(基于新需求和历史需求之间的相似性)。该方法在真实世界的数据集(RALIC)上进行了测试。

3.2.9 混合方法和其他方法
本节涵盖了关于混合方法和其他方法的关键来源。许多作者在2020年及以后的文章中使用了不同的方法组合。模糊逻辑、自然语言处理(包括OpenAI的GPT-4或BERT等大型语言模型)和分析层次过程(AHP)被广泛使用和描述。Aljohani等人(2025)结合了大型语言模型和模糊最佳-最差方法(FBWM),研究结果表明该方法在反映专家判断方面具有高可靠性。Yaseen等人(2025)实施了结合生成树方法的AHP,以系统地优先排序需求并减少相互依赖性。Brahmam等人(2024)结合了基于多数投票的目标优先级排序(MVGB)和垂直二分搜索技术,按重要性对需求进行排序。Achimugu等人(2015)开发了一种混合算法,以弥合利益相关者术语和需求排名之间的差距。Kaleem等人(2024)结合了改进的AHP和高级分组模型,消除了传统分组方法的主观性特征,更适合处理更大的需求集。Radwan等人(2025)引入了SAPC——智能敏捷优先级和聚类方法,这是一种基于AI的方法,通过利用BERT嵌入、自然语言处理、优化技术和基于图的依赖性建模来提高优先级排序。Hudda(2025)研究了不同多标准决策分析(MCDA)方法在基于项目权重和努力程度的优先级排序中的适用性,其中权重是使用MCDA方法分配的。Yaseen等人(2025)提出了一种结合图和K-means聚类的方法:有向图捕获了所有来自功能需求(FR)集的依赖性,然后使用聚类技术对需求进行优先级排序,以减少比较次数。Kaplan等人(2025)通过实施Shifting Bottleneck元启发式算法,实现了冲刺内产品待办事项(PBI)优先级排序速度提高了8.6%,有效识别和解决了瓶颈问题。Sadiq和Devi(2022)提出了一种基于粗糙集理论的方法,以处理基于模糊集的方法中存在的主观性问题。Hassan等人(2023)结合了机器学习和模糊FMEA——故障模式和效应分析,以实现建筑项目合同需求的自动化优先级排序。Franceschini等人(2015)使用基于广义Yager算法的方法来优先排序客户需求。Babar等人(2015)引入了一个名为Priority Handler的专家系统,用于需求优先级排序,该方法基于基于价值的智能需求优先级排序技术、神经网络和AHP。神经网络用于预测需求的价值,而AHP应用于优先级排序的需求组,提高了解决方案的可扩展性。Misaghain等人(2019)提出了一种混合方法,该方法利用张量概念(考虑需求依赖性对优先级排序价值的影响)、模糊图的代数结构(建模需求依赖性和它们的强度),以及基于模糊的加权PageRank算法(确定最终的依赖强度)。Cañizares Galarza等人(2021)描述了一种中立TOPSIS——基于与理想解决方案相似性的排序偏好方法,该方法处理了人类决策中的不确定性和不确定性,并通过案例研究证明了其有效性。Sadiq等人(2022)实现了一种基于线性尺度转换的模糊TOPSIS方法,用于基于三角模糊数对模糊决策矩阵进行建模。Nazim等人(2022)系统地比较了模糊AHP和模糊TOPSIS方法在软件需求优先级排序中的应用。最后,Saxena等人(2025)引入了另一种与TOPSIS相关的方法,即模糊TOPSIS和模糊AHP的混合方法。

4. 结果(调查)
在307名受访者中,有287人(93.48%)在过去12个月内参与了产品待办事项的优先级排序。大多数受访者的职位是“产品经理”(53.4%),其次是“产品负责人”(9.4%)、“产品主管”(8.5%)和“产品顾问”(7.8%)以及“业务分析师”(2.6%)。18.2%的受访者自称为具有“其他”角色,如“项目经理”、“首席产品官”、“产品总监”、“产品教练”等,其中大多数个别角色的比例不到1%,少数受访者占2%或3%。
与角色不同,受访者在公司规模上的分布较为均匀,从微型企业(1-10名员工,17.3%)到大型企业(10,000名以上员工,14.3%),51-200人的公司规模段最为突出,占23.1%的受访者。
在专业经验方面,样本分布较为均衡,只有少数受访者的经验不足一年(2.6%)。其他经验段分别为1-3年(16%)、4-6年(30%)、7-10年(25.4%)和超过10年(26.1%)。
大多数受访者目前不使用AI/ML进行优先级排序,但他们愿意尝试(63.4%)。23.3%的受访者偶尔使用AI/ML工具,7.3%经常使用,5.9%的受访者不使用AI/ML工具且没有兴趣尝试。
受访者采用基于AI/ML的工具进行待办事项优先级排序的可能性各不相同:42.5%表示可能,26.1%表示非常可能,20.2%保持中立。相比之下,7.7%和3.5%的受访者分别表示不太可能和非常不可能。

4.1 传统的待办事项优先级排序方法
虽然关于产品专业人士最常用的传统待办事项优先级排序方法的科学文献很少,但这项研究表明,最常用的方法包括MoSCoW、WSJF、RICE、Kano模型、价值与努力矩阵、延迟成本、机会评分、艾森豪威尔矩阵和自定义公式。推断统计分析证实,资历显著影响RICE的采用率(χ2 = 12.90, df = 2, p < .01, Cramér's V = 0.21)。从初级专业人士(22.4%)到高级专业人士(51.7%)和中级专业人士(47.2%),使用率显著增加,这表明更有经验的专业人士更倾向于使用更复杂的评分框架。公司规模与RICE的采用率有显著关联(χ2 = 13.64, df = 5, p = .01, V = 0.22),但不同规模公司之间的使用率没有显著差异。基础方法如MoSCoW和WSJF在不同资历水平或公司规模之间没有显示出统计学上的显著差异(p > .05),这表明它们具有广泛的适用性。
我们对传统优先级排序方法的满意度分析揭示了一些关键见解。虽然大多数方法“不受公司规模影响”,但对关键路径方法的满意度因公司规模而异(H = 14, df = 5, p = .01, ε2 = .08)。该方法在小型团队(1-10名员工)中最为有效(平均评分为3.55),可能是因为协调开销较低,这表明虽然核心优先级排序框架“不受公司规模影响”,但基于依赖性的方法可能对组织复杂性敏感。尽管传统优先级排序方法通常获得好评,但它们表现出显著的差异性和广泛的观点分布。

4.2 基于AI/ML的待办事项优先级排序方法
随着组织采用AI和ML来优化流程,产品待办事项优先级排序成为关键应用领域之一。Atlassian在“2026年产品状况”报告中指出,超过一半的产品专业人士已经使用AI为复杂任务提供起点或框架。优先级排序和计划是最不常见的AI用例,尽管77%的受访者不使用AI来管理优先级和时间表,但他们希望可以这样做。以下部分概述了我们对实际AI/ML工具采用和满意度、使用AI/ML优先级排序方法的可能性以及推动采用的关键因素的研究结果。大约70%的受访者没有使用过AI/ML辅助的待办事项优先级排序方法,63.4%的人愿意尝试,5.9%的人不感兴趣。23.3%的受访者偶尔使用AI/ML辅助的优先级排序方法,7.3%的人经常使用。
在使用AI/ML的受访者与未使用的受访者之间,对传统待办事项优先级排序的满意度没有显著差异(除了MoSCoW之外的所有方法,p > .05)。对MoSCoW的满意度因AI使用频率而显著不同(H = 10.87, df = 3, p = .01, ε2 = 0.042)。频繁使用的用户报告了最高的满意度(M = 4.14)。这表明AI的采用可能会增强而不是取代对结构化传统框架的认可。
当前AI/ML工具的使用存在明显的人口统计差异(χ2 = 13.33, df = 6, p = .03, V = 0.15),并且在未来采用方面也存在显著差异。初级专业人士表示比高级专业人士更愿意采用AI/ML(H = 11.54, df = 2, p = .003, ε2 = .03)。这表明AI驱动的转型可能是自下而上的,由初级专业人士推动的。**讨论**

以下概述了系统文献回顾(SLR)和调查结果中的一些关键发现:

- 在实践中,传统的优先级方法使用更为广泛,但不同团队和产品环境下的满意度存在差异。
- 学术研究与行业实践之间存在脱节。尽管在九个不同的研究领域中发现了大量相关研究(详见附录E中的表E1:系统文献回顾总结),但第4节中的调查结果显示,这些研究成果在行业中几乎未被采用。要更好地推广这些方法,需要加强学术界与产业界的合作,提高科学传播的效率,并克服技术要求、技能差距以及普遍存在的惰性。
- 虽然人们对基于人工智能/机器学习(AI/ML)的优先级方法表现出浓厚的兴趣,但实际上采用率很低。调查显示,只有大约30%的受访者在其产品待办事项优先级排序中使用了AI技术,其中仅有7.3%的受访者频繁使用。超过60%的受访者表示他们对未来在待办事项优先级排序中应用AI/ML技术感兴趣。
- 无论是AI/ML用户还是非用户,对传统优先级方法的满意度没有显著差异。这可能表明AI技术并非在取代传统方法,而是在对其进行补充。
- 虽然人们对采用AI/ML技术持开放态度,但缺乏集成化的解决方案。约70%的受访者表示可能会采用这些方法,但实际上只有大约三分之一的受访者真正使用了基于AI/ML的优先级排序工具。技术整合不足可能是其中一个原因:超过50%的受访者表示,如果这些工具能与现有工具集成,他们会更愿意采用它们。

**5.1 实践和管理意义**

产品待办事项优先级排序是软件开发的重要组成部分,因此这项研究具有重要的实践和管理意义,其发现有助于从科学和行业的角度更好地理解产品优先级排序。成功采用新的优先级方法(尤其是基于AI/ML的方法)需要满足几个关键条件:
- 可能需要对员工进行培训,以弥补潜在的技能差距。
- 关于自下而上推动AI技术采用的观点并非凭空而来;有研究表明,初级专业人员比高级专业人员更愿意采用AI工具(p = 0.003)。
- 最后,公司文化和工作方式的转变可能是必要的,这一过程需要由管理者系统地引领。

在实际应用中,基于AI的产品待办事项优先级排序面临的技术挑战包括数据质量和可用性、处理非结构化和情境化信息、模型的可解释性以及与现有工具和工作流程的集成问题。管理方面的挑战包括对变化的抵触、技能差距以及员工培训和技能提升的需求,同时还需要建立适当的治理机制(因为完全自动化并不总是理想的)。

**5.2 有效性的局限性和威胁**

虽然这项研究建立了大规模的实证基线,但仍需认识到几个影响研究有效性的因素:

- **构念有效性**:调查中没有明确定义“AI或机器学习工具”,因此解释工作依赖于参与者。虽然这样做是为了涵盖AI/ML工具和方法在产品管理中的早期阶段特性,但这种工具具体性的模糊性是一个局限性。
- **社会期望偏差**:研究结果基于受访者的自我报告,这些报告容易受到社会期望偏差的影响。
- **内部有效性**:文献回顾由单一研究人员完成,可能存在选择偏差。
- **LLM辅助筛选**:使用谷歌的LLM Gemini对421条记录进行了初步的相关性筛选。这是一种新兴的方法论方法,目前尚缺乏成熟的验证标准。所有纳入/排除决策和内容责任仍由作者承担。
- **缺乏偏倚风险评估(RoB)**:纳入SLR的个别研究的质量没有经过正式评估,这与PRISMA指南的要求不符(第11项)。虽然本研究遵循了PRISMA 2020指南,但它主要是一项系统映射研究,目的是识别和分类新的优先级框架(RQ1, RQ2),并将其与行业采用情况(RQ3)进行对比,而不是评估个别算法的有效性或性能。
- **外部有效性**:样本招募依赖于有限的在线社区,这可能导致样本偏向于技术熟练且懂英语的受访者。
- **平台偏见**:尽管谷歌被广泛使用,但需要谷歌账户的要求可能排除了某些潜在受访者。
- **地理偏见**:没有收集参与者的地理位置信息。
- **样本规模和统计功效**:尽管合格的分析样本量(n = 287)为该领域提供了坚实的基础,但某些子组分析可能缺乏足够的统计功效。
- **时间敏感性**:AI发展的速度非常快,学术研究和行业实践都在迅速变化,而调查和SLR的结果仅反映了某一特定时间点的状况。
- **探索性分析**:我们的子组分析结果(如经验年限与公司规模的相关性)应被视为探索性发现。这些分析揭示了一些重要趋势,例如在AI技术采用意愿上的“经验差距”(p = 0.003)和复杂框架的采用情况(p < 0.01),但未来需要更大规模、分层化的样本来验证这些关系在所有组织环境中的普遍性。

**6. 结论**

学术研究与行业实践之间存在差距。这项研究通过结合51篇科学研究报告的系统文献回顾和对287名合格专业人员的调查,对这一差距进行了大规模的实证验证。这一结论的有效性基于以下几个关键发现:
- **采用差距**:SLR发现了大量的学术研究(51篇研究报告),并将其分为九个方法论类别(表2),但调查显示行业实践仍然主要依赖传统方法。
- **AI技术采用意愿与实际使用情况**:只有7.3%的受访者频繁使用基于AI/ML的方法,但仍有很大一部分受访者(63.4%)表示对未来采用持开放态度。这表明进入壁垒并非缺乏兴趣。
- **经验年限差异**:专业经验年限与复杂框架采用情况之间存在显著相关性(例如,高级人员的RICE使用率为51.7%,而初级人员为22.4%,p < 0.01),表明当前的优先级排序方法依赖于经验。
- **自下而上的动力**:调查显示,基于经验的不同群体在采用AI技术的意愿上存在统计学上的显著差异(p = 0.003),其中初级人员的意愿更高。这表明AI技术的变革可能会由新兴劳动力推动。

综上所述,这些数据为研究人员和实践者提供了实证基础。这项研究呼吁加强学术界与产业界的合作,通过改进科学传播、有针对性的员工培训以及开发能够无缝集成到现有产品管理流程中的AI工具来缩小这一差距。

**作者贡献声明**

- Dragan Pamučar:撰写 – 审稿与编辑
- Milos Belcevic:撰写 – 初稿

**未引用的参考文献**

Achimugu和Selamat, 2015; Ahuja等人, 2018; Galarza等人, 2021; Misaghian等人, 2019; Taewoo等人, 2024; Yaseen等人, 2025

**利益冲突声明**

作者声明他们没有可能不当影响本文内容的财务或个人关系。

**关于生成式AI和AI辅助技术的使用**

在准备这项工作时,作者使用了谷歌开发的LLM Gemini对Web of Science Core数据库中的421条记录进行了初步的相关性筛选。该工具根据标题相关性被指令识别与产品待办事项或需求优先级排序相关的文章,并提供了正面和负面的参考示例。在此自动化步骤之后,所有选定的记录都经过了作者的手动标题和摘要审查,以确保符合纳入和排除标准。作者审阅并编辑了最终的手稿,并对文献回顾过程的完整性、纳入/排除决策以及文章的整体内容负全责。作者确认没有使用生成式AI来创建或修改任何图表或图像。

**数据可用性**

调查数据和代码存储在公共GitHub仓库Product-Backlog-Prioritization-survey中,地址为:https://github.com/mbelcevic/Product-Backlog-Prioritization-survey。完整的调查问卷见附录C。

**伦理批准**

由于当地法规和调查的性质(匿名且不涉及个人身份信息,仅关注产品管理和工作方法),因此无需进行伦理批准。

**知情同意**

通过填写调查表即表示同意参与研究。在任何人开始填写之前,会提供关于研究目的的公开说明,并告知响应结果将保持匿名且仅用于研究目的。同时提供了通讯作者的电子邮件地址以接收反馈和问题。

**资金来源**

本研究未获得任何公共、商业或非营利机构的资助。

生物通微信公众号
微信
新浪微博


生物通 版权所有