在数字内容达到前所未有的规模的时代,推荐系统已成为在线平台自动识别相关内容、推动业务成功的基础基础设施。这些系统现在在电子商务、音乐流媒体、社交媒体和内容平台等多个行业中成为关键的收入驱动因素和用户留存机制[1],同时帮助用户发现他们可能无法独立发现的相关内容。
传统上,研究主要集中在使用协同过滤(CF)算法[2]和矩阵分解技术[3]、[4]、[5]、[6]、[7]来预测单个用户的偏好。然而,这种以项目为中心的方法与实际操作情况不符,因为用户接收到的通常是经过精选的推荐列表或会话——产品包、音乐播放列表、视频流和内容流。传统方法忽略了会话上下文和项目之间的相互依赖性,导致某些会话虽然包含吸引人的单个项目,但缺乏连贯的结构或战略性的业务对齐。
尽管最近的研究将推荐会话视为分析的基本单位[8],但现有的方法通常首先预测个人偏好,然后通过离散优化来构建会话[9]。这存在一个关键限制:算法优化的是下一个项目的准确性或点对点的准确性,而不是会话级别的点击率(CTR)——即用户至少点击一个推荐项目的会话百分比,而这正是平台希望最大化的业务指标。
随着平台面临展示可衡量财务绩效的压力,并且需要应对复杂用户行为的挑战,使推荐算法与业务目标保持一致的问题变得更加紧迫。用户期望获得真实感强的个性化体验,而运营者则必须在用户满意度、参与时间和用户收入之间找到平衡。
此外,可扩展的部署要求意味着系统在优化潜在未经测试的推荐组合时必须保持可靠性,因为生产失败会立即影响收入和用户信任。计算需求往往迫使算法进行激进的优化,可能会生成超出经验验证范围的推荐结果。
这些现实情况表明,仅凭技术复杂性是不够的;系统必须同时具备准确性、抗操纵性以及可靠的部署能力。存在三个相互影响的差距:
- •
差距1:缺乏直接的会话级别CTR优化。大多数算法仍然优化单个项目的准确性,而不是与业务相关的会话级别指标(如CTR)。例如,一个音乐平台可能会推荐用户单独喜欢的歌曲,但生成的播放列表缺乏连贯性,导致用户尽管有较高的个人偏好分数也会跳过这些歌曲。
- •
差距2:正面和负面隐性反馈的整合不足。隐性反馈指的是用户行为,这些行为间接表明了偏好,如停留时间(与内容的互动时长)[10]、浏览历史或点击行为。在隐性反馈下,通常只考虑点击行为(正面隐性反馈),而不同时考虑非点击行为(负面隐性反馈)。这些系统通常独立地对反馈类型进行建模,将它们视为不同的信息渠道。然而,通过联合建模,系统可以利用它们之间的互补优势。
- •
差距3:安全优化的使用有限。在预训练的预测模型(OPPM)上进行优化——使用机器学习模型来评估潜在的推荐策略——缺乏针对验证范围之外推荐的防护措施。验证范围指的是模型经过实证训练并显示出可靠泛化能力的特征空间区域。模型可能会对实际表现不佳的未测试项目组合预测高成功率,从而损害业务结果。
本研究探讨了一个基本问题:推荐系统如何通过集成反馈建模和安全优化约束来直接优化会话级别的业务指标,同时保持可靠性?
本研究的主要目标是通过一个新颖的两阶段框架来解决这些相互关联的差距,该框架结合了机器学习预测和受限优化,以实现直接的会话级别业务优化。在第一阶段,我们开发了机器学习模型,整合了正面和负面隐性用户反馈来预测会话级别的CTR,扩展了基于历史数据的监督模型评估替代策略的概念,无需昂贵的在线实验[11]。在第二阶段,我们在训练好的模型上实施受限优化,通过信任区域约束生成最大化预期CTR的会话,这一方法建立在OPPM文献[12]、[13]、[14]、[15]的基础上,并为会话级别上下文设计了新的机制。
为了系统地解决上述每个差距,我们提出了三个相应的贡献,这些贡献共同构成了一个集成框架:
- •
直接的会话级别CTR优化:一种新颖的方法,通过重用经过验证的历史会话直接优化会话级别的点击率,直接针对与业务相关的指标(如会话级别CTR)进行优化,而不是使用项目级别预测准确性等代理指标。
- •
强大的集成反馈建模:一个全面的框架,将正面和负面隐性反馈(即点击行为与非点击行为)作为相互依赖的特征,用于强大的会话级别反事实预测,既满足了整体建模的理论需求,也满足了在嘈杂、可能被操纵的环境中确保可靠性的实际要求。
- •
信任区域正则化优化:为会话级别推荐场景量身定制的新型信任区域正则化技术,确保优化过程保持稳健性和业务一致性,同时避免OPPM方法在实际应用中普遍存在的过度外推风险。信任区域正则化将优化限制在输入空间的区域内,这些区域是预测模型经过实证验证并显示出可靠泛化能力的区域,防止不可靠的外推。
我们的框架可以作为独立系统或现有算法的增强层来实施。仅使用常规收集的历史会话数据和高效的反事实评估技术,我们的方法在保持生产系统的可靠性和可解释性要求的同时,实现了会话级别CTR的显著提升。