托马什·戈雷茨基(Tomasz Górecki)| 巴尔托洛梅伊·格热拉克(Bartłomiej Grzelak)| 克日什托夫·迪奇科夫斯基(Krzysztof Dyczkowski)
波兰波兹南亚当·密茨凯维奇大学(Adam Mickiewicz University, Poznań, Poland)
摘要
预测体育比赛结果是一个复杂而有趣的问题,因为体育运动的本质具有不确定性,且影响比赛结果的因素众多。这种不确定性极大地增加了体育运动的观赏性,也吸引了博彩公司、投注者和球迷的关注。随着与体育相关数据的增加以及在线体育博彩的普及,人们对预测比赛结果的兴趣也随之激增。我们的研究主要集中在波兰足球甲级联赛(Ekstraklasa)上,但与大多数研究不同,我们的目标不是预测未来的比赛结果,而是寻找有效的评估比赛赔率和评估球队实力的方法。这种方法有可能取代Elo评分系统,因为Elo评分系统在不同联赛中的应用存在困难。虽然各个建模组件已经成熟,但本研究的价值在于将它们统一纳入贝叶斯框架中,以比较不同来源的比赛信息作为球队实力的代理指标,而不仅仅是用于纯粹的结果预测。我们提供了一个系统性的、赛季级别的比较,将博彩公司的赔率与高级绩效指标放在同一个概率框架内进行评估。
引言
由于体育运动的本质具有不确定性,以及影响比赛结果的众多因素,预测体育比赛结果是一个既迷人又复杂的问题。这种不确定性正是许多人喜欢体育运动的关键原因之一。尽管存在挑战,预测比赛结果仍然受到包括博彩公司、投注者和球迷在内的各方的极大兴趣。随着在线体育相关数据的增加和在线体育博彩的兴起,这种兴趣进一步加剧。我们的研究聚焦于波兰足球甲级联赛(Ekstraklasa)。我们的研究方法与大多数研究不同,不旨在预测未来的比赛结果,而是试图找到评估比赛赔率和球队实力的有效方法。这种方法有可能替代Elo评分系统。虽然各个建模组件已经成熟,但本研究的贡献在于将它们统一纳入贝叶斯框架中,以便比较不同来源的比赛信息作为球队实力的代理指标,而不仅仅是用于结果预测。我们提供了一个系统性的、赛季级别的比较,将博彩公司的赔率与高级绩效指标放在同一个概率框架内进行评估。
引言
预测体育比赛结果是一个既迷人又复杂的问题,因为体育运动的本质具有不确定性,且影响比赛结果的因素众多。这种不确定性正是许多人喜欢体育运动的关键原因之一。尽管存在挑战,预测比赛结果仍然受到包括博彩公司、投注者和球迷在内的各方的极大兴趣。随着在线体育相关数据的增加和在线体育博彩的兴起,这种兴趣进一步加剧。专家和前运动员经常对即将进行的比赛进行预测,这些预测经常被媒体报道。
我们的研究聚焦于波兰足球甲级联赛(Ekstraklasa),这是波兰最高级别的足球联赛。2023/2024赛季的Ekstraklasa共有18支球队(见图1),它们采用联赛制进行比赛,每支球队与其他所有球队各进行主客场各一场比赛。Ekstraklasa的计分规则是:胜一场得3分,平一场得1分,负一场得0分。赛季结束时,排名靠前的球队将有资格参加欧洲赛事:联赛冠军进入欧冠联赛资格赛,接下来的两支球队进入欧联杯资格赛。在2023/2024赛季,雅盖隆尼亚比亚韦斯托克(Jagiellonia Białystok)以63分的成绩夺冠,而什伦斯克弗罗茨瓦夫(Śląsk Wrocław)也以63分但净胜球较少的成绩获得亚军。华沙莱吉亚(Legia Warszawa)以59分获得第三名。Ekstraklasa的一个特点是缺乏明显的领头羊,这使其与其他欧洲联赛有所不同。在过去四个赛季中,每赛季的冠军都不同:2022/2023赛季的冠军是拉科夫琴斯托霍瓦(Raków Częstochowa),亚军是华沙莱吉亚;2021/2022赛季的冠军是莱赫波兹南(Lech Poznań),亚军是拉科夫琴斯托霍瓦。这种变化表明Ekstraklasa的球队实力相对均衡,稳定性较低。我们选择研究足球是因为2022年足球是波兰最受欢迎的运动,有35.9%的人口参与其中(见图1)。2022年,超过一半的体育教练从事足球运动员的训练工作。当时波兰有2,244座体育场,其中55.2%是足球场(来源:Poland & Rzeszów, 2023)。
我们的研究目标与大多数相关研究有所不同。我们不旨在预测未来的比赛结果,而是希望确定哪些评估比赛赔率的指标在实际应用中是可行的。尽管如此,我们的最终目标是获得对球队实力的评估。这样的评估方法在某种程度上可以替代Elo评分系统,因为Elo评分系统在不同联赛中的适用性较差。实证研究表明,博彩赔率是预测体育表现最可靠的信息来源(Štrumbelj, 2014)。在本文中,我们希望验证诸如xG(预期进球数)、xT(预期威胁值)、OBV(控球价值)或VAEP(通过估计概率评估动作价值)等指标是否是衡量球队在特定比赛中表现的良好指标,这也是我们研究的一部分。
我们计算的一个关键应用是球探和球员招募。在不同联赛之间更精确地比较和识别球员的技能至关重要。每个足球联赛都有其独特的比赛风格、强度水平以及各种技术和战术要求。这些特定特征意味着在比较球员时需要考虑他们所处的环境。例如,一个在某个联赛中表现出色的球员可能难以适应另一个要求更高的联赛。因此,评估球员的技能并理解这些技能如何转化为球队在特定联赛中的实力是非常重要的。跨联赛比较球队实力需要高度精确。一个重要的因素是整个赛季中球队实力的动态评估,因为球队可能会发生显著变化。例如,博彩公司在赛季初评估的球队在赛季末可能会表现出完全不同的水平。这些变化可能由多种因素引起,包括转会、伤病、战术调整或球员状态变化。
分析和比较球队及个别球员的数据时,必须考虑到比赛情况的多样性,如主客场比赛,这些因素会导致不同排名球队在联赛中的进球机会产生显著差异。为了提高对未来联赛比赛结果的预测能力,理解比赛环境对球员表现的影响至关重要。统计数据不能被统一对待,尤其是对于那些控球率较高的球队来说,使用“每90分钟”的统计数据可能会提供更有价值的见解。此外,分析还应包括博彩公司提供的市场评估以及基于对球员场上动作的精确分析的高级指标。评估模型应整合外部市场赔率和内部球员表现指标,以产生更准确的结果预测。
现有的研究通常要么专注于结果预测,要么专注于某一类绩效指标。相比之下,我们通过将博彩公司的赔率和多种高级足球指标纳入单一的贝叶斯框架来解决比较球队实力的问题。这种方法的新颖之处不在于提出新的模型,而在于使用统一的概率表示方法来评估不同信息来源如何转化为推断出的球队实力和赛季级别的动态变化。这种统一的视角使得跨异构信息源进行一致的球队实力比较成为可能,并为赛季级别的分析提供了可解释的基础。
部分内容摘录
足球结果的概率和贝叶斯模型
已有大量研究使用各种统计方法对足球比赛结果进行建模。预测足球比赛结果的研究可以追溯到20世纪60年代(Hill, 1974; Reep, Benjamin, 1968; Reep, Pollard, Benjamin, 1971)。最初,研究者使用基于频率的简单方法。后来,主要采用概率方法来预测进球数。值得注意的是,Rue和Salvesen(2000)在这一领域奠定了早期基础。Karlis和Ntzoufras(2008)也做出了贡献。
方法和工具
所提出的框架概述见图2。首先将博彩公司的赔率和高级绩效指标的联赛级信息进行转换,然后将其纳入贝叶斯模型,从而获得球队实力的后验估计和赛季级别的模拟结果。
博彩公司的数据
https://www.football-data.co.uk网站提供了历史足球数据和博彩赔率,对参与体育博彩的人非常有用。用户可以下载Excel和CSV格式的数据,便于进行定量分析。该网站还提供统计数据和实时比分,并汇总最新的足球和体育博彩新闻。我们下载了2023/2024赛季波兰足球甲级联赛的博彩数据(见表2)。Stan模型的分析
Stan模型的所有属性都非常相似,因此我们决定仅分析博彩公司的赔率模型。我们有20个感兴趣的参数,因此很难对所有参数都进行诊断分析。我们选择展示三个主要分布参数的诊断结果:
σ, θHome和
θAway。其余参数的结果也非常相似。
局限性
所提出的框架存在一些局限性。首先,球队实力是根据汇总的联赛级信息推断出来的,并没有明确建模时间动态或比赛内的依赖关系。其次,该方法依赖于预定义的输入指标转换,没有学习端到端的特征表示。最后,该方法更注重可解释性和可比性,而不是最大化预测准确性,这可能会限制其相对于高度优化的黑盒模型的性能。
结论
所提出的模型本质上是概率性的,用于估计获胜、平局或失败的可能性。通过结合博彩公司的赔率和高级绩效指标(VAEP、xT、xG和OBV),该框架能够评估球队表现是否超出或低于预期,并量化预测结果与实际结果之间的偏差。
本研究提出了一个统一的贝叶斯框架,利用博彩公司的赔率和高级绩效指标来评估球队实力。这种方法不同于以往的研究方法。
未引用的参考文献
图14、图15、图16、图17、图18和图20。
CRediT作者贡献声明
托马什·戈雷茨基(Tomasz Górecki):概念化、方法论设计、正式分析、软件开发、初稿撰写、审阅与编辑。
巴尔托洛梅伊·格热拉克(Bartłomiej Grzelak):概念化、数据整理、软件开发、调查、验证、初稿撰写、审阅与编辑。
克日什托夫·迪奇科夫斯基(Krzysztof Dyczkowski):概念化、初稿撰写、审阅与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。