足球比赛进球数预测:统计与机器学习方法
1. 意甲联赛预测的局限性与研究背景
意甲联赛由于升降级规则改变了联赛结构,利用过往赛季数据进行预测存在局限性。每年意甲的最后三名球队会与意乙的前三名进行升降级,这一动态系统使联赛每年都有新球队加入,带来新的比赛组合和挑战,刷新了竞争格局。然而,对于新升入意甲的球队,缺乏预测其联赛首秀进球数的信息。
对足球比赛结果预测的研究始于20世纪中叶。早期,Moroney在1956年探讨了足球中的统计应用和基于历史数据计算概率的方法。之后,Reep和Benjamin等在1968年和1971年的研究中,用负二项分布建模进球数,认为球员和球队的技能是影响比赛结果的重要因素,但随机性也有作用。1974年,Hill证明了尽管存在偶然误差和数据缺失,仍可基于过往赛季数据预测比赛结果。随后,Maher用泊松分布建模足球比赛得分,Dixon和Coles用基于泊松分布的模型预测进球数并研究体育博彩市场的效率。
预测进球数的研究主要分为假设进球数服从泊松分布和负二项分布两类。泊松分布适用于数据方差等于均值的情况,负二项分布更适合方差大于均值的过度分散情况。在我们的研究中,同时应用了这两种分布以确定哪种更合适。
多年来,许多关于足球比赛结果预测的研究基于线性统计模型,特别是广义线性模型(GLM)。我们旨在通过应用GLM的扩展模型,如障碍模型(hurdle model)和广义相加模型(GAM),来克服GLM的局限性。障碍模型用于解决进球数分布中零值过多的问题,GAM用于研究响应变量和解释变量之间的非线性关系。同时,我们也将GLM作为基准模型进行对比。
随着大数据时代的到来,机器学习技术在足球比赛结果预测领域受到关注。一些研究使用不同
超级会员免费看
订阅专栏 解锁全文
3124

被折叠的 条评论
为什么被折叠?



