体育赛事的兴起使得大量的数据被纪录下来,体育统计随之发展起来。在众多体育赛事中,NBA是其中一个影响力较大的体育联盟,在NBA数据的分析中季后赛预测是一个重要的方面。NBA季后赛分为四个阶段,将预测分为多阶段分析建模并进行预测有着现实意义,本文旨在研究季后赛第一轮的预测问题。季后赛的预测实际是一个二分类问题,本文通过整理当前赛季常规赛的比赛统计数据、教练的历史执教数据和球员当前赛季的RPM值,进而从球队、教练、球员三个方面给出球队实力的评价值,并在此基础上建立有勿连约束和必连约束的半监督聚类模型,最后根据历史统计数据给出已分好类的标签,预测结果表明半监督聚类在NBA季后赛第一轮的预测中有着较好的预测效果和很强的适用性。
体育赛事在人们的日常生活中有着越来越重要的影响,伴随着体育赛事的兴起,大量的体育数据被统计记录下来,如何更好的利用这些体育数据也成为一个重要的研究方向,体育统计随之发展起来。在体育统计领域,机器学习和数据挖掘的应用也越来越广泛[1]。用过去和现在的数据去分析球员的能力一直有很多的研究, 特别是在篮球领域[2] [3]。
利用这些数据通过多种方法去进行预测和分析比赛的结果也变得越来越普遍[4]。在篮球领域,NBA (National Basketball Association)是其中发展较为职业化,国际影响力较大,品牌影响力较强的一个联盟,对于NBA 的统计分析有着很强的需求。NBA 非常注重体育赛事数据的收集,也非常注重这些数据的应用。NBA 的数据有着很多方面的应用,例如球员的价值分析、常规赛MVP 预测和季后赛预测等等。在众多的分析中,NBA 季后赛的预测是一个重要的方面,NBA 季后赛是球队一个赛季努力的目标,进入季后赛的球队可以获得球场的门票收入和更大的知名度从而获得巨大的商业价值。
NBA 季后赛是NBA 常规赛成绩排名靠前的球队进行综合角逐的比赛。
具体来说NBA 共30 只球队, 东西部各15 只,东西部分别排名前8 的球队进入季后赛。NBA 的季后赛通常分为四个阶段,分别为季后赛第一轮的比赛、分部准决赛,分部决赛以及NBA 总决赛。对于一场系列赛来说影响球队胜利的因素有很多,包括球员、教练、主客场以及球队的健康情况等。教练是球队的指挥者,球员是球场上的竞争者,王明新通过分析2015-16 赛季总决赛的制胜因素认为教练是一轮系列赛制胜的关键,球队的攻防战术也是胜负的核心影响因素[5]。勒勇等通过分析2005-06 赛季总决赛的数据,认为总决赛的制胜因素为投篮命中率、三分命中率、篮板球、助攻、盖帽等技战术水平发挥水平、球星的数量和质量以及主教练的总决赛经验和心理调节能力[6]。
NBA 的季后赛预测实际是一个二分类的问题,针对分类问题常见的学习算法有逻辑回归、朴素贝叶斯、支持向量机、随机森林等监督学习算法和半监督聚类、半监督SVM 等半监督学习算法。邱胜等将2004 到2006 三个赛季的常规赛数据从球员、球队、主客场三个大的方面进行整理后建立逻辑回归和贝