利物浦:模型与冠军之路(暨格雷厄姆博士《足球数据革命:如何赢得英超冠军》一书摘评)
注:出于兴趣爱好本人已将全书翻译完成,且业已详询过格雷厄姆博士,任何翻译发布超过30%的书目内容有可能对作者版权造成影响,因此我会以批注和笔记系列形式,总结书中的一小部分内容。
如已接洽格雷厄姆博士商讨大中华地区版权,需要翻译文稿的话,可以直接联系我。本人正职工作为投行模型分析师,又从事足球战术分析工作十余年,可以较为匹配地驾驭该书中的基本概念与理论。
翻译本书始终是业余工作,如有错漏不妥之处,烦请随时知会修改。
原书作者简介:
伊恩·格雷厄姆博士是体育咨询公司Ludonautics的创始人,该公司主要开发用于预测足球比赛和球员表现分析的统计工具。他是席卷足球界的数据革命的最初设计者之一,2012年至2023年间,格雷厄姆博士在利物浦足球俱乐部担任研究总监,建立了英超联赛中首个内部自主分析足球数据的部门。他曾任职于决策技术公司,担任足球研究主管。他拥有剑桥大学的物理学博士学位。
自序:
由Emmanual Derman所著的《My Life As a Quant》(中文译:宽客人生)一书,几乎是我们这一代每一名“宽客”的必读书籍。相较于Derman本人的学术成就,这本书远非学术巨著,但在某种程度上,一名物理学教授转变为大行Quant的心路历程,正是学术界的某一分支在业界领域应用的开花结果——这也是科学的魅力所在。
格雷厄姆博士的这本著作,就好像是足球模型领域的《宽客人生》,对于模型的描述浅尝辄止又耐人寻味,而更重要的地方则在于展示给读者,模型应该如何在世界顶级的俱乐部起到作用,并最终经过磨合与试验走向开花结果。
笔者刚刚就读相关专业的时候,体育与Quant之间的联系已经如雨后春笋般遍地开花。不过彼时,无论业内业外,甚至包括足球界人士,都很难理解为何愿意接纳物理系、数学系的毕业生从事足球,但应用数学就是如此,这不是甫一踏入该领域就可以了解的现实。在这里,你需要一定的知识积累才能看到广阔的前景——不仅仅是交易,不仅仅是衍生品,还包括体育的广阔分支:博彩公司、足球游戏、战术分析、球员分析……林林总总的领域,一旦你掌握了基础概念,你会发现在足球中应用数学是一件非常自然的事情,远没有外界描绘得的那么复杂。
这不仅仅因为足球的可重复性——利用历史预测未来是模型不变的本质,还因为底层技术的日趋演进,使得你不再只有那些基础的底层数据。而十年来大模型的发展,又在学术领域提供了更多可能性。
笔者本人很反感所谓“大数据”的说法,模型就是模型,数学就是数学,本质上这不是每个人都能够深入讨论的内容与主题,因为这并不廉价。而格雷厄姆博士在利物浦的经历,以及业内数据分析师面临的困局,本质上都指向这一点——是的,你甚至可以用最先进的技术去解释问题,然而问题的核心,是我们可不可以严谨地将问题数学化,而不是将数学工具化,在业界普遍不具备这一能力之前,数据模型的确会产生这样那样的问题。
但话说回来,如果数据模型有问题,那它的发展便毫无意义么?当然不是。就如同交易员在看损益归因表时永远都会有未解释损益这一栏一样,无论是足球中的模型还是其他,其目标是努力贴近目标,而非因为达不到终点而选择放弃。数学模型的动机、论证、验证与投产,和诸多应用数学领域一样,并无本质区别。在笔者这一行,新模型投产上线本就是漫长的过程,你面对的最无奈的质疑往往都是来自于非学术领域的——这很正常,学术界的事情是可以通过在这个方向不断地前赴后继去提升的,你必须要给一个新生事物时间。
然而就如我说的,这不是一个廉价话题。至少,让我们以格雷厄姆博士的著作为引子,来让讨论变得稍微有价值一点。
第一章 地表最强球队
利物浦即将对阵巴塞罗那,进行历史上第十次正式比赛。我当时为利物浦工作,并有幸获得了两张比赛门票——但我决定将它们束之高阁。那是2019年5月,我们已经进入了冠军联赛的半决赛—— 足球界最负盛名的俱乐部赛事。
坦率地说,我已经受够了,自从2012年加入利物浦以来,我们在2014年经历了与英超联赛冠军失之交臂的惨痛,2016年,我们在半场领先的情况下输掉了欧联杯决赛,2018年,我们又在欧冠决赛中输给了皇家马德里。而现在,2019年,我们刚刚在巴塞罗那进行的半决赛首回合中吞下一场0-3的失利,从这种劣势中逆转过来就是天方夜谭。对于这些经历,我感到身心俱疲,也实在不想再面对另一次伟大的失败。正在这时,我的朋友金问我有没有多余的门票去看这场比赛,他其实只是试试看,但说如果不问他会后悔。我告诉他,我确实有票,但不会去现场。他很严肃地问我是不是疯了,那是冠军联赛的半决赛!那是巴塞罗那!那是里奥·梅西!我意识到他是对的——我以前从未现场看过梅西踢球,单单为了看世界上最伟大的球员,这场比赛也值得去现场。
我从事的工作是我不想去的原因。作为利物浦的研究总监,我的职责是获取、分析和解释关于足球比赛的数据,而数据分析在足球中的一个应用就是预测结果。在利物浦,我的同事和我开发了一套统计模型 ,将原始表现数据——关于射门、扑救和进球的信息——转化为球队实力的估计。然后,每支球队的进攻和防守能力,即他们进球和防止失球的能力,就会被用来预测比赛和赛事的结果。
鉴于首回合0-3的失利,我们的模型估计我们晋级决赛的机会为3.5%,而球队实力统计模型评估巴塞罗那的实力比利物浦强20%。虽然利物浦在次回合的主场优势会使比赛变得势均力敌,但我们必须至少有四个进球才能确保直接晋级,或者就要以3-0的比分赢得比赛并进入加时赛 。我对足球的认知与球迷带有一些浪漫色彩看球完全相反:我通过概率的视角看待一切,而概率则通过客观证据估算的。对于这场比赛,所有的证据都指向我们的成功概率极低。
在训练场上,大家都知道我的部门进行了这些预测,所以当食堂工作人员问我们的机会有多大时,我告诉他们模型展现的坏消息,他们的反应是:“这比我想的机会还要大一些!”我的悲观态度反而在同事中成了乐观的原因。
即使按照安菲尔德的标准,那一晚的气氛也是电光火石般的。苏亚雷斯——2011年至2014年间利物浦最好的球员,但现在效力于巴塞罗那——在首回合比赛中进球并选择肆意庆祝。这激怒了利物浦球迷。当他即将开球时,五万人在喊“苏亚雷斯,滚蛋!”在我的日常工作中,我通常要求以冷静、客观的态度看待足球,但那天在安菲尔德,作为球迷,我很高兴加入了看台上的声浪。
比赛非常开放,非常有趣。我们成功的机会很低 ,这让我比平时更能享受比赛:既然反正要输,我就可以不用担心结果,而是尽情享受这场足球盛宴。但在开场6分钟后,客队的阿尔巴一次糟糕的解围直接顶给了马内,后者传给了亨德森,他的射门被守门员扑出,一旁伺机而动的奥里吉不可能错过这个机会,球进了,我们1-0领先。
巴塞罗那创造了几次不错的机会,但上半场结束时利物浦仍然以1-0领先。比赛进行到53分钟时,阿诺德为维纳 尔杜姆创造了一个好机会,他打出了一脚并不美妙的射门,但球竟然被漏入网内:2-0。巴塞罗那开球,但立即丢掉了球权,维纳尔杜姆再次用一个精彩的头球得分,3-0。安菲尔德的气氛从电光火石变成了核爆现场,每次苏亚雷斯触球,看台上的球迷都以恶毒的咒骂和嘲讽回应。当第三个进球入网时,我已经喊得失声了,我不得不让金代我怒喷苏亚雷斯:下半场我一直用肘戳他的肋骨,作为信号让他对客队球员大声辱骂。
我的紧张情绪随着我们胜利机会的增加而成正比放大,但在第78分钟,阿诺德抓住巴塞罗那防守松懈的机会,快速开出角球,奥里吉打入了一记不可阻挡的射门,将比分扩大到4-0。巴塞罗那在防守角球时经常失去注意力并向裁判抱怨,这一习惯被我在视频分析部门的同事们发现了。因此,我们的球员和球童已经准备好在角球时快速开球,视频分析师们的洞察力值得大家赞赏。
我们在最戏剧性和最不可能的情况下进入了欧冠决赛。也许在为利物浦工作了七年之后,我们终于会赢得一个奖杯。像每一个利物浦球迷一样,那天晚上我离开安菲尔德时非常兴奋。但另一方面,作为一名数据分析师,我又迫不及待地想评估这场比赛。
那天晚上,当我开车回家时,关于那场比赛的数据正在被推送到我们部署云端的服务器上。数据供应商收集中心的录像分析师记录了每一次控球动作的细节——传球、射门、铲球、犯规——并上传了这些数据 。与此同时,安菲尔德的摄像机记录了所有球员和球的移动,每秒记录25次,然后通过视觉算法转换成每个球员位置的轨迹。
当这些数据在第二天早上大约5点到达时,几个自动流程被会触发。首先是数据检验:通过算法来判断数据的质量,以便我们的模型能够产生合理的结果;接下来是预处理:控球事件与球员位置关联,以将不同维度的数据结合起来;最后分析:经过处理的数据将通过我们的模型进行处理,这些模型对比赛进行了统计解释,评估每个球员对比赛结果的贡献 。基于每个球员的表现,进一步的算法会更新球队实力和球员能力的评分结果。
在看台上,我作为一个球迷观看比赛,感到兴奋也感到高兴。而第二天早上,随着数据处理完毕,计算结果展示在我面前,我理性地分析了比赛,这让我觉得记忆中前一晚的比赛与我第二天回顾分析的比赛不完全相同。我们赢了4-0,但结果很容易就会走向另一个方向。事后看来,我们取得晋级的结果几乎是不可阻挡的。萨拉赫因伤缺席比赛,他穿着一件写着‘永不放弃’的T恤在看台上观看,但其实每场比赛都会受到偶然性的影响。我们都记得一些比赛,如果不是因为一次失误的传中或一次幸运的折射,结果可能会完全不同。考虑到比赛中出现的进球机会,我们的4-0胜利远非板上钉钉,使用数据分析这场比赛可能发生的情况,会导致一个不那么确定、更概率化的看大法。它的价值在于剔除那些幸运的胜利和不幸的失败,将表现(信号)与运气(噪音)分开,使我们能够更好地理解我们球队的优缺点。
利用比赛中发生的射门推导出的预期进球模型,意味着我们估计的“公平比分”是利物浦2.0球 ,巴塞罗那0.9球。我们的模型预测的这个+1.1的‘公平“净胜球”不足以让我们赢得半决赛,而公平比分是使用一种被称为‘预期进球’的方法计算出 来的。
这场比赛中,数据模型的对两队表现的评估,要比我记忆中的比赛内容更接近。 奥里吉的第一个进球有40%的进球概率,但随后是巴塞罗那的两次机会:梅西的一次12%的射门和库蒂尼奥的一次18%的射门。半场结束时,巴塞罗那的阿尔巴有一次进球概率33%的射门被我们的门神阿利森奋力救出。下半场,利物浦最好的后卫维吉尔范戴克的头球被角球扑出:36%的机会可能进球。接下来与实际结果相反,根据成功的概率,我们在下半场的三个进球加起来只有0.41的预期进球。
根据每次射门的入球概率,我在电脑上模拟了比赛结果,结果显示,利物浦以4-0或更好成绩获胜的概率仅为5%,而将比赛拖入加时赛的概率为4%。
接下来,我查看了射手们在预期进球数上的表现。从特定位置和特定情况下射门是一回事,而射得好是另一回事。这种模型考虑了每次射门的轨迹和射门那一刻守门员的位置,即“射门后预期进球数”。
计算结果发生了变化:2.0-0.9的胜利变成了3.4-1.7的胜利。两队的球员都贡献了高于平均水平的射门。 奥里吉的两个进球特别精彩,他射得很准,而且射向了守门员难以扑救的地方。但巴塞罗那的球员们也射得很棒:他们的0.9预期进 球数由于准确的射门增加到了1.7——这并不奇怪,因为他们队里有梅西和苏亚雷斯。 不过巴塞罗那的1.7击球后预期进球数最终没有转化为实际进球,考虑到该指标对门将评价的重要性,我们的守门员阿利森有很强的理由被评为本场比赛的最佳球员。
点评:
格雷厄姆团队在数据到来后建立的服务器任务,我们叫做batch,是Quant工作中非常重要的一部分,而大行也有成熟的工具(Airflow等)等驾驭这些自动化任务,以方便地重启、分发任务,并设定任务重启机制。
要想这些batch,尤其是调用模型产出结果的batch顺利运行,你需要对基础数据进行大量的清洗、预处理工作,当这些数据是来自于第三方的时候,这项工作其实很有挑战性,无论是大行还是在足球俱乐部都要建立一整套multi source的data feeding机制。
预期进球与射门后预期进球是两个非常常用也非常基础的评价指标,事实上,依靠现有的某些公开坐标级数据,我们是可以建立相应的模型的。与格雷厄姆博士的差距永远不是setup好什么模型,而是你用什么样的方法去approach问题。以这两个模型为例,尤其是后者,球队掌握的基础数据和whoscore可能没有分别,那如何训练模型就变成了问题的基础。
至于有了相关概率之后的模拟分析,最简单的是可以用随机数模拟的数值算法,这里有点像我们用得比较多的Monte Carlo,稍微复杂一点,还可以calibrate出Markovian transition probability进行细化,例如第一个进球一定会影响后续的预期进球分布,等等等等。
足球模型有意思的一点是尽管还处于初步阶段,但可能性非常多,这和我们日常工作中新看到一个模型的心情差不多,他的日常也像极了我们这一行的日常,其实很羡慕他,会有足够多的选择可以approach某场比赛。
扫描关注六贤旗一角,获取更多树洞消息
三连一下,一起吐槽