可能是由于人类(包括球王)预测不靠谱,前几届世界杯预测战况和冠军的任务,常常交给动物完成。
比如,章鱼哥保罗。
如果保罗活到现在,应该惊喜的发现,它的工作,现在有人工智能系统可以代替了。
这不,在2018俄罗斯世界杯马上开打之际,德国4位科学家联手打造了一个世界杯AI预测模型。
综合各种应有尽有的因素:国际足联排名、平均年龄、顶级联赛球员数量、国家人口比率、GDP、教练国籍等等,真真AI建模、大数据应用,云计算加持。轻轻松松,当前准确率不知比博彩公司高到哪里去。
最后他们郑重其事地推出结论:西班牙胜率最大。
只是万万没想到,比赛尚未开始,人类就给了AI意想不到的一击。正所谓人算不如云计算,云计算难料人使绊。就在世界杯开战前24小时,西班牙炒掉了带队2年的不败战绩主教练。
AI看了都傻眼。
不过这个AI模型就这样了吗?拿衣服。
这4位严谨德国科学家自然考虑到了可能存在的变量,在10万次比赛模拟后,他们认为:如果德国人打入四分之一决赛,那西班牙就呵呵了。
好一个神奇的AI。
一般而言,大数据预测为导向的AI,最常使用的方法有泊松回归、排序算法以及随机森林,都old school,都比较经典。
而这次在综合比较了几种方法后,4位德国科学家决定主采用随机森林建模,该方法诞生于2001年,比起传统的回归和排序,思路新得一比,预测效果也更胜一筹。
更重要的是,随机森林附上排序算法里的一个协变量,再经过合体进化,就能变成更加强大的算法,甚至比博彩公司预测的还要准。
具体如何实现?
要搞出这个AI,首先要来到数据篇,往届世界杯对战数据自然是题中之义,但光有比赛维度的数据又怎么够?
所以这个AI还把经济因素、球队实力、主场优势、球队结构,教练因素等纳入其中。
经济因素参考人口和人均GDP 。前者参考各国人口数据,并与全球总人口对比 ,看球队所属国对全球人口增长的贡献。人均GDP则重在增长,用球队所属国的人均GDP,以及全球平均的人均GDP,来看2002至2014年的经济增长情况。
球队实力也从两方面考量。一是历史进程,使用国际足联排名,可管窥球队过去4年的核心表现;二是博彩赔率,把博彩公司ODDSET提供的赔率,转换为球队胜率纳入模型。
主场优势则有玄学意味。一看是否东道主(比如在韩国举办),二看是否与东道主来自同一大陆,三看属于国际足联六大足球协会 (CAF,AFC,UEFA,CONCACAF,OFC,CONMEBOL) 中的哪一个。
球队结构重点针对默契度。共4项:1)最大队友数:每支国家队,在同一个俱乐部效力的队员最多和第二多的人数;2)平均年龄:每支国家队里,所有队员的平均年龄;3)欧冠队员数:每支国家队,进入欧冠或欧洲联盟杯半决赛的人数;4)海外队员数:每支国家队,在国外俱乐部效力的人数。
最后是教练因素。比如教练的年龄,以及在本队职教时间的长短,都被计算在内。另外,教练的国籍是否与职教的国家队归属一致,也是接近玄学的考量——但肯定没想过会有临阵换帅的情况。
综上,差不多每只参赛球队都会有16个维度的变量。
然后就可以进入竞技演化篇了。
就像开头所言,这个预测AI核心主打算法模型是随机森林。
这种方法是Breiman在2001年提出的,如今已成了统计学模型和机器学习之间的桥梁。
法如其名,随机森林需要建起许多的决策树 (Decision Trees) ,让它们来预测每场比赛双方的进球数。
当然,系统要服用上文提到的所有变量。
然后,先让每一棵树都独立生长。
再把所有树的判断集合到一起,进而随机森林再做出的预测,这样就不容易有太多偏见。
其间关键所在,是把树与树之间的相关性降到最低——
第一,树并不是种在原始样本上,而是在有放回抽样 (BootStrap Sample) 的基础上生长的。
第二,在每一个节点,所有变量中,一个随机子集被提取出来,用于分出最完美的树杈。
有了这两步,每棵树之间的相关性就变得很弱,随机森林的不变性 (invariance)就比一棵树更强了。
另外,除了进球数,随机森林也可以给出胜、平、负这样的结果。
紧接着进入算法融合阶段。
虽然一开始所说的泊松回归模型,以及排序算法,德国科学家认为没有随机森林的预测效果那么好。
但他们觉得,这些算法身上依然有随机森林可以汲取的营养。毕竟预测胜负和预测进球数,是两项不同的任务。
于是,数据篇说到的新变量,在这里登场——
之前排序算法里用到的、谜一般的球队实力参数,就在合体过程中以新变量的身份出现了。
如此融合进化完成后,再拿几种方法出来测一下,新算法显得更优秀——预测的准确度,已超过了博彩公司。
如果更早一点推出,这个AI估计能赚不少钱。
不过现在也为时未晚,2018世界杯已开盘等你。
拿2018世界杯演练,这个AI结果如何?
这是AI给出的结果,前三名的球队 (抛开顺序) 和许多其他算法的预测也是一致的。
它觉得,西班牙和德国的夺冠概率相差不大,不过还是更偏爱西班牙一点点。
此外,这里不光有每支球队的夺冠概率,还有每一轮的晋级可能性。
有趣的是,西班牙和德意志,小组赛晋级概率非常接近,但八分之一决赛的胜率就有点拉开了。
德国科学家们说,这是因为从分组来看,德国队更有可能在八分之一决赛遭遇劲旅,比如巴西,但西班牙更轻松一些。
另外,论文还给出了小组出线可能性最大的组合——
还需要指出的是,如果用每场比赛的胜负概率排列出结果,最后赢得金杯的将是德国人。
在这个维度里,之前夺冠概率最大的西班牙,不幸止步于半决赛。
也就是说,这个AI给出的终极结果是:西班牙胜率最大,但只要德国进8强,呵呵。
所以你听懂德国科学家们的潜台词了吗?
无独有偶,足球世界也一直流传着这样一句话:足球是22个人90分钟的比赛,但最后赢得胜利的always是德国人。
当然,也有其他同样使用机器学习方案预测世界杯的例子。
数据科学家Gerald Muriuki就利用2个来自Kaggle的数据集,使用1930年第一届世界杯以来的所有参赛队的历史赛事结果,打造了一个AI模型,同样预测了所有小组赛结果,还模拟了四分之一决赛、半决赛和决赛。
整个过程和完整代码,Muriuki已经在GitHub公开,我们不再详细介绍,希望上手的同学可直接前往:
https://github.com/itsmuriuki/FIFA-2018-World-cup-predictions
直接说这个AI模型的最后预测结果:巴西将夺冠。
另外,高盛今年也继续打造了一个机器模型预测大力神杯归属,在进行了100万次比赛模拟后,最终结果也是巴西夺冠。
高盛的AI模型显示:法国、巴西、葡萄牙和德国将打入半决赛,巴西最终将在决赛中击败德国。
但擅长分析和报告的高盛,在世界杯预测方面有历史包袱,上一届世界杯——2014年,他们也是高调预测巴西本土夺冠,然而谁料等到了一个半决赛1:7惨败德国的结果。
需要说明的是,巴西夺冠的结果与知名博彩公司(也是一个b站)目前赔率指向一致,他们夺冠预测是:巴西>德国>西班牙>法国>阿根廷。
该前5名结果也得到另一家知名欧洲博彩组织支持,但他们的夺冠预测是:德国>巴西>法国>西班牙>阿根廷。
最后,2014年准确预测德国夺冠的EA公司,今年选择押注法兰西。
不过,足球场上的事儿,玄学一件,可能也会人定胜AI。
量子位的懂球帝小陈就支持巴西夺冠,他的原因很明确:一方面,巴西是唯一一支在世界杯击败过中国队的冠军球队;另一方面,巴西和中国队都在队徽上绣了五颗星。
嗯,好有道理(围笑)。
最后作为一个严谨的报道,照理附上论文传送门:
https://arxiv.org/pdf/1806.03208.pdf
以及,2018俄罗斯世界杯,今晚开幕~
— 完 —
活动报名
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态