哪些国家将位居2016里约奥运会奖牌榜前列?不难想象,历年的赢家,例如中国、美国和俄罗斯将依然出现在前三位。然而其他国家呢?我们是否可以预测出一些黑马?
本月Significance杂志刊登了一则趣文,从数学角度对这一问题进行了探索。为了预测今年各国的表现,显然需要把各国历年的得奖情况考虑在内。我们之所以认为中国、美国和俄罗斯将依然表现出色,是因为他们历年如此。如果可以在过去的表现中发现一种数学趋势,你就能用它预测未来。比如,假设某国在每届奥运会中都能比上届多拿5%奖牌,而该国在2012年获得80块奖牌,不难猜测,2016年该国将获得80 + 80 × 5% = 84块奖牌。
然而这一计算方式似乎过于简单,因为除了过去表现外,仍然有其他因素预示该国夺牌的机会大小。人口数量显然是其中之一:国民数量越多,其中有天赋的运动员也会越多。这显然是俄罗斯、美国和中国表现出色的原因之一。GDP是另一个重要因素:国民越富裕,能够投入运动的时间就越多,同时政府对体育基础设施建设和有天赋的青年运动员的培养的投入也会大大增加,因此美国在奥运会上常有骄人成绩。其次,主办国家拥有东道主优势,而下届奥运会的主办国家在当年奥运会中也常能拥有优势:申奥成功的国家会加大运动方面的投入从而让运动员受益,国民空前的热情也激励着他们。
也有一些因素不那么显然。Significance文章作者指出,专制政治制度和中央控制经济的国家为获取声望,会倾向于对运动投入更多财力,因此更可能获得佳绩,这种文化甚至在政权倾覆后仍有所延续。女性能否参与到正式运动项目中也至关重要,因为排除女性意味着潜在奖牌获得者群体的减少。
考虑到以上所有因素,本文作者茱莉娅·布雷特曼(Julia Bredtmann), 卡斯滕·J·克雷德(Carsten J. Crede)和塞巴斯蒂安·奥滕(Sebastian Otten)为预测奖牌数构建出一个更为复杂的模型(公式在文末)。研究者团队假设一个国家获得的奖牌总数的估测值可以用一些项的总和表示出来,这些项分别前几届奥运会的奖牌数、GDP等测量因子再乘上不同参量组成。为确定参量的取值,团队使用熟知的统计技术(即回归分析),找出使模型得到结果与前届奥运会已存数据最吻合的参量值。20世纪90年代早期发生了政治巨变,该团队仅考虑自1992年起的奥运会。预测出的奖牌榜如下:
那么该模型的预测结果如何呢?研究者使用之前的数据“预测”了2012年伦敦奥运会各国奖牌数,并将其与真实情况加以比较。他们发现,考虑了经济社会因素的复杂模型预测效果略好于主要基于过去成绩的简单模型:简单模型得到的奖牌数较真实情况平均偏差为1.43块,而更复杂的模型偏差仅为1.41。如果仅考虑排名前15的国家,复杂模型的优势得以提高:其平均偏差仅为5.8块,而相较之下,简单模型则有6.6块的偏差。由此看来,似乎将上文提及的社会-经济因素包括到模型中能略微改善预测效果。
该研究的重头戏当然在于2016里约奥运会奖牌榜的预测(见下表)。结果鲜有意外,前几名依然被常胜将军们占据。在论文作者写这篇论文的时候,俄罗斯代表团还没有闹出兴奋剂禁赛风波,在100多名运动员被禁赛的情况下,俄罗斯还能位居奖牌榜前列吗?排在后面的英国、东道主巴西和2020年奥运会主办国日本有没有希望得到突破?随着里约奥运会的开幕,就让我们拭目以待吧。
如果你支持的国家根本不在列表中,也不要那么快放弃希望。“在任何体育比赛中,一定程度的不可预测性都是存在的。”作者说,“奥运会的历史,也是运动员突破自我、创造奇迹的历史,八月里约的赛场上,运动员们值得让我们有更多期待。”
模型公式
预测公式形式如下:
数学家预测里约奥运奖牌榜:美中俄领衔
翻译一下大概是:
本届奥运会奖牌数(x, y) = a + b * 前几届奥运会奖牌数(x, y) + c * ln GDP(x, y) + d * ln人口数(x, y) + e * 东道主(x, y) + f * 下届主办国(x, y) + g * 经济(x, y) + h * 穆斯林(x, y) + i * 年份(y) + 误差项(x, y)
此处,本届奥运会奖牌数(x, y)为x国在y年预测可得奖牌总数(包括金、银、铜牌)。前一届奥运会奖牌数(x, y)为x国在y年之前的奥运会中获得的奖牌数,GDP(x, y)为y年x国国民人均GDP,人口数(x, y)为y年x国国民人数。
该模型对GDP和人口数分别取自然对数ln,这是因为两变量对奖牌数的正效应随变量增大逐渐减小,而这一特点恰可用对数来模拟。
东道主(x, y)和下届主办国(x, y)用于指示x国在y年是否为东道主或下届奥运会主办国的变量,经济(x, y)是指示国家是否有或曾有管制经济的变量,而穆斯林(x, y)是指示国家人口是否多数由穆斯林组成的变量,因为那些国家往往女性运动员更少。年份(y)指示y年,之所以将其包括在内,是为了符合获得奖牌总数随时间平缓上升的趋势,最后一项为误差项。参量a至h选为能够最佳拟合已存数据的值。