DATUM STUDIOブログ
「楽屋」

スポーツを統計の観点から楽しむ

東京オリンピックが2020年に迫ってきました.今回のブログでは、極値理論と呼ばれる手法を活用してスポーツデータを解析した論文を紹介します.題材となる論文は

  • John H. J. Einmahl and Jan R. Magnus (Dec., 2008), "Records in Athletics through Extreme-Value Theory," Journal of the American Statistical Association, 484,1382-1391

(以下「Einmahl and Magnus」とします)です.このEinmahl and Magnusでは、トラック競技(100m走など)、投擲競技(円盤投げなど)及び跳躍競技(幅跳びなど)について

A.現在のデータから予測される将来的な最高記録はどのくらいなのか

B.現在の世界記録はどのくらい良いものなのか(どのくらいその記録を上回ることが難しいのか)

を考察しています(以下、それぞれA.の分析、Bの分析とします).B.を考察する動機は、異競技間での記録の比較を可能にする点があります.また、データはEinmahl and Magnusが論文誌に投稿・修正された時点で最新のものを用いている点にご留意ください.(例えば、下で男子100mの世界記録が9.78秒と出てきますが、現在の世界記録はウサイン・ボルト選手の9.58秒です.)

あくまで、「統計の手法を用いてこんなこともできる」ということを伝えたい記事です.分析にはあんまり興味ないよ! という方でも、記事の最後の方だけでも目を通していただければ、と思います.

極値理論とは

極値統計学は確率変数列の最大値の分布を扱う理論です.有名な応用例としては、オランダが水害を防ぐための堤防の設計に極値理論を用いていますが、他にも、気象学、社会学、工学に広範な応用をもつ理論です.極値理論の詳細な解説及び具体的な応用例は専門書、例えば L.D. Haan and A. Ferreira, Extreme Value Theory, Springer, 2006.や R.D. Reiss and M. Thomas, Statistical Analysis of Extreme Values, Birkhäuser, 2001.を参考としてください.ちなみに、極値理論を専門的に扱うExtremesという論文誌も存在します.

極値分布の定義

極値理論において重要な極値分布は次のように定義されます:独立な確率変数 M1, M2, …, Mnが分布関数 F(x) を持つ確率分布に従う時、Xn := max{M1, M2, …, Mn} を適当な定数列 an > 0bn によって基準化すると、F(x) に対する適切な条件のもと、 \[ \mathrm{P}\left( \frac{ M_n -b_n }{a_n} \leq x\right) \ \rightarrow \ G(x) \ (n \rightarrow \infty) \] と収束し、この収束先の最大値の分布 G(x) を(一般化)極値分布(extreme value distribution)といいます.Wikipediaに形状などがまとまっており、わかりやすいです.

分析

早速、Einmahl and Magnusの分析を紹介していきます.どうやってパラメータを推定するか、なぜそのような式に変形されるのかなどの詳細には触れないので、ここについてはEinmahl and Magnusや、この論文が引用している文献をご参照ください..

分析の仮定

Einmahl and Magnusでは、ある1つの競技に着目した場合,その競技のスポーツ選手 n 人の最高記録 (X1, X2, …Xn) は独立に同一の分布関数 F(x) に従う、という仮定をおきます.この分析では、n 人のデータとしてIAAF(International Association of Athletics Federations)がトップアスリートとしている選手のデータを用いています.こうすると、「トップアスリートの中では実力差もあるだろうし、独立に同一の分布に従うとするのはどうなの?」と思われるかもしれませんが、(特にAの分析においては)予測に効いてくるのは Xi (i = 1, 2, …, n) の中でも大きな観測値を取ったもののみなので、n をどうとるかはそこまで大きな問題とはなりません.

データ

確率変数 Xi (i = 1, 2, …, n) は各選手の最高記録に対応します.例えば,男子100mはトップアスリートと定義されている選手が970人存在するので、n = 970となり,Xi (i = 1, 2, …, n)970 人分の最高記録が並びます.また, n は競技によって異なります.女子100mでは n = 578 です.

手法の解説

分析手法について簡単に解説します.まず、X1, X2, …Xn を昇順に並び替え、X1, n, X2, n, …, Xn, n とします.つまり、X1, n ≤ X2, n ≤ … ≤ Xn, n です.この Xn, n を用いて \[ \lim_{n \rightarrow \infty} \mathrm{P} \left( \frac{X_{n,n} -b_n}{a_n} \leq x\right) = G_{\gamma}(x) \tag{1} \] ただし \[ G_{\gamma} (x) := \exp(-(1+\gamma x)^{-1/\gamma}) \] が成り立つとします.この時、γ は極値指標(extreme value index)と呼ばれるパラメータで、Gγ(x) の分布の形状を決定づけます.Aの分析においては、γは負であることを仮定します.(推定の結果.正となってしまう競技もあるようですが…)また、トラック競技は、記録ではなくて速度に変換して考えます.

Aの分析

Aの分析では, \[ x^* := \sup\{x|F(x) < 1\} \] を推定します.ここでは、γ を負と仮定しているため、x* が有限な値となります.意味が取りづらい! という方は、F(x) の確率密度関数の一番右側のようなものを推定する、とイメージしてください.
ところで、この推定は \[ \hat{x}_j^* := \hat{b} – \frac{\hat{a}_j}{\hat\gamma_j} \] という形で行います((1) から近似を用いて導きます).j は、上の式でも出てきた \(\hat{\gamma}\) を,色々な手法を用いて推定するために付いているインデックスです.例えば、j = 1 はモーメント法、j = 2 は最尤法で推定した結果を用いています.
この \(\hat{a}\) , \(\hat{b}\) 及び \(\hat{\gamma}\) の推定にあたっては、X1, n, X2, n, …, Xn, n の上位から k 個の値を用いており、この k をさらに決定しなくてはなりません.
しかし、最終的には γ を(推定値ではなくて)著者たちによって決め打ちした値を用いる(!)ことで x* の推定値を k によらず安定させ、結局 k にあまり依存しない分析を行っています.つまり、「分析の仮定で」で触れたとおり n をどうとるかあまり関係なくなっています.

Bの分析

B.の分析では、現在の世界記録 Xn, n を上回る確率の期待値 \[ \mathcal{Q} := n(1-F(X_{n,n})) \] を指標とします.(「これで本当に期待値が求まるの?」という方は「しっぽ確率 期待値」検索をしてみてください.)ここで、𝒬 は \[ \mathcal{Q} \approx k \left[ \max\{0,1+\hat{\gamma}_j \frac{X_{n,n} – \hat{b}}{\hat{a}_j}\} \right]^{-1/\hat{\gamma}_j} \] と、n が陽には出てこない形に近似できます(こちらも,(1) から近似を用いて導きます).しかし、推定値 𝒬 の挙動がA.の分析でのx* の挙動に比べて不安定なこともあり、Bの分析では、推定した \(\hat{\gamma}_j\) や決め打ちした γ を用いてk による 𝒬 の挙動を確認した上で、最終的には筆者たちによって(ヒューリスティックに) 𝒬 を決定しています.
ところで、𝒬 はパラメータ1の指数分布に n → ∞ の極限で法則収束することが論文中で示されています.この事実を用いて、最終的な指標としては e−𝒬 とし、区間 [0, 1] の一様分布に従う形で用いることで、他競技との比較を可能にしています.

分析結果

Aの分析

Einmahl and Magnusから、予測された最高記録を引用します. 男子400m, 10,000m, Long jump、女子10,000m, Long jumpは γ の推定値が負となるため,予測値無しとなっています.

男子競技
競技 最高記録の予測 当時の最高記録
100m 9.29 9.74
110-m hurdles 12.38 12.88
200m 18.63 19.32
400m 43.18
800m 1:39.65 1:41.11
1,500m 3:22.63 3:26.00
10,000m 26:17.53
Marathon 2:04:06 2:04:26
Shot put 24.80 23.12
Javelin throw 106.50 98.48
Discus throw 77.00 74.08
Long jump 8.95
High jamp 2.50 2.45
女子競技
競技 最高記録の予測 当時の最高記録
100m 10.11 10.49
100-m hurdles 11.98 12.21
200m 20.75 21.34
400m 45.79 47.60
800m 1:52.28 1:53.28
1,500m 3:48.33 3:50.46
10,000m
Marathon 2:06:35 2:15:25
Shot put 23.70 22.63
Javelin throw 72.50 71.70
Discus throw 85:00 76:80
Long jump 7.52
High jamp 2.15 2.09

Bの分析

こちらは、e−𝒬 を引用します. e−𝒬 が小さいほど、良い記録(つまり、破られにくい記録)です. 例えば、男子の110-m hurdleの記録は良い記録で、女子のJavelinは今後記録が更新される可能性が高い記録です.

競技 e𝒬 競技 e𝒬
Javelin(W) 0.98 200m(W) 0.74
Marathon(M) 0.95 400m(M) 0.67
Javelin(M) 0.93 High jump(W) 0.64
200m(M) 0.92 Discus(W) 0.55
High jump(M) 0.86 10,000m(W) 0.50
100m(W) 0.86 Shot put(W) 0.50
1,500m(W) 0.86 100m(M) 0.47
Marathon(W) 0.86 Shot put(M) 0.45
400m(W) 0.78 10,000m(M) 0.33
800m(W) 0.78 100-m hurdles(W) 0.33
800m(M) 0.74 Long jump(W) 0.30
1,500(M) 0.74 Long jump(M) 0.27
Discus(M) 0.74 110-m hurdles(M) 0.20

現在の記録と比較する

分析A

男子100m走は、ウサイン・ボルト選手によって当時の世界記録は破られましたが、最高記録の予測値には至っていません.男子マラソンは現在の最高記録が2:02:57なので予測が破られていますが、マラソンは男女とも全競技中でもっとも標準偏差が大きい(コースが毎回違うため?)こともあり,仕方ないかとも思います.男子マラソン以外は、最高記録の予測を上回っている結果が出ていないようなので、2020年のオリンピックに期待です.

分析B

男子ハードルは e−𝒬 が最も低いですが、当時の劉翔選手の世界記録は更新されてしましました. 投擲、跳躍については、女子やり投げ以外は分析当時から世界記録は更新されていないようです.ヒューリスティックが多く入っていたり,n → ∞ の効果を用いている分,分析Aの結果よりも不安定な結果となっていると考えられます.

雑感

私はこの論文の存在を初めて知った時に、

  • 人体の構造に着目した物理学や医学的な手法ではなく、データのみから世界記録を推定する点
  • (例えば)世界記録の変遷を時系列的に追うといった方法ではなく、極値理論の枠組みに落とす点

に新しさを感じました.

また、推定にあたって「the graphical heuristic procedure is sufficiently insensitive」や「Some caution and use of common sense are, however, still required.」とあり、示唆があると思っています.

余談

論文中の「(データの集計は)This is not as easy is it might appear, because names are sometimes misspelled and athletes sometimes change their name, typically women after marriage.」というコメントが、データ集計の辛さを物語っています.