【ウルトラサンムーン】重回帰分析を用いた勝率の説明要因の分析【PGL統計】

1.はじめに

「重回帰分析を用いた勝率の説明要因の分析」って、めちゃくちゃ仰々しいタイトルですね(笑)。

今回は、ダブルバトルにおいて、レートの勝率に影響するものは一体何なのか迫ります。

もし、それを知ることが出来れば、いわゆる最強のパーティー(厨二かよ)を作ることも出来る訳です。

スポンサーリンク

2.分析手法・結果

今回は、勝率に影響する要因がポケモンだと考えました。例えば、第6世代においてはガルーラァ!と言われてたので、当時はガルーラが勝率に正の影響を及ぼしていたと考えられます。

というわけで、勝率をポケモンで重回帰分析で線形回帰しました。勝率は、QRレンタルパーティーのトータル使用数トップ100のデータを用いました。サンプル数が100しかないのがちょっと懸念材料ですね..。

前置きはさておき、結果は以下のようになりました。

勝率(%)=50.93+4.28*(ジャラランガ)+1.22*(クレセリア)-4.53*(ミミッキュ)+2.04*(カプ・レヒレ)+5.22*(トゲデマル)+8.99*(ガルーラ*クレセリア)-2.69*(ランドロス*ヒードラン)+5.40*(カプ・コケコ*エルフーン)+4.16*(メタグロス*サンダー)-5.24*(リザードン*テッカグヤ)-9.92*(カプ・テテフ*エルフーン)+3.15*(サンダー*サーナイト)+4.62*(バンギラス*テッカグヤ)-5.03*(ジャラランガ*ミロカロス)-10.02*(アーゴヨン*ガルーラ)+11.92*(キリキザン*クレセリア)

色分けしたらめっちゃカラフルになってしまった...。

*有意水準5%で棄却出来ない係数もいくつかあります。

式の右辺に入っているポケモン名は、各ポケモンがそのパーティーにいれば1、いないなら0をとる変数です。(ダミー変数というやつですね。)

例えば、今見ているパーティーにジャラランガが入っていれば、(ジャラランガ)という変数は1になるので勝率が4.28上昇します。逆に、そのパーティーにジャラランガがいないなら、(ジャラランガ)という変数は0になるので、この項では勝率は変化しません。

更に、今見ているパーティーの中に、ジャラランガとミロカロスがいると仮定しましょう。このとき、(ジャラランガ)という変数によって勝率が4.28上昇するだけでなく、(ジャラランガ*ミロカロス)という変数によって勝率が5.03減少します。(1*1=1だからです。ジャラランガはいるけどミロカロスがいない場合は1*0=0なので、この項では勝率は変化しません。逆に、ミロカロスだけがいる場合も0になるので勝率は変化しません。)結果として、(ジャラランガ)と(ジャラランガ*ミロカロス)という2つの変数によって、(4.28-5.03)だけ勝率が変化する訳です。

上式より、ジャラランガ・クレセリア・カプレヒレ・トゲデマルが入っているパーティーは勝率が高く、一方でミミッキュが入っているパーティーは勝率が低いようです。

ここで、注意してほしいこととして、ジャラランガ・クレセリア・カプレヒレ・トゲデマルなどの変数は独立変数ではなく、内生変数だということです。内生変数がなんなのかというと、それ自身の効果だけでなく間接的な効果も含んでいる変数のことです。(より厳密に言うと誤差項と相関する変数のことです。)

例えば、カプ・レヒレとサンダーは相性が良いので、同じパーティーに入れられやすいと仮定します。そうなると、(カプ・レヒレ)という変数と(サンダー)という変数は非常に高い相関を持つことになるので、統計的な変数の取り扱いの関係で(多重共線性の問題。あとで詳しく触れます。)、(サンダー)という変数を除外します。その結果、回帰式で表せなくなった「サンダーの強さ」のようなものが(カプ・レヒレ)という変数に含まれてしまうのです。

したがって、カプ・レヒレをパーティーに入れると勝率が2.04%上昇するのではなく、カプ・レヒレ自身と、それに加えてカプ・レヒレとよく一緒に採用されるようなポケモン達も一緒に採用しないと、勝率は上がりません。

この点を強調するためにもうひとつ例を挙げると、トゲデマルに関しても、トゲデマルだけでは勝率は上がらないはずです。例えば、ツンデツンデと同時採用することによって、ツンデツンデによるトリックルームのお陰で、トゲデマルが強化されて、勝率が上がるのかもしれません。

このように、各ポケモンの背後関係まで考える必要があります

ところで、ダブルバトルには並びという概念があります。特定のポケモンを組み合わせることで相乗効果が生まれて、めっちゃ強くなるアレのことです。例えば、テテフグロスやトノグドラとかが並びに当たります。

上式にも並びによる相乗効果が存在することが示されています。(例えば、クレセリアは単体だと1.22%しか勝率を増加させませんが、ガルーラと組み合わせることで新たに8.99%も勝率が増加するようです。ほんまかいな。(先ほどのジャラランガとミロカロスの組み合わせは逆に負の相乗効果です。)

ガルーラとクレセリアの相乗効果によって、ウルトラサンムーン環境においても、未だにCHALK構築は強いということが、客観的に示されたというわけですね。(ランドロス・ヒードランの並びは勝率を減少させるようですが。)

今回の回帰式での決定係数(モデルの当てはまりの良さを表す指標)は0.63なので、勝率を説明する要因のうちの63%を式に含めることが出来たといえます。回帰式の右辺の説明変数の選択については、自由度調整済み決定係数が最大になるように手探りで頑張ったので、極力オーバーフィッテングには対処したつもりです。

以下、上式を見る上での注意点を載せておきます。

ミミッキュ・トゲデマル・アーゴヨン・キリキザン・ヒードランなどはサンプル数が少ないので、たまたま勝率に影響しただけの可能生もあるかもしれません。

更に、上の式は勝率の予測式ではありません。仮に(ジャラランガ・トゲデマル・ガルーラ・クレセリア・キリキザン・カプレヒレ)というパーティーを組んだからといって、勝率が83.38%(上式に代入した値)になる訳ではありません。

したがって、上の方程式を使って、未知のパーティーの勝率を予測しようとしてもうまくいかない可能性が高いです。(クロスバリデーション・AICなどで分析してないのでオーバーフィッティングは不可避だと思われます。今回は勝率の予測ではなく、勝率に影響を及ぼす要因の説明に興味があったので、まあ仕方ないのかなーって感じですね。詳しくは、計量経済学vs機械学習の記事をググってください。)

注意点まとめ
①各変数のポケモンと同時に採用されやすいポケモンも採用しないと勝率は上がりません。
②トゲデマル・キリキザン・アーゴヨンなどが勝率に及ぼす影響はたまたま観察されただけであって、本当はそのような効果はないかもしれません。(サンプル数が少ないため。)
③上式を勝率の予測式として使うことは出来ません。

3.統計的分析について

統計学に興味がない方は読み飛ばしてもらってかまいません。

説明変数として上式の右辺にダミーのポケモンをとった訳ですが、扱いに非常に苦労しました。なぜかというと、これらの変数は非常に高く相関しあっているからです。多重共線性(マルチコ)の問題が頻繁に発生します。

たとえば、分かりやすい例としては、ペリッパーとラグラージを同時に変数として入れてしまうと、ペリッパー(ラグラージ)という変数はそのほとんどをラグラージ(ペリッパー)という変数で説明できてしまうので、必要ない訳です。いらないだけなら良いですが、高相関のせいで係数の符号が逆になったり、標準誤差が増加して有意でなくなってしまうのです。

そういうわけで、最初はPGLランキングのシーズン10ダブルバトルのトップ30のポケモンを全て右辺に入れていた結果、ほとんど全ての項が有意でなくなってしまいました。そこから試行錯誤を繰り返して、上式のような形に至りました。

本当は、不均一分散の検定・内生性の検定とかもやった方がいいんだろうなあとは思います。(これらがあった場合、得られた結果が全く信用できないものになります。)気が向いたらやります。(いや、やれよ。)

更なる問題点として、QRレンタルチームの使用数が上位(1位付近)のパーティーよりも、下位(100位付近)のパーティーの方がぱっと見で平均勝率が高いんです。これは、「使用数が上位のパーティーほど対策が取られているので勝つことが難しいんだ」と解釈することも出来ますが、「使用数が下位のパーティーは試行回数が少ないせいで勝率が収束していない」とも考えられます。

QRレンタルパーティーでトップ100にはいっているもののほとんどは、世界大会出場者など有名強者の方々が構築したパーティーです。したがって、試行回数が少ないと、プレイングがめちゃくちゃうまい人ばかりがそのパーティーを使っていることになるので、勝率の上方バイアスがあるわけです。プレイングがうまい人も下手な人も一様に使わないと、ランダム化が出来ていないということになります。

今回はこのような問題を対処しませんでしたが(いや対処しろよ)、QRレンタルチームの使用回数で重み付けして、加重最小二乗法(WLS)で推定すれば、よりよい結果が得られるのかなあと思います。

長々と統計的分析の問題点を挙げてみましたが、最後に今回の重回帰分析での推定結果を残しておきます。

Dependent Variable: 勝率

Method: Least Squares

Included observations: 100

変数 係数 標準誤差 t統計量 P値

切片 50.93186 0.461223 110.4277 0.0000

ジャラランガ 4.278026 0.793288 5.392775 0.0000

クレセリア 1.229354 0.730750 1.682318 0.0963

ミミッキュ -4.530753 1.868134 -2.425283 0.0175

カプ・レヒレ 2.044869 0.656315 3.115681 0.0025

トゲデマル 5.219386 1.581150 3.301006 0.0014

ガルーラ*クレセリア 8.988453 2.015605 4.459431 0.0000

ランドロス*ヒードラン -2.694532 1.432473 -1.881035 0.0635

カプ・コケコ*エルフーン 5.398625 1.868134 2.889849 0.0049

メタグロス*サンダー 4.163751 1.043142 3.991549 0.0001

リザードン*テッカグヤ -5.240653 2.601369 -2.014575 0.0472

カプ・テテフ*エルフーン -9.918784 2.601369 -3.812909 0.0003

サンダー*サーナイト 3.149326 1.240303 2.539158 0.0130

バンギラス*テッカグヤ 4.620719 1.548394 2.984200 0.0037

ジャラランガ*ミロカロス -5.026463 2.649661 -1.897021 0.0613

アーゴヨン*ガルーラ -10.01130 2.956213 -3.386530 0.0011

キリキザン*クレセリア 11.91728 3.219563 3.701521 0.0004

R-squared 0.633114 Mean dependent var 53.25126

Adjusted R-squared 0.562389 S.D. dependent var 3.870100

S.E. of regression 2.560155 Akaike info criterion 4.871683

Sum squared resid 544.0148 Schwarz criterion 5.314562

Log likelihood -226.5842 Hannan-Quinn criter. 5.050924

F-statistic 8.951771 Durbin-Watson stat 1.668755

Prob(F-statistic) 0.000000

4.終わりに

統計の専門家の方がこの記事を読んで、今回の分析に問題を感じたなら、ぜひとも教えてください。(この記事を読むような方々は、僕よりも非常に知識が豊富だと思われますので。)

今後の展望としては、同じポケモンであっても持ち物・性格などによって違うポケモンとみなしたり、耐性の数や素早さの高さなどの新しい指標を用いて、分析し直してみるのも面白いかなあと思いました。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする