【第5回】 統計学は「違う」をいかに見つけるか [ボートレース×統計学]
統計学を勉強していて、ふと思うことがあります。それは、「日本語って難しいな──」ということです。
一生のうちに一度も使わない言葉も、きっとあるのだろうなと思うと、なんだか考えさせられるものがあります。
そして、統計学を学ばなければ、きっと使うことがなかっただろうと思う言葉もあるのです──
今回の「ボートレース×統計学」のキーワードは「棄却(ききゃく)」です。
統計学で違いを見つける方法とは?
前回の記事では、母比率の検定の大まかな流れを紹介しました。
実は、統計学に判断を委ねるだけなら、前回までの内容でほぼ解くことができます。
ただ、せっかく「母比率の検定」のお話をしている以上、その背景にある「仮説検定」の本質的な部分も知ってもらいたいと思い、今回はそこを深掘りすることにします。
確認しておくと、母比率の検定を通じて「違いがある」と判断される事柄をたくさん見つけ、ボートレースの的中率を改善することが、私たちの目標です。
「仮説検定」という手法は、名前の通り「ある仮説を立て、それに対して検証を行い、妥当であればその仮説を、そうでなければもう一方の仮説を採択する」という流れで進められます。
そのため、あらかじめ2つの仮説を用意する必要があります。
これらの仮説には名前があり、検証の対象となる仮説を「帰無仮説(きむかせつ)」、帰無仮説が妥当でないと判断されたときに主張する仮説を「対立仮説(たいりつかせつ)」とよびます。
知りたいことの裏側を見る意味とは?
仮説検定では、帰無仮説と対立仮説を明確にすることが大切です。
統計学の入門書には、「知りたい内容の逆を帰無仮説、知りたいことを対立仮説に設定する」と書かれています。
例えば、ある半年間の全体の1コースの勝率が55.7%で、ボートレース住之江の1号艇の勝率が59.0%でした。
私たちが知りたいのは、「全体の1コースの勝率55.7%と住之江の1コースの勝率59.0%の間に違いがあるかどうか」です。
「住之江の59.0%が、母比率と想定される55.7%に向かって収束しなさそうかどうか」という表現のほうが、もしかすると分かりやすいかもしれません。
住之江データの秘密を解き明かす
この例を母比率の検定(両側検定)で詳しく検証してみましょう。
この場合、帰無仮説は「全体の1コースの勝率55.7%と、住之江の1コースの勝率59.0%に違いがあるとはいえない」と設定します。
一方、対立仮説は「全体の1コースの勝率55.7%と、住之江の1コースの勝率59.0%に違いがあるといえる」となります。
なぜ知りたいことではなく、その逆の事柄を検証するのかについては、前回の記事でお話ししました。
反対の視点を取ることで、論理的で説得力のある結論につながるのが仮説検定の特徴です。
棄却の概念を分かりやすく解説
さて、今回のキーワード「棄却」をWikipediaで調べると、次のように説明されています。
棄却(ききゃく)とは、ある物を棄ててしまい、以後は取り上げないこと。
Wikipedia
──分かりやすく説明してくれていると思いますが、やっぱり難しいと感じますよね。
先ほど「妥当でないと判断されたときの主張」と表現しましたが、帰無仮説を前提に検証した結果、それが違っていた場合、「帰無仮説を棄却する」といいます。
つまり、私たちは母比率の検定で「帰無仮説を棄却する」事柄をできるだけ多く見つけ出して、ボートレースの的中率を上げようとしてるわけです。
上のグラフは、前回も紹介した母比率の検定で最終的な判断をするときに使用するものです。
この横軸に、次回お話する「調べたいものと基準となるものから計算された『検証するための値』」を横軸に配置して判断します。
その値が中央の白い部分にない場合、帰無仮説は棄却され、対立仮説が採択されます。
なお、グラフの色分けには次のようなルールがあります。
グラフの色分けの意味とは?
グラフの横軸に注目してください。-1.96と1.96の値を境に色分けされていることがわかります。
この値は「棄却限界値(ききゃくげんかいち)」とよばれ、帰無仮説を棄却するかどうかの境界線になります。
以前、有意水準を「偶然と必然の境界線の『基準となる』値」とお話ししましたが、棄却限界値は「偶然と必然の境界線の『実際の』値」といえるでしょう。
棄却限界値は、仮説検定の手法や有意水準によって異なりますが、母比率の検定(両側検定)で有意水準を5%に設定した場合、この±1.96という値は固定されます。
では、先ほどの住之江の例を実際に試してみましょう。
仮説検定の結果を確認しよう
今回の「検証するための値」を計算してみると2.16となります。この値をグラフの横軸に配置し、白色の部分にあるかどうかを確認してみましょう。
2.16という値は白色の部分には含まれていません。つまり、帰無仮説は棄却され、対立仮説が採択されました。
これは「全体の1コースの勝率55.7%と、住之江の1コースの勝率59.0%には違いがあるといえる」と統計学が判断したことになります。
なお、グラフのピンク色の部分を「帰無仮説を棄却するエリア」なので「棄却域(ききゃくいき)」とよびます。
有能な値で比較がもっと簡単に
今回は「棄却」をキーワードに、新しい用語が4つ登場しました。そして、残る用語はあとひとつとなります。
これまで、あまり数字を使わずに話を進めてきましたが、次回はついに重要な値が登場します。
ただ、この値はとても有能で、上手に使えばいろいろな事柄の比較に役立ちます。
ぜひ、期待してお待ちください。