舟猫.com タイトル画像

統計学を軸にボートレース予想と知識・データやツールをお届けする「舟猫.com」へようこそ!

【第3回】 サイコロが6分の1だという思い込み [ボートレース×統計学]

【第3回】 サイコロが6分の1だという思い込み [ボートレース×統計学]

こんなことを考えていると夜も眠れなくなるときがあります。「サイコロのそれぞれの目が出る確率は本当に6分の1なのか」ということです──

たまたまサイコロを6回振って、均等に出ることもあるでしょう。そうなると確かにそれぞれ6分の1の確率です。

もし、数万回か振ってきれいに6分の1になったとしても、次の1回を振ることでそれが崩れてしまう──。

また、サイコロの目を表す凹みによって、多少、各面の出方が変わってくるのではないか──。

コインでも同じです。もし表面に派手な装飾が施され、裏面がつるっとしたデザインだったなら、表面が重たくなり下を向いて、結果として裏面がよく出るのではないか──。

見えない確率をどう仮定するか

前回は、今後の「ボートレース×統計学」でよく使うことになる統計学の手法、「母比率の検定」について、そして母比率とは何かをお話しました。

もしかすると、前回の記事の後半あたりで疑問を感じた方もおられるかもしれません。

「本来、知ることのできない確率」に、仮とはいえ数値を当てはめる──その部分です。

ただ、これは最初の話につながっています。例えばサイコロでは、面が6つあるから、それぞれの目が出る確率を6分の1と仮定しているにすぎません。

コインも同じで、表と裏の2パターンしかないので、便宜上2分の1としています。

つまり、未知の割合だとはいえ、もっともらしい値を仮定として設定することは自然なことなのです。

ただし、この仮定が正しくないと統計の結果が信用できなくなってしまうので、丁寧に設定することが大切です。

データの秘密を解き明かす仮説検定

それでは今回は、今後よく使用する「母比率の検定」について深掘りしてみましょう。

これから私たちに多大な力を貸してくれるのは「仮説(かせつ)検定」という統計学の手法です。

母比率の検定もそこに含まれ、検証したいことを仮説として立て、それが間違っているかどうかを判断するものです。

ポイントとしては「それが正しいかどうか」ではなく「それが間違っているかどうか」であり、間違いを見つけることに意味があるとされています。

そのため、仮説検定では「違いがある」という主張を強く述べることが可能です。

次に仮説検定の進め方を簡単に見てみましょう。下の図をご覧ください。

左から順に5ステップの手順で進めていきますが、避けて通れない単語が7つあります。

今後、数回に分けてこれらの用語を一つずつ丁寧に解説していきますので、どうかお付き合いください。

偶然か必然かを見極める有意水準の秘密

その最初に、図にも登場する有意水準というものを取り上げてみましょう。

これは「ゆういすいじゅん」と読み、上の図の緑色の部分には「偶然かどうかを統計的に判断する基準」とあります。少し難しく感じるかもしれませんね。

「偶然」の感じ方には個人差がありますが、どこかに基準を設けなければ物事は解決しません。

そこで、偶然と必然の境界線の基準を数値で示したものがこの有意水準で、通常はパーセントで表されます。

例えば、次のようなことをイメージしてみてください。

統計学のカギを握る5%の魔法

あなたは学生です。以下のグループの中で「あなたと同じ誕生日の人がいそうかどうか」の境目を考えてみてください。

  • 同じ学年の200人
  • 同じクラスの40人
  • 同じ部活動の20人
  • 一緒に帰る友達5人

統計学の話に戻すと、問題集や参考書の例題でよく使われている有意水準の数値が「同じ部活動の20人」に相当します。

これを具体的に表すと5%という値で、私たちも今後、偶然と必然の境界線として、この5%を基準とすることにしましょう。

なお、仮説検定では、有意水準を検定を始める前に設定する必要があります。理由は、ここを曖昧にすると、最後に都合の良い解釈をしてしまう恐れがあるからです。

有意水準で収束しない理由を証明する

前回、「母比率の検定とは母比率に収束しそうかどうかを判断するもの」と説明しましたが、今回はさらに詳しくお話しします。

厳密に言えば、母比率の検定は母比率に収束しなさそうかどうかを判断するものです。

その「収束しなさそう」という状態を偶然では説明できないものとして捉え、その基準を有意水準として5%と設定します。

例えば、この半年の全ボートレース場における1コースの勝率は55.7%です。これをもとに次のことを考えてみましょう。

同じ期間のボートレース徳山の1コースの勝率は63.6%です。ボートレース好きなら「これは55.7%に収束しそうにない」と直感で分かるでしょう。

では、ボートレース浜名湖の1コースの勝率、53.0%についてはどうでしょうか。

これを割合だけで判断するのは良くないことだということは置いておいても、収束しなさそうか、しそうかは人によって意見が分かれる部分だと思います。

そこで、明確な線引きをするための基準となるのが有意水準なのです。

ボートレースに当てはめることで、仮説検定における有意水準の役割が伝わったのではないでしょうか。

偶然を超えて次の的中を目指す

今回は統計学の具体的な手法「仮説検定」と、その中で使う用語「有意水準」についてお話しました。

「偶然では説明できない要素を見つけ出す」ことが鍵となる仮説検定を理解することで、ボートレースの予想精度向上にも役立てられるはずです。

難しい用語が出てきますが、一緒に統計学の面白さを探っていきましょう。