【第7回】 「比較」するには「基準」が重要 [ボートレース×統計学]
前回は仮説検定の手法のひとつ、母比率の検定(両側検定)の検定統計量をボートレースを例にして実際に算出しました。
少し計算が複雑になりますが、この計算を習得すれば、必ずボートレースの的中率向上に役立つはずです。
今後、母比率の検定(両側検定)を使ってボートレースのさまざまな事柄を検証し、調べた確率が基準の確率と異なるのか、または母比率に向かって収束しないのかといった判断を行います。
ただし、今回は少し異なる視点から検定統計量を掘り下げていきます。
検定統計量を使った仮説検定の進め方については、過去に「検証するための値」として登場した記事を参照してください。
今回は「統計学って、こんなこともできるんだな」と感じてもらえる内容となっています。
基準を設定しなければ、比較には意味がない
ボートレースの予想は「比較」の繰り返しといえるでしょう。
「どちらのレーサーが強いのか?」や「この天候だと、どのような傾向があるのか」──いろいろなことを考えながら、買い目を絞り込んでいきます。
ただし、それらの比較には、どのような根拠や理由があるのでしょうか。
漠然とした比較をしていると、レース後に何が悪かったのか、どう改善すべきかがわからなくなることがあります。
この場合、基準を明確にすることで、その比較に意味が生まれ、理由もはっきりします。
その買い目を選んだ根拠をしっかりと持つことが、的中率向上の第一歩だと私は考えています。
では、どのようなものを基準にすれば、理由のある比較ができるのでしょうか──
お話ししている「検定統計量」には、「量」という文字が含まれています。
たとえば、綿と鉄を比べて、「どちらの方が量が多いか?」と質問された場合。
もちろん、そのような時は見た目の量で答えることになるでしょうが、どのような答えが求められているのか明確ではありません。
見た目の量だけではわからない、本当の比較の意味
一方で、「この1kgの綿と、この1kgの鉄、どちらの方が量が多いか?」と聞かれた場合、質問の意図が明確になり、綿の方がかさが大きいことを伝えやすくなります。
この場合、「重さ」という基準があることで初めてかさ(量)の比較に意味があることが分かります。
ボートレースを例にすると、「ある半年間のボートレース芦屋の1コースの勝率は60.54%、ボートレース尼崎の1コースの勝率は60.48%です。どちらの1コースが強いか?」と聞かれたとしましょう。
数値上、芦屋の60.54%が大きいことが確認できます。
しかし、それぞれの確率が算出された背景が分からないため、単純に比較することは難しいと考えるのが妥当でしょう。
例えば、芦屋の1コースの勝率は多くのデータをもとに算出されたのに対し、尼崎の1コースの勝率は数レース分のデータのみで計算されたとします。
この場合、それぞれの確率に対する印象は大きく変わるでしょう。
データの背景を把握することで、予測が一層確かなものに
そこで下のように算出する検定統計量で比較するのです。
計算式に「調べた数」が考慮されていることは、前回お話した通りです。
さらには、綿と鉄の比較で重さを基準としたように、検定統計量には母比率が「基準の確率」として計算式に組み込まれています。
つまり、確率に大きく影響を与える試行回数を計算式に取り入れつつ、母比率を基準として、どのような違いがあるのかを「量」として数値化したものが検定統計量です。
そうなると、この値を比較することで根拠のある比較ができるとこにお気づきの方も多いでしょう。
試行回数を加えることで、結果はどう変化する?
そこで、「試行回数1120回の芦屋の1コースの勝率60.54%と1159回の尼崎の1コースの勝率60.48%だと、どちらの1コースが強い?」と質問された場合、意味のある比較ができそうなことは一目で分かります。
では、実際にこれらの検定統計量を算出して比較してみましょう。なお、「基準の確率」となる母比率は55.68%です。
まずはボートレース芦屋から見てみましょう。
ボートレース芦屋の検定統計量は3.27と分かりました。次にボートレース尼崎です。
ボートレース尼崎の検定統計量は3.29となりました。
1コースの勝率では芦屋が上回っていましたが、検定統計量では尼崎の方が高い数値を示しています。
この逆転現象は、試行回数の違いによって生じたことがわかります。
このように、母比率に基準を置き、試行回数を考慮した検定統計量を使うことによって、見た目では比較が難しかった数値でも、根拠のある比較ができるようになります。
広い視野を持つことで見えてくる、隠れた事実
検定統計量を使って比較することで、感覚に頼らず、理由に基づいた判断ができることがわかりました。
では、今回の記事の最後に、下のようなグラフをお見せします。
全ボートレース場の1コースの勝率を調べ、それらの試行回数から各場の検定統計量を算出し、すべての値をグラフの横軸に置いてみました。
母比率の検定(両側検定)で検証したとき、左右の棄却域に属するボートレース場は母比率とは違いがあると結論付けることができます。
また、右側の棄却域はプラスの方向に「違いがある」──つまり、全体と比較して1コースが強いボートレース場となります。
逆に、左側の棄却域はマイナス方向にあるので、全体と比較して1コースが弱いボートレース場といえる訳です。
このように全てのボートレース場を並べることで、各場の数値の関係が明確になり、ボートレース全体を広い視野で捉えやすくなります。
ひとつの事例を徹底的に調査したり、時にはボートレース全体を俯瞰して見ることを繰り返し、皆さん独自の予想法をぜひ見つけ出してみてください。
的中率を確実に向上させるための明確な判断
これで、仮説検定に関連する用語や値の解説はすべて終わり、次回から実践編に進みます。
ここまでお付き合いいただき、本当にありがとうございました。
今後、ボートレースに関するいろいろな事象を統計学で調査していきます。
ご質問や検証のリクエストがあれば、どうぞお気軽にお知らせください。