【第2回】 その確率は一体どこに収束するのか [ボートレース×統計学]
皆さんも「確率は収束する」という言葉を聞いたことがあるのではないでしょうか。もしかすると、日常的に使っている方もいるかもしれません。
この言葉の意味は、何かを繰り返すことで想定している確率に近づくというものです。
統計学では「大数の法則」とも呼ばれていて、ボートレースの的中率を改善するには、この考え方がとても重要です。
この記事を最後まで読めば、統計学がどのような学問で、何を目指しているのかがきっとわかるはずです。
今回のテーマは、私が独学で統計学を学んでいる中で特に難しく感じた内容の一つです。
ただ、これを一度理解してしまえば、この先の話がぐっと楽に進むので、ぜひお付き合いください。
前回を振り返り、今回のテーマを確認しよう
少しだけ前回の記事を振り返りましょう。ボートレースびわこの事例をもとに、統計学でどのようなことができるのかを説明しました。
「一標本」「二標本」など聞き慣れない言葉や、「1コースの勝率を考えるのか、それとも全コースのバランスとして考えるのか」といった話題も取り上げましたね。
今回はそれをさらに深掘りして、統計学の手法のうち、今後特によく使うものを説明します。
以下の図をご覧ください。
ここでも新しい単語が出てきますが「ボートレース×統計学」で頻繁に使うのは左上の母比率(ぼひりつ)の検定です。
他の3つは今覚えなくても大丈夫なので、ひとまず「母比率の検定」という名前だけ頭に入れておきましょう。
工場の例え話で「母」比率をイメージする
では、「母比率の検定」を説明する前に、まず「母」比率とは何かについて触れてみましょう。
統計学を学ぶ際によく使われる例として、「工場の製造ライン」があります。この話をもとに考えてみましょう。
たとえば、ある工場では、製造ラインで作られる製品の不良品率を1%に設定しています。
ある日、抜き打ち検査で50個を調べたところ、不良品が1個見つかりました。
つまり、不良率は2%だったという結果です。この結果をどう解釈するべきでしょうか?
工場側は、不良品率を1%に近づける努力をしているはずです。
しかし、この機械が本来どの程度の割合で不良品を出しているのか──それを正確に知ることは誰にもできません。
もし正確な割合を知りたいなら、全製品を1つ残らず検査する必要があります。
しかし、現実にはそれは不可能です。そこで、抜き打ち検査を繰り返し、その割合を推測するという手法が取られます。
この例で「母」にあたるのは製造ライン全体です。
そして、その製造ラインでの不良品の割合(比率)が「母比率」と呼ばれるものです。
つまり、母比率とは、本来知ることのできない全体の割合です。それでも、手元のデータを使って推測するのが統計学の役割なのです。
母比率の範囲はどこまで許容される?
ここで「母比率の検定」に話を戻しましょう。この検定では、大数の法則を交えながら、次のようなことを考えます。
たとえば、工場が定期的に抜き打ち検査を行い、その結果を積み重ねていくと、不良品の割合はどこかに収束するはずです。
では、その値はどこに収束するのでしょうか?会社が設定した1%に近づくのでしょうか?
実際には、それは「母比率」に収束します。
つまり、大数の法則とは繰り返し観測することで、得られた値が母比率に近づいていく現象といえるのです。
ただし、先ほどもお話ししたように、母比率は正確にはわかりません。
そこで、「今回の検査結果は母比率の範囲内と言えそうか」「この結果が母比率に収束しそうかどうか」を判断する──
これが母比率の検定なのです。
ボートレースにおける「母」ってなんだろう
それでは、これをボートレースに当てはめて考えてみましょう。
正直に言うと、私がボートレースにおける「母」を理解するまでには相当時間がかかりました。しかし、このように考えると腑に落ちるかもしれません。
データ分析に取り組むと、必ず「この分析結果はボートレースの予想に活用できるのか?」という疑問に直面します。
ただし、その分析結果は過去のデータをもとに集約したものでしかありません。
そこで、何か基準となるものと比較することで、結果の違いから判断を行う必要があります。
この「基準となる割合」が、いわゆる「母比率」と呼ばれるものです。
前回の記事でお話ししたびわこの事例を考えると、「ターンマーク移動後の1号艇の勝率」が検討の対象になります。
そして、その移動後も含めた、手元にあるびわこ全体の1号艇の勝率を、一標本として捉えた場合の母比率として仮定するのです。
こうして検討したいデータと想定した母比率を比較し、それが母比率に収束しそうかどうかを検証することで、予想に使えるものかを判断する──
これがボートレースにおける母比率の検定の活用法となるのです。
母比率の検定を実際に使う日まで
今回は、「母比率」の話をまとめました。これは、今後さらに進めるために必要な基礎です。
この記事で私が最初にもやもやしていた部分が、少しでも解消されたならうれしいです。
次回は、この「母比率」をもとに、母比率の検定を実際に使うために必要な、もう少し具体的な話をしていきます。
少しずつ理解を深めながら、統計学を楽しめるようになる日を一緒に目指していきましょう。