【第6回】 これぞ統計学の極意、検定統計量 [ボートレース×統計学]
以前、パクチーの話をしましたが、皆さんは好きな食べ物や嫌いな食べ物はありますか?
私も実感しているのですが、「幼い頃に苦手だった食べ物も、大人になってからは食べられるようになった」という体験をしたことがあります。
特に「克服しよう」と考えたわけでもなく、それを一生食べなくても特に問題なかったはずですが、なぜか克服できてしまっているのです。
ただ、目指していたわけではないにしろ、克服できたことで「美味しい」と思えるものが増えたのは、人生において得をした気分になります。
そう考えると、「もっと早くに苦手なものも克服しておけばよかったな──」と思ってしまいます。
仮説検定は数学じゃない? でも確率を制す者が勝つ
「ボートレース×統計学」では、統計学を使ってボートレースの的中率を改善しようと、これから私たちが活用する仮説検定についてお話してきました。
これまでの内容では、できるだけ数字を使わずに解説しようと心がけてきましたが、実際にあまり数字が登場していないと感じている方も多いかもしれません。
「統計学」と聞くと、小難しい数字を並べて計算ばかりしているイメージをお持ちの方が大半でしょう。
しかし、仮説検定では使う数字はそれほど多くないのです。
また、過去の記事を読んでくださった方はお分かりいただけると思いますが、結論への導き方は数学的な感じではなく、小説やゲームの謎解きのように展開していきます。
とはいえ、仮説検定にはとても重要な数値があるため、今回はその話題について取り上げてみましょう。
数字が苦手な方も、今回の内容を乗り越えたとき、「もっと早く知っておけばよかった──」と実感すること間違いなしです。
ぜひ最後まで読んでみてください。
検定統計量とは? 「違い」を見極めるカギ
前回までの内容で、何度か「検証するための値」として登場した数値があります。
これは、「調べたいもの」と「基準となるもの」から計算される値で、「検定統計量(けんていとうけいりょう)」と呼ばれています。
この「量」という言葉のチョイスが絶妙で、まさにイメージにぴったりで、私が仮説検定に惹かれている理由のひとつが、ここにあります。
たとえば、ふわふわの綿と硬そうな鉄の塊。重さは同じでも、「量」という観点で見ると全く違いますよね。
検定統計量も、一見似た数値に見えても、背後にあるデータの意味や違いによって大きく変わります。
興味深い検定統計量の話、今回はその前編です。
検定統計量の計算に必要な3つの値
では早速、深堀りしてみましょう。
検定統計量を計算するには、3つの値が必要になります。それらが、どのような値なのかをお話します。
まずは、「基準となるもの」から。
これは、その事例の基準となる確率で、具体的には第2回で触れた母比率になります。
母比率は本来、誰も知り得ない、神のみぞ知る確率。試行を繰り返すことで、この確率に収束すると考えられています。
これを基準に仮説検定の手法のひとつ、母比率の検定(両側検定)は進んでいくのです。
ここからは、ボートレースを例に考えます。
たとえば、ある半年間のデータから「ボートレース住之江の1コースは全体と比べて違いがあるのか?」を検証してみましょう。
この場合、母比率はボートレース住之江の結果も含めた、全24場の1コースの勝率であり、数値で表すと55.7%となります。
これが、検定統計量を計算するために必要なひとつ目の「基準の確率」です。
住之江の1コースは違いがある? 勝率データを見てみよう
次に、「調べたいもの」について見てみます。
「住之江の1コースは全体と比べて違いがあるのか?」ということを証明したいので、住之江の1コースの実際の勝率が必要となることは、皆さんもお分かりでしょう。
今回の場合、住之江の1コースの勝率は59.0%で、これが検定統計量を算出するために必要なふたつ目の値となる「調べた確率」になります。
そして、3つ目は「どれくらい調べたか」です。
つまり、調べたいことに対してどれだけデータを集めたのか──
今回だと、この期間の住之江の1コースの勝率59.0%を算出するのに1051回のレースが対象となっています。
実際、ボートレース住之江ではこの期間に1051レースが行われ、そこで620回、1コースが1着となりました。
それを「620 ÷ 1051」と計算し、1コースの勝率を59.0%としています。
この1051という試行回数が、検定統計量を算出するための3つ目の値、「調べた数」になります。
この「調べた数」が検定統計量に盛り込まれている点が最大のポイントです。
実際に計算! 検定統計量を求めてみる
検定統計量を算出するために必要な3つの値、「基準の確率」「調べた確率」「調べた数」がすべて出揃いました。
これらの数値を使って、実際に検定統計量を求めてみましょう。
計算に使用するのは、引き算・掛け算・割り算、そしてカッコや平方根(ルート)です。
学生時代の数学を思い出しながら、下の公式をご覧ください。
──分数の中にルートやカッコが含まれていて、複雑に見えるかもしれませんが、計算の順番を守れば必ず正しい検定統計量が算出できます。
この計算ができるようになることで、ボートレースの的中率向上に必ず役立ちます。数字が苦手な方も、ぜひ一度計算に挑戦してみてください。
ちなみに、今回の例では、検定統計量は2.16になります。
下を参考に、電卓を使って検定統計量をご自身で確認してもらえると嬉しいです。
最後のピースが揃った! いよいよ次は活用へ
今回は、ボートレースの的中率を改善するために活用する「母比率の検定(両側検定)」の検定統計量の計算方法を紹介しました。
次回は、その値の具体的な使い方と、それをどのように活用するのかを解説します。
ポイントは「綿1kgと鉄1kg、どちらが大きい?」です。楽しみにしていてください。