統計学の手法「カイ二乗検定」と「p値」

1549viewsノウハウ本太郎ノウハウ本太郎

このエントリーをはてなブックマークに追加
統計学が最強の学問である

「カイ二乗検定」と「p値」の登場

クロス集計表について「意味のある偏り」なのか、それとも「誤差でもこれぐらいの差は生じるのか」といったことを確かめる解析手法に「カイ二乗検定」というものがある。

例えば、とあるA/Bテストの結果に対してカイ二乗検定を行なってみると、「実際には何の差もない状況でもデータの誤差によってこの程度(10万人中100人またはそれ以上)の差が生じる確率は44・7%である」という結果が示された。

この「実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率」のことを統計学の専門用語でp値という。このp値が小さければ(慣例的には5%以下)、それに基づいて科学者たちは「この結果は偶然得られたとは考えにくい」と判断するというわけである。5%以下であるべきp値が44・7%であるとは、つまり、A/Bテストを行った彼女たちがデザインを褒めたり、チームで祝福していたりした結果が、真に今後何億円もの売上を約束するかどうかはまったくわからない、ということだ。
彼女たちが行なっていたことは、いわば、誰かがコインを1回投げて表が出たというだけで

「すごい! 表が出続ける魔法のコインが見つかった!」
「すごい! この人はコインで表を出し続ける必勝法を身につけた!」

と喜んでいる状態とまったく変わらないのだ。本当に意味があったのかなかったのか、よくわからないまま定期的な改善を重ねて一喜一憂していても、彼女たちの仕事が利益に繋がっているのかはやはりよくわからない。

そして真の値として0・1%分の購買率の改善をデータによって実証したければ、およそそれぞれのパターンごとに延べ100万人ずつのデータがあればいい。 こうした計算も統計学を少し学べばすぐにできるようになるのである。誤差を理解し、誤差を考慮したうえでも意味がある結果といえるかどうか、という統計学の考え方を身につけよう。

関連まとめ

本のまとめカテゴリー


コメントを書く