統計的仮説検定

前回書いた区間推定というのは、標本から母集団に対する推測を行うことである。
(たとえば標本から母集団の平均値を推測する)
これを統計的推測という。


これに対して、統計的仮説検定というのは、母集団についてある仮説を立て、それが正しいかどうかを標本から判断することである。
仮説というのは、たとえば母集団について、AとBに因果関係があるかどうか、とか(例:クロス表作成によるカイ二乗検定)、母集団同士の平均値に差があるかどうかとか(例:正規分布による検定、t検定、分散分析など)、そういうものである。


検定の手順はおおむねこんな流れ。


1)仮説を立てる
統計的仮説検定は、証明したいこと(対立仮説という)に対して、否定したいこと(帰無仮説という)というものを立てる。その理由は以下の通り。

たとえば「カラスは黒い」という命題を証明しようとするとする。
証明したいことは「カラスは黒い」なので、これは対立仮説である。
しかしいくら黒いカラスを見つけてきても、「カラスは黒い」の証明にはならない。
それよりも、本当は否定したいこと「カラスは白い」という仮説を立てて(これが帰無仮説)、それを否定する方が簡単だ。
黒いカラスを一匹見つけてくれば、「カラスは白い」を否定できるからである。

このようにして、ある仮説を証明しようとするには、逆の否定したいことを仮説にしておいて、それを否定する方がやりやすい

そういうわけで、仮説検定にはまず否定したい仮説(帰無仮説)を立てるのである。

そこで「AとBは関係がある」を証明したいなら「AとBは関係がない」、
「AとBの平均には差がある」を証明したいなら「AとBの平均には差がない(等しい)」といった帰無仮説が立てられる。

ところで、「カラスが白い」を否定できたからといって、「カラスは黒い」が正しいとは限らない。黄色や赤もあるかもしれない。
よって、仮説検定でわかるのは、帰無仮説が否定されたということだけであり、対立仮説(証明したい仮説)はその結果暫定的に採択されたに過ぎないことを、忘れてはいけない。


2)危険率(有意水準)を設定する
仮説を証明するといっても、標本から母集団の判断をするのだから誤差がでる。100%正しいとか間違いとかは言えない。
そこで、95%とか99%とかの水準を設定し、起こる確率が95%または99%の範囲内ならばその仮説を採用しようということにする(「その仮説」とは、帰無仮説を指す)。
逆に起こる確率が5%や1%よりも小さい場合には、その仮説を否定することにしようという前提にする。(この5%や1%のことを有意水準という)。

でも、95%や99%で採用すると、残りの5%や1%の確率で本当は正しいのに仮説を否定してしまうことだってありうる。

そこで、この5%や1%のことを、危険率ともいう(有意水準と同じこと)。本当は正しい帰無仮説を否定してしまう危険の確率のことである。


3)計算をする。
(計算の仕方は、検定の種類によって異なる。それぞれのやり方により勉強)


4)帰無仮説を採択するか棄却する
3)の計算の結果をみて、最初に1)で立てた仮説(帰無仮説)を採択するか棄却するかを判断する。
2)に書いたように、仮説の起こりうる確率が5%または1%より低ければ、仮説を棄却(否定)して、対立仮説の方を採択する。


●検定の種類
いくつかの検定の種類があるが、初心者向け(自分向け)は以下のようなものがある。


カイ二乗検定・・・離散変数について、ふたつの変数間に関係があるかどうかを検定する


正規分布による検定・・・連続変数について、2つの母集団の平均値に差があるかどうかを検定する。(標準誤差がわかっている場合)


t検定・・・連続変数について、2つの母集団の平均値に差があるかどうかを検定する。(標準誤差がわかっていない場合)


分散分析・・・3つ以上の母集団の平均値に差があるかどうかを検定する。