統計的仮説検定

前回書いた区間推定というのは、標本から母集団に対する推測を行うことである。
(たとえば標本から母集団の平均値を推測する)
これを統計的推測という。


これに対して、統計的仮説検定というのは、母集団についてある仮説を立て、それが正しいかどうかを標本から判断することである。
仮説というのは、たとえば母集団について、AとBに因果関係があるかどうか、とか(例:クロス表作成によるカイ二乗検定)、母集団同士の平均値に差があるかどうかとか(例:正規分布による検定、t検定、分散分析など)、そういうものである。


検定の手順はおおむねこんな流れ。


1)仮説を立てる
統計的仮説検定は、証明したいこと(対立仮説という)に対して、否定したいこと(帰無仮説という)というものを立てる。その理由は以下の通り。

たとえば「カラスは黒い」という命題を証明しようとするとする。
証明したいことは「カラスは黒い」なので、これは対立仮説である。
しかしいくら黒いカラスを見つけてきても、「カラスは黒い」の証明にはならない。
それよりも、本当は否定したいこと「カラスは白い」という仮説を立てて(これが帰無仮説)、それを否定する方が簡単だ。
黒いカラスを一匹見つけてくれば、「カラスは白い」を否定できるからである。

このようにして、ある仮説を証明しようとするには、逆の否定したいことを仮説にしておいて、それを否定する方がやりやすい

そういうわけで、仮説検定にはまず否定したい仮説(帰無仮説)を立てるのである。

そこで「AとBは関係がある」を証明したいなら「AとBは関係がない」、
「AとBの平均には差がある」を証明したいなら「AとBの平均には差がない(等しい)」といった帰無仮説が立てられる。

ところで、「カラスが白い」を否定できたからといって、「カラスは黒い」が正しいとは限らない。黄色や赤もあるかもしれない。
よって、仮説検定でわかるのは、帰無仮説が否定されたということだけであり、対立仮説(証明したい仮説)はその結果暫定的に採択されたに過ぎないことを、忘れてはいけない。


2)危険率(有意水準)を設定する
仮説を証明するといっても、標本から母集団の判断をするのだから誤差がでる。100%正しいとか間違いとかは言えない。
そこで、95%とか99%とかの水準を設定し、起こる確率が95%または99%の範囲内ならばその仮説を採用しようということにする(「その仮説」とは、帰無仮説を指す)。
逆に起こる確率が5%や1%よりも小さい場合には、その仮説を否定することにしようという前提にする。(この5%や1%のことを有意水準という)。

でも、95%や99%で採用すると、残りの5%や1%の確率で本当は正しいのに仮説を否定してしまうことだってありうる。

そこで、この5%や1%のことを、危険率ともいう(有意水準と同じこと)。本当は正しい帰無仮説を否定してしまう危険の確率のことである。


3)計算をする。
(計算の仕方は、検定の種類によって異なる。それぞれのやり方により勉強)


4)帰無仮説を採択するか棄却する
3)の計算の結果をみて、最初に1)で立てた仮説(帰無仮説)を採択するか棄却するかを判断する。
2)に書いたように、仮説の起こりうる確率が5%または1%より低ければ、仮説を棄却(否定)して、対立仮説の方を採択する。


●検定の種類
いくつかの検定の種類があるが、初心者向け(自分向け)は以下のようなものがある。


カイ二乗検定・・・離散変数について、ふたつの変数間に関係があるかどうかを検定する


正規分布による検定・・・連続変数について、2つの母集団の平均値に差があるかどうかを検定する。(標準誤差がわかっている場合)


t検定・・・連続変数について、2つの母集団の平均値に差があるかどうかを検定する。(標準誤差がわかっていない場合)


分散分析・・・3つ以上の母集団の平均値に差があるかどうかを検定する。

区間推定(信頼度・信頼区間)

母集団の性質(平均値など)を知りたいが全員に調査するのは大変なので、サンプルを選んで行う調査が標本調査だった。
何回も標本抽出を繰り返して標本を集め、それぞれの標本の平均値の分布(標本分布)の平均値は、母集団の平均値とみなしてよいということであった。


しかしその平均値が本当に母集団の平均値と一致するという保証はない。精度の問題がある。
平均の推測値としてただひとつの値を示すのではなく、「平均値はだいたいここからここまでの間」と範囲をもって示す方法がある。それが「信頼区間という考え方である。


この考え方だと、精度を表すことができる。
「平均値はだいたいここからここまでの間」とする信頼区間の幅は、もちろん広すぎればあまり意味がない。狭い方が、推定の精度がよいことを示しているのである。


実際は、「平均値は95%の確率でここからここまでの間」という範囲を示す。


*  *  *


さて、それでは95%の確率というのは実際はどのようになるだろうか。
それぞれの標本の平均値の分布(標本分布)は、正規分布の形になることを学んだ。
正規分布というのは、±標準偏差(分散のルート)ひとつ分、±標準偏差ふたつ分、±標準偏差みっつ分でそれぞれ含まれる面積の割合が決まっている(この部分の面積が、確率となる)。

±標準偏差ひとつ分で約68%、±標準偏差ふたつ分で約95%、±標準偏差みっつ分で約99%となっている。
95%信頼区間というのは、標本分布の平均値から±標準偏差ふたつ分の範囲、すなわち


標本分布の平均値±2×標準偏差・・・(1式)


と考えればよいのである。


この、標本分布の標準偏差のことを標本誤差(Standard Error: S.E.)という。


上の%には「約」がついている。もっと正確に言うと、
95%の信頼度があるのは


標本平均±1.96×標準誤差(標本分布の標準偏差・・・(2式)


となる。
(1の出し方は、大雑把な出し方)


ところで標準誤差(標本分布の標準偏差)の出し方は、前ページより、

(母集団の標準偏差)÷(標本サイズのルート)・・・(3式)


である。
結局、2・3式より、95%の信頼区間

標本平均±1.96×[(母集団の標準偏差)÷(標本サイズのルート)]


となる。

標本分布

母集団では人数が多くて調査しきれないため、サンプルを選んで行う調査が標本調査だった。
標本調査についてはこちら


標本調査を行う目的は、あくまで母集団の性質を知ることである。
しかし標本でわかる特徴(たとえば平均値)は、たまたま選ばれた人たちの平均値にすぎず、それが全体の平均値と等しいとは限らない。
そこで標本抽出を繰り返し、それぞれの抽出ごとに平均値を集め、その分布から母集団の平均値を推測する方がより正確になる。


たくさんの標本抽出を繰り返して集めた標本の平均値の分布のことを、標本分布という。
*ひとつの標本の中のデータの分布ではなく、たくさんの標本の平均値を集めた分布であることに注意。


こうした標本分布は、母集団の分布にそのままあてはめることができず、次の性質がわかっている。


<標本平均についての標本分布の性質>
1)標本分布の平均値=母集団の平均値
(たとえば、テストでの母集団の平均値が60点とすると、各標本の平均値も60点を中心にばらつくので、標本の平均値の分布の平均値も60点とみなしてよいはずである)


2)標本分布の分散は、
母集団の分散÷標本サイズ(標本数)・・・(1式)
である。
(標本分布の分散というのは、各標本の平均値がどれだけばらけているかということである。標本サイズが大きくなるほど、その平均値は母集団の平均値に近くなるため、ちらばり具合は小さくなる→分散は小さくなる。)


極端な話、標本サイズが1だとすると(つまりひとつひとつの標本の値の分布をみると)、母集団のデータのどれかひとつを選んだ場合ということと同じであるから、その散らばり具合(分散)は母集団の分散と同じになる。(分母が1)
標本サイズが母集団の数まで大きくなると、その平均値は母集団の平均値と一致するため、そのばらつきは最小になる。


1式から標準偏差を求めると、標準偏差=分散のルート
であるから、1式より
[(母集団の分散÷標本サイズ)のルート]
ということで、結局分子は母集団の標準偏差になり、
(母集団の標準偏差)÷(標本サイズのルート)となる。


3)もし母集団が正規分布であれば標本分布も正規分布になる
正規分布というのは、つりがね型で左右対称な形の分布。いろいろ計算上都合のよいことがある)
その場合、標本分布の平均値は母集団の平均値と同じ、標準偏差は2)で見たように、(母集団の標準偏差)÷(標本サイズのルート)となる。


4)標本サイズが大きくなるにつれ、母集団の分布がどんな形であれ、標本分布は正規分布に近づいていく
(これは、なぜか経験的にわかっていることのようだ。きっと標本分布というのが、母集団の平均を当てるという確率的な要素があるから?)
このことを中心極限定理という。



<標本比率についての標本分布の性質>
標本比率というのは、標本での割合から、全体の割合を推測するときに使うものである。
たとえば、視聴率とか政党支持率というのは、全員に調査すると大変なため、サンプルを選んでそこの人たちの比率から全体の比率を推測することになる。

標本抽出を何度も行い、それぞれの抽出について標本比率を求め、その分布を表したものが標本比率の標本分布である。
これについては標本平均の標本分布と同じことが言えることがわかっている。
(その理由)
視聴率を例にとる。
あるTV番組を見た人=1、見ない人=0、という数字を割り当てると、標本での視聴率は
見た人の人数÷標本の人数
となる。
標本の平均値は
[1×見た人の人数+0×見なかった人の人数]÷標本の人数
で求められる。これを計算すると結局 
見た人の人数÷全体の人数
となり、標本平均も標本比率も同じことになるからである。

標本比率の標本分布については、以下のことが言えることがわかっている。

1)標本比率の標本分布の平均は、母集団の比率と一致する。
(たとえば、母集団の視聴率が30%とすると、各標本の比率も30%を中心にばらつくので、その平均値はやはり30%になるということ)


2)標本比率の標本分布の分散は、
[母集団の比率(1−母集団の比率)]÷標本サイズ

となる。
(この式の意味)
母集団の視聴率(母集団の平均値といっても同じ)=p、全体の人数=Nとすると、
上に書いたように、視聴率=見た人の人数÷全体の人数
であるから、見た人の人数=視聴率×全体の人数(p×N=Np)・・・(2式)
となる。(ちなみに見なかった人の人数=全体の人数−見た人の人数=全体の人数−(視聴率×全体の人数)(N-Np))


まず母集団の分散を求める。
分散=【(データ−平均値)^2】の総和÷全体の人数
であるから、この分散は
[(1−母集団の平均値)^2×見た人の人数+(0−母集団の平均値)^2×見なかった人の人数]÷全体の人数
となる。
記号で書くと、(2式より)


\frac{(1-p)^2 * Np+(0-p)^2 * (N-Np)}{N}
(*は×の記号の代わり)


前半の
(1−母集団の平均値)^2×見た人の人数
というのは、番組を見た人のデータはすべて1という同じ値になるので、それに見た人の人数をかけると見た人の総和になるから。
(0−母集団の平均値)^2×見なかった人の人数
というのは、番組を見なかった人ののデータはすべて0という同じ値になるのでそれに見なかった人の人数をかけると見なかった人の総和になるから。

これを計算する。
分子はNp(1-2p+p^2) + (0-2p+p^2)(N-Np)
=Np-2Np^2+Np^3+Np^2-Np^3
=Np-Np^2

分母がNなので約分すると
分散=p-p^2=p(1-p)
つまり母集団の分散は
母集団の比率(1−母集団の比率)・・・(3式)
である。

標本分布の分散は、
母集団の分散÷標本サイズ(標本数)
なので、結局3式より
[母集団の比率(1−母集団の比率)]÷標本サイズ

となる。

あとは上の標本平均の標本分布と同じ。

標本調査

統計のための調査(アンケートなど)は、全員に行うのが大変なため、ほとんどの場合サンプル(標本)を抽出して行う。


全員に対して行うのが全数調査(census survey)国勢調査など)、調査対象者を選んで行うのが標本調査(sample survay)である。


標本を選ぶ作業が標本抽出(サンプリング)であり、その抽出方法はいくつかある。(後述)
標本が選ばれると、その標本データを分析し、部分から全体(母集団)の特徴について推測を行うことになる。


標本についていえることが、母集団についてそのままあてはまるわけではない
たとえば標本の特徴から母集団の分布の特徴を推測するには、いくつか注意点がある。(別途)
また、標本でいえる特徴がどのくらいの精度で母集団についても言えるかを表す尺度がある。(標準誤差・信頼度・区間推定)
さらに、標本から母集団についての仮説を立て(母集団の平均や比率についての仮説)、それがどのくらいの精度で母集団についても言えるかを計算し、精度が高い場合(間違っている可能性が低い場合)にその仮説を採用する、といったこともできる。(仮説検定)


<標本抽出の方法>
標本は、偏りなく集めた方が、母集団についてより正確に推測することができる。


1)無作為抽出法(random sampling)
調査する人が、意図的でなく、まったくの偶然で標本を選ぶやり方。
単純無作為抽出・・・母集団の誰もがまったく同じ確率で選ばれる可能性がある。
全対象者に通し番号をふっておき、乱数表から選ぶ。ただしこのやり方はとても手間がかかる。
系統無作為抽出(等間隔サンプリング)・・・最初のひとつの抽出のみ乱数を使用し、そこから等間隔の番号の人を選ぶ。
層別(層化)無作為抽出・・・母集団をいくつかの層(年齢、性別、職業など)に分け、その層内から単純無作為抽出によってそれぞれサンプルを選ぶ。ただし人数の多い層からはそれに比例した人数のサンプルを選ぶようにする。
多段無作為抽出・・・母集団を何段階かに分けて抽出を行う。
例)第一段階は市町村を抽出し、第二段階では選挙区を抽出し、最後に個人を抽出する、など)


2)有意抽出法
調査する人が意図的に基準を設けて標本を選び出すもの。
たとえば、化粧品会社が、OLを対象としたアンケートを行うのに、20代の都市部に住む女性に限定して行う、など。

ばらつきを表すー分散・標準偏差

集めたデータの特徴をあらわすものに、データのばらつきというものがある。

ばらつきとは、個々のデータが平均値からどれだけ離れているか、ということである。
ばらつきが大きいとは、平均から離れたデータが多いということであり、グラフに表すと個々のデータを表す点が広がっている状態。
ばらつきが小さいとは、平均から離れたデータが少ないということであり、グラフに表すと個々のデータを表す点が平均のまわりに集中している状態。


このばらつきを表す指数が、前回の多様性指数(離散変数に対して使う)と、今回の分散・標準偏差(連続変数について使う)である。
分散が大きいほど、データのばらつきが大きいことになる。
(離散変数と連続変数についてはこちら

分散は個々のデータの平均値からのずれをあらわすものであるから、


(データ−平均値)の総和


であらわされるはずである。
しかしこれでは、平均値より下のデータはマイナスになり、結局全部足すと打ち消しあってゼロになってしまうため、各値がマイナスにならないよう、二乗する。


【(データ−平均値)^2】の総和

これだとデータの数が多くなるほど総和が大きくなり、データの数が違うもの同士を比べられない。そこでこれをデータ数で割る



【(データ−平均値)^2】の総和÷データ数


これが分散(variance)である。
しかしこれでは、単位が変わってしまう。
(たとえばcmなら、cmの二乗という単位になってしまう)
そこで単位をそろえるために、分散の平方根をとる。


【分散】のルート
sqrt{bunsan}

これを標準偏差(standard deviation:SD)という。

ばらつきを表すー多様性指数

集めたデータの特徴をあらわすものに、データのばらつきというものがある。


データのばらつき具合(つまり、個々のデータがどれだけ平均値から離れているか)を表すものには次のものがある。


ひとつは離散変数に対して用いるもので、「多様性指数(D)」というもの。
もうひとつは連続変数に対して用いるもので、「分散・標準偏差」というもの。


離散変数と連続変数についてはこちら


<多様性指数>


離散変数に対して用いる。
データがどれだけカテゴリーにばらけているかを示す指数である。


すべてがひとつのカテゴリーに収まっている場合は最小値0をとる。
全部のカテゴリーにひとつずつばらけている場合は最大値をとる。


多様性指数(D)=(カテゴリー総数−1)÷カテゴリー総数 


例)あなたは学校が好きですか?
大好き/まあまあ好き/どちらとも言えない/あまり好きではない/大嫌い
という5つのカテゴリーがあったとして、5人にアンケートをとったとすると、全員が「大好き」だと多様性指数は0、各カテゴリーにひとりずつ入ると最大値4/5すなわち0.8になる。


多様性指数はカテゴリー数が多くなるほど大きくなるため、カテゴリー数に左右されない指数として
「質的変動指数(IQV)」というのがある。


質的変動指数(IQV)=多様性指数/(カテゴリー総数−1)÷カテゴリー総数=[カテゴリー総数÷(カテゴリー総数−1)]×多様性指数


質的変動指数IQVの最小値は0、最大値は常に1となる。

代表値

あるデータの性質をあらわすものに、代表値ばらつき具合がある。
(このふたつがわかれば、どんなデータかがある程度わかる)

代表値とは、文字通りそのデータを代表する値のこと。
以下のようなものがある。


最頻値・・・最も分布の多い値。あてはまるデータの数がもっとも多いカテゴリーを最頻値とする。
例)英語のテストの得点で、50点の人数が最も多かったとすると、50点が最頻値となる。


中央値・・・分布の中心を表す。上からの順位と下からの順位が同じ(つまり真ん中に位置する)データの値が中央値となる。
例)英語のテストの得点で、人数が30人とすると、上から数えて15番目と16番目の人の得点を足して2で割ったものが中央値。
(人数が奇数の場合は、ちょうど真ん中の人の得点が中央値。)


*同じデータの大きさの順にカテゴリーを並べる必要があるため、順序づけられない離散変数では求められない。
離散変数・連続変数についてはこちら


平均値・・・全部の値を足してデータ数で割ったもの。


*平均値が求められるのは、連続変数のみ。