標本分布

母集団では人数が多くて調査しきれないため、サンプルを選んで行う調査が標本調査だった。
標本調査についてはこちら


標本調査を行う目的は、あくまで母集団の性質を知ることである。
しかし標本でわかる特徴(たとえば平均値)は、たまたま選ばれた人たちの平均値にすぎず、それが全体の平均値と等しいとは限らない。
そこで標本抽出を繰り返し、それぞれの抽出ごとに平均値を集め、その分布から母集団の平均値を推測する方がより正確になる。


たくさんの標本抽出を繰り返して集めた標本の平均値の分布のことを、標本分布という。
*ひとつの標本の中のデータの分布ではなく、たくさんの標本の平均値を集めた分布であることに注意。


こうした標本分布は、母集団の分布にそのままあてはめることができず、次の性質がわかっている。


<標本平均についての標本分布の性質>
1)標本分布の平均値=母集団の平均値
(たとえば、テストでの母集団の平均値が60点とすると、各標本の平均値も60点を中心にばらつくので、標本の平均値の分布の平均値も60点とみなしてよいはずである)


2)標本分布の分散は、
母集団の分散÷標本サイズ(標本数)・・・(1式)
である。
(標本分布の分散というのは、各標本の平均値がどれだけばらけているかということである。標本サイズが大きくなるほど、その平均値は母集団の平均値に近くなるため、ちらばり具合は小さくなる→分散は小さくなる。)


極端な話、標本サイズが1だとすると(つまりひとつひとつの標本の値の分布をみると)、母集団のデータのどれかひとつを選んだ場合ということと同じであるから、その散らばり具合(分散)は母集団の分散と同じになる。(分母が1)
標本サイズが母集団の数まで大きくなると、その平均値は母集団の平均値と一致するため、そのばらつきは最小になる。


1式から標準偏差を求めると、標準偏差=分散のルート
であるから、1式より
[(母集団の分散÷標本サイズ)のルート]
ということで、結局分子は母集団の標準偏差になり、
(母集団の標準偏差)÷(標本サイズのルート)となる。


3)もし母集団が正規分布であれば標本分布も正規分布になる
正規分布というのは、つりがね型で左右対称な形の分布。いろいろ計算上都合のよいことがある)
その場合、標本分布の平均値は母集団の平均値と同じ、標準偏差は2)で見たように、(母集団の標準偏差)÷(標本サイズのルート)となる。


4)標本サイズが大きくなるにつれ、母集団の分布がどんな形であれ、標本分布は正規分布に近づいていく
(これは、なぜか経験的にわかっていることのようだ。きっと標本分布というのが、母集団の平均を当てるという確率的な要素があるから?)
このことを中心極限定理という。



<標本比率についての標本分布の性質>
標本比率というのは、標本での割合から、全体の割合を推測するときに使うものである。
たとえば、視聴率とか政党支持率というのは、全員に調査すると大変なため、サンプルを選んでそこの人たちの比率から全体の比率を推測することになる。

標本抽出を何度も行い、それぞれの抽出について標本比率を求め、その分布を表したものが標本比率の標本分布である。
これについては標本平均の標本分布と同じことが言えることがわかっている。
(その理由)
視聴率を例にとる。
あるTV番組を見た人=1、見ない人=0、という数字を割り当てると、標本での視聴率は
見た人の人数÷標本の人数
となる。
標本の平均値は
[1×見た人の人数+0×見なかった人の人数]÷標本の人数
で求められる。これを計算すると結局 
見た人の人数÷全体の人数
となり、標本平均も標本比率も同じことになるからである。

標本比率の標本分布については、以下のことが言えることがわかっている。

1)標本比率の標本分布の平均は、母集団の比率と一致する。
(たとえば、母集団の視聴率が30%とすると、各標本の比率も30%を中心にばらつくので、その平均値はやはり30%になるということ)


2)標本比率の標本分布の分散は、
[母集団の比率(1−母集団の比率)]÷標本サイズ

となる。
(この式の意味)
母集団の視聴率(母集団の平均値といっても同じ)=p、全体の人数=Nとすると、
上に書いたように、視聴率=見た人の人数÷全体の人数
であるから、見た人の人数=視聴率×全体の人数(p×N=Np)・・・(2式)
となる。(ちなみに見なかった人の人数=全体の人数−見た人の人数=全体の人数−(視聴率×全体の人数)(N-Np))


まず母集団の分散を求める。
分散=【(データ−平均値)^2】の総和÷全体の人数
であるから、この分散は
[(1−母集団の平均値)^2×見た人の人数+(0−母集団の平均値)^2×見なかった人の人数]÷全体の人数
となる。
記号で書くと、(2式より)


\frac{(1-p)^2 * Np+(0-p)^2 * (N-Np)}{N}
(*は×の記号の代わり)


前半の
(1−母集団の平均値)^2×見た人の人数
というのは、番組を見た人のデータはすべて1という同じ値になるので、それに見た人の人数をかけると見た人の総和になるから。
(0−母集団の平均値)^2×見なかった人の人数
というのは、番組を見なかった人ののデータはすべて0という同じ値になるのでそれに見なかった人の人数をかけると見なかった人の総和になるから。

これを計算する。
分子はNp(1-2p+p^2) + (0-2p+p^2)(N-Np)
=Np-2Np^2+Np^3+Np^2-Np^3
=Np-Np^2

分母がNなので約分すると
分散=p-p^2=p(1-p)
つまり母集団の分散は
母集団の比率(1−母集団の比率)・・・(3式)
である。

標本分布の分散は、
母集団の分散÷標本サイズ(標本数)
なので、結局3式より
[母集団の比率(1−母集団の比率)]÷標本サイズ

となる。

あとは上の標本平均の標本分布と同じ。