区間推定(信頼度・信頼区間)

母集団の性質(平均値など)を知りたいが全員に調査するのは大変なので、サンプルを選んで行う調査が標本調査だった。
何回も標本抽出を繰り返して標本を集め、それぞれの標本の平均値の分布(標本分布)の平均値は、母集団の平均値とみなしてよいということであった。


しかしその平均値が本当に母集団の平均値と一致するという保証はない。精度の問題がある。
平均の推測値としてただひとつの値を示すのではなく、「平均値はだいたいここからここまでの間」と範囲をもって示す方法がある。それが「信頼区間という考え方である。


この考え方だと、精度を表すことができる。
「平均値はだいたいここからここまでの間」とする信頼区間の幅は、もちろん広すぎればあまり意味がない。狭い方が、推定の精度がよいことを示しているのである。


実際は、「平均値は95%の確率でここからここまでの間」という範囲を示す。


*  *  *


さて、それでは95%の確率というのは実際はどのようになるだろうか。
それぞれの標本の平均値の分布(標本分布)は、正規分布の形になることを学んだ。
正規分布というのは、±標準偏差(分散のルート)ひとつ分、±標準偏差ふたつ分、±標準偏差みっつ分でそれぞれ含まれる面積の割合が決まっている(この部分の面積が、確率となる)。

±標準偏差ひとつ分で約68%、±標準偏差ふたつ分で約95%、±標準偏差みっつ分で約99%となっている。
95%信頼区間というのは、標本分布の平均値から±標準偏差ふたつ分の範囲、すなわち


標本分布の平均値±2×標準偏差・・・(1式)


と考えればよいのである。


この、標本分布の標準偏差のことを標本誤差(Standard Error: S.E.)という。


上の%には「約」がついている。もっと正確に言うと、
95%の信頼度があるのは


標本平均±1.96×標準誤差(標本分布の標準偏差・・・(2式)


となる。
(1の出し方は、大雑把な出し方)


ところで標準誤差(標本分布の標準偏差)の出し方は、前ページより、

(母集団の標準偏差)÷(標本サイズのルート)・・・(3式)


である。
結局、2・3式より、95%の信頼区間

標本平均±1.96×[(母集団の標準偏差)÷(標本サイズのルート)]


となる。