ばらつきを表すー分散・標準偏差

集めたデータの特徴をあらわすものに、データのばらつきというものがある。

ばらつきとは、個々のデータが平均値からどれだけ離れているか、ということである。
ばらつきが大きいとは、平均から離れたデータが多いということであり、グラフに表すと個々のデータを表す点が広がっている状態。
ばらつきが小さいとは、平均から離れたデータが少ないということであり、グラフに表すと個々のデータを表す点が平均のまわりに集中している状態。


このばらつきを表す指数が、前回の多様性指数(離散変数に対して使う)と、今回の分散・標準偏差(連続変数について使う)である。
分散が大きいほど、データのばらつきが大きいことになる。
(離散変数と連続変数についてはこちら

分散は個々のデータの平均値からのずれをあらわすものであるから、


(データ−平均値)の総和


であらわされるはずである。
しかしこれでは、平均値より下のデータはマイナスになり、結局全部足すと打ち消しあってゼロになってしまうため、各値がマイナスにならないよう、二乗する。


【(データ−平均値)^2】の総和

これだとデータの数が多くなるほど総和が大きくなり、データの数が違うもの同士を比べられない。そこでこれをデータ数で割る



【(データ−平均値)^2】の総和÷データ数


これが分散(variance)である。
しかしこれでは、単位が変わってしまう。
(たとえばcmなら、cmの二乗という単位になってしまう)
そこで単位をそろえるために、分散の平方根をとる。


【分散】のルート
sqrt{bunsan}

これを標準偏差(standard deviation:SD)という。