ばらつきを表すー分散・標準偏差 - ど素人の統計学ノート（順不同）

集めたデータの特徴をあらわすものに、データのばらつきというものがある。

ばらつきとは、個々のデータが平均値からどれだけ離れているか、ということである。
ばらつきが大きいとは、平均から離れたデータが多いということであり、グラフに表すと個々のデータを表す点が広がっている状態。
ばらつきが小さいとは、平均から離れたデータが少ないということであり、グラフに表すと個々のデータを表す点が平均のまわりに集中している状態。

このばらつきを表す指数が、前回の多様性指数（離散変数に対して使う）と、今回の分散・標準偏差（連続変数について使う）である。
分散が大きいほど、データのばらつきが大きいことになる。
（離散変数と連続変数についてはこちら）

分散は個々のデータの平均値からのずれをあらわすものであるから、

（データ−平均値）の総和

であらわされるはずである。
しかしこれでは、平均値より下のデータはマイナスになり、結局全部足すと打ち消しあってゼロになってしまうため、各値がマイナスにならないよう、二乗する。

【（データ−平均値） $^2$ 】の総和

これだとデータの数が多くなるほど総和が大きくなり、データの数が違うもの同士を比べられない。そこでこれをデータ数で割る

【（データ−平均値） $^2$ 】の総和÷データ数

これが分散（variance）である。
しかしこれでは、単位が変わってしまう。
（たとえばｃｍなら、ｃｍの二乗という単位になってしまう）
そこで単位をそろえるために、分散の平方根をとる。

【分散】のルート
$sqrt{bunsan}$

これを標準偏差（standard deviation:SD）という。