ばらつきを表すー分散・標準偏差
集めたデータの特徴をあらわすものに、データのばらつきというものがある。
ばらつきとは、個々のデータが平均値からどれだけ離れているか、ということである。
ばらつきが大きいとは、平均から離れたデータが多いということであり、グラフに表すと個々のデータを表す点が広がっている状態。
ばらつきが小さいとは、平均から離れたデータが少ないということであり、グラフに表すと個々のデータを表す点が平均のまわりに集中している状態。
このばらつきを表す指数が、前回の多様性指数(離散変数に対して使う)と、今回の分散・標準偏差(連続変数について使う)である。
分散が大きいほど、データのばらつきが大きいことになる。
(離散変数と連続変数についてはこちら)
分散は個々のデータの平均値からのずれをあらわすものであるから、
(データ−平均値)の総和
であらわされるはずである。
しかしこれでは、平均値より下のデータはマイナスになり、結局全部足すと打ち消しあってゼロになってしまうため、各値がマイナスにならないよう、二乗する。
【(データ−平均値)】の総和
これだとデータの数が多くなるほど総和が大きくなり、データの数が違うもの同士を比べられない。そこでこれをデータ数で割る
【(データ−平均値)】の総和÷データ数
これが分散(variance)である。
しかしこれでは、単位が変わってしまう。
(たとえばcmなら、cmの二乗という単位になってしまう)
そこで単位をそろえるために、分散の平方根をとる。
【分散】のルート
これを標準偏差(standard deviation:SD)という。