離散変数と連続変数
変数というのは、調査対象者によって変化する値(状態)のことをいう。
たとえば「生活満足度に男女差があるか」という調査だったら、
「生活満足度」も変数だし、男・女という状態も変数である。
(ちなみにこの場合、男女の違いという原因によって生活満足度が変わるかということなので、独立変数が「男か女か」、従属変数が「生活満足度」ということになる。)
独立変数と従属変数についてはこちら
次に、離散変数と連続変数という区別がある。
離散変数は中間的な値のない変数をいう。
(これを連続的な数量ではないという)
たとえば、男・女は、その中間がないので離散変数。
サイコロの目も、2の目と3の目の間に2.6などという目はないので、離散変数。
「家でしたことがある・ない」も、「ある」と「ない」の間に中間がないので、離散変数。
一方、中間的な値があり、平均値を出すことに意味があるものが連続変数。
身長・体重などは、153cmと154cmの間には無数の中間値(153.1,153.01・・・)があるので、連続変数。
離散変数の中には、順序づけに意味のあるものと、順序づけに意味のないものがある。
たとえば、男・女はどちらが上位とかはないので、順序づけに意味はない。
しかしアンケートの回答の選択肢などで、
「いつもそう/たいていそう/少しはそう/どちらともいえない/あまりそうではない/まったくそうではない」というものがあれば、これは度合いの大きい順に並べることができるので、順序づけに意味のある離散変数である。
<グラフの作成>
・順序づけのない離散変数のグラフは、間をあけた棒グラフで表す。
・順序づけられる離散変数のグラフは、ヒストグラムで表す。(棒同士はくっついている)
このヒストグラムの先の真ん中の点を結んだものを度数多角形という。(いわゆる折れ線グラフ)
<度数分布>
・離散変数の場合は、カテゴリー毎に度数を書く。
・連続変数の場合は、観測値をいくつかの測定クラスに分けて記述。
(たとえば年齢だったら、20歳以上30歳未満、30歳以上〜40歳未満、というように)
<代表値>
・最頻値・・・最も分布の多い値。離散変数・連続変数とも、もっとも多いカテゴリーを最頻値とする。
・中央値・・・分布の中心を表す。大きさの順にカテゴリーを並べる必要があるため、順序づけられない離散変数では求められない。
・平均値・・・平均値が求められるのは、連続変数のみ。
<2つの値の関係を調べる>
・2つの離散変数の関係を調べる・・・クロス集計・カイ二乗検定
・離散変数ごとの平均値(連続変数)を調べる・・・正規分布を利用した検定、t検定、分散分析)
・2つの連続変数の関係を調べる・・・回帰分析