複数の変数の関係を分析するものを多変量解析 Multivariate analysisといいます。
このうち、2つの変数に絞ったものを、二変量解析 Bivariate analysisといいます。
相関分析 Correlation analysis
変数の種類 | 統計料 | 方法 | 分析例 |
---|---|---|---|
量的×量的 | 単相関係数 | 散布図 | 体重×身長 |
質的×量的 | 相関比 | カテゴリ別平均、誤差グラフ | 性別×血圧 |
質的×質的 | 連関係数 | カテゴリ別割合、構成化グラフ | 居住地×PC保有数 |
量的変数×量的変数
相関図、散布図 Scatter Plot, Scattergram
2つの量的変数xとyの関係は、散布図にプロットすることができます。
2つの変数に因果関係(原因と結果)または時間的前後関係があるときは、結果および後の時間に該当する変数を縦軸に、原因および前の時間に該当する変数を横軸に配置します。
単相関係数 Single correlation coefficient
単相関係数:2つの変数の相関関係の強さを示します。記号rがよく利用されます。
範囲:-1≦r≦1
負の相関があるとき:-1≦r<0、相関図における点の分布は右下がり。
正の相関があるとき:0<r≦1、相関図における点の分布は右上がり。
絶対値が1に近ければ、相関図における点の分布は直線に近い。
絶対値が0に近ければ、相関図における点の分布は一様に広がる。
【参考外部サイト】相関:データ群から正または負の関係性を判断 – Trunk tools
相関係数r
\begin{eqnarray} r = \frac{ S_{xy} }{ \sqrt{ S_{xx}S_{yy} } } (-1≦r≦1) \end{eqnarray}
\begin{eqnarray} S{xx}:変数xの偏差平方和、S{yy}:変数yの偏差平方和、S{xy}:変数xと変数yの積和 \end{eqnarray}
相関の強さの目安
r>0.7:強い相関
0.3≦r≦0.7:相関あり
r<0.3:弱い相関
例)身長と体重の相関
No. | 身長x | 体重y | xの 偏差 |
yの 偏差 |
xの 偏差2乗 |
yの 偏差2乗 |
偏差の積 |
---|---|---|---|---|---|---|---|
A | 146 | 45 | -4 | -5 | 16 | 25 | 20 |
B | 145 | 46 | -5 | -4 | 25 | 16 | 20 |
C | 147 | 47 | -3 | -3 | 9 | 9 | 9 |
D | 149 | 49 | -1 | -1 | 1 | 1 | 1 |
E | 151 | 48 | 1 | -2 | 1 | 4 | -2 |
F | 149 | 51 | -1 | 1 | 1 | 1 | -1 |
G | 151 | 52 | 1 | 2 | 1 | 4 | 2 |
H | 154 | 53 | 4 | 3 | 16 | 9 | 12 |
I | 153 | 54 | 3 | 4 | 9 | 16 | 12 |
J | 155 | 55 | 5 | 5 | 25 | 25 | 25 |
平均値 | 150 | 50 | |||||
合計 | 104 | 110 | 98 |
S{xx}=104, S{yy}=110, S{xy}=98
r=98/√(104×110)=0.916(小数点第4位以下切り捨て)
分散共分散行列
偏差平方和と積和の組み合わせを、偏差平方和・積和行列といいます。
\begin{eqnarray} \begin{bmatrix} s_{xx} & s_{xy} \\ s_{xy} & s_{yy} \end{bmatrix} = \begin{bmatrix} 104 & 98 \\ 98 & 110 \end{bmatrix} \end{eqnarray}
偏差平方和をn-1で割った値は分散ですが、積和をn-1で割った値を共分散といい、分散と共分散の組み合わせを、分散共分散行列といいます。
\begin{eqnarray} \begin{bmatrix} v_{xx} & v_{xy} \\ v_{xy} & v_{yy} \end{bmatrix} = \frac{1}{n-1} \begin{bmatrix} s_{xx} & s_{xy} \\ s_{xy} & s_{yy} \end{bmatrix} = \frac{1}{9} \begin{bmatrix} 104 & 98 \\ 98 & 110 \end{bmatrix} = \begin{bmatrix} 12.2 & 10.9 \\ 10.9 & 11.6 \end{bmatrix} \end{eqnarray}
【参考】固有ベクトル・固有値による基底の変換
上記の分散共分散行列に対して、固有値・固有ベクトルを求めると、
固有値=8.95, 205.05
固有ベクトル=\begin{pmatrix} -0.718 \\ -0.696 \end{pmatrix}, \begin{pmatrix} 0.696 \\ -0.718 \end{pmatrix}
量的変数×質的変数
カテゴリ別平均
カテゴリ別に集計した平均値をカテゴリ別平均といい、カテゴリ別平均に差があるとき、変数間に関係があると解釈します。
誤差グラフにプロットして図示します。
相関比 Correlation ratio
相関比:量的変数と質的変数の関係の強さを示す。記号ηの2乗で表されます。
カテゴリー別平均の差がグループ内のばらつきに対して大きいほど値が大きくなります。
相関比η^2
\begin{eqnarray} η^2 = \frac{ S_{B} }{ S_{T} } (0≦η^2≦1) \end{eqnarray}
\begin{eqnarray} S_{B}:グループ間平方和、S_{T}:偏差平方和 \end{eqnarray}
\begin{eqnarray} \sum n_{i} ( \overline{x_i} – \overline{x} )^2 \end{eqnarray}
\begin{eqnarray} n_i:第iカテゴリーに含まれるデータ数、\overline{x_i}:第iカテゴリーの平均値、 \overline{x}:全体の平均値 \end{eqnarray}
関係の強さの目安
η^2>0.25:強い関係
0.1≦η^2≦0.25:関係あり
η^2<0.1:弱い関係
質的変数×質的変数
クロス集計
カテゴリ別割合を比較し分析します。
クロス集計表と呼ばれるマトリックスを作成します。
クロス集計表の左側を表側、上側を表頭といいます。
表側には、原因または時間的に前の変数を、表頭には結果または時間的に後の変数を配置します。
連関係数 Continuous correlation coefficient
連関係数:質的変数と質的変数の関係の強さを示す。記号CVで表されます。クラメルの連関係数、独立係数とも呼ばれます。
連関係数CV
\begin{eqnarray} CV = \sqrt{ \frac{ χ^2 }{ n(k-1) } } (0≦CV≦1) \end{eqnarray}
n:データ数、k:表側と表頭のカテゴリ数の小さいほうの数
\begin{eqnarray} χ^2 = \sum (実測度数-期待度数)^2÷期待度数、期待度数 = \frac{n_i×n_j}{n} \end{eqnarray}
実測度数=クロス集計表のセルの度数
n{i}とn{j}は、クロス集計表のi行の合計とj列の合計で、期待度数は2変数が無関係のときの各セルの度数
関係の強さの目安
CV>0.25:強い関係
0.1≦η^2≦0.25:関係あり
CV<0.1:弱い関係
単回帰分析 Simple linear regression analysis
説明変数x(予測に使う変数)と目的変数y(予測される変数)は線形1次式 y=ax+b で表されます。
この式のことを単回帰式 Simple regression equationあるいは 単回帰直線 Simple regression line といい、この式を導きだす方法を単回帰分析 Simple linear regression analysisといいます。
\begin{eqnarray} 単回帰式:\hat{y} = ax + b (\hat{y}は予測値) \end{eqnarray}
\begin{eqnarray} a = \frac{S_{xy}}{S_{xx}}, b = \overline{y}-a\overline{x} \end{eqnarray}
\begin{eqnarray} S_{xx}:変数xの偏差平方和、S_{xy}:変数xと変数yの積和、\overline{y}:変数yの平均値、\overline{x}:変数xの平均値 \end{eqnarray}
回帰直線の傾きaと切片bの算出方法はここでは省略しますが、y座標の差の2乗和を最小とするように式を解くことで求まります(最小2乗法)。
身長と体重の例
S{xx}=104, S{yy}=110, S{xy}=98, 身長xの平均=150, 体重yの平均=50,
傾きa=98/104=0.942(小数点第4位以下切り捨て)
切片b=50-0.942*150=-91.3
決定係数 The coefficient of determination
決定係数:予測精度の高さを示します。相関係数rに対して、r^2で表されます。
\begin{eqnarray} 決定係数r^2 = 1 – \frac{S_{e}}{S_{T}} (0≦r^2≦1) \end{eqnarray}
\begin{eqnarray} S_{T}:目的変数yの偏差平方和、S_{e}:残差平方和 \end{eqnarray}
身長と体重の例
No. | 身長x | 体重y 実測値 |
予測値 | 残差 | 残差の平方 |
---|---|---|---|---|---|
A | 146 | 45 | 46.2 | -1.2 | 1.515 |
B | 145 | 46 | 45.3 | 0.7 | 0.506 |
C | 147 | 47 | 47.2 | -0.2 | 0.030 |
D | 149 | 49 | 49.1 | -0.1 | 0.003 |
E | 151 | 48 | 50.9 | -2.9 | 8.657 |
F | 149 | 51 | 49.1 | 1.9 | 3.773 |
G | 151 | 52 | 50.9 | 1.1 | 1.119 |
H | 154 | 53 | 53.8 | -0.8 | 0.592 |
I | 153 | 54 | 52.8 | 1.2 | 1.376 |
J | 155 | 55 | 54.7 | 0.3 | 0.083 |
平均値 | 150 | 50 | |||
合計 | 0 | 17.7 |
決定係数=1-17.7/110=0.839
r*r=0.916*0.916=0.839となり、単相関係数rを2乗したものに等しくなります。