概要
記述統計において、2変数間の相関を表すために、次の事項を学習する。
- 散布図と相関関係
- 2変数間の相関 - 相関係数で定量化
- 2変数間の相関の注意点
散布図と相関関係
2変数xとyの組(x, y)について、横軸にx、縦軸にyを取り、データ点としてプロットしたものを散布図という。
散布図上の点の分布が「直線関係」に近い傾向があるとき、「相関関係がある」という。
散布図で相関関係があるとき、2変数xとyの間には、何らかの関係があると考えられる。
今までは散布図を見て、感覚的にxとyの間に関係があると考えてきたが、記述統計学では、相関関係を定量的に取り扱うことができる。
2変数間の相関
2変数を並べたデータについて、横軸を変数X、縦軸を変数Yとして散布図を書くと、
- Xが増加するとYも増加する場合
- 正の相関
- Xが増加するとYが減少する場合
- 負の相関
- Xが増加してもYに影響が無い場合
- 無相関(当てはめた直線の傾き=0も含む)
2変数間の相関について数値化できる。 ⇒ 相関係数で表現できる。
- 共分散
- 各変数の母分散
- 相関係数(ピアソンの積率相関係数)
相関係数は、2変数が直線に乗る程度を表す。絶対値が1に近いほど、2変数間の相関が強い。
: 正の完全相関
データ点が正の傾きの直線上に乗る。
: 負の完全相関
データ点が負の傾きの直線上に乗る。
2変数の相関係数を計算するだけでは不十分である。必ず散布図を書いて、実際に目で見てみることが重要である。
- 相関係数の値と散布図
- 相関係数の値が大きくとも、データ点数が少ないと目で見た場合に相関がなさそうな場合がある。
共分散
共分散とは
共分散は、2つの変数の関連性を示す統計量であり、2変数が平均からどのように同時に変動するかを表す。
- X、Yは2つの変数
- はXの母平均
- はYの母平均
- Eは期待値
正の共分散は、一方の変数が平均より大きくなる時、もう一方の変数も平均より大きくなる傾向がある。
負の共分散は、一方の変数が平均より大きくなる時、もう一方の変数は平均より小さくなる傾向がある。
共分散が0の場合は、2つの変数の間に線形の関連性が無いことを表す。
ただし、共分散には単位の問題がある。
例えば、身長 (cm) と 体重 (kg) の共分散を取ると、その値の単位は[cm]✕[kg]となり、解釈が難しい。
そのため、実務では単位に依存しない相関係数 (共分散を各変数の標準偏差で割ったもの) が一般的に使用される。
以下に示すデータにおいて、下図に示すように正の共分散を持つ。
散布図から分かるように、xの値が大きくなるとyの値も大きくなる傾向がある。
計算された共分散の値が正であることは、この2変数間に正の線形関係があることを示している。
共分散の意味
2変数の両平均値の点から見て、各データ点が、正の傾きの方向または負の傾きの方向に偏っているかをで計算した後、
全データ点の傾向をの平均値で表しているといえる。
データの標準化
データの平均x、標準偏差sxであるとき、データを加工して、平均を0、標準偏差を1に変換することを標準化という。
元のデータxiを標準化したデータuiにするには、以下のように変換する。
相関係数の計算で、2変数(x, y)を標準化(平均を0、標準偏差を1)したものの共分散を計算すると、それが相関係数になる。
- 変数xとyの標準化
- 標準化したxとyの共分散を計算すると、相関係数に等しい。
2変数間の相関での注意点
2変数の相関を検討するときは、必ず散布図を書くこと。
散布図のチェックポイントは以下の通りである。
- 2次元正規分布と見なせるか?
- 相関関係は、正か負か?
- 直線関係か? 曲線関係か?
- 異常な点(外れ値)はないか?
- 層別する必要はないか?(層別は、異なるグループを分けて散布図を書くこと)
例題 : 相関分析
ある5人の身長と体重のデータについて、相関分析を行なう。
身長(cm) |
体重(kg)
|
150.2 |
56.4
|
155.0 |
52.9
|
163.5 |
72.2
|
172.1 |
68.1
|
178.6 |
79.7
|
- 身長の平均
- 163.9 [cm]
- 体重の平均
- 65.9 [kg]
- 身長の母分散
- 110.1 [cm2]
- 体重の母分散
- 99.3 [kg2]
- 身長の母標準偏差
- 体重の母標準偏差
- 身長と体重の共分散
- 93.1 [cm・kg]
- 相関係数