第3回 - 2変数間の相関

提供:MochiuWiki : SUSE, EC, PCB
2020年9月18日 (金) 16:28時点におけるWiki (トーク | 投稿記録)による版 (ページの作成:「== 概要 == 記述統計において、2変数間の相関を表すために、次の事項を学習する。<br> # 散布図と相関関係 # 2変数間の相関 - 相…」)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
ナビゲーションに移動 検索に移動

概要

記述統計において、2変数間の相関を表すために、次の事項を学習する。

  1. 散布図と相関関係
  2. 2変数間の相関 - 相関係数で定量化
  3. 2変数間の相関の注意点



散布図と相関関係

2変数xとyの組(x, y)について、横軸にx、縦軸にyを取り、データ点としてプロットしたものを散布図という。

散布図上の点の分布が「直線関係」に近い傾向があるとき、「相関関係がある」という。

散布図で相関関係があるとき、2変数xとyの間には、何らかの関係があると考えられる。
今までは散布図を見て、感覚的にxとyの間に関係があると考えてきたが、記述統計学では、相関関係を定量的に取り扱うことができる。


2変数間の相関

2変数を並べたデータについて、横軸を変数X、縦軸を変数Yとして散布図を書くと、

  • Xが増加するとYも増加する場合
    正の相関
  • Xが増加するとYが減少する場合
    負の相関
  • Xが増加してもYに影響が無い場合
    無相関(当てはめた直線の傾き=0も含む)


2変数間の相関について数値化できる。 ⇒ 相関係数で表現できる。

  • 共分散


  • 各変数の母分散


  • 相関係数(ピアソンの積率相関係数)


相関係数は、2変数が直線に乗る程度を表す。絶対値が1に近いほど、2変数間の相関が強い。
 : 正の完全相関
データ点が正の傾きの直線上に乗る。

 : 負の完全相関
データ点が負の傾きの直線上に乗る。

2変数の相関係数を計算するだけでは不十分である。必ず散布図を書いて、実際に目で見てみることが重要である。

  • 相関係数の値と散布図
    相関係数の値が大きくとも、データ点数が少ないと目で見た場合に相関がなさそうな場合がある。


  • 同じ相関係数の値を示す異なる散布図



共分散の意味

2変数の両平均値の点から見て、各データ点が、正の傾きの方向または負の傾きの方向に偏っているかをで計算した後、
全データ点の傾向をの平均値で表しているといえる。


データの標準化

データの平均x、標準偏差sxであるとき、データを加工して、平均を0、標準偏差を1に変換することを標準化という。

元のデータxiを標準化したデータuiにするには、以下のように変換する。



相関係数の計算で、2変数(x, y)を標準化(平均を0、標準偏差を1)したものの共分散を計算すると、それが相関係数になる。

  • 変数xとyの標準化


  • 標準化したxとyの共分散を計算すると、相関係数に等しい。



2変数間の相関での注意点

2変数の相関を検討するときは、必ず散布図を書くこと。 散布図のチェックポイントは以下の通りである。

  1. 2次元正規分布と見なせるか?
  2. 相関関係は、正か負か?
  3. 直線関係か? 曲線関係か?
  4. 異常な点(外れ値)はないか?
  5. 層別する必要はないか?(層別は、異なるグループを分けて散布図を書くこと)