「第3回 - 2変数間の相関」の版間の差分
(ページの作成:「== 概要 == 記述統計において、2変数間の相関を表すために、次の事項を学習する。<br> # 散布図と相関関係 # 2変数間の相関 - 相…」) |
編集の要約なし |
||
47行目: | 47行目: | ||
* 相関係数の値と散布図 | * 相関係数の値と散布図 | ||
*: 相関係数の値が大きくとも、データ点数が少ないと目で見た場合に相関がなさそうな場合がある。 | *: 相関係数の値が大きくとも、データ点数が少ないと目で見た場合に相関がなさそうな場合がある。 | ||
*: | *: [[ファイル:Statistics 3 1.png|フレームなし|中央]] | ||
<br> | <br> | ||
* 同じ相関係数の値を示す異なる散布図 | * 同じ相関係数の値を示す異なる散布図 | ||
*: | *: [[ファイル:Statistics 3 2.png|フレームなし|中央]] | ||
<br><br> | <br><br> | ||
56行目: | 56行目: | ||
2変数の両平均値の点<math>(\bar x, \bar y)</math>から見て、各データ点<math>(x_i, y_i)</math>が、正の傾きの方向または負の傾きの方向に偏っているかを<math>(x_i - \bar x)(y_i - \bar y)</math>で計算した後、<br> | 2変数の両平均値の点<math>(\bar x, \bar y)</math>から見て、各データ点<math>(x_i, y_i)</math>が、正の傾きの方向または負の傾きの方向に偏っているかを<math>(x_i - \bar x)(y_i - \bar y)</math>で計算した後、<br> | ||
全データ点の傾向を<math>(x_i - \bar x)(y_i - \bar y)</math>の平均値で表しているといえる。<br> | 全データ点の傾向を<math>(x_i - \bar x)(y_i - \bar y)</math>の平均値で表しているといえる。<br> | ||
[[ファイル:Statistics 3 3.png|フレームなし|中央]] | |||
<br><br> | <br><br> | ||
86行目: | 87行目: | ||
# 異常な点(外れ値)はないか? | # 異常な点(外れ値)はないか? | ||
# 層別する必要はないか?(層別は、異なるグループを分けて散布図を書くこと) | # 層別する必要はないか?(層別は、異なるグループを分けて散布図を書くこと) | ||
[[ファイル:Statistics 3 4.png|フレームなし|中央]] | |||
<br><br> | <br><br> | ||
__FORCETOC__ | __FORCETOC__ | ||
[[カテゴリ:統計学]] | [[カテゴリ:統計学]] |
2020年9月19日 (土) 12:09時点における版
概要
記述統計において、2変数間の相関を表すために、次の事項を学習する。
- 散布図と相関関係
- 2変数間の相関 - 相関係数で定量化
- 2変数間の相関の注意点
散布図と相関関係
2変数xとyの組(x, y)について、横軸にx、縦軸にyを取り、データ点としてプロットしたものを散布図という。
散布図上の点の分布が「直線関係」に近い傾向があるとき、「相関関係がある」という。
散布図で相関関係があるとき、2変数xとyの間には、何らかの関係があると考えられる。
今までは散布図を見て、感覚的にxとyの間に関係があると考えてきたが、記述統計学では、相関関係を定量的に取り扱うことができる。
2変数間の相関
2変数を並べたデータについて、横軸を変数X、縦軸を変数Yとして散布図を書くと、
- Xが増加するとYも増加する場合
- 正の相関
- Xが増加するとYが減少する場合
- 負の相関
- Xが増加してもYに影響が無い場合
- 無相関(当てはめた直線の傾き=0も含む)
2変数間の相関について数値化できる。 ⇒ 相関係数で表現できる。
- 共分散
- 各変数の母分散
- 相関係数(ピアソンの積率相関係数)
相関係数は、2変数が直線に乗る程度を表す。絶対値が1に近いほど、2変数間の相関が強い。
: 正の完全相関
データ点が正の傾きの直線上に乗る。
: 負の完全相関
データ点が負の傾きの直線上に乗る。
2変数の相関係数を計算するだけでは不十分である。必ず散布図を書いて、実際に目で見てみることが重要である。
- 相関係数の値と散布図
- 相関係数の値が大きくとも、データ点数が少ないと目で見た場合に相関がなさそうな場合がある。
- 同じ相関係数の値を示す異なる散布図
共分散の意味
2変数の両平均値の点から見て、各データ点が、正の傾きの方向または負の傾きの方向に偏っているかをで計算した後、
全データ点の傾向をの平均値で表しているといえる。
データの標準化
データの平均x、標準偏差sxであるとき、データを加工して、平均を0、標準偏差を1に変換することを標準化という。
元のデータxiを標準化したデータuiにするには、以下のように変換する。
相関係数の計算で、2変数(x, y)を標準化(平均を0、標準偏差を1)したものの共分散を計算すると、それが相関係数になる。
- 変数xとyの標準化
- 標準化したxとyの共分散を計算すると、相関係数に等しい。
2変数間の相関での注意点
2変数の相関を検討するときは、必ず散布図を書くこと。 散布図のチェックポイントは以下の通りである。
- 2次元正規分布と見なせるか?
- 相関関係は、正か負か?
- 直線関係か? 曲線関係か?
- 異常な点(外れ値)はないか?
- 層別する必要はないか?(層別は、異なるグループを分けて散布図を書くこと)