「第3回 - 2変数間の相関」の版間の差分

 
53行目: 53行目:
<br><br>
<br><br>


== 共分散の意味 ==
== 共分散 ==
==== 共分散とは ====
共分散は、2つの変数の関連性を示す統計量であり、2変数が平均からどのように同時に変動するかを表す。<br>
<math>C(X, Y) = \dfrac{1}{n} \sum_{i=1}^{n} (x_{i} - \bar{x})(y_{i} - \bar{y}) = E[(X - \mu_{x})(Y - \mu_{y})]</math><br>
<br>
* X、Yは2つの変数
* <math>\mu_{x}</math> はXの母平均
* <math>\mu_{y}</math> はYの母平均
* Eは期待値
<br>
正の共分散は、一方の変数が平均より大きくなる時、もう一方の変数も平均より大きくなる傾向がある。<br>
負の共分散は、一方の変数が平均より大きくなる時、もう一方の変数は平均より小さくなる傾向がある。<br>
共分散が0の場合は、2つの変数の間に線形の関連性が無いことを表す。<br>
<br>
ただし、共分散には単位の問題がある。<br>
例えば、身長 (cm) と 体重 (kg) の共分散を取ると、その値の単位は[cm]✕[kg]となり、解釈が難しい。<br>
そのため、実務では単位に依存しない相関係数 (共分散を各変数の標準偏差で割ったもの) が一般的に使用される。<br>
<br>
以下に示すデータにおいて、下図に示すように正の共分散を持つ。<br>
散布図から分かるように、xの値が大きくなるとyの値も大きくなる傾向がある。<br>
計算された共分散の値が正であることは、この2変数間に正の線形関係があることを示している。<br>
<br>
<math>x_1, x_2, \cdots, x_6 = 1, 2, 3, 4, 5, 6</math><br>
<math>y_1, y_2, \cdots, y_6 = 2, 4, 5, 7, 8, 9</math><br>
<br>
[[ファイル:Statistics 3 5.png|フレームなし|中央]]
<br>
==== 共分散の意味 ====
2変数の両平均値の点<math>(\bar x, \bar y)</math>から見て、各データ点<math>(x_i, y_i)</math>が、正の傾きの方向または負の傾きの方向に偏っているかを<math>(x_i - \bar x)(y_i - \bar y)</math>で計算した後、<br>
2変数の両平均値の点<math>(\bar x, \bar y)</math>から見て、各データ点<math>(x_i, y_i)</math>が、正の傾きの方向または負の傾きの方向に偏っているかを<math>(x_i - \bar x)(y_i - \bar y)</math>で計算した後、<br>
全データ点の傾向を<math>(x_i - \bar x)(y_i - \bar y)</math>の平均値で表しているといえる。<br>
全データ点の傾向を<math>(x_i - \bar x)(y_i - \bar y)</math>の平均値で表しているといえる。<br>