12,982
回編集
(→共分散の意味) |
|||
53行目: | 53行目: | ||
<br><br> | <br><br> | ||
== 共分散の意味 == | == 共分散 == | ||
==== 共分散とは ==== | |||
共分散は、2つの変数の関連性を示す統計量であり、2変数が平均からどのように同時に変動するかを表す。<br> | |||
<math>C(X, Y) = \dfrac{1}{n} \sum_{i=1}^{n} (x_{i} - \bar{x})(y_{i} - \bar{y}) = E[(X - \mu_{x})(Y - \mu_{y})]</math><br> | |||
<br> | |||
* X、Yは2つの変数 | |||
* <math>\mu_{x}</math> はXの母平均 | |||
* <math>\mu_{y}</math> はYの母平均 | |||
* Eは期待値 | |||
<br> | |||
正の共分散は、一方の変数が平均より大きくなる時、もう一方の変数も平均より大きくなる傾向がある。<br> | |||
負の共分散は、一方の変数が平均より大きくなる時、もう一方の変数は平均より小さくなる傾向がある。<br> | |||
共分散が0の場合は、2つの変数の間に線形の関連性が無いことを表す。<br> | |||
<br> | |||
ただし、共分散には単位の問題がある。<br> | |||
例えば、身長 (cm) と 体重 (kg) の共分散を取ると、その値の単位は[cm]✕[kg]となり、解釈が難しい。<br> | |||
そのため、実務では単位に依存しない相関係数 (共分散を各変数の標準偏差で割ったもの) が一般的に使用される。<br> | |||
<br> | |||
以下に示すデータにおいて、下図に示すように正の共分散を持つ。<br> | |||
散布図から分かるように、xの値が大きくなるとyの値も大きくなる傾向がある。<br> | |||
計算された共分散の値が正であることは、この2変数間に正の線形関係があることを示している。<br> | |||
<br> | |||
<math>x_1, x_2, \cdots, x_6 = 1, 2, 3, 4, 5, 6</math><br> | |||
<math>y_1, y_2, \cdots, y_6 = 2, 4, 5, 7, 8, 9</math><br> | |||
<br> | |||
[[ファイル:Statistics 3 5.png|フレームなし|中央]] | |||
<br> | |||
==== 共分散の意味 ==== | |||
2変数の両平均値の点<math>(\bar x, \bar y)</math>から見て、各データ点<math>(x_i, y_i)</math>が、正の傾きの方向または負の傾きの方向に偏っているかを<math>(x_i - \bar x)(y_i - \bar y)</math>で計算した後、<br> | 2変数の両平均値の点<math>(\bar x, \bar y)</math>から見て、各データ点<math>(x_i, y_i)</math>が、正の傾きの方向または負の傾きの方向に偏っているかを<math>(x_i - \bar x)(y_i - \bar y)</math>で計算した後、<br> | ||
全データ点の傾向を<math>(x_i - \bar x)(y_i - \bar y)</math>の平均値で表しているといえる。<br> | 全データ点の傾向を<math>(x_i - \bar x)(y_i - \bar y)</math>の平均値で表しているといえる。<br> |