「第4回 - 2変数の回帰分析」の版間の差分

提供:MochiuWiki : SUSE, EC, PCB
ナビゲーションに移動 検索に移動
編集の要約なし
 
14行目: 14行目:
<math>
<math>
\begin{align}
\begin{align}
a &= \frac{\mbox{x と y の 共 分 散 }}{\mbox{x の 母 分 散 }} \\
a &= \frac{\mbox{ x y }}{\mbox{ x }} \\
   &= \frac{\frac{1}{n} \sum_{i=1}^N (x_i - \bar{x})(y_i - \bar{y})}{\sigma_x^2}
   &= \frac{\frac{1}{n} \sum_{i=1}^N (x_i - \bar{x})(y_i - \bar{y})}{\sigma_x^2}
\end{align}
\end{align}
37行目: 37行目:
* 代入するxの値には注意が必要である。
* 代入するxの値には注意が必要である。
** 内挿 (問題なし)
** 内挿 (問題なし)
**: <math>\mbox{元 デ ー タ の 最 小  x} \leqq \mbox{代 入 す る  x} \leqq \mbox{元 デ ー タ の 最 大  x}</math>
**: <math>\mbox{ 小  x } \leqq \mbox{ る  x } \leqq \mbox{ 大  x }</math>
** 外挿 (問題あり : 範囲外での推定精度は保証できないため)
** 外挿 (問題あり : 範囲外での推定精度は保証できないため)
**: <math>\mbox{代 入 す る  x} \leqq \mbox{元 デ ー タ の 最 小  x}</math>
**: <math>\mbox{ る  x } \leqq \mbox{ 小  x }</math>
**: または
**: または
**: <math>\mbox{元 デ ー タ の 最 大  x} \leqq \mbox{代 入 す る  x}</math>
**: <math>\mbox{ 大  x } \leqq \mbox{ る  x }</math>
**: <br>
**: <br>
**: ただし、外挿しても問題ない場合もあるため、推定結果が妥当かどうかを常に考えることが重要である。
**: ただし、外挿しても問題ない場合もあるため、推定結果が妥当かどうかを常に考えることが重要である。
51行目: 51行目:
<br>
<br>
* 寄与率R<sup>2</sup>は、0〜1の範囲にあり、回帰直線の精度が高いほど寄与率は1に近づく。
* 寄与率R<sup>2</sup>は、0〜1の範囲にあり、回帰直線の精度が高いほど寄与率は1に近づく。
* 相関係数r<sub>xy</sub>の2乗が寄与率R<sup>2</sup>に等しい。<br><math>R^2 = (r_{xy})^{2} = \mbox{( 相 関 係 数  )}^{2}</math>
* 相関係数r<sub>xy</sub>の2乗が寄与率R<sup>2</sup>に等しい。<br><math>R^2 = (r_{xy})^{2} = \mbox{( 数  )}^{2}</math>
<br><br>
<br><br>


120行目: 120行目:
a &= \frac{\sum_{i=1}^N {(x_i - \bar{x})(y_i - \bar{y})}}{\sum_{i=1}^N {(x_i - \bar{x})^{2}}} \\
a &= \frac{\sum_{i=1}^N {(x_i - \bar{x})(y_i - \bar{y})}}{\sum_{i=1}^N {(x_i - \bar{x})^{2}}} \\
   &= \frac{C_{xy}}{\sigma_{x}^{2}} \\
   &= \frac{C_{xy}}{\sigma_{x}^{2}} \\
   &= \frac{\mbox{x と y の 共 分 散  }}{\mbox{x の 母 分 散  }}
   &= \frac{\mbox{ x y 散  }}{\mbox{ x 散  }}
\end{align}
\end{align}
</math><br>
</math><br>
<br>
<br>
全データ組の誤差の2乗和Seが最小になる回帰係数は、<br>
全データ組の誤差の2乗和Seが最小になる回帰係数は、<br>
<math>a = \frac{\mbox{x と y の 共 分 散  }}{\mbox{x の 母 分 散  }}</math><br>
<math>a = \frac{\mbox{ x y 散  }}{\mbox{ x 散  }}</math><br>
<math>b = \bar{y} - a \bar{x}</math><br>
<math>b = \bar{y} - a \bar{x}</math><br>
<br>
<br>

2025年1月6日 (月) 19:21時点における最新版

概要

記述統計において、2変数間の相関がある時、
一方の変数xから他方の変数yの関係式を求める方法である回帰分析を学習する。


回帰分析とは

N個のデータの組x1、y1、...、xN、yNについて、
直線モデル(回帰直線) を当てはめて、データの分布を表す直線を計算することである。

これは、直線の傾きaと切片bを変化させて決める。

2変数間の相関係数rxyの絶対値が大きい場合に有効である。





以上のことから、回帰直線は次式となる。



回帰分析の使い道

  • 回帰直線を使用して、yの推定に利用する。

  • 代入するxの値には注意が必要である。
    • 内挿 (問題なし)
    • 外挿 (問題あり : 範囲外での推定精度は保証できないため)
      または

      ただし、外挿しても問題ない場合もあるため、推定結果が妥当かどうかを常に考えることが重要である。



回帰分析の推定精度

回帰分析の推定精度を表すには、寄与率R2を用いる。


  • 寄与率R2は、0〜1の範囲にあり、回帰直線の精度が高いほど寄与率は1に近づく。
  • 相関係数rxyの2乗が寄与率R2に等しい。



回帰分析の原理

N個のデータの組(x1, y1)、...、(xN, yN)について、直線モデル(回帰直線)を当てはめる時、
実際には誤差があるため、元の値yiと回帰直線の式で推定した値 の差が最小になるようにしなくてはならない。

Statistics 4 1.png


真値との誤差の2乗 の総和が最小になれば、直線モデル(回帰直線)が最良になる。

元の値yiと回帰直線で推定した値 の差(誤差 )が最小になるようにするには、
全データの誤差の2乗(誤差)の和が最小になるように、直線の傾きaと切片bを決める。

これを、最小2乗法と呼ぶ。


全データ組の誤差の2乗和Seを最小にする回帰係数a、bを求める。


上記の回帰係数を求めるには、Seの偏微分の結果が0となる鞍点を求める。




上記の2式を整理して次式とする。
これらを、正規方程式と呼ぶ。
… (1)
… (2)

上式を全データ組Nで除算する。


したがって、回帰直線の切片bは、傾きa、xの平均、yの平均で求めることができる。

を下式に代入する。



全データ組の誤差の2乗和Seが最小になる回帰係数は、



したがって、回帰直線は全データ組の平均値xとyを通る。


最小となったSeの値は、次式となる。