「情報理論 - 相互情報量」の版間の差分

提供:MochiuWiki : SUSE, EC, PCB
ナビゲーションに移動 検索に移動
(ページの作成:「== 概要 == 相互情報量 (Mutual Information) は、2つの確率変数間の相互依存性を定量化する指標のことである。<br> <br> 相互情報量I(X;Y)は、2つの確率変数XとY間の依存関係の強さを測る尺度であり、次式で表される。<br> <math>I(X;Y) = \sum \left( p(x, y) \log_{2} \dfrac{p(x,y)}{p(x)p(y)} \right)</math> <br> 上式は、確率変数XとYの同時確率分布p(x,y)と、それぞれの周辺確率分布…」)
 
 
(同じ利用者による、間の2版が非表示)
90行目: 90行目:
<br>
<br>
  例題:
  例題:
  サイコロの目が4以上であるかが分かる事象をBとする。
  サイコロを1回振る時の事象をAとする。
サイコロの目が4以上である事象をBとする。
  この時、条件付きエントロピー <math>H(A|B)</math> を求めよ。
  この時、条件付きエントロピー <math>H(A|B)</math> を求めよ。
   
   
  解答:
  解答:
  事象Bが4以上かつ事象Aに4が出る確率は、<math>P(a = 4, \, b \ge 4) = \dfrac{1}{6}</math>
  事象Bが4以上かつ事象Aに4が出る確率は、<math>P(a = 4, \, b \ge 4) = \dfrac{1}{6}</math>
※サイコロの1つの目が出る確率は、<math>\dfrac{1}{6}</math> であるため。
   
   
  事象Bが4以上であることが判明している上で、事象Aに4の数値が出る確率は、<math>P(a = 4 | b \ge 4) = \dfrac{1}{3}</math>
  事象Bが4以上であることが判明している上で、事象Aに4の出目が出る確率は、<math>P(a = 4 | b \ge 4) = \dfrac{1}{3}</math>
   
   
  事象Bが4以上かつ事象Aに5, 6が出る確率
  事象Bが4以上かつ事象Aに5, 6が出る確率
  および
  および
  事象Bが3以下 かつ 事象Aに1, 2, 3が出る確率も上記と同様に考えれば良いよい。
  事象Bが3以下 かつ 事象Aに1, 2, 3が出る確率も上記と同様に考えればよい。
  <math>H(A|B) = - \sum_{A} \sum_{B} P(a, b) \log_{2} P(a|b)</math> から
  <math>H(A|B) = - \sum_{A} \sum_{B} P(a, b) \log_{2} P(a|b)</math> から
  <math>
  <math>
139行目: 141行目:


__FORCETOC__
__FORCETOC__
[[カテゴリ:Web]]
[[カテゴリ:情報理論]]

2025年1月3日 (金) 18:11時点における最新版

概要

相互情報量 (Mutual Information) は、2つの確率変数間の相互依存性を定量化する指標のことである。

相互情報量I(X;Y)は、2つの確率変数XとY間の依存関係の強さを測る尺度であり、次式で表される。



上式は、確率変数XとYの同時確率分布p(x,y)と、それぞれの周辺確率分布p(x), p(y)の比の対数を用いて計算される。

相互情報量の性質として、非負性 (I(X;Y)は常に0以上の値を取る) が挙げられる。
となるのは、XとYが統計的に独立である場合のみである。

これは、値が大きいほど、2つの変数間の依存関係が強いことを示す。

また、相互情報量は対称性を持つため、 が成り立つ。
これは、XからYへの情報量とYからXへの情報量が等しいことを意味する。

相互情報量は、エントロピーH(X)およびH(Y)、結合エントロピーH(X,Y)を用いて、次式のように表現することも可能である。



実際の応用例として、相互情報量は機械学習における特徴選択、信号処理、通信システムの設計、生物情報学におけるデータ解析等、幅広い分野で活用されている。
例えば、特徴選択では、入力特徴量と目的変数との相互情報量を計算することにより、予測に有用な特徴を選択することができる。

なお、相互情報量を正規化して0から1の範囲に収めることもできる。 これは、正規化相互情報量 (Normalized Mutual Information) と呼ばれ、異なるスケールのデータ間で比較を行う場合に使用される。


相互情報量の例

サイコロ

例えば、2つのサイコロを投げる場合、サイコロの出目が完全に独立であれば相互情報量は0となる。
一方、2つのサイコロが何らかの方法で連動している場合 (例: 1つ目のサイコロが偶数の時、2つ目も必ず偶数になる)、相互情報量は正の値となり、その依存関係の強さを反映する。

天気予報

天気予報の的中率と傘の所持に関する例を考える。

  • 確率変数Xを"雨が降るか否か"
    X = 1 : 雨
    X = 0 : 晴れ
  • 確率変数Yを"傘を持っているか否か"
    Y = 1 : 持っている
    Y = 0 : 持っていない


また、以下に示すような同時確率分布があるとする。

  •  : 雨が降り、傘を持っている
  •  : 雨が降り、傘を持っていない
  •  : 晴れで、傘を持っている
  •  : 晴れで、傘を持っていない


この場合の周辺確率

  •  : 雨が降る確率
  •  : 晴れの確率
  •  : 傘を持っている確率
  •  : 傘を持っていない確率


相互情報量I(X;Y)は、次式のように計算される。


この値が正であることは、天気予報と傘の所持には相関があることを示している。
もし、天気予報を全く気にせずにランダムに傘を持ち歩いていた場合、相互情報量は0に近付く。

逆に、完璧に天気予報に従って傘を持ち歩く場合 (雨の時は必ず傘を持ち、晴れの時は決して持たない)、相互情報量はより大きな値となる。

文字の出現頻度

日本語において、「ん」の次に来る文字には強い制限がある。
(例: 「ん」の次に「な行」の文字は来ない)

このような場合、「現在の文字」と「次の文字」という2つの確率変数の間には強い相関があり、相互情報量は高くなる。
一方、ランダムな文字列では、このような相関は存在せず相互情報量は低くなる。

このように、相互情報量は2つの確率変数間の依存関係を定量的に評価することができ、データ分析や自然言語処理等、様々な分野で活用されている。


条件付きエントロピー

相互情報量は未知であることが多いため、相互情報量に関する式は使用できない。

事象Aおよび事象Bを構成する要素の取り得る確率に対するエントロピーの総和が条件付きエントロピーとなる。
ここで、 の外側の は結合確率、 の内側の は条件付き確率を当てはめる。



これにより、条件付きエントロピー および 相互情報量 を求めることができる。

例題:
サイコロを1回振る時の事象をAとする。
サイコロの目が4以上である事象をBとする。
この時、条件付きエントロピー  を求めよ。

解答:
事象Bが4以上かつ事象Aに4が出る確率は、
※サイコロの1つの目が出る確率は、 であるため。

事象Bが4以上であることが判明している上で、事象Aに4の出目が出る確率は、

事象Bが4以上かつ事象Aに5, 6が出る確率
および
事象Bが3以下 かつ 事象Aに1, 2, 3が出る確率も上記と同様に考えればよい。
 から



相互情報量の関係式

下図に、事象Aおよび事象Bの持つエントロピーの相互関係を示す。

事象Aの持つエントロピーと事象Bの持つエントロピーの共通事象部分を相互情報量という。
事象Bが発生していることが分かった上での事象Aのエントロピーを とする時、次式で表すことができる。

Infomation Theorim Mutual Information 1.png
Infomation Theorim Mutual Information 2.png