概要
相互情報量 (Mutual Information) は、2つの確率変数間の相互依存性を定量化する指標のことである。
相互情報量I(X;Y)は、2つの確率変数XとY間の依存関係の強さを測る尺度であり、次式で表される。
上式は、確率変数XとYの同時確率分布p(x,y)と、それぞれの周辺確率分布p(x), p(y)の比の対数を用いて計算される。
相互情報量の性質として、非負性 (I(X;Y)は常に0以上の値を取る) が挙げられる。
となるのは、XとYが統計的に独立である場合のみである。
これは、値が大きいほど、2つの変数間の依存関係が強いことを示す。
また、相互情報量は対称性を持つため、 が成り立つ。
これは、XからYへの情報量とYからXへの情報量が等しいことを意味する。
相互情報量は、エントロピーH(X)およびH(Y)、結合エントロピーH(X,Y)を用いて、次式のように表現することも可能である。
実際の応用例として、相互情報量は機械学習における特徴選択、信号処理、通信システムの設計、生物情報学におけるデータ解析等、幅広い分野で活用されている。
例えば、特徴選択では、入力特徴量と目的変数との相互情報量を計算することにより、予測に有用な特徴を選択することができる。
なお、相互情報量を正規化して0から1の範囲に収めることもできる。
これは、正規化相互情報量 (Normalized Mutual Information) と呼ばれ、異なるスケールのデータ間で比較を行う場合に使用される。
相互情報量の例
サイコロ
例えば、2つのサイコロを投げる場合、サイコロの出目が完全に独立であれば相互情報量は0となる。
一方、2つのサイコロが何らかの方法で連動している場合 (例: 1つ目のサイコロが偶数の時、2つ目も必ず偶数になる)、相互情報量は正の値となり、その依存関係の強さを反映する。
天気予報
天気予報の的中率と傘の所持に関する例を考える。
- 確率変数Xを"雨が降るか否か"
- X = 1 : 雨
- X = 0 : 晴れ
- 確率変数Yを"傘を持っているか否か"
- Y = 1 : 持っている
- Y = 0 : 持っていない
また、以下に示すような同時確率分布があるとする。
- : 雨が降り、傘を持っている
- : 雨が降り、傘を持っていない
- : 晴れで、傘を持っている
- : 晴れで、傘を持っていない
この場合の周辺確率
- : 雨が降る確率
- : 晴れの確率
- : 傘を持っている確率
- : 傘を持っていない確率
相互情報量I(X;Y)は、次式のように計算される。
この値が正であることは、天気予報と傘の所持には相関があることを示している。
もし、天気予報を全く気にせずにランダムに傘を持ち歩いていた場合、相互情報量は0に近付く。
逆に、完璧に天気予報に従って傘を持ち歩く場合 (雨の時は必ず傘を持ち、晴れの時は決して持たない)、相互情報量はより大きな値となる。
文字の出現頻度
日本語において、「ん」の次に来る文字には強い制限がある。
(例: 「ん」の次に「な行」の文字は来ない)
このような場合、「現在の文字」と「次の文字」という2つの確率変数の間には強い相関があり、相互情報量は高くなる。
一方、ランダムな文字列では、このような相関は存在せず相互情報量は低くなる。
このように、相互情報量は2つの確率変数間の依存関係を定量的に評価することができ、データ分析や自然言語処理等、様々な分野で活用されている。
条件付きエントロピー
相互情報量は未知であることが多いため、相互情報量に関する式は使用できない。
事象Aおよび事象Bを構成する要素の取り得る確率に対するエントロピーの総和が条件付きエントロピーとなる。
ここで、 の外側の は結合確率、 の内側の は条件付き確率を当てはめる。
これにより、条件付きエントロピー および 相互情報量 を求めることができる。
例題:
サイコロを1回振る時の事象をAとする。
サイコロの目が4以上である事象をBとする。
この時、条件付きエントロピー を求めよ。
解答:
事象Bが4以上かつ事象Aに4が出る確率は、
※サイコロの1つの目が出る確率は、 であるため。
事象Bが4以上であることが判明している上で、事象Aに4の出目が出る確率は、
事象Bが4以上かつ事象Aに5, 6が出る確率
および
事象Bが3以下 かつ 事象Aに1, 2, 3が出る確率も上記と同様に考えればよい。
から
相互情報量の関係式
下図に、事象Aおよび事象Bの持つエントロピーの相互関係を示す。
事象Aの持つエントロピーと事象Bの持つエントロピーの共通事象部分を相互情報量という。
事象Bが発生していることが分かった上での事象Aのエントロピーを とする時、次式で表すことができる。