情報理論 - 情報量
概要
情報量は、ある事象がもたらす"情報の大きさ"を数学的に定量化する概念である。
これは1948年にクロード・シャノンによって提唱され、現代の情報理論の基礎となっている。
情報量の考え方は、ある事象が"どれだけ意外か"、"どれだけ不確実か"を数値化することである。
直感的に理解すると、珍しい出来事ほど大きな情報価値があり、当たり前の出来事はあまり情報価値が無いと考えられる。
情報量は確率の対数を用いて定義される。
確率pの事象の情報量は と定義される。
対数の底として2を使用する理由は、情報をビット (0または1の2進数) で表現することに関連している。
情報理論では、確実に起こる事象 (確率 = 1) の情報量は0となる。
これは、"必ず起こること"は新しい情報をもたらさないという直感に合致する。
一方で、確率が小さくなるほど情報量は大きくなり、極めて稀な事象は大きな情報量を持つことになる。
情報量の概念を拡張したエントロピーは、システム全体の不確実性や情報の平均量を表す指標として広く用いられている。
エントロピーは、各事象の情報量をその発生確率で重み付けして平均を取ったものとして定義される。
情報量は起こる確率nとして、 と定義する。
また、底が2の場合の情報量の単位は、ビット (bit)で表される。
実用面では、情報量の概念はデータ圧縮、暗号化、通信システムの設計等、様々な分野で応用されている。
特に、データ圧縮においては、頻繁に出現する要素には少ないビット数を稀に出現する要素には多いビット数を割り当てることにより、効率的な符号化が可能となる。
また、情報量は機械学習や人工知能の分野でも重要な役割を果たしており、決定木アルゴリズムにおける分岐の選択や特徴量の重要度評価などに活用されている。
- データ圧縮
- 頻出するシンボルには少ないビット数、稀なシンボルには多いビット数を割り当てる。(ハフマン符号化等)
- 通信理論
- チャネル容量の計算する。
- 機械学習
- エントロピーを用いた特徴選択や決定木の分岐基準する。
情報量とは
情報量は、ある事象の"意外性"や"不確実性"を定量的に表現する尺度である。
確率が低い (起こりにくい) 事象ほど、情報量は大きくなる。
例えば、確率pで生じるある事象から得られる情報量は、 で表される。
確率 で生じる事象から得られる情報量を1ビットと定義する時、次式で表される。
※注意
対数の底が2であることに注意する。
すなわち、情報量の単位はビットで表すことができる。
もし、対数の底が10である場合は、単位はディジットとなる。
一般のq源の情報源Sから得られる情報量 に関しては、各情報源記号から得られる情報量の平均として定義されるため、次式となる。
記憶のある情報源の場合、記憶が及ぶ範囲をnとして、n個の連続するシンボルを1つにまとめて考えるn次拡大の操作をすればよい。
- 確実な事象 (確率 = 1) の場合
- つまり、必ず起きることは、新しい情報をもたらさない。
- 確率 の事象 (コイントス等) の場合
- 2つの等確率な選択肢から1つを特定するのに必要な情報量
- 確率 の事象の場合
- 4つの等確率な選択肢から1つを特定するのに必要な情報量
この定義が採用された理由を以下に示す。
- 加法性
- 独立な事象の情報量は足し合わせることができる。
- 単調性
- 確率が小さくなるほど情報量が大きくなる。
- 非負性
- 情報量は常に0以上
確率pがある事象、その事象から得られる情報量をその確率の関数I(p)、AおよびBを確率的事象pA、pBをその確率とする時、
- I(p)は、 で定義される連続な単調減少関数である。
- 独立な確率的事象A、Bの発生確率はその確率の積 で表される。
- A、Bが発生した時に得られる情報量について、 が成り立つということから、情報量を表す関数として対数関数がある。
情報量の性質
独立な事象の情報量は加法性を持つ。
例えば、2つの独立した事象が連続して起こる場合、その総合的な情報量は各事象の情報量の和となる。
この性質は、実際のデータ通信や圧縮技術において重要な役割を果たしている。
- 情報量は必ず非負の値になる。
- 確率が小さいほど情報量は大きくなる。
- 独立事象の場合、情報量は加法的である。
それぞれの情報量を足し合わせることが可能。
エントロピーとの関係
情報量の期待値がエントロピーとなる。
つまり、ある確率分布における平均的な情報量を表す。
例題
サイコロの情報量
6面サイコロを振り、特定の目 (例: 1) が出る場合の情報量を計算する。
トランプのカード
52枚のトランプから特定のカード (例: ハートのエース) を引く場合の情報量を計算する。
天気予報
ある地域の天気が晴れである確率が0.7、雨である確率が0.3の場合の情報量を計算する。
- 晴れの情報量
- 雨の情報量
- 平均情報量 (この系のエントロピー)
文字の出現確率
韓国語の文章において、"한국어"という文字が出現する確率が0.08の場合を計算する。
複数の独立事象
サイコロを2回振って、1回目が1、2回目が6が出る確率の情報量を計算する。
- 各事象の確率 :