トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

情報理論

情報理論(Infomation Theory)は、情報の量を数学的に定義して扱う分野です。

「情報理論」がタイトルになっている本は、情報量の解説から始まって、 通信の話に入っていくものが多いです。

しかし、 統計学機械学習 の分野は情報の扱い方が重要ですので、これらの分野でも、情報量という量は使われています。

情報量

情報理論では、情報量を
情報量 = log ( 1/ 事象の起きる確率 ) 
と定義します。

このようにすると、「起こりにくいと思っている事象ほど、情報の値は高い」という性質を表現できるようになります。

また、この表現は、統計学と情報理論の接点になっています。

平均情報量

平均情報量を使う場面は、下記のような2つのケースに分けると考えやすいと思います。

平均情報量を使うと、上記のような比較が定量的にできます。 上記の2つの例が混ざっているようなケースでも使えます。 ちなみに、1の場合は後者が、2の場合は前者が、「起こりにくい事象」として、平均情報量で表せます。

平均情報量は、各事象の発生確率がPiの場合、
平均情報量
です。
起こりにくい事象ほど、値が小さくなります。

多様性の尺度として、平均情報量を使う場合は、
「平均情報量が大きい = 多様」
という使い方をします。

平均情報量は、「情報エントロピー」とも呼ばれます。

最尤法と情報量基準

統計モデルの妥当性を評価する方法で、情報理論と 統計学 にまたがっている方法です。

異なるモデルを比べるための指標が、情報量基準です。 筆者の知っている情報量基準は AIC(Akaike's Information Criterion) のみですが、 BICやGICと言った量も考案されているようです。

最尤推定量とは、モデルのパラメータの値です。 最尤推定量や情報量基準は、 カルバック情報量(相対エントロピーとも言います)を最小化することによって求まります。

フィッシャー

情報理論では、フィッシャー情報行列という量が出てきます。 フィッシャーという名前は、 分布(F分布)でも、 分散分析でも、 実験計画法でも登場しますが、同一人物です。 ずいぶんお世話になっていることを、当サイトを作っていて初めて知りました。



平均相互情報量をPythonで実装するので、アルゴリズムを教えてください。

参考文献

情報理論の基礎 情報と学習の直観的理解のために」 村田昇 著 サイエンス社 2008
機械学習 の中での情報理論を理解するための本です。
情報幾何学を紹介し、いろいろなアルゴリズムの幾何学的な説明もあります。 サンプリングの本としても、参考になります。
EMアルゴリズム : データの欠損がある時に、その部分を補間して使う方法。


情報の物理学」 豊田正 著 講談社 1997
「情報が多い・少ない」ということを、どうやって量として定義するのかについて、 身近な例を使ったわかりやすい解説があります。


生のデータを料理する」 岸野洋久 著 日本評論社 1999
親しみやすいタイトルですが、中身は難解です。 実際の調査と理論の結び付きが、しっかりしています。


情報系の数学入門」 林晋・八杉満利子 著 オーム社 1993
集合や論理の本です。 情報理論の本ではないですが、他に適当なページがなかったので、ここにメモしています。




順路 次は 情報統計力学

Tweet データサイエンス教室