トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

平均情報量

平均情報量は、情報量の平均値です。

平均情報量は、「情報エントロピー」とも呼ばれます。統計力学のエントロピーと式の形が同じです。

平均情報量の式

平均情報量は、各事象の発生確率がPiの場合、

です。
起こりにくい事象ほど、値が小さくなります。

多様性の尺度として、平均情報量を使う場合は、
「平均情報量が大きい　＝　多様」
という使い方をします。

平均情報量の対数の底

対数には、「底（てい）」というものがあります。

対数は、様々な分野で使われますが、それぞれの分野によって、よく使われる底の数字が違います。対数の底は、10にしたり、ネイピア数e（2.71828・・・）を使ったりします。

ソフトでも違っています。 EXCELのLOGという関数は、デフォルトが10になっていて、底を指定しないで使うと、10として計算されます。 Rのlogという関数では、デフォルトがネイピア数になっています。例えば、EXCELや、Rで、底を３に指定したい場合は、log( X ,3)と書きます。 EXCELにLOG10、Rにlog10という関数があり、これらは底が10で固定です。 EXCELでは、LNという関数を使うと、底がネイピア数の対数を計算できます。

平均情報量は、いろいろな文献で出て来ますが、対数の底を書いていない文献がとても多いです。書いてあるものには、「2」と書いてあるので、「2」が一般的な定義のようです。

データ分析をする時は、デフォルトで対数を使っても問題のないことが多いですが、平均情報量を自分で計算する時は、底を指定する必要があります。