トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

相互情報量

相互情報量と、平均情報量の関係は、共分散と分散の関係と似ています。

相互情報量の式

Mutual Information

p(x)は、例えば、質的変数Xのカテゴリがx1、x2、x3なら、x1、x2、x3それぞれの発生数（頻度）をX全部の発生数で割った値です。 p(y)も同様です。

p(x,y)は、xとyのそれぞれの組合せについて、同様に求めた値です。

logの底は、2です。

「相互情報量」という名前について

平均情報量は、「情報量」というものがあって、情報量の期待値が平均情報量になっています。

式の形から考えると、「相互情報量（Mutual Information）」と呼ばれているものは、「平均相互情報量」でも良さそうに思うのですが、「相互情報量」と呼ぶのが一般的のようです。

相互情報量の求め方

分割表を用意します。
p(X)を求めます。行ごとの合計値を、全体の合計値で割ります。
p(Y)を求めます。列ごとの合計値を、全体の合計値で割ります。
p(X,Y)を求めます。各頻度を、全体の合計値で割ります。
p(X,Y) * log(p(X,Y)/p(X)/p(Y))を求めます。 logの底は、2です。

この計算をする時に、XとYの組合せの中で、頻度が０の場合があると、p(X,Y）が０になり、logの計算ができません。 ExcelやRだと、「NaN」になります。以下の計算では、NaNは０に変換することにしています。
p(X,Y) * log(p(X,Y)/p(X)/p(Y))の合計が、相互情報量です。この例では、右下の0.14が相互情報量です。

相互情報量の性質

きちんと書かれている文献をまだ見たことがないのですが、相互情報量の最大値と最小値は、以下のようになるようです。最小値は０です。最大値は、カテゴリの数が少ない方の変数の、カテゴリの数の対数です。

相互情報量の最小値

頻度に偏りがない場合、logの計算の中身が１になるので、logの分が０になります。

偏っていると、０よりも大きな値になります。

相互情報量の最大値

正確な証明は、筆者は確認できていないのですが、相互情報量の最大値は、以下の式で求まるようです。
Mutual Information

1行目は、i*jの分割表の時に、iとjの小さい方の値がkになります。

例えば、2*3の分割表なら、kは2で、相互情報量の最大値は、ちょうど1ということになります。 7*4の分割表なら、kは4で、相互情報量の最大値は、ちょうど2ということになります。

ソフト

EXCEL

上の例は、EXCELで作っています。 EXCELの関数で、底が2のlogを計算する場合は、log(X ,2)とします。Xのところに、変換したい値が入ります。

R

Rによる相互情報量では、変数が２つあるデータをスタートにして、分割表を作ったり、量的変数を質的変数に変換するコードも入れています。

相互情報量をPythonで実装するので、アルゴリズムを教えてください。

参考文献

相互情報量の意味とエントロピーとの関係　高校数学の美しい物語　2022
https://manabitimes.jp/math/1403#4
XとYが同じ分布の時に、相互情報量が最大値になることが説明されています。

順路次は相互情報量係数

データサイエンス教室