トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

質的変数のばらつきの尺度

標準偏差不偏分散 は、量的変数のばらつきの尺度です。

「質的変数には、ばらつきの尺度はあるのか?」、「そもそも質的変数のばらつきとは、どういうものか?」というのが、このページの話です。

カイ二乗値

カイ二乗値は、カイ二乗検定で使われる尺度です。

カイ二乗検定は、質的変数が1つあって、その質的変数のばらつき(頻度のばらつき)を調べる時には、「適合度の検定」と呼ばれます。 質的変数が2つある場合は、「独立性の検定」と呼ばれます。

カイ二乗値は、各カテゴリの頻度が同じ(等確率)の場合、0になります。

頻度のばらつきが大きいと、大きな値になります。

平均情報量と、平均情報量係数

平均情報量 は、各カテゴリの頻度が同じ(等確率)場合、最大値になります。 頻度のばらつきが大きいと、0に近くなります。

平均情報量係数 は0から1の数字になります。

分散や標準偏差に近い尺度は?

分散や標準偏差には、以下のような特徴があります。

このように考えると、質的変数の場合で、分散や標準偏差と似た性質を持っているのは、 平均情報量 と考えられます。

質的変数には、値の大きさがないため、「数字の範囲が広いほど、大きい」だけが当てはまらないですが、それ以外は、以下のように対応します。
平均情報量

平均情報量係数 は、 平均情報量 を、カテゴリの数の違いは出ないように標準化した尺度になります。






順路 次は 検定

Tweet データサイエンス教室