トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

質的変数の分布

正規分布 が代表的ですが、量的変数の分布は、わかりやすいです。 質的変数についても、分布がいろいろと考えられています。

分布になるもの

量的変数では、データの値自体の分布を見ます。 例えば、「データで作ったヒストグラムが、正規分布にどのくらい近いか?」ということが分析できます。

質的変数の分布では、こういう分析はできないです。

質的変数の分布は、大きく分けて、カテゴリの回数の分布と、カテゴリの確率の分布があります。

回数の分布

例えば、確率が0.8で、10回試行したら、「8回くらい当たるだろう」ということは、一般常識としても、よく知られています。

この計算は、n*p ですが、下の表の「平均値」と同じです。

分布の知識があると、分散がどのくらいなのか、つまり、「5回になる可能性は高いか?」といったことが調べられるようになります。

確率の分布

例えば、カテゴリA、Bがあり、発生回数が、Aが2回、Bが8回だったら、「Aの確率は0.2」ということは、一般常識としても、よく知られています。

分布の知識があると、分散がどのくらいなのかもわかるようになります。

質的変数の統計量

量的変数の場合、平均値や分散は、その変数のサンプル全体についての値です。 共分散は、2つの変数についての値です。

質的変数についても、「平均値」、「分散」、「共分散」という言葉が出て来ますが、意味合いが量的変数とは違っています。 質的変数の「平均値」や「分散」というのは、ある変数の中の、ひとつのカテゴリについて、回数や確率に対しての計算値です。

そのため、例えば、3つのカテゴリが含まれている質的変数なら、平均値や分散が3つずつあります。 質的変数の「共分散」は、ひとつの変数の中での、2つのカテゴリに対してのものです。

質的変数に対しての、量的変数のような統計量

筆者の知る限りでは、質的変数について、その変数のサンプル全体に対して、平均値や分散のようなものを計算したり、異なる変数間の関係を表すための「〇〇分布」のようなものは、世の中にないようです。

一方、「〇〇分布」にこだわらないのであれば、質的変数に対しての、量的変数のような統計量は、 平均情報量 と、 相互情報量 があります。 分散に相当するのが、 平均情報量 で、共分散に相当するのが、 相互情報量 です。 ちなみに、分散と共分散の関係と、平均情報量と相互情報量の関係は似ています。

計算式

質的変数の分布
平均値や分散の計算式を、上の表にまとめてみました。

平均値や分散というのは、あるカテゴリの場合です。 実際の計算では、分子のaというところを、bやcに変えることで、それぞれのカテゴリの時の値を計算します。

ディリクレ分布は、式が煩雑になるので、カテゴリ数が3の場合で書いています。



順路 次は 統計量の分布

データサイエンス教室