正規分布 が代表的ですが、量的変数の分布は、わかりやすいです。 質的変数についても、分布がいろいろと考えられています。
量的変数では、データの値自体の分布を見ます。 例えば、「データで作ったヒストグラムが、正規分布にどのくらい近いか?」ということが分析できます。
質的変数の分布では、こういう分析はできないです。
質的変数の分布は、大きく分けて、カテゴリの回数の分布と、カテゴリの確率の分布があります。
例えば、確率が0.8で、10回試行したら、「8回くらい当たるだろう」ということは、一般常識としても、よく知られています。
この計算は、n*p ですが、下の表の「平均値」と同じです。
分布の知識があると、分散がどのくらいなのか、つまり、「5回になる可能性は高いか?」といったことが調べられるようになります。
例えば、カテゴリA、Bがあり、発生回数が、Aが2回、Bが8回だったら、「Aの確率は0.2」ということは、一般常識としても、よく知られています。
分布の知識があると、分散がどのくらいなのかもわかるようになります。
量的変数の場合、平均値や分散は、その変数のサンプル全体についての値です。 共分散は、2つの変数についての値です。
質的変数についても、「平均値」、「分散」、「共分散」という言葉が出て来ますが、意味合いが量的変数とは違っています。 質的変数の「平均値」や「分散」というのは、ある変数の中の、ひとつのカテゴリについて、回数や確率に対しての計算値です。
そのため、例えば、3つのカテゴリが含まれている質的変数なら、平均値や分散が3つずつあります。 質的変数の「共分散」は、ひとつの変数の中での、2つのカテゴリに対してのものです。
筆者の知る限りでは、質的変数について、その変数のサンプル全体に対して、平均値や分散のようなものを計算したり、異なる変数間の関係を表すための「〇〇分布」のようなものは、世の中にないようです。
一方、「〇〇分布」にこだわらないのであれば、質的変数に対しての、量的変数のような統計量は、 平均情報量 と、 相互情報量 があります。 分散に相当するのが、 平均情報量 で、共分散に相当するのが、 相互情報量 です。 ちなみに、分散と共分散の関係と、平均情報量と相互情報量の関係は似ています。
平均値や分散の計算式を、上の表にまとめてみました。
平均値や分散というのは、あるカテゴリの場合です。 実際の計算では、分子のaというところを、bやcに変えることで、それぞれのカテゴリの時の値を計算します。
ディリクレ分布は、式が煩雑になるので、カテゴリ数が3の場合で書いています。
順路 次は 統計量の分布