既知と未知の使い分け

理路整然と統計学を解説している書籍では、「既知の時は、」、「未知の時は、」といった形で、理論を分類しています。

厳密な統計学

統計学で、μ（ミュー）やσ2（シグマ）という文字で表されるのは、母平均と母分散です。いわゆる「真の値」です。

「真の値」は、「神様だけが知っている」という言われ方をしますが、普通はわかりません。そのため、統計学は、「理想の世界の学問で、現実の世界の分析には使えない」という風にも解釈できるものになっています。

例えば、100人の人がいて、100人分の身長のデータがある場合です。母平均は、100人分の平均値です。母分散は、100人分の分散です。（この場合の分散は、分母がサンプル数の100になっている方です。「サンプル数-1」になる不偏分散ではないです。）

例えば、100人分の身長のデータあることは同じでも、この100人が、1000人の中の100人だったり、何人かわからない中の100人の場合です。

平均値も分散も計算できますが、いずれも、「母平均」や「母分散」の推定値です。「母平均」や「母分散」ではないです。

t分布の中で、「母」が付くのが、母平均だけです。 t分布では、母分散に相当する部分が、データから求められる不偏分散で代用できます。

母分散について、「この数字のはず」とするのは不可能なことが普通です。未知なのが、母平均だけだと、厳密な統計学が使いやすくなって来ます。

平均値の差の検定の仕組みにあるように、平均値の差の検定では、２つの母平均が打ち消し合うことで定式化されます。

そのため、t分布を使った厳密な統計学が使えます。

対応のある検定の場合、帰無仮説は、「母平均＝０」と仮定します。

そのため、t分布を使った厳密な統計学が使えます。

t分布を使うと厳密な統計学が使えるのですが、t分布の確率密度関数は、とても複雑です。計算をするだけなら、それでも良いのですが、確率密度関数が複雑だと、データ分析の考察が難しくなります。

厳密な計算をするのは、平均値の差の検定の時だけにして、一般的なデータ分析では、「母」が付かない平均値と分散を、「母」が付く平均値や分散として使ってしまいます。

また、t分布ではなく、正規分布を使ってしまいます。「使ってしまう」ではなく、もう少しちゃんとした言い方をするのなら、「近似理論」として正規分布を使います。

この時に気を付けるのは、分散については、計算の使い分けがあることです。不偏分散を使った方が良いです。

ここで、冒頭の話に戻ると、実務向けの統計学では、「未知」でも、「既知」の理論を使ってしまうことがとても多いです。

これが成り立つのは、母平均、母分散と、データから求めた平均、分散がほぼ同じことです。また、ほぼ同じなら、結論は変わらないことです。

「『ほぼ同じ』は、誰も保証できない」と考え始めると、何もできなくなります。そこで、その点は、リスクとして考えておくことになります。

t分布は、もともと正規分布と似ています。特に、サンプル数が多いと、正規分布とほぼ同じになります。

これが、t分布ではなく正規分布を使って言って良い根拠になります。