理路整然と統計学を解説している書籍では、「既知の時は、」、「未知の時は、」といった形で、理論を分類しています。
統計学で、μ(ミュー)やσ2(シグマ)という文字で表されるのは、母平均と母分散です。 いわゆる「真の値」です。
「真の値」は、「神様だけが知っている」という言われ方をしますが、普通はわかりません。 そのため、統計学は、「理想の世界の学問で、現実の世界の分析には使えない」という風にも解釈できるものになっています。
例えば、100人の人がいて、100人分の身長のデータがある場合です。 母平均は、100人分の平均値です。 母分散は、100人分の分散です。(この場合の分散は、分母がサンプル数の100になっている方です。「サンプル数-1」になる不偏分散ではないです。)
例えば、100人分の身長のデータあることは同じでも、この100人が、1000人の中の100人だったり、何人かわからない中の100人の場合です。
平均値も分散も計算できますが、いずれも、「母平均」や「母分散」の推定値です。「母平均」や「母分散」ではないです。
t分布の中で、「母」が付くのが、母平均だけです。 t分布では、母分散に相当する部分が、データから求められる不偏分散で代用できます。
母分散について、「この数字のはず」とするのは不可能なことが普通です。 未知なのが、母平均だけだと、厳密な統計学が使いやすくなって来ます。
平均値の差の検定の仕組み にあるように、平均値の差の検定では、2つの母平均が打ち消し合うことで定式化されます。
そのため、t分布を使った厳密な統計学が使えます。
対応のある検定 の場合、帰無仮説は、「母平均=0」と仮定します。
そのため、t分布を使った厳密な統計学が使えます。
t分布を使うと厳密な統計学が使えるのですが、t分布の確率密度関数は、とても複雑です。 計算をするだけなら、それでも良いのですが、確率密度関数が複雑だと、データ分析の考察が難しくなります。
厳密な計算をするのは、平均値の差の検定の時だけにして、一般的なデータ分析では、 「母」が付かない平均値と分散を、「母」が付く平均値や分散として使ってしまいます。
また、t分布ではなく、正規分布を使ってしまいます。 「使ってしまう」ではなく、もう少しちゃんとした言い方をするのなら、「近似理論」として正規分布を使います。
この時に気を付けるのは、分散については、計算の使い分けがあることです。 不偏分散 を使った方が良いです。
ここで、冒頭の話に戻ると、実務向けの統計学では、「未知」でも、「既知」の理論を使ってしまうことがとても多いです。
これが成り立つのは、母平均、母分散と、データから求めた平均、分散がほぼ同じことです。 また、ほぼ同じなら、結論は変わらないことです。
「『ほぼ同じ』は、誰も保証できない」と考え始めると、何もできなくなります。 そこで、その点は、リスクとして考えておくことになります。
t分布は、もともと正規分布と似ています。特に、サンプル数が多いと、正規分布とほぼ同じになります。
これが、t分布ではなく正規分布を使って言って良い根拠になります。
順路
次は
平均値と中央値