トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

既知と未知の使い分け

理路整然と統計学を解説している書籍では、「既知の時は、」、「未知の時は、」といった形で、理論を分類しています。

厳密な統計学

統計学で、μ(ミュー)やσ2(シグマ)という文字で表されるのは、母平均と母分散です。 いわゆる「真の値」です。

「真の値」は、「神様だけが知っている」という言われ方をしますが、普通はわかりません。 そのため、統計学は、「理想の世界の学問で、現実の世界の分析には使えない」という風にも解釈できるものになっています。

厳密な統計学が使える場合

例えば、100人の人がいて、100人分の身長のデータがある場合です。 母平均は、100人分の平均値です。 母分散は、100人分の分散です。(この場合の分散は、分母がサンプル数の100になっている方です。「サンプル数-1」になる不偏分散ではないです。)

厳密な統計学が使えない場合

例えば、100人分の身長のデータあることは同じでも、この100人が、1000人の中の100人だったり、何人かわからない中の100人の場合です。

平均値も分散も計算できますが、いずれも、「母平均」や「母分散」の推定値です。「母平均」や「母分散」ではないです。

厳密だけど、少し使いやすくなっている統計学

t分布の中で、「母」が付くのが、母平均だけです。 t分布では、母分散に相当する部分が、データから求められる不偏分散で代用できます。

母分散について、「この数字のはず」とするのは不可能なことが普通です。 未知なのが、母平均だけだと、厳密な統計学が使いやすくなって来ます。

平均値の差の検定(対応なし)

平均値の差の検定の仕組み にあるように、平均値の差の検定では、2つの母平均が打ち消し合うことで定式化されます。

そのため、t分布を使った厳密な統計学が使えます。

平均値の差の検定(対応あり)

対応のある検定 の場合、帰無仮説は、「母平均=0」と仮定します。

そのため、t分布を使った厳密な統計学が使えます。

実務向けの統計学

t分布を使うと厳密な統計学が使えるのですが、t分布の確率密度関数は、とても複雑です。 計算をするだけなら、それでも良いのですが、確率密度関数が複雑だと、データ分析の考察が難しくなります。

厳密な計算をするのは、平均値の差の検定の時だけにして、一般的なデータ分析では、 「母」が付かない平均値と分散を、「母」が付く平均値や分散として使ってしまいます。

また、t分布ではなく、正規分布を使ってしまいます。 「使ってしまう」ではなく、もう少しちゃんとした言い方をするのなら、「近似理論」として正規分布を使います。

この時に気を付けるのは、分散については、計算の使い分けがあることです。 不偏分散 を使った方が良いです。

既知と未知の使い分け

ここで、冒頭の話に戻ると、実務向けの統計学では、「未知」でも、「既知」の理論を使ってしまうことがとても多いです。

これが成り立つのは、母平均、母分散と、データから求めた平均、分散がほぼ同じことです。 また、ほぼ同じなら、結論は変わらないことです。

「『ほぼ同じ』は、誰も保証できない」と考え始めると、何もできなくなります。 そこで、その点は、リスクとして考えておくことになります。

正規分布で代用しても良い根拠

t分布は、もともと正規分布と似ています。特に、サンプル数が多いと、正規分布とほぼ同じになります。

これが、t分布ではなく正規分布を使って言って良い根拠になります。


t分布は、サンプル数が少ない時用の理論ではない



順路 次は 平均値と中央値

データサイエンス教室