トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

21世紀の検定のサンプル数

21世紀の検定 は、データの分布に対して評価しているため、従来の検定のように、サンプル数が増えると、P値が限りなく0に近くなる特徴がないです。 つまり、P値の大きさに対して、サンプル数の影響がないです。

ただし、21世紀の検定でも、P値のばらつきに対しては、サンプル数の影響があります。

そこで、最小限確保しておいた方が良いサンプル数を試算してみました。

従来の検定では、 サンプル数を固定する統計学 という方法がありますが、このページの話は、「最小限」の話です。 このページで示しているサンプル数よりも多いことは、悪い事ではなく、むしろ、望ましい事です。

最小限確保しておいた方が良いサンプル数

21世紀の検定 には、t検定・z検定を応用するタイプと、分布から確率を直接計算するタイプがあります。 P値の信頼区間を計算できるのは、t検定・z検定を応用するタイプなので、このページは、t検定・z検定を応用するタイプに対してのものです。

最小限確保しておいた方が良いサンプル数の考え方

相関係数の効果量の検定以外は、片側検定を想定しているので、P値の信頼区間の上側が0.5を下回ることが、最低限確保しておきたい条件になります。 そこで、この条件になる場合をサンプル数の目安とすることにしました。

相関係数の効果量の検定では、P値が0.5を下回るという意味は、片方の変数によるもう片方の変数への寄与率が0.5以上であることを意味するので、これを目安にしています。 そこで、P値の信頼区間の上側が0.5を下回ることを、目安としました。

R=0.5の場合については、信頼区間の中心値がそもそもP値が0.5を上回っています。 しかし、 粗い測定の相関性 では、Rは0.5でも意味のある相関になり得るので、このケースも調べています。 この条件の時の「100」という目安は、エイやで決めたものです。 考え方によっては、1000くらいあった方が良さそうです。

各手法のグラフ

各手法のグラフです。

シフトの効果量の検定

シフトの効果量の検定 です。

平均値の差の効果量の検定

平均値の差の効果量の検定 です。

分散比の効果量の検定

分散比の効果量の検定 です。

比率の差の効果量の検定

比率の差の効果量の検定 です。

相関係数の効果量の検定

相関係数の効果量の検定(寄与率法) です。



順路 次は シフトの検定

データサイエンス教室