トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

対応のない2標本の類似度分析

コルモゴロフ-スミルノフ検定 は、「分布全体の違いを調べる方法」というようにして説明されることが多いようですが、実際は、一番違う部分だけを調べる方法になっています。

そこで、分布全体の違いを方法として、筆者が考案したのが、このページの方法になります。 世の中に、既に同じものがあれば、説明はそれに合わせるつもりですが、さしあたって、なさそうです。

対応のない2標本の類似度分析

対応のない2標本の類似度分析は、途中までが、 コルモゴロフ-スミルノフ検定 と同じです。

KS
コルモゴロフ-スミルノフ検定 では、上の表のような計算を進めて、経験分布の差分の最大値に着目して行きます。

対応のない2標本の類似度分析は、最大値に着目するのではなく、経験分布の比較や、経験分布の差分全体について、分析を進めます。
KS KS

分析例

対応のない2標本の類似度分析をした場合に、どのような結果になるのかを、典型的な例で調べたのが下記になります。

ほぼ同じ分布の場合

サンプル数は10000です。 平均値が0、標準偏差が1の正規分布になるようにして作った2群あります。 厳密には、平均値は、0.002違います。
KS

下記は、コルモゴロフ-スミルノフ検定の結果です。 p値が0.305です。
KS

経験分布の差分が、下図になります。 折れ線グラフは、ランダムウォークモデルのような感じです。 ヒストグラムは、プラス側もマイナス側にも広がっています。
KS KS

平均値がずれている場合

サンプル数は10000です。 両方とも正規分布で、片方は、平均値が0、標準偏差が1、もう片方は平均値が1、標準偏差が1です。
KS

下記は、コルモゴロフ-スミルノフ検定の結果です。 p値は非常に小さいです。
KS

経験分布の差分が、下図になります。 折れ線グラフは、きれいな曲線です。 ヒストグラムは、きれいに偏っています。
KS KS

平均値が少しずれている場合

サンプル数は10000です。 両方とも正規分布で、片方は、平均値が0、標準偏差が1、もう片方は平均値0.1、標準偏差が1です。
KS

下記は、コルモゴロフ-スミルノフ検定の結果です。 p値が非常に小さいです。
KS

経験分布の差分が、下図になります。 平均値のずれが0.002の時と、1の時の間のようなグラフになっています。
KS KS

ばらつきが違う場合

サンプル数は10000です。 平均値は同じです、 片方は、標準偏差が1、もう片方は、標準偏差が5です。
KS

下記は、コルモゴロフ-スミルノフ検定の結果です。 p値が非常に小さいです。
KS

経験分布の差分が、下図になります。 折れ線グラフは、きれいな曲線です。 ヒストグラムは、一様分布のようにも見えますが、端の法が高くなっています。
KS KS

ソフト

Rによる対応のない2標本の類似度分析 のページがあります。





順路 次は ネイマン・ピアソン流の検定

データサイエンス教室