トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

コルモゴロフ-スミルノフ検定

コルモゴロフ-スミルノフ検定は、 分布の違いの検定 で、かつ、 ノンパラメトリック検定 として、知られています。

コルモゴロフ-スミルノフ検定の手順

KS
上のようなデータがあったとします。 XとYの2つの分布の違いが調べたいことです。

KS
データを縦につなげます。

KS
小さい順に並び替えて、番号を振ります。

KS
XとYの両方について、累積度数を出します。 表の上から見て行って、Nameの列の変わり目で、1増える形になります。

KS
経験分布を出します。 累積度数を、XとYの、それぞれのサンプル数で割ります。

KS
経験分布の差を計算します。

GY-GXは、この例では、正の値しかありませんが、負の値が出ることもあります。

GY-GXの絶対値の最大値は、0.489です。 コルモゴロフ-スミルノフ検定では、この後、この0.489という値が、サンプル数から考えて有意かどうかを調べます。

コルモゴロフ-スミルノフ検定は、分布全体の違いを見ている検定ではなさそう

コルモゴロフ-スミルノフ検定は、一般的には、「分布全体の違いを評価する」や、「中心位置とばらつきの違いを同時に評価する」というようにして紹介されることが多いようです。

「分布全体の違いを評価する」や、「中心位置とばらつきの違いを同時に評価する」という説明だと、「データ全体に対して、中心の違いやばらつきの違いを評価する」という方法のようにも聞こえるのですが、筆者は違うと思っています。

コルモゴロフ-スミルノフ検定は、分布関数を比べた時に、一番大きな差が出ている部分に着目して、その離れ方の数値的な違いを評価します。 データ全体のばらつき方に対して、その部分の違いが、どの程度なのかは、評価していないためです。

「分布全体を見て、違いの有無を評価する」という表現をした場合に間違いではないですが、違いの有無の考え方が、平均値の差の検定などと同様になっています。

分布全体の違いを見ている検定は?

上記のように、コルモゴロフ-スミルノフ検定は、「分布全体の違いを評価する」や、「中心位置とばらつきの違いを同時に評価する」ではないです。

そこで、「分布全体の違いを評価する」という方法として、筆者が考案したのが、 対応のない2標本の類似度分析 です。

ソフト

Rによる違いの有無の分析 があります。 上の表の方法は、だいたい網羅しています。



参考文献

生物統計学入門」 山田作太郎・北田修一 著 成山堂書店 2004
・コルモゴロフ-スミルノフ検定:分布が等しいのかを調べる方法。中心位置の違いと、ばらつきの違いの両方を見る方法。




順路 次は 対応のない2標本の類似度分析

データサイエンス教室