コルモゴロフ-スミルノフ検定は、 分布の違いの検定 で、かつ、 ノンパラメトリック検定 として、知られています。
上のようなデータがあったとします。
XとYの2つの分布の違いが調べたいことです。
データを縦につなげます。
小さい順に並び替えて、番号を振ります。
XとYの両方について、累積度数を出します。
表の上から見て行って、Nameの列の変わり目で、1増える形になります。
経験分布を出します。
累積度数を、XとYの、それぞれのサンプル数で割ります。
経験分布の差を計算します。
GY-GXは、この例では、正の値しかありませんが、負の値が出ることもあります。
GY-GXの絶対値の最大値は、0.489です。 コルモゴロフ-スミルノフ検定では、この後、この0.489という値が、サンプル数から考えて有意かどうかを調べます。
コルモゴロフ-スミルノフ検定は、一般的には、「分布全体の違いを評価する」や、「中心位置とばらつきの違いを同時に評価する」というようにして紹介されることが多いようです。
「分布全体の違いを評価する」や、「中心位置とばらつきの違いを同時に評価する」という説明だと、「データ全体に対して、中心の違いやばらつきの違いを評価する」という方法のようにも聞こえるのですが、筆者は違うと思っています。
コルモゴロフ-スミルノフ検定は、分布関数を比べた時に、一番大きな差が出ている部分に着目して、その離れ方の数値的な違いを評価します。 データ全体のばらつき方に対して、その部分の違いが、どの程度なのかは、評価していないためです。
「分布全体を見て、違いの有無を評価する」という表現をした場合に間違いではないですが、違いの有無の考え方が、平均値の差の検定などと同様になっています。
上記のように、コルモゴロフ-スミルノフ検定は、「分布全体の違いを評価する」や、「中心位置とばらつきの違いを同時に評価する」ではないです。
そこで、「分布全体の違いを評価する」という方法として、筆者が考案したのが、 対応のない2標本の類似度分析 です。
Rによる違いの有無の分析 があります。 上の表の方法は、だいたい網羅しています。
「生物統計学入門」 山田作太郎・北田修一 著 成山堂書店 2004
・コルモゴロフ-スミルノフ検定:分布が等しいのかを調べる方法。中心位置の違いと、ばらつきの違いの両方を見る方法。
順路 次は 対応のない2標本の類似度分析