トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

クラスター分析による予測

クラスター分析 は、サンプルのグループ分けをして、グループ分けをする時に使ったサンプルについて、 「どのグループに属しているのか?」と調べる方法として紹介されるのが一般的です。

ただし、混合分布法については、 統計モデルによる予測 にも使えるようになっています。 また、混合分布法以外の手法についても、 統計モデルによる予測 をする時の、データの前処理の方法にする使い方があります。

予測の前の作業

クラスター分析で予測をする時には、「どのグループに属しているのか?」という作業を、予測の前の作業として実施します。

例えば、左のようなデータについて、クラスター分析をすると、右のように3つのグループを抽出できます。 予測の時は、この結果を使います。
cluster cluster

グループの予測

混合分布法はクラスター分析の一種ですが、グループ分けだけではなく、 グループ分けをする時に使ったサンプル以外のサンプルについて、「どのグループに属しているのか?」という 統計モデルによる予測 ができる方法です。

例えば、上記の作業の結果を使って、任意の位置のグループを予測すると、下図になります。
cluster

手法のバリエーション

混合分布法は、それ自体が予測に使えるようになっています。 混合分布法以外のクラスター分析の手法も、グループの予測には使えます。

クラスター分析でグループの名前のある変数を作ってから、その変数をラベルにして、 ラベル分類 の手法を使う手順になります。

クラスター分析の手法と、ラベル分類の手法の組合せで、いろいろなバリエーションができます。

外れ値の予測

グループの予測で、「どのグループに属しているのか?」がわかるのは、上記の通りです。 ところで、分析の目的によっては、「どのグループにも属していないのでは?」という、外れ値かどうかの判断をしたいことがあります。 しかし、グループの予測の方法では、必ずどこかのグループに振り分けるので、これはわかりません。

「どのグループにも属していないのでは?」は、それぞれのグループに対して、「このグループには属しているか?」を調べて行き、 その結果を集めるとできるようになります。 1クラスモデル の中間処理として、クラスター分析を使う方法になります。

「分析」や「層別」という言葉の説明の中で、 「分ければ、分かる」という表現が使われますが、クラスター分析を使った外れ値の予測も、「分ければ、分かる」という方法になっています。 「分ける」を簡単に進める方法として、クラスター分析が役に立っています。

混合分布法ではなく、混合分布MT法を使って、例えば、任意の位置のグループを予測すると、下図になります。 各グループの中心から遠いほど、値が高くなっていて、外れ方の大きさがわかります。 「〇〇以上なら、どのグループにも属していないと考える」といった使い方ができます。
cluster

手法のバリエーション

クラスター分析の手法のバリエーションと、判定方法のバリエーションがあります。

クラスター分析の手法のバリエーションとしては、k-Means法や混合分布法があります。 DBDCANなどでもできるかもしれませんが、複雑な形状の分布を扱えても、その後の判定方法に良さそうなものがなさそうです。

クラスター分析に、k-Means法や混合分布法を使うと、判定方法は、個々のグループの中心から、ユークリッド距離やマハラノビス距離などで見る方法が使えます。

混合分布MT法

混合分布MT法 は、外れ値の予測に使う方法の一種です。 クラスター分析の手法は混合分布法にして、判定方法は MT法 を使っています。

外れ値のグループを作る方法との使い分け

クラスター分析を使った外れ値の予測の方法と、 クラスター分析による外れ値の検出 は、違いがわかりにくいかもしれません。

サンプルがたくさんあって、「いくつかのグループと、外れ値のグループに分けたい」という時は、 クラスター分析による外れ値の検出 のページの方法になります。

クラスター分析を使った外れ値の予測の方法は、 「元になるデータがあって、これとは別のデータが元になるデータに入るかどうかを見たい」という時の方法になります。

ソフト

グループの予測

Rによる混合分布法によるグループの予測の方法は、 Rによるクラスター分析 のページにあります。

外れ値の予測

Rによる混合分布MT法は、 Rによる異常の定量化の分析 のページにあります。



順路 次は 外れたサンプルの探索

Tweet データサイエンス教室