クラスター分析 では、サンプルがどのように分けられるのかを見て、近いもの同士をクラスターにします。
どのクラスターに属するのかがわからない新しいサンプルがあった時に、そのサンプルとクラスターの関係を調べるのが、このページの方法です。
クラスター分析で予測をする時には、「どのクラスターに属しているのか?」という作業を、予測の前の作業として実施します。
例えば、左のようなデータについて、クラスター分析をすると、右のように3つのクラスターを抽出できます。
予測の時は、この結果を使います。
混合分布法はクラスター分析の一種ですが、クラスター分けだけではなく、 クラスター分けをする時に使ったサンプル以外のサンプルについて、「どのクラスターに属しているのか?」という 統計モデルによる予測 ができる方法です。
例えば、上記の作業の結果を使って、任意の位置のクラスターを予測すると、下図になります。
混合分布法は、それ自体が予測に使えるようになっています。 混合分布法以外のクラスター分析の手法も、クラスターの予測には使えます。
クラスター分析でクラスターの名前のある変数を作ってから、その変数をラベルにして、 ラベル分類 の手法を使う手順になります。
クラスター分析の手法と、ラベル分類の手法の組合せで、いろいろなバリエーションができます。
クラスターの予測で、「どのクラスターに属しているのか?」がわかるのは、上記の通りです。 ところで、分析の目的によっては、「どのクラスターにも属していないのでは?」という、外れ値かどうかの判断をしたいことがあります。 しかし、クラスターの予測の方法では、必ずどこかのクラスターに振り分けるので、これはわかりません。
「どのクラスターにも属していないのでは?」は、それぞれのクラスターに対して、「このクラスターには属しているか?」を調べて行き、 その結果を集めるとできるようになります。 1クラスモデル の中間処理として、クラスター分析を使う方法になります。
「分析」や「層別」という言葉の説明の中で、 「分ければ、分かる」という表現が使われますが、クラスター分析を使った外れ値の予測も、「分ければ、分かる」という方法になっています。 「分ける」を簡単に進める方法として、クラスター分析が役に立っています。
混合分布法ではなく、混合分布MT法を使って、例えば、任意の位置のクラスターを予測すると、下図になります。
各クラスターの中心から遠いほど、値が高くなっていて、外れ方の大きさがわかります。
「〇〇以上なら、どのクラスターにも属していないと考える」といった使い方ができます。
クラスター分析の手法のバリエーションと、判定方法のバリエーションがあります。
クラスター分析の手法のバリエーションとしては、k-Means法や混合分布法があります。 DBDCANなどでもできるかもしれませんが、複雑な形状の分布を扱えても、その後の判定方法に良さそうなものがなさそうです。
クラスター分析に、k-Means法や混合分布法を使うと、判定方法は、個々のクラスターの中心から、ユークリッド距離やマハラノビス距離などで見る方法が使えます。
混合分布MT法 は、外れ値の予測に使う方法の一種です。 クラスター分析の手法は混合分布法にして、判定方法は MT法 を使っています。
クラスター分析を使った外れ値の予測の方法と、 クラスター分析による外れ値の検出 は、違いがわかりにくいかもしれません。
サンプルがたくさんあって、「いくつかのクラスターと、外れ値のクラスターに分けたい」という時は、 クラスター分析による外れ値の検出 のページの方法になります。
クラスター分析を使った外れ値の予測の方法は、 「元になるデータがあって、これとは別のデータが元になるデータに入るかどうかを見たい」という時の方法になります。
Rによる混合分布法によるクラスターの予測の方法は、 Rによるクラスター分析 のページにあります。
Rによる混合分布MT法は、 Rによる異常の定量化の分析 のページにあります。
順路
次は
ベクトル量子化ラベル分類