トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

1次元クラスタリング

クラスター分析 と言えば、多次元のデータについて、 サンプルの類似度の分析 として使う話がよく知られています。

1次元の時にも同じ目的で使えるのですが、1次元の時は、 特徴量エンジニアリング の方法として、 量的データを質的データに変換 するために使うこともできます。

量的データを質的データに変換 するための方法に限るのなら、1次元クラスタリングの方法は、 クラスター分析 として知られている方法よりも、シンプルな方法もあります。

データの区間を均等に分割する方法

データの最大値と最小値の間を均等に分割します。

量的データが持っている分布の特徴を残しやすいです。

一方で、区間ごとのデータの数が異なったり、空の区間ができたりして欲しくない時は向かないです。

データの区間の区切りを指定する方法

区切りを指定します。

均等な分割だと、区切りがちょうど良くない時に使ったりします。

区間毎の数を同じにする方法

データの区間の区切りを指定する方法の応用です。 最大値、最小値、中央値、2つの四分位値を使うと、各区間に入るデータの数がほぼ25%ずつになります。

クラスター分析を使う方法

クラスター分析 を使うと、質的データが区間を表すようにならないところが不便です。

ソフト

Rの実施例は、 Rによる1次元クラスタリング のページにあります。


順路 次は ベクトル量子化

Tweet データサイエンス教室