クラスター分析 と言えば、多次元のデータについて、 サンプルの類似度の分析 として使う話がよく知られています。
1次元の時にも同じ目的で使えるのですが、1次元の時は、 特徴量エンジニアリング の方法として、 量的データを質的データに変換 するために使うこともできます。
量的データを質的データに変換 するための方法に限るのなら、1次元クラスタリングの方法は、 クラスター分析 として知られている方法よりも、シンプルな方法もあります。
データの最大値と最小値の間を均等に分割します。
量的データが持っている分布の特徴を残しやすいです。
一方で、区間ごとのデータの数が異なったり、空の区間ができたりして欲しくない時は向かないです。
区切りを指定します。
均等な分割だと、区切りがちょうど良くない時に使ったりします。
データの区間の区切りを指定する方法の応用です。 最大値、最小値、中央値、2つの四分位値を使うと、各区間に入るデータの数がほぼ25%ずつになります。
クラスター分析 を使うと、質的データが区間を表すようにならないところが不便です。
Rの実施例は、 Rによる1次元クラスタリング のページにあります。
順路 次は ベクトル量子化