トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

質的データを量的データに変換

量的データを質的データに変換 や、質的データを量的データに変換の方法は、 特徴量エンジニアリング のひとつです。 ロバストな解析 でも重要な役割を果たすことがあります。

データサイエンス では、質的データを量的データに変換して、 量的データの手法で扱うことがあります。 単純な変換には ダミー変換 があります。 質的データを ダミー変換 して使う代表的な手法に、 数量化T〜W類 があります。

データの性質や、変換の後に分析したいことによっては、 ダミー変換 以外のアプローチもあります。

度数(頻度)

質的データの数を数えて、量的データにしたものは、「度数」と呼ばれます。 「頻度」とも呼ばれます。 混同行列分割表 になります。

度数を計算すると、比率が求められます。 統計学 は、比率を「確率」という量的データとして扱います。

0-1データの時系列解析 の方法は、時刻の話を入れ替えれば、時系列データ以外にも応用できます。

順序データの量的データへの変換

「大・中・小」、「当てはまる・どちからと言えば当てはまる・どちからと言えば当てはまらない・当てはまらない」、 「レベル1、2、3、4」など、順序があるカテゴリデータは、順序データと呼ばれます。

順序データの量的データへの簡単な変換

「大・中・小」=「3、2、1」
「当てはまる・どちからと言えば当てはまる・どちからと言えば当てはまらない・当てはまらない」=「4、3、2、1」
「レベル1、2、3、4」=「1、2、3、4」
と量的データに変換するのは簡単です。

値の対数的な性質を考慮する必要がある時は、
「大・中・小」=「100、10、1」
とすることもできます。

こうした変換はとてもお手軽で、とりあえず質的データをグラフにして眺めてみたい時には便利です。

ただし、量的データの間隔に意味がないことに注意が必要です。

ファジィ理論

質的データが「言葉」の時は、量的データに変換する時に、 数値の境界線をぼかしたいことがあります。 こういう時は、 ファジィ理論 があります。

リジット変換

各カテゴリの頻度を 棒グラフ にした場合、横軸にカテゴリの順序を入れることができます。 ただし、見た目はヒストグラムになりますが、横軸は量的データではないので、ヒストグラムではありません。

リジット変換は、このグラフをヒストグラムとみなしてしまい、確率変数を計算する方法です。 プロビット変換 の逆変換のようなことをします。

質的なデータの形式

質的なデータには、形式が3種類あります。

1.質的データのそれぞれが、変数になっていて、「あり・なし」が1と0で表されている形式

個々のデータ(観測値)が、「1」と「0」で表現されている形式です。 例は、レシピ毎に、使う材料の「あり」と「なし」を表しています。
質的なデータの種類

この形式は、質的データを量的データで表しているので、量的データの手法を使うことができます。

2.表形式になっていて、質的変数として、質的データが入っている形式

個々のデータ(観測値)が、質的なデータになっている形式です。 例は、3つの地点の天気にしてみました。
質的なデータの種類

ダミー変換 で、2の形を、1の形に変換することはできます。 しかし、もともと1の形の場合は、値の重複があるため、1の形には変換できません。

3.各サンプルが質的データのセットになっている形式

各サンプルが、(A,B)、(A,B,C)、(B,D)のようになっている場合です。 この形は、1の形と相互に変換できます。




参考文献

すぐわかる統計処理の選び方」 石村貞夫・石村光資郎 著 東京図書 2010
リジット変換や、リジット分析の解説が少しあります。


順路 次は ダミー変換

Tweet データサイエンス教室