トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

質的データを量的データに変換

量的データを質的データに変換 や、質的データを量的データに変換の方法は、 特徴量エンジニアリング のひとつです。 ロバストな解析 でも重要な役割を果たすことがあります。

データサイエンス では、質的データを量的データに変換して、 量的データの手法で扱うことがあります。 単純な変換には ダミー変換 があります。 質的データを ダミー変換 して使う代表的な手法に、 数量化T〜W類 があります。

データの性質や、変換の後に分析したいことによっては、 ダミー変換 以外のアプローチもあります。

度数(頻度)

質的データの数を数えて、量的データにしたものは、「度数」と呼ばれます。 「頻度」とも呼ばれます。 混同行列分割表 になります。

度数を計算すると、比率が求められます。 統計学 は、比率を「確率」という量的データとして扱います。

0-1データの時系列解析 の方法は、時刻の話を入れ替えれば、時系列データ以外にも応用できます。

順序データの量的データへの変換

「大・中・小」、「当てはまる・どちからと言えば当てはまる・どちからと言えば当てはまらない・当てはまらない」、 「レベル1、2、3、4」など、順序があるカテゴリデータは、順序データと呼ばれます。

順序データの量的データへの簡単な変換

「大・中・小」=「3、2、1」
「当てはまる・どちからと言えば当てはまる・どちからと言えば当てはまらない・当てはまらない」=「4、3、2、1」
「レベル1、2、3、4」=「1、2、3、4」
と量的データに変換するのは簡単です。

値の対数的な性質を考慮する必要がある時は、
「大・中・小」=「100、10、1」
とすることもできます。

こうした変換はとてもお手軽で、とりあえず質的データをグラフにして眺めてみたい時には便利です。

ただし、量的データの間隔に意味がないことに注意が必要です。

ファジィ理論

質的データが「言葉」の時は、量的データに変換する時に、 数値の境界線をぼかしたいことがあります。 こういう時は、 ファジィ理論 があります。

リジット変換

各カテゴリの頻度を 棒グラフ にした場合、横軸にカテゴリの順序を入れることができます。 ただし、見た目はヒストグラムになりますが、横軸は量的データではないので、ヒストグラムではありません。

リジット変換は、このグラフをヒストグラムとみなしてしまい、確率変数を計算する方法です。 プロビット変換 の逆変換のようなことをします。

質的なデータの種類

質的なデータには、形式が2種類あります。

ひとつは、個々のデータ(観測値)が、質的な形式です。 例は、3つの地点の天気にしてみました。

もうひとつは、個々のデータ(観測値)が、「1」と「0」で表現されている形式です。 例は、レシピ毎に、使う材料の「あり」と「なし」を表しています。 テキストマイニング のデータや、 アソシエーション分析 のデータは、この形式をしています。

レシピのデータは、数字で表現されているので、量的な変数の解析方法が使えますが、 データの意味が一般的な量的変数とは違うので、このデータ形式ならではの解析もあります。

ちなみに、天気のデータは ダミー変換 でレシピのデータのような形にできます。 しかし、項目の重複があるので、レシピのデータを逆変換しようとしても、天気のデータの形式にはできません。

質的なデータの種類 質的なデータの種類




参考文献

すぐわかる統計処理の選び方」 石村貞夫・石村光資郎 著 東京図書 2010
リジット変換や、リジット分析の解説が少しあります。


順路 次は ダミー変換

Tweet データサイエンス教室