データサイエンス では、データの種類を区別するところが、大事なポイントです。 データは、 量的データ(数値データ)と質的データ(カテゴリデータ) の2種類に大きく分かれます。
量的データを質的データに変換や、 質的データを量的データに変換 は、 特徴量エンジニアリング のひとつです。 ロバストな解析 でも重要な役割を果たすことがあります。
どちらかと言えば、量的データを質的データに変換する方法は、マイナーなようです。
しかし、大量のデータの分析に、速度や結果のわかりやすさを求める時には、 質的データの手法で量的データを解析するアプローチが威力を発揮するようになります。
量的データを質的データに変換する手法には、 特に名前がありませんが、 データをブロック化する 決定木 や、 実験計画法 で使う因子は、量的データを質的データに変換する概念が入っています。
決定木 では、量的データの説明変数(X)について、質的データとして扱っている部分があります。 これによって、説明変数(X)が複数ある中に、量的データの変数と質的データの変数が混ざっていても解析できます。
具体的な方法はソフトによるのですが、量的データを区分する事で、「○○以上××未満」というカテゴリの質的データに変えています。
質的データにしてしまうこともあり、量的データの具体的な数値は、解析にあまり影響しません。 そういう点で、外れ値の影響を受けにくいロバストな手法です。
一般的に、決定木は、「木」の構造でデータを分析する手法と思われていますが、 量的データをロバストに解析する手法としての一面も持っています。
特にこの機能に着目して使う時には、木を成長させず、第一階層の分かれ方だけを集中的に解析する使い方もできます。
実務でデータ解析していると、ひとつの変数に量的データと質的データが混ざっていることがあります。 例えば、温度のデータに、「計測範囲外」という、メッセージが混ざっている場合です。
どちらかを排除しても解析の結果には影響がないこともありますが、 混ざったままで解析をしたい時には、困ったことになります。
実現できるソフトが世の中にどれほどあるかはわかりませんが、 決定木のように、量的データは区分したカテゴリの質的データとして扱ってしまえば、 ひとつの変数に量的データと質的データが混ざっている場合でも、解析できます。 欠損値は、質的データのひとつとして、「欠損値」という、カテゴリで扱ってしまうこともできます。
ちなみに、変数の種類を自動認識する機能が付いている分析ソフトでは、 ひとつの変数に量的データと質的データが混ざっている場合には、 「質的データとして認識して、分析の段階でカテゴリが多過ぎてエラー」か、 「量的データとして認識して、分析の段階で数字としての処理ができなくてエラー」の、どちらかになることが多いです。 量的データの部分を、いくつかの部分に分けてカテゴリにする機能は付いていないのが一般的です。 解析の目的によっては、混ざっている場合はエラーになって欲しい事もあるので、 カテゴリにする機能がない方が良い事もあります。
筆者の知っている範囲では、RapidMinerのDecision Tree(決定木)は、 量的データの中に欠損値(空白)が混ざっている場合、「?」というカテゴリにします。 量的データの中に質的データが混ざっている場合は、エラーになります。
例えば、
回帰分析
を使って、
Y = A * X + B
のような関係式が導けると、精度の高い判断や行動ができますが、
実務で扱うような大量データでは、様々な理由によって、このようなキレイな式が導けることは、あまりないです。
一方、実務では、正確な式を導く事が目的ではない事が多く、 「Xが○○くらいの時には、Yは△△くらい。」という程度の事がわかるだけでも、重要な情報になることがあります。
この程度の事を知りたい時には、量的データを量的データのままで解析するよりも、 いくつかのカテゴリに分けて、質的データとして解析した方が、スムーズに進む事があります。
スムーズに進む理由のひとつとしては、 まず、質的データとして扱った方が、扱っているデータの様々な状態に対してロバストであることが挙げられます。 大量のデータを解析する時には、この強みが特に活きて来ます。( ロバストな解析 )
もうひとつは、質的データとして解析すると、結果の解釈が楽なことです。 量的データとして解析すると、データの状態の細かな事に、解析結果が影響されやすく、 データが多い時には、この弱点が本来知りたいことを見えなくすることもあります。
質的データの手法は、一見すると、「量」の情報を扱えないので、定量的な話には使えないように理解してしまいますが、 カテゴリの作り方を工夫すると、大まかには定量的な解析手法としても使えます。
データ数が多くても、変数が数個程度でしたら(行数は多くても列数は少ない場合)、 量的データを区分して、質的データに変える作業は、Excel等を使っても、そんなに大変ではないです。 列数が多い時にRでまとめて実行する例は、 1次元クラスタリング のページにあります。
このような作業をして、目的変数(Y)が量的データで、 説明変数(X)が質的データになったのでしたら、例えば、 分散分析 が解析手法になります。
変数が多くて、ソフトに頼るのでしたら、 決定木 は、このアプローチのひとつです。 また、 アソシエーション分析 は質的データの分析手法ですが、 Natto というアソシエーション分析のフリーソフトには、量的データは質的データにする機能が入っています。
下記の本は、上記の内容の参考文献ではないのですが、 他に適当なページがないので、このページにメモしています。 「区間」を使ってデータを解析するアイディアは一緒です。
「区間分析による評価と決定」 田中英夫、円谷友英、杉原一臣、井上勝雄 著 海文堂 2011
著者の田中英夫氏には、
ファジィ理論
や
ラフ集合分析
の著書もあります。
それらとこの本の「区間分析」には、似たような問題意識があるようです。
区間分析には、必然性の解析と、可能性の解析の2種類ありますが、
これはラフ集合の上近似、下近似と同じ考え方でした。
「区間分析」というのは、数値データとして、必ずしも十分な精度は持っていないけれども、
多少なりとも精度があるのなら、「区間」という枠でそれらをまとめて、おおまかな解析をしようとする方法です。
区間の中での部分的な「無知」を表現できます。
事前知識がない事象については、その事象の生起確率は「0.5」と仮定するよりも、
「0〜1の値を取り得る」と表現できた方が実用的とのことです。
また、ある値を「いくつくらい」と定義するファジィの理論よりも、区間の方が実用的とのことです。
この本では、区間回帰分析、区間AHP、区間DEAという風にして、区間を使う場合の
回帰分析
や
AHP
を紹介しています。
区間回帰分析は、
線形計画法
で定式化されます。
短所としては、データをすべて含むように区間を考えるので、外れ値の概念がないので、外れ値が外れたようにならない解析結果になります。
長所としては、サンプル数が少なくとも意味のある分析ができます。
区間回帰分析による推定区間は、サンプル数が多いと広くなります。
この性質は、一般的な回帰分析とは逆です。
DEA : 事業体の効率性を各々の優れた点に注目して相対的に測る方法
順路 次は 1次元クラスタリング