層別サンプリング

品質学や統計的因果推論の分野では、「層別は大事だよ。」とか、「層別してデータを見ると、良いのでは。」、と言った会話が、昔からされています。 QC７つ道具という基本的な道具の解説の中でも、出て来ます。

層別とは、階層構造や、分類を考慮してデータをまとめることです。例えば、地域別、年代別、モード別にデータを解析します。分類すると、データの特徴がはっきり見えて来ることがあります。

こういった作業は、特に層別を意識していなくても、されている事が多いです。そのため、重要さがなかなかピンと来ません。

しかし、層別を意識するようになると、データ解析の失敗が減りますし、データ解析の応用範囲も広がります。

ちなみに、データを分けて、全体を把握するというアイディアは、アンサンブル学習と呼ばれる機械学習の理論にもあります。

手法への過信による、層別忘れ

多変量解析やデータマイニングと言われる手法は、「データをソフトに入れれば、答えが出る」、と思われがちです。

このため、層別を知っていたとしても、これらの手法を使う時は、しなくても良いような気分になりがちです。

しかし、層別を忘れてしまうと、何も結果が出なかったり、おかしな結果が出てしまい、データ解析が失敗します。これは、今も昔も変わりません。

多変量解析やデータマイニングには、層別の機能がないので、層別は解析者が意識する必要があります。

少しややこしくなりますが、決定木やアソシエーション分析などは、層別の機能を持っています。ただ、層別には、データそのものからはわからない種類のものもありますし、他にもいろいろな種類がありますので、すべての種類の層別をカバーできるような手法ではないです。

これらの手法を使うとしても、「層別は必要」と思っていた方が、失敗が少なくなります。

「今も層別の大切さは変わりません。」、というのが上記までです。これはこれで大切ですが、いまいち面白味に欠けます。

しかし、多変量解析やデータマイニングが手軽になって来ていますので、これらの手法と層別のアイディアを組み合わせると、データ解析でできる事が増えます。

異常値の予測や異常状態の工程解析、といった分野がありますが、「異常」は、解析する時の扱い方がとても難しいです。どんな手法を使っても、「未知の異常はカバーできていない」と思った方が、間違いがないと思います。

「異常と正常」で層別して、「異常と正常はデータが違うので扱いを変える」とか、「異常のデータはないので、正常のデータから異常を定義する」、といったアプローチがあります。

0℃から50℃までの温度のデータがあるとします。全部の温度領域について解析を始めてしまうと、データが多い温度領域の特徴が出やすくなったり、全部の温度領域になんとなく共通しているような特徴が出て来ます。

こんな時は、注目したい温度領域のデータだけを抜き出してから、データ解析を始めた方が良いことがあります。

層別は、いわゆる数理モデルを使うデータ解析の前の段階の話なので、異種データの紐付けにもなっています。