連続データ思考

「正常・異常」、「善・悪」、「合格・不合格」、「効果あり・なし」、「好調・不調」、「多数派・少数派」など、挙げればキリがないくらい、日常では、二値を使って物事を理解しています。

二値にすると、言葉で表現できたり、方向性を明確にできて便利です。

ただ、データ分析をする時は、二値になっている話を二値のまま使うのではなく、連続データにした方が深く分析できることがあります。

「連続データ思考」というのは、筆者の造語です。例えば、上図のように「OK・NG」の背景にある連続データを分析対象にするのが、連続データ思考です。

「OK・NG」のままだと、ラベル分類がデータ分析の方法になりますが、連続データだと、回帰分析が使えるようになります。

連続データにすると、扱える情報が増えます。例えば、上図だと、NGという点では同じでも、OKの範囲に近いNGと、遠いNGでは、原因が違う可能性がありますが、そうしたことを調べられるようになります。

統計的因果推論では、「効果あり・なし」の二値ではなく、因果効果という連続データで効果を分析する方法があります。

連続データ思考の視点

上の例のように、言葉では「OK」と「NG」として、はっきりと分かれていても、 OKに近いNGのサンプルと、NGに近いOKのサンプルは、全体的な違いから考えると、「同じ」と言えるようなことがあります。

OKとNGではなく、連続データの方に対して、原因分析を進めた方が、分析の見通しが良くなります。

決定木には、目的変数が質的か量的かの違いで、分類木と回帰木に分かれます。

二値の場合が分類木なので、連続データ思考の時は、回帰木にすれば良いのかというと、そうでもないです。回帰木は量の扱い方が粗いため、あまり良くないです。

モデル木は回帰木の一種ですが、一般的な回帰木よりも量の変化を扱えるようになっていて便利です。