トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

中間層を使った解析

重回帰分析 が代表的ですが、一般的な 多変量解析 では、YとXの直接的な数理モデル(関係式)を調べます。

高度な多変量解析には、XとYの間に中間層となる変数を挟むものがあります。

中間層の使い方や、メリット・デメリットは、 データリテラシー として知っていると良いので、このページにまとめてみました。

中間層を使う解析の強み

XとYを単純な数理モデルで直接結び付ける事が難しい時に、中間層を挟むとうまく行く事があります。

中間層でXの特徴を表現する

XとYを直接的に結び付ける事ができない理由として、データがそのままでは知りたい情報を表していない事があります。

例えば、ノイズがたくさん入っている場合です。 また、データが雑多なために、うまく行かない事があります。

中間層を上手に挟むと、役に立つ情報が強調され、Yとの関係が調べやすくなります。

中間層を入れたモデルの作り方

1回の計算で全体を作る

X、Y、Zの全部を含んだモデルを、ひとつのモデルとして作ります。

ニューラルネットワーク の計算方法のひとつに、この方法があります。

2段階で作る方法

中間層を使った解析

1段階目で、Xを使って中間層のZを作り、2段階目で、ZとYの関係式を作ります。

1段階目で 教師なしの学習方法 、2段階目で教師ありの学習方法を使います。

代表的なのが、 主成分回帰分析 です。 1段階目で 主成分分析 、2段階目で重回帰分析をします。 主成分がZになります。 また、主成分回帰分析と似たものに、 主成分MT法 があります。

また、複雑なデータ向きの1段階目の手法としては、 自己組織化マップカーネル法 があります。 自己組織化マップでは、新しく作られた座標の軸がZになります。 カーネル法では、Xから新しく作った変数がZになります。

自己組織化マップもそうですが、 クラスター分析 等の、いわゆる分類のための方法を使う方法もあります。 この時は、分類されたカテゴリーをZにすることもできます。 (「カテゴリーの数だけ、Zができる」と考えても良いですし、 「 ダミー変換 された変数がカテゴリーの数だけできる」と考えても良いです。)

ディープラーニング は、ちょっと特殊で、教師なしで1段階目をして、参照するモデルを作ってから、教師ありでモデル全体を見直します。

そのデータ固有の情報を使って、中間層を作る方法

多変量解析や機械学習の方法を使って中間層を作るのは、統計ソフトを使えばできます。 しかし、うまく行かない事もあります。

統計ソフトの限界は、統計学から生まれたモデルしか用意されていない点にあります。

また、そのデータがどのようにして集められたのかや、どういうデータなのか、という情報は、扱えないという点もあります。

Xの項目の背景や意味( メタ知識 )を把握して、物理学や化学などの式を使って加工すると、中間層がうまく作れる事があります。

中間層を使った解析の応用

因子分析

因子分析 は、古くからある手法のひとつですが、中間層のZを現象の理解に積極的に使おうとします。

心理学関係の文献が多いようです。

中間システム

社会や経済の仕組みに中間層のアイディアを入れたものに、 環境経済学中間システム の理論があります。

中間層を使う方法の弱点

中間層を使うと、良い事ばかりではないです。

重要な情報の見落とし

Xの特徴を抽出する時に、ノイズだと思っていた中に重要な情報が含まれていると、見落とす事になります。 外れ値と欠損値の解析 や、 異常状態の工程解析 でよくあります。

考察がしにくくなる事もある

中間層を使った解析よりも、XとYの直接的な関係がわかった方が、その結果を使ったその後の展開が、進めやすい事もあります。

ひとつめの理由が、XとYの直接的な関係の方が、話がシンプルなので、関係者の理解を得られやすいためです。 もうひとつの理由は、中間層を挟むと、対策が、XとZ、ZとYの2つについて必要で、それらの連携も考えないといけないためです。




現実と統計モデルとのギャップ

手法の使い分け

ロバストな解析

外れ値と欠損値の解析



順路 次は 数理モデリング

Tweet データサイエンス教室