トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

手法による結果の違い

手法による得意な分布の違い のページでは、手法の違いについて、「適した分布」という見方でまとめています。

このページでは、同じ分布について、手法が違うと結果がどのように違うのかをまとめてみました。 「予測」や「判別」を目的にして、これらの手法を使う時には重要な知識になります。

このページの資料の作り方

このページの計算は、Excelでサンプルデータを作り、RapidMinerで予測値を出して、結果をExcelでグラフにしています。 Excelの部分は、サンプルファイルにExcelの具体例があります。

MT法 は、Yの2値の扱い方が同じではない点が、他の手法と比べると異質なので、このページには入れていません。

RapidMinerの計算

RapidMinerの部分は、 予測のためのソフトの使い方 で計算を組みました。

文字データは、「Polynominal」としてソフトが自動認識しますが、手法によっては、これだとエラーになります。 この場合は、「Binominal」に変更すると良いです。

このページのグラフの見方

図の説明 赤い点と青い点で描かれたサンプルのグラフは、モデルを作る元になるデータです。 元データの「-1」が赤い点、「1」が青い点になるようにしています。

予測のグラフは、グラフの範囲の全部で、細かく予測した結果になります。 ピンクが「-1」と予測されるところ、水色が「1」と予測されるところになります。

実際の結果のグラフは、サンプルと予測を重ねた方がわかりやすいので、重ねています。

各手法について

RapidMinerでは、 ロジスティック回帰分析カーネル法 が使えます。 そのため、必ずしも 手法による得意な分布の違い のページの内容と合わない部分があります。

手法の比較

どれが一番良いのかは、その時その時の目的やデータの内容によりますので、 あくまで、「このページの比較の場合」と理解していただければ、と思います。

例1

Data DA LR SVM DT k-NN NN NB

例1のモデル作成用ファイルのリンク を使って、作っています。

例2

Data DA LR SVM DT k-NN NN NB

例2のモデル作成用ファイルのリンク を使って、作っています。

例3

Data DA LR SVM DT k-NN NN NB

例3のモデル作成用ファイルのリンク を使って、作っています。

予測値やモデルの妥当性

このページの解析は、赤か青のどちらかが予測値になるようにしていますが、 手法によっては、「赤の確率、青の確率」という、あいまいさの情報も計算されています。

また、モデルの妥当性は、定量的な評価方法が、いくつかあります。 とはいえ、グラフの見た目でも、だいたいわかると思います。




順路 次は 変数の類似度の分析

Tweet データサイエンス教室