トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

手法の使い分け

データサイエンス では、手法の使い道(目的)と、手法の内容のつながりを考えながら使い分ける事が大事なのですが、 とてもわかりにくいです。

手法と目的の関係は、一対一や、一対多ではなく、多対多です。 これが、全体像の理解を難しくしているようです。

特に数理モデルはわかりにくいので、このページでまとめてみました。

なお、統計学を数学の一部とみなす事には異論がありますが、 一般人にとっての数学としては、特に区別する必要はないと思います。 このサイトでは、数式を使って現象を表現しているものは、数理モデルと呼んでいます。

手法

手法の段階

数理モデルを使う手法に共通しているのは、「データの前処理」、「モデルの構築」、「モデルの利用」という3段階になっていることです。 手法と目的の関係は、この3段階との関係を考えると分類しやすいです。

数理モデルが登場するのは、第2段階からです。

データの前処理

まず、データそのものをよく見ます。 生データを見ておくと、 外れ値や欠損値 異常データの有無、 有効数字 、おおまかな分布、等を頭に入れることができます。

次に、 散布図ヒストグラム折れ線グラフ 、等で、データの特徴を絵で観察すると、扱うデータの理解がさらに深まります。 これらの段階を飛ばすと、モデルが作れなかったり、おかしなモデルができてしまう事があります。

データの前処理としては、生データを見たり、グラフを見た結果を使いながら、データを表形式に加工します。

モデルの構築

重回帰分析 を例にすると、 線形式 を想定して、 変数の選択 をする部分が「モデルの構築」になります。 どの変数を選択すると、YとXの関係が一番明確になるのかを探索します。

モデルの利用

「モデルの構築」によって、現象を表している式が作られます。 この式を使って行くのが、「モデルの利用」の段階になります。

あるXの時に、Yがいくつになるのかを計算します。

順問題と逆問題 という見方で言えば、モデルの構築は逆問題、モデルの利用は順問題になります。

手法と目的の関係

手法と目的の関係は、図のような感じです。 手法の段階の、どこを使っているのかで、大きく分かれています。 目的によっては、「モデルの利用」の段階は不要なのがポイントです。

因果関係の探索( 因果推論 )にモデルを使う場合は、モデルの構築の段階で気付いた事が重要です。 データとして持っていない事実にも気付く事があります。 そのため、できた式に含まれる変数や、式の精度はあまり重要ではありません

「予測・判別」に数理モデルを使う場合は、できた式に値を入力することによって、予測や判別をします。 式の精度(予測精度、的中率、等)は、非常に重要になります。

目的とデータサイエンスを使う分野との関係

手法を使う目的には5つを入れています。

「ビッグデータ」や「データ解析」を掲げている解説では、 データ解析の目的は、「予測・判別」だけになっているのが一般的のようです。 人工知能 の分野では、「予測・判別」の他に、 意思決定パターン認識 のためにも使われます。

筆者のように 品質学 で使う場合は、因果関係の探索( 因果推論 )のためにデータ解析することが多いです。



手法による得意な分布の違い

手法による結果の違い

ビッグデータの統計学と落とし穴

現実と統計モデルとのギャップ

ロバストな解析

よく言われる事との違い





順路 次は 複雑なモデルの難しさ

Tweet