トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

データマイニング

データマイニングとは、 データの山の中から、有用な情報(宝石)を掘り出す(マイニング)する方法です。 データマイニングと言われる方法には、以下の特徴があります。

データマイニングは 多変量解析 の一種ととらえることもできますが、上記のような特徴があるので、これはこれでひとつの分野と考えています。 また、上記の 2 は、前者が多変量解析の特徴と言えます。 3 は、多変量解析と言われる方法では、あまりしません。

「データの特徴的な部分を抽出する」という性質は、 マーケティング の分野で、 ニッチ を見つけるのに向いています。

データマイニングの種類

「データマイニングとは?」を説明すると、 上記のような小難しい感じになります。

データマイニングの根本は、データから特徴を発見することです。 そういう意味で考えると、データマイニングの原点は、 散布図時系列のグラフ を使って試行錯誤しながら調査することです。 それっぽい名前を付けるなら、「グラフィカルデータマイニング」と言えます。 「グラフィカルデータマイニング」は、発見の方法の中では、おそらく一番手軽で、かつ、汎用性が高いです。

文献等では、 ニューラルネットワークベイジアンネットワーク といったものも、データマイニングの仲間として紹介されていることがあります。 いわゆる「 多変量解析 」の後に出てきた手法を、総称として「データマイニング」と呼んだために、このような分類になっているようです。

これらは、複雑な構造のデータに、機械学習の方法でアプローチするという点では、 データマイニングの手法群と、特徴が同じです。 しかし、データの山から重要な部分を「マイニング」するという点が、当てはまらないと思います。 このサイトでは、「データマイニング」とは違う分類にしています。

決定木とクラスター分析の違い

決定木とクラスター分析は、どちらも木の構造のグラフで結果がまとめられたりするため、 違いがわかりにくいと思います。

おおまかな違いは、Y を問題にしているかどうかの違いです。 Y を問題にするのが決定木で、クラスター分析は Y とは無関係です。 決定木とクラスター分析の違いは、 重回帰分析主成分分析 の違いと、同じ考え方です。 決定木が重回帰分析に、クラスター分析が主成分分析に相当します。


例えば、数学・国語・英語・社会・理科・音楽・美術・体育の成績のデータと、 TVゲームの得点のデータがあったとします。

クラスター分析からは、例えば、 「A君とC君の成績は似ていて、B君とD君の成績は似ている」ということが調べられます。 またデータの行と列を入れ替えると、 「国語の得意な生徒は社会や英語も得意で、体育の得意な生徒は音楽も得意」と言ったことが調べられます。

決定木からは、例えば、 「ゲームの得点の高さは、体育の成績の高さで決まり、 体育が得意でかつ数学の成績の高い生徒は、特にゲームの得点が高い。」と言ったことが調べられます。

遺伝子のデータで例えると、遺伝子同士の近さを調べる方法がクラスター分析で、 身体能力(Y)と関係の深い遺伝子(X)を調べる方法が決定木です。

これが、Y を問題にしているかどうかの違いです。 教師ありと教師なしの学習 の違いとも言えます。 決定木とクラスター分析は、目的によって使い分けることになります。



手法の使い分け

よく言われる事との違い

参考文献

SPSSクレメンタインによるデータマイニング」 牛田一雄・高井勉・木暮大輔 著 東京図書 2003
ニコン社がクレメンタイン(現SPSS Modeler)を導入して、解析した内容がのっています。 手法の解説だけでなく、実際のソフトを使う時の手順もあります。 決定木ニューラルネットワークアソシエーション分析異常状態の工程解析 の分野で使っています。 データマイニングの本はマーケティングを題材にした本ばかりなので、この本は題材がユニークです。 (筆者がこの本を知ったのは、2012年になってからです。 2003年に既にこのような本が出ていたのを知って、びっくりしました。)


基礎から学ぶデータマイニング」 中田豊久 著 コロナ社 2013
データの事前処理から始まって、 ナイーブベイズ、ベイジアンネットワーク、決定木、ニューラルネットワーク、クラスタリング、相関ルール、 といった分析方法、 分析結果の評価方法までについて、基礎をコンパクトにまとめています。
事例として、Twitterの解析といった、比較的新しいテーマも入っています。


ビジネス・データマイニング入門」 喜田昌樹 著 白桃書房 2010
経営 (特に、 マーケティング )でデータマイニングを使うための入門書です。 マーケティングの解説も少し入っています。 決定木ニューラルネットワークテキストマイニングクラスター分析 、アソシエーション分析(マーケット・バスケット分析)で構成されています。


データマイニング入門 :Rで学ぶ最新データ解析」 豊田秀樹 編著 東京図書 2008
決定木ニューラルネットワーク自己組織化マップクラスター分析ベイジアンネットワーク連関規則サポートベクターマシン潜在意味解析 の入門書です。 また、これらの手法を R でやってみるための手引書にもなっています。
SOM によって作られたカテゴリをYにして、決定木で解析する話もあります。
Rはフリーなので、ネットで簡単に手に入りますし、 この本で使われているデータは、出版社のホームページにありますので、 実際に手を動かしながら勉強することができます。 データ解析の手法を勉強する時は、「解析対象のデータはどんなで、手法を使うと、どういう事がわかるのか?」、 を体験することがポイントだと思うので、こういうタイプの本は良いです。


データマイニング」 福田剛志・森本康彦・徳山豪 著 共立出版 2001
データサイエンス のシリーズ本の第3巻です。
決定木とクラスタリングについての専門書です。


データマイニング手法」 マイケルJ.A.ベリー・ゴートン・リノフ 著 海文堂 1999
マーケットバスケット分析・記憶ベース推論・クラスター分析・ リンク分析・決定木・ニューラルネットワーク・ 遺伝的アルゴリズム について、長所と短所も含めて順に紹介されています。


データマイニング」 Pieter Adriaans・Dolf Zantinge 著 山本英子・梅村恭司 訳 共立出版 1998
データマイニングのイメージをつかむための本ですが、 実際にやってみないとピンとこないところもあると思います。 各手法の説明は概念的なものにとどめ、 データマイニングに伴う実質的な作業(データの選び方等)について、 具体的な説明がされています。
この本の、「データマイニング」とは、 このサイトでいうところの「 データサイエンス 」に近いものがあります。



順路 次は 決定木

Tweet