データマイニングとは、 データの山の中から、有用な情報(宝石)を掘り出す(マイニング)する方法です。 データマイニングと言われる方法には、以下の特徴があります。
データマイニングは 多変量解析 の一種ととらえることもできますが、上記のような特徴があるので、これはこれでひとつの分野と考えています。 また、上記の 2 は、前者が多変量解析の特徴と言えます。 3 は、多変量解析と言われる方法では、あまりしません。
「データの特徴的な部分を抽出する」という性質は、 マーケティング の分野で、 ニッチ を見つけるのに向いています。
文献等では、 ニューラルネットワーク や ベイジアンネットワーク といったものも、データマイニングの仲間として紹介されていることがあります。 いわゆる「 多変量解析 」の後に出てきた手法を、総称として「データマイニング」と呼んだために、このような分類になっているようです。
しかし、データの山から重要な部分を「マイニング」するという点が、当てはまらないと思います。 このサイトでは、 人工知能(AI) に分類しています。
決定木 と階層型の クラスター分析 は、どちらも木の構造のグラフで結果がまとめられるため、 違いがわかりにくいと思います。
同じ点は、サンプルが分類される点です。
違いのひとつは、Y を問題にしているかどうかの違いです。 Y を問題にするのが決定木で、クラスター分析は Y とは無関係です。 決定木とクラスター分析の違いは、 重回帰分析 と 主成分分析 の違いと、同じ考え方です。 決定木が重回帰分析に、クラスター分析が主成分分析に相当します。
もうひとつの違いは、木の作り方です。 決定木は、根本から作って、枝葉ができます。 クラスター分析は、葉をまとめて枝ができ、幹ができていきます。
決定木はこの木の作り方をするために、Yの値を使います。 クラスター分析は、サンプル間の距離を使います。
遺伝子のデータで例えると、遺伝子同士の近さを調べる方法がクラスター分析で、 身体能力(Y)と関係の深い遺伝子(X)を調べる方法が決定木です。
「SPSSクレメンタインによるデータマイニング」 牛田一雄・高井勉・木暮大輔 著 東京図書 2003
ニコン社がクレメンタイン(現SPSS Modeler)を導入して、解析した内容がのっています。
手法の解説だけでなく、実際のソフトを使う時の手順もあります。
決定木
、
ニューラルネットワーク
、
アソシエーション分析
を
異常状態の工程解析
の分野で使っています。
データマイニングの本はマーケティングを題材にした本ばかりなので、この本は題材がユニークです。
(筆者がこの本を知ったのは、2012年になってからです。
2003年に既にこのような本が出ていたのを知って、びっくりしました。)
「基礎から学ぶデータマイニング」 中田豊久 著 コロナ社 2013
データの事前処理から始まって、
ナイーブベイズ、ベイジアンネットワーク、決定木、ニューラルネットワーク、クラスタリング、相関ルール、
といった分析方法、
分析結果の評価方法までについて、基礎をコンパクトにまとめています。
事例として、Twitterの解析といった、比較的新しいテーマも入っています。
「ビジネス・データマイニング入門」 喜田昌樹 著 白桃書房 2010
経営
(特に、
マーケティング
)でデータマイニングを使うための入門書です。
マーケティングの解説も少し入っています。
決定木
、
ニューラルネットワーク
、
テキストマイニング
、
クラスター分析
、アソシエーション分析(マーケット・バスケット分析)で構成されています。
「データマイニング入門 :Rで学ぶ最新データ解析」 豊田秀樹 編著 東京図書 2008
決定木
・
ニューラルネットワーク
・
自己組織化マップ
・
クラスター分析
・
ベイジアンネットワーク
・
連関規則
・
サポートベクターマシン
・
潜在意味解析
の入門書です。
また、これらの手法を
R
でやってみるための手引書にもなっています。
SOM
によって作られたカテゴリをYにして、決定木で解析する話もあります。
Rはフリーなので、ネットで簡単に手に入りますし、
この本で使われているデータは、出版社のホームページにありますので、
実際に手を動かしながら勉強することができます。
データ解析の手法を勉強する時は、「解析対象のデータはどんなで、手法を使うと、どういう事がわかるのか?」、
を体験することがポイントだと思うので、こういうタイプの本は良いです。
「データマイニング」 福田剛志・森本康彦・徳山豪 著 共立出版 2001
データサイエンス
のシリーズ本の第3巻です。
決定木とクラスタリングについての専門書です。
「データマイニング手法」 マイケルJ.A.ベリー・ゴートン・リノフ 著 海文堂 1999
マーケットバスケット分析・記憶ベース推論・クラスター分析・
リンク分析・決定木・ニューラルネットワーク・
遺伝的アルゴリズム
について、長所と短所も含めて順に紹介されています。
「データマイニング」 Pieter Adriaans・Dolf Zantinge 著 山本英子・梅村恭司 訳 共立出版 1998
データマイニングのイメージをつかむための本ですが、
実際にやってみないとピンとこないところもあると思います。
各手法の説明は概念的なものにとどめ、
データマイニングに伴う実質的な作業(データの選び方等)について、
具体的な説明がされています。
この本の、「データマイニング」とは、
このサイトでいうところの「
データサイエンス
」に近いものがあります。
「金鉱を掘り当てる統計学 データマイニング入門」 豊田秀樹 著 講談社 2001
従来の
統計学
では扱うことが難しい大量のデータの分析方法として、
ニューラルネットワーク
、
決定木
(この本では、決定木の章は「人工知能エンジン」という名前)
、
自己組織化マップ
、
連関規則
が紹介されています。
著者は、元々
認知心理学
の分野の方とのことで、この分野で生まれて来たモデルが、統計学で数理的に深められ、
マーケティング
の分野に応用されて来た経緯に、自らも関わっていらっしゃった方のようです。
「未来の売れ筋発掘学 未来の売れ筋発掘学」 東京大学工学部大澤・西原研究室 著 ダイヤモンド社 2010
データマイニングが扱うのは過去の情報であり、そこからの延長で次に売れるものを予測するのは難しい。
一方で、過去とは無関係に次に売れるものは生まれない。
というところから、次に生まれる価値を見つける方法を解説しています。
価値センシングの方法は、複数が紹介されています。
・テキストマイニング : 主に共起の分析ですが、
ニーズを持っていそうな人同士の会話など、未来を探るヒントがありそうなデータを取るところから始めるのがポイントのようです。
・シナリオの創作 : すでにある情報から、未来を考える時にシナリオの形で考えて行きます。
・アナロジー : 手元の言葉から、類推することで、今はない考え方を出していきます。
順路 次は EDA(探索的データ分析)