トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データマイニング

データマイニングとは、 データの山の中から、有用な情報(宝石)を掘り出す(マイニング)する方法です。 データマイニングと言われる方法には、以下の特徴があります。

データマイニングは 多変量解析 の一種ととらえることもできますが、上記のような特徴があるので、これはこれでひとつの分野と考えています。 また、上記の 2 は、前者が多変量解析の特徴と言えます。 3 は、多変量解析と言われる方法では、あまりしません。

「データの特徴的な部分を抽出する」という性質は、 マーケティング の分野で、 ニッチ を見つけるのに向いています。

データマイニングの種類

データの一部を見る方法

データを見渡す方法

言葉のデータを定量的に分析する方法

文献等では、 ニューラルネットワークベイジアンネットワーク といったものも、データマイニングの仲間として紹介されていることがあります。 いわゆる「 多変量解析 」の後に出てきた手法を、総称として「データマイニング」と呼んだために、このような分類になっているようです。

しかし、データの山から重要な部分を「マイニング」するという点が、当てはまらないと思います。 このサイトでは、 人工知能(AI) に分類しています。

決定木とクラスター分析の違い

決定木 と階層型の クラスター分析 は、どちらも木の構造のグラフで結果がまとめられるため、 違いがわかりにくいと思います。

同じ点は、サンプルが分類される点です。

違いのひとつは、Y を問題にしているかどうかの違いです。 Y を問題にするのが決定木で、クラスター分析は Y とは無関係です。 決定木とクラスター分析の違いは、 重回帰分析主成分分析 の違いと、同じ考え方です。 決定木が重回帰分析に、クラスター分析が主成分分析に相当します。

もうひとつの違いは、木の作り方です。 決定木は、根本から作って、枝葉ができます。 クラスター分析は、葉をまとめて枝ができ、幹ができていきます。

決定木はこの木の作り方をするために、Yの値を使います。 クラスター分析は、サンプル間の距離を使います。

遺伝子のデータで例えると、遺伝子同士の近さを調べる方法がクラスター分析で、 身体能力(Y)と関係の深い遺伝子(X)を調べる方法が決定木です。



手法の使い分け

参考文献

SPSSクレメンタインによるデータマイニング」 牛田一雄・高井勉・木暮大輔 著 東京図書 2003
ニコン社がクレメンタイン(現SPSS Modeler)を導入して、解析した内容がのっています。 手法の解説だけでなく、実際のソフトを使う時の手順もあります。 決定木ニューラルネットワークアソシエーション分析異常状態の工程解析 の分野で使っています。 データマイニングの本はマーケティングを題材にした本ばかりなので、この本は題材がユニークです。 (筆者がこの本を知ったのは、2012年になってからです。 2003年に既にこのような本が出ていたのを知って、びっくりしました。)


基礎から学ぶデータマイニング」 中田豊久 著 コロナ社 2013
データの事前処理から始まって、 ナイーブベイズ、ベイジアンネットワーク、決定木、ニューラルネットワーク、クラスタリング、相関ルール、 といった分析方法、 分析結果の評価方法までについて、基礎をコンパクトにまとめています。
事例として、Twitterの解析といった、比較的新しいテーマも入っています。


ビジネス・データマイニング入門」 喜田昌樹 著 白桃書房 2010
経営 (特に、 マーケティング )でデータマイニングを使うための入門書です。 マーケティングの解説も少し入っています。 決定木ニューラルネットワークテキストマイニングクラスター分析 、アソシエーション分析(マーケット・バスケット分析)で構成されています。


データマイニング入門 :Rで学ぶ最新データ解析」 豊田秀樹 編著 東京図書 2008
決定木ニューラルネットワーク自己組織化マップクラスター分析ベイジアンネットワーク連関規則サポートベクターマシン潜在意味解析 の入門書です。 また、これらの手法を R でやってみるための手引書にもなっています。
SOM によって作られたカテゴリをYにして、決定木で解析する話もあります。
Rはフリーなので、ネットで簡単に手に入りますし、 この本で使われているデータは、出版社のホームページにありますので、 実際に手を動かしながら勉強することができます。 データ解析の手法を勉強する時は、「解析対象のデータはどんなで、手法を使うと、どういう事がわかるのか?」、 を体験することがポイントだと思うので、こういうタイプの本は良いです。


データマイニング」 福田剛志・森本康彦・徳山豪 著 共立出版 2001
データサイエンス のシリーズ本の第3巻です。
決定木とクラスタリングについての専門書です。


データマイニング手法」 マイケルJ.A.ベリー・ゴートン・リノフ 著 海文堂 1999
マーケットバスケット分析・記憶ベース推論・クラスター分析・ リンク分析・決定木・ニューラルネットワーク・ 遺伝的アルゴリズム について、長所と短所も含めて順に紹介されています。


データマイニング」 Pieter Adriaans・Dolf Zantinge 著 山本英子・梅村恭司 訳 共立出版 1998
データマイニングのイメージをつかむための本ですが、 実際にやってみないとピンとこないところもあると思います。 各手法の説明は概念的なものにとどめ、 データマイニングに伴う実質的な作業(データの選び方等)について、 具体的な説明がされています。
この本の、「データマイニング」とは、 このサイトでいうところの「 データサイエンス 」に近いものがあります。


金鉱を掘り当てる統計学 データマイニング入門」 豊田秀樹 著 講談社 2001
従来の 統計学 では扱うことが難しい大量のデータの分析方法として、 ニューラルネットワーク決定木 (この本では、決定木の章は「人工知能エンジン」という名前) 、 自己組織化マップ連関規則 が紹介されています。
著者は、元々 認知心理学 の分野の方とのことで、この分野で生まれて来たモデルが、統計学で数理的に深められ、 マーケティング の分野に応用されて来た経緯に、自らも関わっていらっしゃった方のようです。



未来の売れ筋発掘学 未来の売れ筋発掘学」 東京大学工学部大澤・西原研究室 著 ダイヤモンド社 2010
データマイニングが扱うのは過去の情報であり、そこからの延長で次に売れるものを予測するのは難しい。 一方で、過去とは無関係に次に売れるものは生まれない。 というところから、次に生まれる価値を見つける方法を解説しています。
価値センシングの方法は、複数が紹介されています。
テキストマイニング : 主に共起の分析ですが、 ニーズを持っていそうな人同士の会話など、未来を探るヒントがありそうなデータを取るところから始めるのがポイントのようです。
・シナリオの創作 : すでにある情報から、未来を考える時にシナリオの形で考えて行きます。
アナロジー : 手元の言葉から、類推することで、今はない考え方を出していきます。



順路 次は EDA(探索的データ分析)

Tweet データサイエンス教室