トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データマイニング

データマイニングとは、データの山の中から、有用な情報（宝石）を掘り出す（マイニング）する方法です。データマイニングと言われる方法には、以下の特徴があります。

コンピュータを使わなければどうにもならないような、膨大な量のデータを扱う事が多い。
「データ全体の傾向を調べる」というよりも、「データの特徴的な部分（宝石）を抽出する」
試行錯誤をコンピュータにさせて、答えを導くものが多い

データマイニングは多変量解析の一種ととらえることもできますが、上記のような特徴があるので、これはこれでひとつの分野と考えています。また、上記の 2 は、前者が多変量解析の特徴と言えます。 3 は、多変量解析と言われる方法では、あまりしません。

「データの特徴的な部分を抽出する」という性質は、マーケティングの分野で、ニッチを見つけるのに向いています。

データマイニングの種類

データの一部を見る方法

決定木 　：　データの中から特徴的な領域を見つける。　分類木と回帰木、N進木、ランダムフォレスト
近傍法 　：　近くのデータを参考にする。k近傍法、LOF

データを見渡す方法

サンプルの類似度の分析 　：　データの表を横に切って、短冊にして、短冊の類似度を見る。　高次元を２次元に圧縮して可視化、　多次元尺度構成法、　自己組織化マップ、　クラスター分析
カテゴリの類似度の分析 　：　データの部分的な類似度を見る。　アソシエーション分析、　ラフ集合分析、　広義の数量化Ⅲ類　コレスポンデンス分析
多対多の分析 　：　項目の関係を見る。　ネットワーク分析、固有値解析　、行列の分解、Q分析、　正準相関分析

言葉のデータを定量的に分析する方法

数量化理論 　：　質的な変数から量的な情報を取り出す。
テキストマイニング 　：　文章をデータの集まりとして見る。

文献等では、ニューラルネットワークやベイジアンネットワークといったものも、データマイニングの仲間として紹介されていることがあります。いわゆる「多変量解析」の後に出てきた手法を、総称として「データマイニング」と呼んだために、このような分類になっているようです。

しかし、データの山から重要な部分を「マイニング」するという点が、当てはまらないと思います。このサイトでは、人工知能（AI）に分類しています。

決定木とクラスター分析の違い

決定木と階層型のクラスター分析は、どちらも木の構造のグラフで結果がまとめられるため、違いがわかりにくいと思います。

同じ点は、サンプルが分類される点です。

違いのひとつは、Y を問題にしているかどうかの違いです。 Y を問題にするのが決定木で、クラスター分析は Y とは無関係です。決定木とクラスター分析の違いは、重回帰分析と主成分分析の違いと、同じ考え方です。決定木が重回帰分析に、クラスター分析が主成分分析に相当します。

もうひとつの違いは、木の作り方です。決定木は、根本から作って、枝葉ができます。クラスター分析は、葉をまとめて枝ができ、幹ができていきます。

決定木はこの木の作り方をするために、Yの値を使います。クラスター分析は、サンプル間の距離を使います。

遺伝子のデータで例えると、遺伝子同士の近さを調べる方法がクラスター分析で、身体能力（Y）と関係の深い遺伝子（X）を調べる方法が決定木です。

手法の使い分け

参考文献

「SPSSクレメンタインによるデータマイニング」　牛田一雄・高井勉・木暮大輔　著　東京図書　2003
ニコン社がクレメンタイン（現SPSS Modeler）を導入して、解析した内容がのっています。手法の解説だけでなく、実際のソフトを使う時の手順もあります。決定木、ニューラルネットワーク、アソシエーション分析を異常状態の工程解析の分野で使っています。データマイニングの本はマーケティングを題材にした本ばかりなので、この本は題材がユニークです。（筆者がこの本を知ったのは、2012年になってからです。 2003年に既にこのような本が出ていたのを知って、びっくりしました。）

「基礎から学ぶデータマイニング」中田豊久　著　コロナ社　2013
データの事前処理から始まって、ナイーブベイズ、ベイジアンネットワーク、決定木、ニューラルネットワーク、クラスタリング、相関ルール、といった分析方法、分析結果の評価方法までについて、基礎をコンパクトにまとめています。
事例として、Twitterの解析といった、比較的新しいテーマも入っています。

「ビジネス・データマイニング入門」喜田昌樹　著　白桃書房　2010
経営（特に、マーケティング）でデータマイニングを使うための入門書です。マーケティングの解説も少し入っています。決定木、ニューラルネットワーク、テキストマイニング、クラスター分析、アソシエーション分析（マーケット・バスケット分析）で構成されています。

「データマイニング入門　：Rで学ぶ最新データ解析」豊田秀樹　編著　東京図書　2008
決定木・ニューラルネットワーク・自己組織化マップ・クラスター分析・ベイジアンネットワーク・連関規則・サポートベクターマシン・潜在意味解析の入門書です。また、これらの手法を R でやってみるための手引書にもなっています。
SOM によって作られたカテゴリをYにして、決定木で解析する話もあります。
Rはフリーなので、ネットで簡単に手に入りますし、この本で使われているデータは、出版社のホームページにありますので、実際に手を動かしながら勉強することができます。データ解析の手法を勉強する時は、「解析対象のデータはどんなで、手法を使うと、どういう事がわかるのか？」、を体験することがポイントだと思うので、こういうタイプの本は良いです。

「データマイニング」福田剛志・森本康彦・徳山豪著共立出版 2001
データサイエンスのシリーズ本の第３巻です。
決定木とクラスタリングについての専門書です。

「データマイニング手法」マイケルJ.A.ベリー・ゴートン・リノフ著　海文堂　1999
マーケットバスケット分析・記憶ベース推論・クラスター分析・リンク分析・決定木・ニューラルネットワーク・遺伝的アルゴリズムについて、長所と短所も含めて順に紹介されています。

「データマイニング」 Pieter Adriaans・Dolf Zantinge　著山本英子・梅村恭司訳　共立出版　1998
データマイニングのイメージをつかむための本ですが、実際にやってみないとピンとこないところもあると思います。各手法の説明は概念的なものにとどめ、データマイニングに伴う実質的な作業（データの選び方等）について、具体的な説明がされています。
この本の、「データマイニング」とは、このサイトでいうところの「データサイエンス」に近いものがあります。

「金鉱を掘り当てる統計学　データマイニング入門」豊田秀樹　著　講談社　2001
従来の統計学では扱うことが難しい大量のデータの分析方法として、ニューラルネットワーク、決定木（この本では、決定木の章は「人工知能エンジン」という名前）、自己組織化マップ、連関規則が紹介されています。
著者は、元々認知心理学の分野の方とのことで、この分野で生まれて来たモデルが、統計学で数理的に深められ、マーケティングの分野に応用されて来た経緯に、自らも関わっていらっしゃった方のようです。

「未来の売れ筋発掘学　未来の売れ筋発掘学」東京大学工学部大澤・西原研究室　著　ダイヤモンド社　2010
データマイニングが扱うのは過去の情報であり、そこからの延長で次に売れるものを予測するのは難しい。一方で、過去とは無関係に次に売れるものは生まれない。というところから、次に生まれる価値を見つける方法を解説しています。
価値センシングの方法は、複数が紹介されています。
・テキストマイニング　：　主に共起の分析ですが、ニーズを持っていそうな人同士の会話など、未来を探るヒントがありそうなデータを取るところから始めるのがポイントのようです。
・シナリオの創作　：　すでにある情報から、未来を考える時にシナリオの形で考えて行きます。
・アナロジー　：　手元の言葉から、類推することで、今はない考え方を出していきます。

順路次は EDA（探索的データ分析）

杉原データサイエンス事務所によるコンサルティングとセミナー