トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

よく言われる事との違い

筆者自身がそうだったのですが、 「たくさんのデータがあるから、分析して、役に立つ情報を見つけよう!」、という感じで、 データサイエンス やデータ解析に興味を持つ方は多いと思います。 また、メディアでもそういった感じで宣伝されています。

しかし、どうでしょうか。ギャップを感じている方は多いのではないでしょうか。

このサイト のいろいろな所で、いくつかの側面からこのギャップについて触れています。 散らばっていますので、このページに要点をまとめてみました。

目的はさまざま

天気予報もそうですが、「 予測 」には大変なニーズがあります。 そのため、「ビッグデータ」や「データサイエンティスト」への期待は、「予測」になっている事が多いですし、 紹介される事例も「予測」の事が多いです。

しかし、筆者に限らず、 データ解析の目的が「原因分析」になっている方は、とても多いのではないかと思います。 原因分析の場合は、 統計モデルによる原因解析 のようなアプローチをします。 泥臭い分析になるせいかもしれませんが、まとまった資料がありません。

ちなみに、そのデータがどのようなものかを知らないと、良い予測はできませんが、 その目的でも、原因分析のようなデータの見方は役に立ちます。

進め方の違い

目的が違うと進め方も違って来ます。

よく言われているのは、「 プロジェクトシステム を作る」という進め方です。 システムで実現しようとしているのは、自動化や自動予測です。

この進め方は、会計システムや人事システムを導入して会社の業務の効率化を進めて来た取り組みの、 次の段階としてイメージされていることが多いです。 「ITシステム導入の次は、 人工知能(AI) システムの導入」といった感じです。

この進め方の場合、データ解析は 統計モデル を作ることが最終目的です。

一方で、原因分析のためにデータサイエンスを使う場合、 システムを作ることは必要ありません。 また、その現象を表す統計モデルができなくても良いことがよくあります。

この違いは「異常」への取り組みでも表れます。

異常検知 として、異常が発生した時や、発生しそうな時に対応するための取り組みがありますが、 これは最終的にシステムを作ろうとしていきます。 また、この取り組みの中では、データだけから異常検知をしようとします。

一方で、データ解析の結果、異常の原因がわかったのでしたら、 原因をなくしてしまったり、原因となることが起きても異常にはならないようにするように取り組むことができます。 品質学 の分野では、こちらの取り組みが多いです。

二度と起きないのでしたら、システムはいりません。 また、二度と起きないようにはできないので、異常検知のシステムを作るとしても、 異常の原因がわかっている場合は、最初の分析で使ったデータ以外の方が、異常検知の精度が高いことがあります。

このように異常への取り組み方は、異常の内容によって大きく変わるのですが、 機械学習に強い人は、そうしたことを考えずに、データを使った異常検知のシステム作りを始めることが多いようです。

教科書とのギャップ

統計学」、 「多変量解析」、 「データマイニング」、 「データサイエンス」 をタイトルにした本を使って、データ解析を学ぶ方が多いと思いますが、 自分のやりたい事とのギャップを感じるのではないでしょうか?

たくさんの本が出ているので、一概には言えないのですが、 原因のひとつは、すでに書きましたが、データ解析の目的の違いです。

もうひとつは、実務ではあまり必要のない事の解説です。 自分で車を運転して買い物がしたいのでしたら、 車の基本的な操作方法や交通ルールを知っている必要がありますが、 エンジンの理論が詳しく書かれているような本もあります。

ソフトへの過信

R、Python、Wekaといったフリーソフトや、これらと同じ目的で使われる有償ソフトがありますが、 これらは、 データサイエンスの広大な未開拓地 の話で言えば、すでに開拓が進んで来ている領域で使うソフトです。

膨大な数の機能やライブラリーがありますので、これを使いこなすことが、データサイエンスを使いこなすことと思いたくなります。 しかし、今のソフトの状況は、青系の絵の具は大変な種類があるのに、赤系や黄系の絵の具がほとんどないような感じです。

筆者の場合、未開拓地で使うソフトは、主にExcelです。

ソフトの話ばかりになりましたが、そのデータの背景( メタ知識 )は、普通はソフトではわかりません。 知っている人に聞いてみたり、現物を見たり、といった事をしないとどうにもならない事は、よくあります。

統計学や、機械学習への過信

ソフトの話と同じなのですが、 統計学機械学習 がそのまま使えるのは、 すでに開拓が進んで来ている領域です。

ただ、すでに開拓が進んで来ている領域でも、 現実と統計モデルとのギャップ が問題になる事はあります。

これらの手段は、未開拓地でも役に立つのですが、この時は、「当てはまるモデルを探す」と言った単純なものではなく、 「相関係数を、増減の傾向を抽出するのに使う」、「平均値や標準偏差の理論の弱点から、代替案を考える」、といった使い方になります。

データへの過信

「たくさんのデータ」という表現が、誤解や過信を生んでしまう元凶なのかもしれませんが、 どんなにたくさんのデータがあっても、何の役にも立たない事はあります。

生のデータと解析用のデータ

「たくさんのデータ」と言っているものは、いわゆる生データの事が多いです。 これをいわゆるデータ解析のソフトに入れれば、何か面白い事がわかるかと言うと、 筆者の経験では、そういう事はほとんどありません。

ただ、 特徴量エンジニアリング などで、ひと手間加えることで、状況が変わる事はあります。

データの二次利用

「たくさんのデータ」と言われるものの多くは、何かの理由があって蓄えられているのが普通です。 自分は知らないかもしれませんが、何かの役目はしている事が多いです。

「たくさんのデータがあるから、データ解析をしてみよう!」、という話が出るのは、 その役目が終わったデータに対してなので、「二次利用」と言えます。 場合によっては、絞りかすから、さらに情報を絞り出そうとするような話にもなります。

バイアス(かたより)

「たくさんのデータには、真実が隠されている」、と思いたくなりますが、 ほぼ例外なく、データにはバイアスがかかっています。

日本語のデータだけを調べて、「世界の人の好みがわかった」、と思う人はいないと思いますが、 「日本人の好みがわかった」と思う事についても、「待った」がかかります。 例えば、それがインターネット上で行ったアンケートのデータなら、 「そのアンケートに答えようと思った人」、「インターネットに日常的にアクセスする人」、といった人に限定された意見になっている事に注意が必要です。

すでにあるデータを分析するところから、そのデータに関わる場合、どのように サンプリング されたデータなのかは、気にするタイミングがあまりありません。



データサイエンスの広大な未開拓地

問題解決と課題達成

参考文献

データサイエンス全般の参考文献は、 データサイエンスの本 のページがあります。


いちばんやさしい機械学習プロジェクトの教本 人気講師が教える仕事にAIを導入する方法」 韮原祐介 著 インプレス 2018
企業内へのシステムの導入に従事してきた著者が、 機械学習を組み込んだシステムの導入について、体系的にまとめています。
通常(従来)のシステムは演繹的。機械学習のシステムは帰納的であり、データから推論して結論を出す。
機械学習のシステムを作るには、質の良いデータが大量に必要。そのため、実際のデータを使ったテストが大事。


人工知能システムのプロジェクトがわかる本 企画・開発から運用・保守まで」 本橋洋介 著 翔泳社 2018
人工知能システムの開発に特有なのは、データ分析、テストの実施、モデルのメンテナンスがあること。
モデル作成では、異常値やデータの偏りに気を付ける。
的中率が70%だったとして、それが良い悪いかは、人がやる場合と比較する。 すべてを人工知能に任せるのでさなく、人と協調していく。


データ分析プロジェクトの手引 データの前処理から予測モデルの運用までを俯瞰する20章」 David Nettleton 著 共立出版 2017
マーケティング、保険の加入者、テレビの視聴率といった、社内から社外の動きを見るデータ分析が題材になっています。 実際に検討されたデータの項目も、かなり具体的です。 目的のためなら、何でも使う感じで、 決定木回帰分析ネットワーク分析 などがありました。
分析で実際に大変な事の話は、ありませんでした。 システム開発やプロジェクトの話は少しで、ほとんどが分析の話です。 データ分析は、データからの知識発見と、モデリングのためにしています。 ( 因果推論 のためではないです。) モデリングはシステム開発につなげている。


仕事ではじめる機械学習」 有賀康顕・中山心太・西林孝 著 オライリー・ジャパン 2018
プロジェクトとして 機械学習 を使うことを想定していますが、 プロジェクト特有の話は少しです。
代表的な機械学習の手法を紹介。
効果検証として、 検定因果推論
機械学習を使わない分析として、Kickstarterを使ったExcelベースやのデータ分析。


成功するシステム開発は裁判に学べ!  契約・要件定義・検収・下請け・著作権・情報漏えいで失敗しないためのハンドブック」 細川義洋 著 技術評論社 2017
 システム開発の様々なフェーズで起こるトラブルについて、裁判で争われた点を中心に、原因と対策を解説。




順路 次は 手法の使い分け

Tweet データサイエンス教室