データには様々な種類がありますので、 データサイエンス を使うような仕事や、データサイエンスが役に立つ仕事も、様々なものがあります。
ところで、 「 データサイエンス でやること = モデルを作って使う」という説明がされることが、世の中ではとても多いです。 「モデルを作る」というのは、 回帰分析 や ディープラーニング などのモデルの係数をデータを使って計算することです。
「モデルを作って使う」だけがデータサイエンスだと思ってしまうと、データサイエンスの仕事も限定されて来ます。 しかし、モデルが重要ではないデータサイエンスの仕事は、どのようなものなのかが、わかりにくいです。
このページでは、モデルが重要な場合と、重要ではない場合を対比する形で、データサイエンスの仕事を整理することにしました。
データサイエンスの仕事にどのようなものがあるのかを考えるには、
モデルが重要な場合と、そうではない場合に分けた方が良いようです。
以下は、その場合分けの説明をしてから、本論になっています。
モデルが重要な場合は、さらに、モデルの使い道が最初から決まっている場合と、決まっていない場合に分けた方が良いようです。
モデルの使い道が最初から決まっている場合というのは、 例えば、「画像の中に写っているものを認識する」や、「ユーザーの好みに合うものを選ぶ」という技術を使うことが、最初から念頭にある場合です。
すでにそれらの技術を使うソフトやノウハウがある程度あれば、入力や出力を工夫して、 「アプリやホームページの機能にする」、「ロボットの機能にする」など、いろいろな応用を進めることができます。
様々なモデルについて知っていて、何か新しいことを始めたり、困りごとを解決するために、その知識を活用するケースが当てはまります。
様々なモデルの具体的な数式くらいまで思いを巡らせて、モデルを最初から作り上げていく感じになります。
モデルが重要ではない場合というのは、データの意味や内容を調べたり、考えたりする仕事になって来ます。
データになっている事柄については、データの経緯、背景、精度などに思いを巡らします。 データになっていない事柄についても、考えて行きます。 「この事実の検証には、こういうデータを、どういう風に取る。こういう風にデータを変換する。」、 「選択肢があって迷う時は、こういうデータを取って、こういう風に見る。」と言ったことが、仕事になって来ます。
モデルが重要ではない場合でも、モデルを作ってみることはあるのですが、モデルを当てはめてみることで、 データの内容を確認する使い方になります。 モデルの精度が高いか低いかは見ますが、高いか低いかがわかることが重要で、高くなくても問題ないです。
原因と結果の関係を探る分野として、 因果推論 があります。 世の中に因果推論のモデルはいろいろありますが、実務の中で実際に起こっていることの原因を調べる時のことを考えると、 因果推論は「モデルが重要ではない場合」と考えた方が良いと思います。
モデルが重要な場合は、それほど急がない場合が多いようです。 早ければ早いほど良かったとしても、数か月から1年くらいを目安にして進めても大丈夫なことが多いようです。
モデルが重要ではない場合というのは、緊急の用件であったり、時間が経てば経つほど、やることに意味がなくなる場合が多いようです。 「今すぐ」、「今日中」、「長くても1週間以内」といった感じになります。
モデルが重要な場合は、会計システムや人事システムといったITを導入して会社の業務の効率化を進めて来た取り組みの、 次の段階としてイメージされていることが多いようです。 「ITシステム導入の次は、 人工知能(AI) システムの導入」といった感じです。
モデルが重要な場合は、「 プロジェクト を立ち上げて、システムを作って・・・」という進め方が多いようです。
モデルが重要ではない場合は、報告書らしい報告書もできず、Excelの画面の中にグラフを1つ作れば完了することもあります。 とにかく早さが重要なことが多いので、「プロジェクトを立ち上げて、・・・」といった進め方ができないです。
このサイトにある Excelによるデータ分析 、 Rによるデータ分析 、 Pythonによるデータ分析 というページは、モデルが重要ではない場合の仕事の中で、筆者自身が使ったノウハウや、「こういうことがしたい」と思ったことを元にしてまとめています。
会社の中や社会の中に、モデルを当てはめると良いケースが見つかると、モデルが重要な場合の仕事になって来ます。 例えば、「人が見る作業をしているから、これを画像認識のAIでできるようにしよう」といったことがあれば、仕事になって来ます。
一方、モデルが当てはまるかどうかに関係なく、事実がデータという形になっていたり、データを通して事実がわかるようになっていると良いことが、 会社の中や社会の中には、たくさんあります。 データには、様々なものがありますので、データを使ってやれることは、たくさんあります。
そのため、モデルが重要な仕事と、モデルが重要ではない仕事の量を比べると、後者の方が圧倒的に多いと思います。
しかし、後者の方は、データサイエンスの仕事として確立されていないのが現状のようです。
モデルが重要な場合は、コンサルタント会社、データ分析会社と言った会社の方の領域になっています。 一方、モデルが重要ではない場合は、納期の厳しさや、内容の深さが必要なので、こうした会社ではやりにくい領域です。
モデルが重要ではない場合のデータサイエンスの担い手は、その問題や課題の当事者か、それに近い立場で物事を考えることができる人が適任と思います。
例えば、問題を解決するためにデータから原因を見つけるのなら、「原因はこうかもしれない」ということに気付けて、 対策をして問題が解決をするかどうかが成功基準になります。 こういう成功基準で良ければ、手持ちのデータが原因と結果を直接表しているものではなかったとしても、問題解決につなげられることがあります。
筆者にも経験があるのですが、手持ちのデータがどのようなものかに関係なく、とにかくデータにぴったり合って来るモデルを求めるような進め方をすると、 仕事が行き詰まってしまうことが多いようです。
データサイエンス全般の参考文献は、 データサイエンスの本 のページがあります。
「いちばんやさしい機械学習プロジェクトの教本 人気講師が教える仕事にAIを導入する方法」 韮原祐介 著 インプレス 2018
企業内へのシステムの導入に従事してきた著者が、
機械学習を組み込んだシステムの導入について、体系的にまとめています。
通常(従来)のシステムは演繹的。機械学習のシステムは帰納的であり、データから推論して結論を出す。
機械学習のシステムを作るには、質の良いデータが大量に必要。そのため、実際のデータを使ったテストが大事。
「人工知能システムのプロジェクトがわかる本 企画・開発から運用・保守まで」 本橋洋介 著 翔泳社 2018
人工知能システムの開発に特有なのは、データ分析、テストの実施、モデルのメンテナンスがあること。
モデル作成では、異常値やデータの偏りに気を付ける。
的中率が70%だったとして、それが良い悪いかは、人がやる場合と比較する。
すべてを人工知能に任せるのでさなく、人と協調していく。
「データ分析プロジェクトの手引 データの前処理から予測モデルの運用までを俯瞰する20章」 David Nettleton 著 共立出版 2017
マーケティング、保険の加入者、テレビの視聴率といった、社内から社外の動きを見るデータ分析が題材になっています。
実際に検討されたデータの項目も、かなり具体的です。
目的のためなら、何でも使う感じで、
決定木
、
回帰分析
、
ネットワーク分析
などがありました。
分析で実際に大変な事の話は、ありませんでした。
システム開発やプロジェクトの話は少しで、ほとんどが分析の話です。
データ分析は、データからの知識発見と、モデリングのためにしています。
(
因果推論
のためではないです。)
モデリングはシステム開発につなげている。
「仕事ではじめる機械学習」 有賀康顕・中山心太・西林孝 著 オライリー・ジャパン 2018
プロジェクトとして
機械学習
を使うことを想定していますが、
プロジェクト特有の話は少しです。
代表的な機械学習の手法を紹介。
効果検証として、
検定
や
因果推論
。
機械学習を使わない分析として、Kickstarterを使ったExcelベースやのデータ分析。
「成功するシステム開発は裁判に学べ! 契約・要件定義・検収・下請け・著作権・情報漏えいで失敗しないためのハンドブック」 細川義洋 著 技術評論社 2017
システム開発の様々なフェーズで起こるトラブルについて、裁判で争われた点を中心に、原因と対策を解説。
順路
次は
データサイエンスの数理