問題解決の手順
や
課題達成の手順
の要所要所で、
データサイエンス
は重要な道具になります。
一番重要な使い方は、問題や効果の大きさ、因果関係の強さ、といったものを定量的に表現するための方法としてです。
そのほかには、言語情報を集めたり、頭で考えただけでは思い付けない情報を見つける方法としても、使うことができます。
以下は、 問題解決の手順 に沿った説明ですが、 課題達成の手順 でも考え方は同じです。
現状把握 では、「どういうデータ?」、「何が起こっている?」、「どういう風に起こっている?」と言ったことをデータから調べます。 場合によっては、これらがわかるだけで、次の要因解析がいらなくなることもあります。
歩留(良品率)を改善したいなら歩留、生産性を改善したいないなら生産性のデータを詳しく調べます。
行が100行くらい、列が2列くらいまでの表形式のデータがあったとします。
こういうデータの時は、 パレート図 、 ヒストグラム 、 箱ひげ図 、 折れ線グラフ といったものを作って、データをグラフにしてみると、良い現状把握になります。
これよりもデータが大きくなると、データサイエンスのいろいろな技が役立ちます。
行数が非常に多い時は、時間的な変化の仕方を見るために、普通に 折れ線グラフ を作ると、ごちゃごちゃしているだけでよくわからないグラフになったり、 PCの処理が非常に遅くなることがあります。
また、列数が多い時に、ひとつひとつの列を見ていくのは大変です。
「データサイエンス」と言えるかはわかりませんが、データ全体の可視化ができるグラフがあります。
このサイトでは、
Excelによるデータ全体の可視化
、
Rによるデータ全体の可視化
、
Pythonによるデータ全体の可視化
というページで具体的な方法を紹介しています。
また、
R-EDA1
では、様々なグラフがGUIで簡単で作れるようになっています。
層別のグラフ
も簡単に作れます。
まず、 サンプリング を使ったり、 メタ知識 や 特徴量エンジニアリング の技を駆使して、データの量を減らします。
こうすると、重要な情報があぶり出されて来ることがあります。
このサイトの実施例としては、 Rによる準周期データの分析 や Pythonによる準周期データの分析 のページがあります。
上記の方法は、広い意味での、 時系列解析 です。 データが時間の順に並んでいたり、日時のデータが入っていたりして、時間的な変化を把握することが重要な場合に役に立ちます。
時間的な変化を把握することは、重要ではない時には、 サンプルの類似度の分析 や、 多対多の分析 が役に立つことがあります。
このサイトの実施例としては、 Rによるサンプルの類似度の分析 や Rによる行と列の項目の、項目同士の類似度の分析 のページがあります。
学問としての「因果推論」には難しい理論がいろいろありますが、そういうものを使うのではなく、 現状把握で詳しく見たデータに対して、「変化のタイミングが似ているもの」や、「増減の仕方が似ているもの」をデータから調べます。
従来からよく使われて来た手法は、 なぜなぜ分析、連関図、特性要因図といった 定性的な仮説の探索 と、 回帰分析 をベースにした 仮説の検証(実証分析) の方法としてです。 21世紀に入ったくらいから、 データサイエンス は 定量的な仮説の探索 の方法としても大きな貢献ができるようになって来ています。
スモールデータの時は、 2次元散布図 や 回帰分析 を使って行けば良いのですが、ビッグデータになると、見るべきところがわかりにくくなって来たり、 PCが処理しきれないことがあります。
また、2つの変数の組合せを無数に見ることになり、大変です。
変数の類似度の分析 や、 個々のカテゴリの類似度の分析 をすると、全体的な関係がわかりやすくなります。
このサイトの実施例としては、 Rによる変数の類似度の分析 、 Pythonによる変数の類似度の分析 、 Rによる個々のカテゴリの類似度の分析 があります。
また、使う機会はあまりないですが、データサイエンスならではの分析方法として、 隠れ変数の探索 というものもあります。 このサイトの実施例としては、 Rによる隠れ変数の分析 と Pythonによる隠れ変数の分析 のページがあります。
これらの方法の中では、 多変量解析 や 機械学習 のモデルを使います。 しかし、精度の高い推論モデル(予測モデル)を作って、それを成果物の一部にするためではなく、データの構造を調べるために使っています。 こういう使い方が紹介されることは少ないですが、散布図や相関係数で変数の関係を見る方法の、発展的な使い方をしています。
R-EDA1
の「Similarity_of_Variables_and_Categories」には、モデルとグラフを組み合わせた、様々な分析のレシピを入れました。
「要因解析のためのデータサイエンスのソフト」というのは、世の中にあるにはありますが、これほど多くのレシピが入っているものは、
他にないと思います。
要因解析の中では、仮説の探索や検証のために、実際に実験をしてみると良いことがあります。
実験自体はデータサイエンスではないですが、 効率良く実験をするためには 実験計画法 を知っていた方が良いですし、 誤差 の知識もあった方が良く、これらはデータサイエンスです。
実際の実験ではなく、コンピュータの中で実験する方法として、 シミュレーション があります。
シミュレーション では、使うモデルが 多変量解析 や 機械学習 のモデルの時があります。
数理モデリング として、物理法則などをモデルにする時も、データの準備や結果の解釈で、データサイエンスの知識が役に立ちます。
誤差は、狙って発生させるものではないので、実感がわきにくく、分析しにくいです。 しかし、製造業の品質問題などでは、誤差の分析が必要になります。
誤差の理論は、 データサイエンス としてメジャーではないですが、誤差を的確に分解したり、定量化できたりすると、要因解析としては大成功になります。 筆者自身は、 数理モデリング と 誤差の伝播 を組み合わせたり、 二重測定による繰り返し誤差の推定 を使って、仮説の検証をしたことがあります。
因果推論 の理論の中には、データだけから因果関係の結論を導き出そうとするものもあります。
しかし、これを実務で使おうとすると、理屈っぽくなって関係者の協力を得られにくくなったり、 「今回のデータだと、その結論になるかもしれないが、いつでもそうなるとは言えないのではないか」、となったりします。
一方、持っているデータだけから仮説の検証まで完了させようとするよりも、 簡単な実験をしてみたり、対策の実施を少しやって仮説の正しさを確認する方が、はるかに早く、確実に仮説を検証できることが多いです。
要因解析の時と同じで、 対策や方策の検討のために、実験やシミュレーションをする時がありますので、この時にデータサイエンスが役に立ちます。
対策立案 のページにありますが、現実的にベストな対策や方策は、データサイエンスとは関係ないものであることが多いです。
ところで、例えば、判定の仕方を表す式を作れたら、
「人間による判定を、
人工知能(AI)
による自動判定に変更」、
といった方策になって来ます。
こうした方策は、データサイエンスの理論が最終的なアウトプットに入って来るので、
データサイエンティストのような立場だと、こうした方策を最優先で考えたくなるかもしれません。
しかし、手間、時間、効果、値段など、いろいろな観点で考えた時に本当にベストな方策なのかは、よく考えた方が良いです。
効果確認のデータ分析にあるように、基本的に、現状把握の時のデータと、対策実施後のデータを比較して、「効果があったのか?」と判定します。
データ数が多い時は、 1次元分布のグラフ を対策の前後で並べると、一目瞭然です。
検定 と 1次元散布図 を組み合わせると良いです。 また、効果が持続することの確認や、持続しなくなった時に気付けるようにするための方法としては、 管理図 があります。 ウェブアプリR-QCA1 には、対策前後の違いをみるための 検定 や、 管理図 のツールがあります。
データサイエンスを勉強すると、データだけで物事を解決できるような気分になることがあります。 その気持ちは、筆者にもよくわかるものですが、 いくらデータを見ても、どんなに高度な分析方法を使ったとしても、それだけで 問題解決や課題達成 につながることはないです。
データサイエンスだけでは解決しない理由のひとつは、扱うデータには、「偏っている」や、「現象そのものを表していない」、ということがよくある点です。 このような状況でも、「このデータではダメだ」とはしないで、解決に必要な情報をできるだけ引き出す必要があります。 初めて扱う現場のデータなら、「普段の現場はどのようになっているのか?」、「このデータは何のために記録しているのか?」といったことを、 データから理解することで、解決に近付けます。
データサイエンスを勉強していると、 データの不備としては、「数が足りない」、「ばらつきが大きい」、「異常値や欠損値が混ざっている」といった点が気になるかもしれません。 もちろん、こういった点もあるのですが、問題解決で大変なのは、「偏っている」や、「現象そのものを表していない」という点です。 「偏っている」や「現象そのものを表していない」は、データの背景まで把握していないとわからないこともあります。 対策が終わって、しばらくしてから気付くこともあります。
「偏っている」や、「現象そのものを表していない」という状況でも、解決させなければいけない問題は、解決するように進めます。
世の中の解説では、現象を表すデータから、問題の解決策が見えるような例が、もしかしたらほとんどかもしれません。
ところが実際の問題では、現状把握、要因解析、対策立案、といった段階で、前の段階とは違うデータを見に行くことは珍しくありません。 そのため、ひとつのデータセットと、それを扱う手法で問題解決につながるようなことにはならないです。
冒頭の繰り返しになるのですが、 問題解決や課題達成 という目的に対して、データサイエンスは道具として使うことになります。 各段階のつながりの部分は、データサイエンスではないです。
問題解決と課題達成の手順 の要所要所でデータサイエンスを使って、これらの目的に行き着くことを目指します。
世の中のデータサイエンティストのイメージは、「Pythonが得意な人」、「精度の高いモデルが作れる人」といった感じで定着しつつあるようです。
わずかなデータを手がかりにして、データについての知識や経験を活かして問題を解決させていく人は、何なのでしょうか?
問題解決と課題達成 のページにスピード感の話がありますが、特に問題解決では、とにかくスピードが大事な時があります。
現状把握から効果の確認までを、「1時間以内」、「今日中」といった納期で実行する必要があることもあります。 こういう場合は、定量的な分析が必要なところと、定量性の精度がどの程度必要なのかを見極めて、優先順位をつけていくと良いです。
「データ農業が日本を救う」 窪田新之助 著 集英社インターナショナル 2020
オランダは、現状をデータで確認し、対策の効果もデータで確認していく農業が、非常に進んでんいるそうです。
ここで見るデータは、収量などの結果系ではなく、光の量などの原因系です。
しかも、推論した値や、カタログの値ではなく、実測した値です。
「IMPLEMENTING SIX SIGMA」 Forrest W. Breyfogle III 著 WILEY 2003
85%くらいを使って、DMAICの各段階で使う手法について、体系的かつ詳細に説明しています。
残りは、業務の流れを扱うテーマである、リーンや
制約条件の理論
のテーマをシックスシグマの流れで行う話や、DMADVの話、シックスシグマの運営に話になています。
手法の概略は下記になります。
D:顧客の声の分析
M:概念のグラフ化、関係の情報のグラフ化(QFD(品質機能展開))、データの精度の評価
A:検定、推定、回帰分析
I:実験計画法
C:管理図、信頼性の評価
「シックスシグマ」 Forrest W. Breyfogle III 著 三田昌弘 監訳 エコノミスト社 2006
上の本の日本語版です。
ちなみに、筆者は日本語版は図書館でパラパラ見た程度です。
この本は英語の原著を古書で買って、読んでいます。(5分の1くらいの値段でしたので)
「Head Firstデータ解析 : 頭とからだで覚えるデータ解析の基本」 Michael Milton 著 大橋真也 監訳 オライリー・ジャパン 2010
データ解析の方法だけでなく、データ解析の業務もイメージしやすいようになっています。
@データ解析入門 : 定義、分解、評価、判断の4段階でデータ解析を進める
A実験 : 持論を検証する
B最適化 : 利益を最大にするための資源の配分問題を、Excelのソルバーで解く
Cデータの可視化 :収入を縦軸、その他の変数を横軸にした散布図を、比較したい対象毎に作成すると、違いがわかる
D仮説検定 : 統計学的な仮説検定の話ではないです。
様々な仮説がある時に、「正しい仮説を選ぶ」ではなく、「もっとも反証の少ない仮説を残す」というアプローチをする話になっています。
Eベイズ統計 : 「陽性と判定された場合に、本当に陽性である確率」を算出
F主観確率 : 確信度や可能性を、言葉ではなく、数値で表す。複数の人のその数値をグラフにすると、その数値の確からしさがわかる
G経験則 : ごみの総量の変化を実際に測るのは大変なので、一般市民やゴミ処理業者へのアンケートから、変化の有無を分析
Hヒストグラム : データの状況を一目で判断
I回帰 : 2つの変数の関係を分析
J誤差 : 予測は、誤差を明記すると、「理にかなった期待」、「さらなる知識」、「より優れた判断」につながる
Kリレーショナルデータベース : データの関係を管理する
Lデータクリーニング : Excelでのデータの整理の仕方。1つのセルに複数のデータが混ざっている状態を整形していく。
未収録事項の上位10位がこの後に続くのですが、10番目は、「あなたの専門知識」でした。
「データ解析の仕事を、実際にやって来た人の本だ!」、と思える内容でした。
「定量分析の教科書 ビジネス数字力養成講座」 グロービス 著 東洋経済新報社 2016
分析の本質を、「比較」としています。
棒グラフは、棒の長さで比較しますし、散布図は、縦軸と横軸を比較するものとしています。
比較をすることで、因果関係がわかり、因果関係がわかれば、問題を解決する方向に進められる、としています。
仮説思考をしてから、データを集める。
比較の軸は、インパクト(大きさ)、ギャップ(差異)、トレンド(時間的な変化)、ばらつき(分布)、パターン(法則)の5つ。
比較の技術は、グラフ、統計量、数式による表現(
重回帰分析
など)。
フェルミ推定:いくつかの前提をおいて、ざっくりと量を計算する方法。
「問題解決ができる!武器としてのデータ活用術」 柏木吉基 著 翔泳社 2019
プロセスを、
・目的・問題を定義する、
・指標を特定する、現状を把握する、
・評価する、
・要因を特定する、
・方策を考える
としています。
「データの中に答えはないから、データを見始めることはやめる」、
「データ活用の全てを台無しにする主因は、問題が明確ではないことと、問題とデータが一致していないこと」、
「客観的な評価のために比較をする」、
「方策は要因に対してしなければ意味がない」といった感じのメッセージがありました。
「「そうか、ここが問題だったんだ!」がどんどん見えてくるデータの読み方・活かし方」 柏木吉基 著 大和出版 2016
課題解決の5つのプロセスとして、
・課題定義、
・現状把握、
・課題ポイント特定、
・要因の特定、
・方策の検討、
としています。
主語や目標がどういった視点からのものなのかを明確にすることや、課題を具体的にすることを重視されています。
数値の関係は、散布図や相関係数で確認しています。
本全体は、市役所の観光振興の活動を題材にしています。
「問題解決のためのデータ分析」 齋藤健太 著 クロスメディア・パブリッシング 2019
内容は、売上の分析です。
問題解決の4つのプロセスを、
・現状の理解、
・原因の見極め、
・打ち手の決定、
・実行、
としています。
論理的な考え方をしたり、Excelを使ってデータの傾向を見たり、というアプローチでデータ分析を進めます。
「ロジカルデータ分析 スピーディーに収益につなげる新手法」 高橋威知郎 著 日経BP社 2015
ありもののデータで、ありもののツールで、シンプルに分析する。
データがない時は感覚データで補強する。
何をすべきかは逆算で考える。
定性的な分析は、定量的な分析と同じくらい大事。
定性的な分析というのは、シナリオ分析や新QC7つ道具の事。
定量的な分析は、データを使うが、データを使う限り、どうしても過去に対しての分析しかできない。
未来の話をするには、シナリオ分析が重要。
「問題解決のためのデータ分析基礎講座」 高橋威知郎 著 ビジネス教育出版社 2020
この本では、「問題」と「課題」が出てきますが、特に区別されていません。
データ分析が手段から目的に変わっている事例が多いこと、PoCや見える化をしてもうまくいかないなど、ネガティブな話が力説されています。
良い見える化は、見ることで行動につながるものとしています。
そういった見える化をするには、XYZの3つのデータを取るようにします。
データ分析のフレームワークとして「PPDACサイクル」というものが、紹介されています。
「PDCAサイクル」と似ていますが、PPDACは、
・Problem:課題の設定
・Plan:調査・分析の計画
・Data:情報収集
・Analysis:情報の整理・集計・分析・数理モデル構築など
・Conclusion:とりあえずの結論
、となっています。
この本では、「データ分析者はテーマを選べる」という点を前提にして話が進んでいます。
そのため、「まず、データのことは考えずにビジネス課題を抽出。
次に、その中でデータ分析が必要で、難し過ぎず、効果の大きいものを選ぶ」という手順になっています。
この本のデータ分析では、予測モデルを作ることがアウトプットになっています。
「問題解決のためのデータ分析応用講座」 高橋威知郎 著 ビジネス教育出版社 2020
PPDACサイクルの紹介など、一部の内容は上記の基礎講座と重なっています。
高度な数理モデルがいろいろと紹介されていますが、全体的には、EXCELの回帰分析を使って
パス解析
をして、商売のデータを分析する内容になっています。
季節性のモデル化などもあります。
この本における「問題」や「課題」は、「比較したいこと」や「数式で表したい変数の関係」といった感じの意味で使わています。
「アルゴリズム思考術 問題解決の最強ツール」 ブライアン・クリスチャン、トム・グリフィス 著 早川書房 2017
コンピュータ処理のために考案されてきたアルゴリズムを、日常生活にも利用しようとしている本です。
扱っているアルゴリズムは、最適停止、探索、ソート、キャシュ、スケジューリング、
ベイズの法則
、
オーバーフィッティング
、緩和法、ランダム性、
ネットワーキング
、
ゲーム理論
です。
全般的に、限られた時間と情報の中で、ベストと思われる行動をするための話をしている感じでした。
「文系のための理系的問題解決 Excelで実践する数理的・統計的分析アプローチ」 多田実 著 オーム社 2008
回帰分析
などの統計的な方法や、
乱数を使ったシミュレーション、数理計画法などを紹介しています。
「社会・政策の統計の見方と活用 データによる問題解決」 久保真人 編 朝倉書店 2015
回帰分析
や
因子分析
を使った仮説の検証の仕方や、データの関係の見方を紹介しています。
「世界で最も美しい問題解決法 賢く生きるための行動経済学、正しく判断するための統計学」 リチャード・E.ニスベット 著 青土社 2018
かなり断定的に、「正しい物事の考え方」を解説しています。
方法論の
行動経済学
による人間の行動のクセの知見を参考にしつつ、
因果推論
関係の統計学と、
論理学
を使って、客観的に物事を検討する話があります。
「オープンシステムサイエンス 原理解明の科学から問題解決の科学へ」 所眞理雄 編著訳 NTT出版 2009
従来の科学は、クローズドシステム(閉じたシステム)のものだったと考えて、
新しく出て来たオープンシステムのためのサイエンスを解説しています。
オープンシステムは、生命や社会現象などです。
新しいアプローチとして、行動経済学、経済物理学、計算情報幾何学などが紹介されています。
クローズドシステムサイエンスは原理解明の科学として、
オープンシステムサイエンスは問題解決の科学としています。
「問題」の意味が、このサイトとはだいぶ違いますが、これはこれで興味深い本でした。
順路
次は
デジタルトランスフォーメーション(DX)