トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

問題解決と課題達成のためのデータサイエンス

問題解決の手順課題達成の手順 の要所要所で、 データサイエンス は重要な道具になります。
データサイエンス

一番重要な使い方は、問題や効果の大きさ、因果関係の強さ、といったものを定量的に表現するための方法としてです。

そのほかには、言語情報を集めたり、頭で考えただけでは思い付けない情報を見つける方法としても、使うことができます。

以下は、 問題解決の手順 に沿った説明ですが、 課題達成の手順 でも考え方は同じです。

データサイエンスだけでは解決しない

データサイエンスを勉強すると、データだけで物事を解決できるような気分になることがあります。 その気持ちは、筆者にもよくわかるものですが、 いくらデータを見ても、どんなに高度な分析方法を使ったとしても、それだけで 問題解決や課題達成 につながることはないです。

データの不備

データサイエンスだけでは解決しない理由のひとつは、扱うデータには、「偏っている」や、「現象そのものを表していない」、ということがよくある点です。 このような状況でも、「このデータではダメだ」とはしないで、解決に必要な情報をできるだけ引き出す必要があります。 初めて扱う現場のデータなら、「普段の現場はどのようになっているのか?」、「このデータは何のために記録しているのか?」といったことを、 データから理解することで、解決に近付けます。

データサイエンスを勉強していると、 データの不備としては、「数が足りない」、「ばらつきが大きい」、「異常値や欠損値が混ざっている」といった点が気になるかもしれません。 もちろん、こういった点もあるのですが、問題解決で大変なのは、「偏っている」や、「現象そのものを表していない」という点です。 「偏っている」や「現象そのものを表していない」は、データの背景まで把握していないとわからないこともあります。 対策が終わって、しばらくしてから気付くこともあります。

「偏っている」や、「現象そのものを表していない」という状況でも、解決させなければいけない問題は、解決するように進めます。

手順の各段階の対象の違い

世の中の解説では、現象を表すデータから、問題の解決策が見えるような例が、もしかしたらほとんどかもしれません。

ところが実際の問題では、現状把握、要因解析、対策立案、といった段階で、前の段階とは違うデータを見に行くことは珍しくありません。 そのため、ひとつのデータセットと、それを扱う手法で問題解決につながるようなことにはならないです。

冒頭の繰り返しになるのですが、 問題解決や課題達成 という目的に対して、データサイエンスは道具として使うことになります。 各段階のつながりの部分は、データサイエンスではないです。

問題解決と課題達成の手順 の要所要所でデータサイエンスを使って、これらの目的に行き着くことを目指します。

データサイエンティスト?

世の中のデータサイエンティストのイメージは、「Pythonが得意な人」、「精度の高いモデルが作れる人」といった感じで定着しつつあるようです。

わずかなデータを手がかりにして、データについての知識や経験を活かして問題を解決させていく人は、何なのでしょうか?

データサイエンスのスピード

問題解決と課題達成 のページにスピード感の話がありますが、特に問題解決では、とにかくスピードが大事な時があります。

現状把握から効果の確認までを、「1時間以内」、「今日中」といった納期で実行する必要があることもあります。 こういう場合は、定量的な分析が必要なところと、定量性の精度がどの程度必要なのかを見極めて、優先順位をつけていくと良いです。



データの利活用の進め方

データサイエンスの仕事

参考文献

データ農業が日本を救う」 窪田新之助 著 集英社インターナショナル 2020
オランダは、現状をデータで確認し、対策の効果もデータで確認していく農業が、非常に進んでんいるそうです。 ここで見るデータは、収量などの結果系ではなく、光の量などの原因系です。 しかも、推論した値や、カタログの値ではなく、実測した値です。


手順の中でのデータサイエンスの手法

IMPLEMENTING SIX SIGMA」 Forrest W. Breyfogle III 著 WILEY 2003
85%くらいを使って、DMAICの各段階で使う手法について、体系的かつ詳細に説明しています。 残りは、業務の流れを扱うテーマである、リーンや 制約条件の理論 のテーマをシックスシグマの流れで行う話や、DMADVの話、シックスシグマの運営に話になています。
手法の概略は下記になります。
D:顧客の声の分析
M:概念のグラフ化、関係の情報のグラフ化(QFD(品質機能展開))、データの精度の評価
A:検定推定回帰分析
I:実験計画法
C:管理図信頼性の評価


シックスシグマ」 Forrest W. Breyfogle III 著 三田昌弘 監訳 エコノミスト社 2006
上の本の日本語版です。
ちなみに、筆者は日本語版は図書館でパラパラ見た程度です。 この本は英語の原著を古書で買って、読んでいます。(5分の1くらいの値段でしたので)


Head Firstデータ解析 : 頭とからだで覚えるデータ解析の基本」 Michael Milton 著 大橋真也 監訳 オライリー・ジャパン 2010
データ解析の方法だけでなく、データ解析の業務もイメージしやすいようになっています。
@データ解析入門 : 定義、分解、評価、判断の4段階でデータ解析を進める
A実験 : 持論を検証する
B最適化 : 利益を最大にするための資源の配分問題を、Excelのソルバーで解く
Cデータの可視化 :収入を縦軸、その他の変数を横軸にした散布図を、比較したい対象毎に作成すると、違いがわかる
D仮説検定 : 統計学的な仮説検定の話ではないです。 様々な仮説がある時に、「正しい仮説を選ぶ」ではなく、「もっとも反証の少ない仮説を残す」というアプローチをする話になっています。
Eベイズ統計 : 「陽性と判定された場合に、本当に陽性である確率」を算出
F主観確率 : 確信度や可能性を、言葉ではなく、数値で表す。複数の人のその数値をグラフにすると、その数値の確からしさがわかる
G経験則 : ごみの総量の変化を実際に測るのは大変なので、一般市民やゴミ処理業者へのアンケートから、変化の有無を分析
Hヒストグラム : データの状況を一目で判断
I回帰 : 2つの変数の関係を分析
J誤差 : 予測は、誤差を明記すると、「理にかなった期待」、「さらなる知識」、「より優れた判断」につながる
Kリレーショナルデータベース : データの関係を管理する
Lデータクリーニング : Excelでのデータの整理の仕方。1つのセルに複数のデータが混ざっている状態を整形していく。
未収録事項の上位10位がこの後に続くのですが、10番目は、「あなたの専門知識」でした。 「データ解析の仕事を、実際にやって来た人の本だ!」、と思える内容でした。


定量分析の教科書 ビジネス数字力養成講座」 グロービス 著 東洋経済新報社 2016
分析の本質を、「比較」としています。 棒グラフは、棒の長さで比較しますし、散布図は、縦軸と横軸を比較するものとしています。
比較をすることで、因果関係がわかり、因果関係がわかれば、問題を解決する方向に進められる、としています。
仮説思考をしてから、データを集める。
比較の軸は、インパクト(大きさ)、ギャップ(差異)、トレンド(時間的な変化)、ばらつき(分布)、パターン(法則)の5つ。
比較の技術は、グラフ、統計量、数式による表現( 重回帰分析 など)。
フェルミ推定:いくつかの前提をおいて、ざっくりと量を計算する方法。


問題解決ができる!武器としてのデータ活用術」 柏木吉基 著 翔泳社 2019
プロセスを、
・目的・問題を定義する、
・指標を特定する、現状を把握する、
・評価する、
・要因を特定する、
・方策を考える
としています。
「データの中に答えはないから、データを見始めることはやめる」、 「データ活用の全てを台無しにする主因は、問題が明確ではないことと、問題とデータが一致していないこと」、 「客観的な評価のために比較をする」、 「方策は要因に対してしなければ意味がない」といった感じのメッセージがありました。


「そうか、ここが問題だったんだ!」がどんどん見えてくるデータの読み方・活かし方」 柏木吉基 著 大和出版 2016
課題解決の5つのプロセスとして、
・課題定義、
・現状把握、
・課題ポイント特定、
・要因の特定、
・方策の検討、
としています。
主語や目標がどういった視点からのものなのかを明確にすることや、課題を具体的にすることを重視されています。
数値の関係は、散布図や相関係数で確認しています。
本全体は、市役所の観光振興の活動を題材にしています。


問題解決のためのデータ分析」 齋藤健太 著 クロスメディア・パブリッシング 2019
内容は、売上の分析です。
問題解決の4つのプロセスを、
・現状の理解、
・原因の見極め、
・打ち手の決定、
・実行、
としています。
論理的な考え方をしたり、Excelを使ってデータの傾向を見たり、というアプローチでデータ分析を進めます。


ロジカルデータ分析 スピーディーに収益につなげる新手法」 高橋威知郎 著 日経BP社 2015
ありもののデータで、ありもののツールで、シンプルに分析する。 データがない時は感覚データで補強する。 何をすべきかは逆算で考える。
定性的な分析は、定量的な分析と同じくらい大事。 定性的な分析というのは、シナリオ分析や新QC7つ道具の事。 定量的な分析は、データを使うが、データを使う限り、どうしても過去に対しての分析しかできない。 未来の話をするには、シナリオ分析が重要。


数理や統計による問題の分析

問題解決のためのデータ分析基礎講座」 高橋威知郎 著 ビジネス教育出版社 2020
この本では、「問題」と「課題」が出てきますが、特に区別されていません。
データ分析が手段から目的に変わっている事例が多いこと、PoCや見える化をしてもうまくいかないなど、ネガティブな話が力説されています。
良い見える化は、見ることで行動につながるものとしています。 そういった見える化をするには、XYZの3つのデータを取るようにします。
データ分析のフレームワークとして「PPDACサイクル」というものが、紹介されています。 「PDCAサイクル」と似ていますが、PPDACは、
・Problem:課題の設定
・Plan:調査・分析の計画
・Data:情報収集
・Analysis:情報の整理・集計・分析・数理モデル構築など
・Conclusion:とりあえずの結論
、となっています。
この本では、「データ分析者はテーマを選べる」という点を前提にして話が進んでいます。 そのため、「まず、データのことは考えずにビジネス課題を抽出。 次に、その中でデータ分析が必要で、難し過ぎず、効果の大きいものを選ぶ」という手順になっています。
この本のデータ分析では、予測モデルを作ることがアウトプットになっています。


問題解決のためのデータ分析応用講座」 高橋威知郎 著 ビジネス教育出版社 2020
PPDACサイクルの紹介など、一部の内容は上記の基礎講座と重なっています。
高度な数理モデルがいろいろと紹介されていますが、全体的には、EXCELの回帰分析を使って パス解析 をして、商売のデータを分析する内容になっています。 季節性のモデル化などもあります。
この本における「問題」や「課題」は、「比較したいこと」や「数式で表したい変数の関係」といった感じの意味で使わています。


アルゴリズム思考術 問題解決の最強ツール」 ブライアン・クリスチャン、トム・グリフィス 著 早川書房 2017
コンピュータ処理のために考案されてきたアルゴリズムを、日常生活にも利用しようとしている本です。 扱っているアルゴリズムは、最適停止、探索、ソート、キャシュ、スケジューリング、 ベイズの法則オーバーフィッティング 、緩和法、ランダム性、 ネットワーキングゲーム理論 です。
全般的に、限られた時間と情報の中で、ベストと思われる行動をするための話をしている感じでした。


文系のための理系的問題解決 Excelで実践する数理的・統計的分析アプローチ」 多田実 著 オーム社 2008
回帰分析 などの統計的な方法や、 乱数を使ったシミュレーション、数理計画法などを紹介しています。


社会・政策の統計の見方と活用 データによる問題解決」 久保真人 編 朝倉書店 2015
回帰分析因子分析 を使った仮説の検証の仕方や、データの関係の見方を紹介しています。


世界で最も美しい問題解決法 賢く生きるための行動経済学、正しく判断するための統計学」 リチャード・E.ニスベット 著 青土社 2018
かなり断定的に、「正しい物事の考え方」を解説しています。
方法論の 行動経済学 による人間の行動のクセの知見を参考にしつつ、 因果推論 関係の統計学と、 論理学 を使って、客観的に物事を検討する話があります。


オープンシステムサイエンス 原理解明の科学から問題解決の科学へ」 所眞理雄 編著訳 NTT出版 2009
従来の科学は、クローズドシステム(閉じたシステム)のものだったと考えて、 新しく出て来たオープンシステムのためのサイエンスを解説しています。 オープンシステムは、生命や社会現象などです。 新しいアプローチとして、行動経済学、経済物理学、計算情報幾何学などが紹介されています。
クローズドシステムサイエンスは原理解明の科学として、 オープンシステムサイエンスは問題解決の科学としています。
「問題」の意味が、このサイトとはだいぶ違いますが、これはこれで興味深い本でした。


順路 次は 現状把握のためのデータサイエンス

Tweet データサイエンス教室