データそのものを重視する科学は、「データサイエンス(Data Science)」と呼ばれています。
データは、科学やビジネスで、記録や論拠として使われます。 もともと「データ」は重要なものでしたが、 コンピュータで大量のデータを扱えるようになってきたこともあり、 データサイエンスは存在感を増しています。 例えば、科学的なアプローチの特徴である、「 仮説の設定 」は、データサイエンスによって、大きく進歩しています。
コンピュータはデータを扱う道具です。 統計学 はデータを要約するための理論です。 データが多いと、量を扱うことに注目して、コンピュータや統計学の話になりがちですが、 データサイエンスでは、ひとつひとつのデータの意味や質( メタ知識 )も大事です。
データの意味や質の重要さは、データがひとつしかない場合(n = 1)がわかりやすいかもしれません。 測定が非常に難しい場合や、過去に1回しか発生していない現象では、データがひとつしかない場合があります。 データがひとつしかなければ、コンピュータや統計学は不要です。 しかし、このデータを解釈したり検討したりするための何かは必要です。 データサイエンスは、その「何か」の部分もカバーします。
データサイエンスには、いろいろな切り口があります。 データサイエンスの段階や、データを使う目的の違いで分類してみました。 大まかなイメージとして、「データを集める」等の言葉を添えていますが、 各分野の実際の内容は、もっと豊富です。
※ 多変量解析 や データマイニング は、 統計学 の一分野として分類することもできます。 このサイトでは、ブロックを分けています。
「データサイエンスには3つの定義がある」と言えそうです。 どれも、「データサイエンス = 統計学+α」ですが、 「α」の中身や大きさが違っています。
2000年前後の定義は、統計学からの発展形です。 統計学に、 統計学では見ていないもの、つまり、データそのものや、解析対象の現象そのものの理解を深めることを加えた学問を、 「データサイエンス」として提唱していました。
2000年前後の定義のデータサイエンスは、実務向きの学問を目指していると思います。
このサイトの定義は、このサイトを立ち上げる時(2007年)に、筆者が考えたものです。
このサイトでは、「データ+動詞」の形でデータサイエンスの体系を定義しています。 「データサイエンス」という言葉そのものに、できるだけ忠実になるようにしています。 価値工学 等では、製品の機能を定義する時に、「名詞+動詞」で機能を考えますが、 それに似ています。
「α」の割合がとても大きいです。 莫大な量のデータを扱う分野である「 シミュレーション 」を入れていますし、データを取る技術としての「 測定 」も入っています。 筆者の経験の範囲になりますが、 データを扱う現場では、「統計学は道具のひとつ」という感じなので、こういう定義にしています。
2013年頃の定義では、「α」は、 機械学習 の理論や、 データベース 等のIT技術です。 この定義の特徴は、αだけでなく、データサイエンスの使い道にもあります。 ビジネス(特に マーケティング )に使う統計学が、「データサイエンス」と呼ばれていることも多いです。
この定義では、ビッグデータを扱ったり、機械学習やIT技術の最新のものを使う点も特徴です。
2013年頃の内容は、90年代後半に流行した「 データウェアハウス 」や「 データマイニング 」の、発展版としての一面も持っています。 「データに語らせる」や、「ビジネスには、データ解析が威力を発揮する」という内容は、当時も言われています。
「アーティスト(芸術家・パフォーマー)」や「アスリート(スポーツ選手)」は、広い意味で使われる言葉ですが、 「データサイエンティスト」も広い意味で使われます。 「データサイエンティスト」の実際の意味には、下記のようなものがあります。 だいたいが、下記の内容の単独か、いくつかの組み合わせで使われています。
歴史的には、新しいタイプのデータで、新しいビジネスを生み出す人たちが「データサイエンティスト」を名乗り始めて、 その人のしている事を「データサイエンス」と考える風潮が起きて、2013年頃の「データサイエンス」の定義ができたようです。
データサイエンティストには、統計学やITのスキルだけでなく、現象の理解力やコミュニケーション力が必要と言われていますが、 これについても、歴史的な流れから来ています。
「データサイエンスの研究者」というよりもユーザなので、 「サイエンティスト」という言葉に対しての、一般的な認識とは違っています。
米国では、こういった仕事をするのが、博士号を持っている人だったことや、 最先端の学問を使うことから、「サイエンティスト」を付けるようになったようです。
「データの科学」 林知己夫 著 朝倉書店 2001
シリーズ[データの科学]の第1巻です。
データの科学とは何かについてから始まります。
「理論」重視の科学ではなく、「データ」重視の科学の重要性が述べられていました。
きちんと測定された「データ」に、勝るものはないと。。。
この本は、
アンケートによる社会的調査と分析を扱っています。
シリーズ全体はいわゆる「文系」の分野のデータサイエンスになっています。
著者は、戦争に従事してデータ解析した経歴をお持ちです。
そのデータは、人の命を表すものなので、
「データ」に対して強い思いをお持ちです。
統計学をかじっていると、「nを増やせば良い。」と簡単に思いがちですが、
たったひとつのデータの重みを、教えていただきました。
「現象をさぐる データの科学」 林知己夫 著 林知己夫著作集編集委員会 編 勉誠出版 2004
「発展→分化→精密化」と進んだ数理統計学は、「現象解明」というデータ解析の本来の目的とは、無縁のものになっているそうです。
データの科学の3つの相として、データ収集の計画、具体的な集め方の検討、データ解析を挙げています。
既存のデータを使う場合でも、データの収集のあり方は重視すべき、としています。
この点を無視しているデータ解析に対しても、著者は警鐘を鳴らしています。
著者のグループは研究を進める中で、フランスのベンゼクリ氏のグループが似た意識を持っていることを知り、
1987年に両者が集まって、日仏セミナーを開いたそうです。
1992年の第2回からは、Data Science(データサイエンス)をキャッチフレーズにしたそうです。
著者にとってのデータ解析の目的は、現象の解明です。
「データリテラシー」 柴田里程 著 共立出版 2001
共立出版から出ている「データサイエンス・シリーズ」の第1巻です。
この巻の第1章は「データサイエンス」になっています。
データサイエンス
は、「データの上流から下流までをトータルに科学する分野」とのことです。
この本では、データの様々な種類と、それらの表現方法を紹介しています。
表現方法には、平均値等の数値で見る方法や、グラフで見る方法についてがあります。
さらに、表現方法として、随所でDandDルールによるデータの組織化の話につなげています。
DandDルールというのは、「XML形式(属性と階層を持つ形式)でデータを記述しましょう。」というルールのことで、
このルールでデータをまとめておくと、様々な専門家がそのデータにアプローチできるようになるそうです。
このシリーズの各巻は、独立した専門書に近いです。
浅く広く概観するのではなく、いくつかの分野を狭く深くです。
ちなみに、筆者は、「データサイエンス」という言葉を、このシリーズを見つけた時に初めて知りました。
マイナーな言葉だと思っていましたので、この本の約10年後に、「データサイエンス」が世の中で流行したのは驚きでした。
「数理科学 6/2019 特集 データサイエンスの数理 数理で読み解くデータの価値」 サイエンス社 2019.6
数理モデリング
の話が多いです。
「巻頭言」「潜在空間 データサイエンスの鍵」としています。
潜在空間とは、
特徴量エンジニアリング
とほぼ同じ意味でした。
「変化検知から変化予兆検知へ」
モデルの構造の変化から、予兆を見つけるアプローチです。
潜在空間や
情報量
の変化に着目しています。
「データサイエンスと最適化〜ヒト・モノのモビリティの数理モデル〜」
ネットワーク構造の変化を扱っています。
「計算論的眼科学」
NMF(非負値行列分解)
や
畳み込みニューラルネットワーク(CNN)
が出て来ます。
「エネルギー地形解析」
イジングモデルを使って、エネルギーの変化を見ることで、多変量の時系列の変化を分析するそうです。
「人工知能における多様性の考慮」
偏りがなく多様性のある最適解を得る方法として、行列式点過程の方法を紹介し、
複数のロボットにチームとして動かす
強化学習
として、SARSA法を紹介しています。
「データとは何か?」 、
「経済バブルの数理モデリング」、
「知識のベクトル空間埋め込みと可視化」、という話もあります。
「数学セミナー 43(10) 特集 データサイエンス」 日本評論社 2004.10
データサイエンス
の最終的な目標は、そのデータの背後にある現象に対する、適切なモデルを導き出すことです。
形式的な処理ではなく、データの中身や意味まで考えた処理ができる人材が不足している、としています。
(「データサイエンティスト」という言葉は出て来ません。)
リレーショナルデータベース
、
データマイニング
、地震データや遺伝データの解析もあります。
「Keio SFC review 3(1) 特集 データサイエンス」 慶應義塾大学湘南藤沢学会 1999.04
データサイエンス
の構成は、統計学を中心として、
データベース
、数学論理学、社会調査法、モデリング技法の5つの領域にしています。
モデリング技法というのは、統計モデルではなく、自然現象や社会現象の数理モデル等です。
この特集は、慶応義塾大学での教育のあり方の話も多いです。
「統計数理 45(1) データ解析からデータ・サイエンスへ」 統計数理研究所 1997
データによって示される実際の現象を解析する学問として、データサイエンスを定義しています。
統計ソフトが発展しているので、理論重視ではなく、ソフトを利用する側からデータやモデルを見る学問を提案しています。
「調査と分析のための統計 : 社会・経済のデータサイエンス」 上藤一郎・森本栄一・常包昌宏 著 丸善 2006
学問としてのデータ解析の解説ではなく、使うためのデータ解析の解説の本です。
多変量解析
は、
回帰分析
や、
数量化理論
に紙面を割いています。
決定木
のひとつのCHAID分析も出ています。
サンプリング
や
アンケート
の章もあります。
ローレンツ曲線:データのばらつきを見るための曲線。累積比率の曲線。
ジニ係数:ローレンツ曲線を数値化したもの
「工学のためのデータサイエンス入門 フリーな統計環境Rを用いたデータ解析」 間瀬茂・神保雅一・鎌倉稔成・金藤・浩司 著
数理工学社 2004
Rを教材にして、解説しています。
内容は、
統計学
・
回帰分析
(非線形も含む)・
シミュレーション
です。この本でいうシミュレーションは、
モンテカルロ法
です。
コラムで、様々な分野をコンパクトにまとめていて、
疫学
や、
SPC
も出てきます。
「データ・スマート Excelではじめるデータサイエンス入門」 ジョン・W・フォアマン 著 インプレス 2017
Excelなどの表計算ソフトを使うと、データを直接見たり、触ったりできる、という事で、ほぼ表計算ソフトだけで
データサイエンス
を解説しています。
9章までは、
ネットワークのグラフ
の作成にGephiを使う以外は、Excelだけで話が進みます。
しかも、VBAと言われるExcelの
プログラミング
は、使いません。
それでも、
回帰分析
、
クラスター分析
、
ナイーブベイズ
、
ネットワーク分析
、
外れ値
の検出といった話が登場します。
シート上の計算なので、それなりに手間です。
最後の章で、初めてRの紹介になります。
9章までの作業ができる人がRを使うという事は、厨房の料理長のような感じになるそうです。
「Rによるデータサイエンス」 金明哲 著 森北出版 2007
多変量解析
や
データマイニング
の様々な手法と、Rで実行する方法がコンパクトにまとまっています。
「データサイエンス入門」 鄭躍軍・金明哲・村上征勝 著 勉誠出版 2007
データ解析の初歩を、とても丁寧に解説している本です。
データサイエンスとしては、データを自分で取るところからになっていて、
サンプリング
についての章もあります。
具体的なデータ解析は、社会的な調査のものになっています。
「学生・技術者のためのビッグデータ解析入門」 高安美佐子 編著 日本評論社 2014
経済物理学の研究者が著者です。
相関分析等の一般的な統計解析の話もありますが、
最後の章がネットワーク分析になっているのが特徴です。
著者も関わっているアカデミックな理論の解説になっています。
「ビッグデータ・リトルデータ・ノーデータ 研究データと知識インフラ」 クリスティン L.ボーグマン 著 佐藤義則・小山憲司 訳 勁草書房 2017
異なる学問分野について、「サイズ問題」、「いつデータが?」、「情報源と情報資源」、「知識インフラ」、「メタデータ」、「データアーカイビング」
、「文献」、「来歴」、「外部からの影響」、「財産権」、「倫理」、「研究課題」、「データの収集」、「データの分析」、「知見の公表」、
「データのキュレーション、共有、再利用」、という観点で、それぞれの分野の状況を説明しています。
扱っている分野は、天文学、センサネットワーク技術、インターネットサーベイとソーシャルメディア研究、社会技術研究、古典芸術と考古学、仏教研究です。
各分野を述べた後で、研究データの在り方についての説明があります。
「データサイエンティスト養成読本 ビジネス活用編」 橋威知郎・矢部章一 他 著 技術評論社 2018
章ごとに著者が違います。
1章:課題を解決するには、データ分析がいらない事もある。データ分析を使う事を前提にすると、手段と目的が逆転する。データ分析の成果は金額換算すると良い。
「すごいデータ分析ではなく、成果の出るデータ分析をすべき」、という話があるのですが、成果の出るデータ分析がどのようなものかの例はあまりありません。ただ、この章の著者は、集計レポートのようなものから、予測モデルを作るものまで幅広いアプローチをしていることは読み取れました。
2章:効果とデータの質の2軸で課題の優先順位を決める。この章では「データサイエンスでできる事=予測」になっている。
3章:機械学習が最善策ではない時は、潔く舵を切ることも必要。
4章:メルカリのデータ分析組織の話。社内の様々な数字を見る組織になっている。
5章:機械学習は、専門家の判断や意思決定をシステムに置き換えることで、人員削減や費用削減につなげることが得意。
6章:探索的データ分析として、基本統計量、クロス集計、散布図。
7章:予測の不確実性の推定として、予測区間を紹介
8章:組織の全員がデータを分析しつ意思決定できるようになることがその組織の強さになる。
「ビジネスデータサイエンスの教科書 ビジネスを構造的に理解、近未来の手がかりを洗い出す」 マット・タディ 著 すばる舎 2020
機械学習や、データサイエンスの教科書が扱っている手法を一通り紹介しています。
不確実性の分析としてデータのばらつきを見ることや、
実験計画法
、
テキストマイニング
にもひとつずつ章を作っている点は、特長かもしれません。
「データ・サイエンティストに学ぶ「分析力」 ビッグデータからビジネス・チャンスをつかむ」 ディミトリ・マークス, ポール・ブラウン 著 馬渕邦美 監修 日経BP社 2013
分析のポイントを、独特のまとめ方でわかりやすく説明しています。
・ターゲティング : 誰にアプローチするか
・メッセージ : 何に付いて話すか
・ロケーション : どこで顧客を見つけるか
・予算 : いくらを費やすべきか
・測定 : 有効と無効の把握
・最適化 : 有効なものの活用、無効なものの排除
「データサイエンス超入門 ビジネスで役立つ「統計学」の本当の活かし方」 工藤卓哉・保科学世 著 日経BP社 2013
分析対象は、マーケティングの話が中心です。
「構造化データサイエンスモデル」として、統計学の手法を体系的にまとめています。
データサイエンティストの「目利き力」の3要素として、ビジネスの企画力、統計知識、ITスキルを挙げています。
データサイエンティストの素養としては、分析の前提や限界の認識、特徴次元空間の意識、一専多能型のコミュニケーション能力を挙げています。
「データサイエンティスト完全ガイド 今、最も注目を浴びるセクシーな職業」 日経情報ストラテジー 編 日経BP社 2013
データサイエンティストのスキルは、着眼力、統計学も含めたIT、説明力です。
多くの企業におけるデータ解析の取り組みをまとめています。
マーケティングの話が多いですが、経営や工場の改善のためのデータ解析の話も紹介しています。
「データサイエンティスト養成読本 ビッグデータ時代のビジネスを支えるデータ分析力が身につく!」 データサイエンティスト養成読本編集部 技術評論社 2013
「データサイエンティスト = データ分析の結果をビジネスに展開する人」になっています。
必要なスキルは、データベースや統計学、機械学習の知識の他に、質問力、理解力、伝達力、説得力、推進力等を挙げています。
統計ソフトは、Rを紹介しています。
この本の主な分析対象は、マーケティングです。
データサイエンスのプロセスは、「モデリングを目指してデータの加工や分析を進め、その結果を展開する。」、としています。
「とある弁当屋の統計技師(データサイエンティスト) データ分析のはじめかた」 石田基広 著 共立出版 2013
データサイエンティストのスキルとして、分析力、問題を発見して解決する力、コミュニケーション力、事業分野の知識を挙げています。
この本は、データ分析の入門書になっています。
相関
・
回帰分析
・
ロジスティック回帰
・
決定木
等を弁当屋の例で、解説しています。
「データサイエンティスト データ分析で会社を動かす知的仕事人」 橋本大也 著 ソフトバンククリエイティブ 2013
必要なスキルは、統計とITの力、提案力、ビジネス問題の解決力です。
ネット上のビジネスの話が多いです。
「ビッグデータ入門 分析から価値を引き出すデータサイエンスの時代へ」 小林孝嗣・できるシリーズ編集部 著 インプレスジャパン 2014
「データサイエンテイスト = 専門的なスキル(統計解析やデータベースの扱い)と、ビジネスの実行力を兼ね備えたデータ分析の専門家」としています。
ただし、「Hint」というメモのような欄で、著者自身は「データサイエンティスト」という名称には、違和感を感じていることが書いてありました。
「経営システム 特集 ビッグデータ時代のアナリティクス」 日本経営工学会 2014.1
経営工学
の雑誌によるビッグデータの特集ですが、一般的なビッグデータの解説と比べて、特に異なる内容はないようでした。
「データサイエンティスト = ビッグデータを分析し、利活用する専門家」、
という定義や、
「データサイエンティスト = ビジネスの課題に対して、データ活用を通して意思決定を行い、ビジネスの成果や課題解決につなげることができる人材」、
という定義になっていました。
「“0”からはじめる 入門データ・サイエンティスト」 BSRビッグデータサイエンス研究会 編著 秀和システム 2014
ビジネスという観点で、KPIやPDCAといった経営学の用語の話が少しあります。
全体的には
平均値と標準偏差
、
検定
、
回帰分析
等の基本的な統計解析が中心です。
最後の章で、Rや
クラスター分析
にも少し触れています。
「ビジネス活用事例で学ぶデータサイエンス入門」 酒巻隆治・里洋平 著 SBクリエイティブ 2014
テーマは売上や顧客の分析です。「データサイエンティスト = コードが書けるマーケター」になってます。
テーマと手法が章毎にセットになっていて、章の中は、
現状とあるべき姿 → 問題発見 → データの収集と加工 → データ分析 → アクション
の流れで構成されてます。
手法は、クロス集計、ABテスト、
回帰分析
、
ロジスティック回帰
、
主成分分析
、
クラスター分析
、
決定木
、機械学習です。
機械学習は、ロジスティック回帰、k近傍法、単純ベイズ分類器、SVM、ランダムフォレストを予測手法として使って、
一番良いものを採用する話でした。
「データサイエンティスト最前線 始まった「全員分析」時代 課題が解ける、仕事が進む」 日経情報ストラテジー 編 日経BP社 2015
データサイエンス関連の本としては珍しいのですが、
東芝、パナソニック、森永、等の工場でのデータ解析や、データを使った工場の運営の話があります。
効率的な生産のための設備の組み合わせや、データによる監視の話です。
大阪ガスの社内研修で使われている資料もありました。
欠損値
の扱い方として、まず欠損している理由を調べることや、
平均値
は、元のデータがどのようなものかに注意することがあり、現実的なデータ解析がコンパクトにまとまっていました。
「データサイエンティストの基礎知識 挑戦するITエンジニアのために」 中川慶一郎・小林佑輔 編著 リックテレコム 2014
ITエンジニアから、データサイエンティストを目指す人向けです。
データ分析を、集計分析型、発見型、What-if型、プロアクティブ型の4つに分類して説明しています。
前の2つが分析で、後ろの2つが予測のための型としています。
分散処理や逐次高速処理等の、大規模データの分析に必要なIT技術についての章もあります。
「機械学習エンジニアになりたい人のための本」 石井大輔 著 翔泳社 2018
主にAIエンジニアとデータサイエンティストへのなり方が解説されています。
本や、Eラーニングやコミュニティが紹介されています。世界の情勢もあります。
AIエンジニアは数理モデルをプログラミングして、役に立つ仕組みを作れる人です。数理モデルの理解と、プログラミングが必須とされます。
データサイエンティストは、データ分析をして、依頼者に改善案などを提案する人ですが、AIエンジニアの能力も時には必要とされます。
「データサイエンス講義」 Rachel Schutt、Cathy O’Neil 著 瀬戸山雅人 他 訳 オライリー・ジャパン 2014
コロンビア大学での講義を元にしています。
各回は、実際にデータサイエンティストとして仕事をしている人が担当しています。
「データサイエンティスト」と呼ばれている人のしている事を「データサイエンス」と考える一方で、
データサイエンス
の定義は定まっていないという立場にもなっています。
「データサイエンティスト」という言葉は、2008年にDJ Patil氏とJeff Hammerbacher氏が、LinkedInとFacebookで作った言葉だそうです。
この本は、Google等、ITや最新のネットワーク技術を使って事業を展開している企業についての話です。
歴史的にも、このような仕事をしている人々がデータサイエンティストを自称するようになったのが始まりのようです。
明確には示していませんが、データサイエンティストの要件としては、何らかの博士号を持っていることも考えているようです。
講師はそういった方たちです。
データをアートのように見せる分野や、データ解析のコンテストの話にも、ひとつの章が作られています。
ロジスティック回帰
、
ベイズ統計
、
決定木
等も出て来ますが、個々の手法の説明は、それほど重視していません。
この本の主な内容は、予測のためのデータ解析です。
グラフを使ったり統計量を見たりして、探索的にデータを分析した後で、アルゴリズムやモデルを構築します。
この本では、因果関係のデータ解析の話もあります。
予測のためのデータ解析は、データがあるところから話が始まりますが、
因果関係のデータ解析は、ABテストのような実験的なアプローチでデータを取得するところからになっています。
疫学
の話もありました。
大量のデータを扱う技術として、
サンプリング
を挙げていて、データサイエンスの本としては珍しいです。
この本では、サンプリングとしては、ランダムサンプリングを想定しています。
また、一方で、母集団と思っているデータには、様々な理由から何らかのバイアスを持っていることが多いことにも、言及しています。
(このサイトでは、
データベースからのサンプリング
の所にあるように、意識的にバイアスをかけたサンプリングを武器として紹介していますが、そういう話はありませんでした。)
「ビッグデータを活かすデータサイエンス クロス集計から機械学習までのビジネス活用事例」 酒巻隆治・里洋平 著 東京図書 2014
同じ著者による上記の本について、手法の部分だけを噛み砕いて解説しています。
「戦略的データサイエンス入門 ビジネスに活かすコンセプトとテクニック」 Foster Provost、Tom Fawcett 著 オライリー・ジャパン 2014
「データに当てはまるモデルを探して、うまく見つかったらそれを利用する」、という仕事を
データサイエンス
と考えているようです。
そのせいだと思いますが、
過学習
を重視していて、ひとつの章を当てています。
「大学4年間のデータサイエンスが10時間でざっと学べる」 久野遼平・木脇太一 著 KADOKAWA 2018
ひとつの項目が、見開き2ページでコンパクトにまとまっています。
「データサイエンス入門」 竹村彰通 著 岩波書店 2018
「データサイエンスの目的は、データから価値を引き出すこと」として、ビッグデータから価値を引き出す人をデータサイエンティストと考えています。
「大量のデータには、未知の価値が埋もれている」という考え方になっています。
統計学やサイエンスの歴史の話もあります。
「データサイエンス」 ジョン・D.ケレハー, ブレンダン・ティアニー 著 ニュートンプレス 2020
この本では、「データサイエンス」という言葉の始まりについては触れていないのですが、
大規模なデータを数学的に厳密に導入することを目的として、1990年代の後半から注目されるようになり、
1997年の公開講義で統計の名称を「データサイエンス」と変更すべきとの提言があったとしています。
上記の林知己夫氏の本では、データサイエンスは、大規模データであるかどうかにはこだわりがありません。
また、数学的な厳密さについては、数学的な厳密さにこだわることで、本来の目的を見失った数理統計学の現状への対応として、
データサイエンスを打ち出されているので、厳密さを持ち出すのは元に戻っている感じです。
この本の中では、データはどこかにすでにあるもので、データサイエンスはそれを有益なものにする学問という考え方をされているので、
データを取る段階を視野に入れられている林知己夫氏のデータサイエンスとは、異なるものです。
「ビッグデータの罠」 岡嶋裕史 著 新潮社 2014
人が端末を持ち歩いてデータを発信し続けているので、
人が監視することや、監視されることが簡単になってしまったことの危うさについて。
「ビッグデータを利益に変える方法」 柴山和久 著 幻冬舎メディアコンサルティング 2014
データサイエンティストは、「どのようなデータがあるか」からではなく、
問題や課題を自ら見出し、問題や課題の分析に必要なデータを自分で集め、
分析の結果を現場の人に使ってもらうために、現場に出て行く、といった点も重視しています。
タイトルにあるビッグデータを利益に変える方法は、「分析」で、この本の分析は、最終的に見える化の形に持っていくことを重視しています。
筆者なりに解釈すると、「何が起きているのかが、データを見える形にすることでわかるようになれば、利益が生まれて来る」という考え方をしているようでした。
「経済経営のデータサイエンス」 石垣司 他 著 共立出版 2022
回帰分析、検定
、Lasso、多重検定、モンテカルロ実験(シミュレーション)、主成分分析、因子分析、多次元尺度構成法、クラスター分析、決定木、ロジスティック回帰分析、判別分析、ベイジアンネットワーク、トピックモデル、推薦システム、と様々な方法を紹介しています。
順路 次は データサイエンスの仕事