トップページ | ひとつ上のページ | 目次ページ | このサイトについて

データサイエンスの本

データサイエンス の参考文献はとても多いので、このページに分けています。

アカデミックなデータサイエンス

データの科学」  林知己夫 著 朝倉書店 2001
シリーズ[データの科学]の第1巻です。 データの科学とは何かについてから始まります。 「理論」重視の科学ではなく、「データ」重視の科学の重要性が述べられていました。 きちんと測定された「データ」に、勝るものはないと。。。
この本は、 アンケートによる社会的調査と分析を扱っています。 シリーズ全体はいわゆる「文系」の分野のデータサイエンスになっています。
著者は、戦争に従事してデータ解析した経歴をお持ちです。 そのデータは、人の命を表すものなので、 「データ」に対して強い思いをお持ちです。
統計学をかじっていると、「nを増やせば良い。」と簡単に思いがちですが、 たったひとつのデータの重みを、教えていただきました。


現象をさぐる データの科学」  林知己夫 著 林知己夫著作集編集委員会 編 勉誠出版 2004
「発展→分化→精密化」と進んだ数理統計学は、「現象解明」というデータ解析の本来の目的とは、無縁のものになっているそうです。
データの科学の3つの相として、データ収集の計画、具体的な集め方の検討、データ解析を挙げています。 既存のデータを使う場合でも、データの収集のあり方は重視すべき、としています。 この点を無視しているデータ解析に対しても、著者は警鐘を鳴らしています。
著者のグループは研究を進める中で、フランスのベンゼクリ氏のグループが似た意識を持っていることを知り、 1987年に両者が集まって、日仏セミナーを開いたそうです。 1992年の第2回からは、Data Science(データサイエンス)をキャッチフレーズにしたそうです。
著者にとってのデータ解析の目的は、現象の解明です。


データリテラシー」 柴田里程 著 共立出版 2001
共立出版から出ている「データサイエンス・シリーズ」の第1巻です。 この巻の第1章は「データサイエンス」になっています。 データサイエンス は、「データの上流から下流までをトータルに科学する分野」とのことです。
この本では、データの様々な種類と、それらの表現方法を紹介しています。 表現方法には、平均値等の数値で見る方法や、グラフで見る方法についてがあります。 さらに、表現方法として、随所でDandDルールによるデータの組織化の話につなげています。
DandDルールというのは、「XML形式(属性と階層を持つ形式)でデータを記述しましょう。」というルールのことで、 このルールでデータをまとめておくと、様々な専門家がそのデータにアプローチできるようになるそうです。
このシリーズの各巻は、独立した専門書に近いです。 浅く広く概観するのではなく、いくつかの分野を狭く深くです。
ちなみに、筆者は、「データサイエンス」という言葉を、このシリーズを見つけた時に初めて知りました。 マイナーな言葉だと思っていましたので、この本の約10年後に、「データサイエンス」が世の中で流行したのは驚きでした。


数理科学 6/2019 特集 データサイエンスの数理 数理で読み解くデータの価値」 サイエンス社 2019.6
数理モデリング の話が多いです。
「巻頭言」「潜在空間 データサイエンスの鍵」としています。 潜在空間とは、 特徴量エンジニアリング とほぼ同じ意味でした。
「変化検知から変化予兆検知へ」 モデルの構造の変化から、予兆を見つけるアプローチです。 潜在空間や 情報量 の変化に着目しています。
「データサイエンスと最適化〜ヒト・モノのモビリティの数理モデル〜」 ネットワーク構造の変化を扱っています。
「計算論的眼科学」 NMF(非負値行列分解)畳み込みニューラルネットワーク(CNN) が出て来ます。
「エネルギー地形解析」 イジングモデルを使って、エネルギーの変化を見ることで、多変量の時系列の変化を分析するそうです。
「人工知能における多様性の考慮」 偏りがなく多様性のある最適解を得る方法として、行列式点仮定の方法を紹介し、 複数のロボットにチームとして動かす 強化学習 として、SARSA法を紹介しています。
「データとは何か?」「経済バブルの数理モデリング」「知識のベクトル空間埋め込みと可視化」、という話もあります。


数学セミナー 43(10) 特集 データサイエンス」 日本評論社 2004.10
データサイエンス の最終的な目標は、そのデータの背後にある現象に対する、適切なモデルを導き出すことです。
形式的な処理ではなく、データの中身や意味まで考えた処理ができる人材が不足している、としています。 (「データサイエンティスト」という言葉は出て来ません。)
リレーショナルデータベースデータマイニング 、地震データや遺伝データの解析もあります。


Keio SFC review 3(1) 特集 データサイエンス」 慶應義塾大学湘南藤沢学会 1999.04
データサイエンス の構成は、統計学を中心として、 データベース 、数学論理学、社会調査法、モデリング技法の5つの領域にしています。 モデリング技法というのは、統計モデルではなく、自然現象や社会現象の数理モデル等です。
この特集は、慶応義塾大学での教育のあり方の話も多いです。


統計数理 45(1) データ解析からデータ・サイエンスへ」 統計数理研究所 1997
データによって示される実際の現象を解析する学問として、データサイエンスを定義しています。
統計ソフトが発展しているので、理論重視ではなく、ソフトを利用する側からデータやモデルを見る学問を提案しています。


データのとり方とまとめ方 :分析化学のための統計学とケモメトリックス」  James N. Miller・Jane C. Miller 著 宗森信・佐藤寿邦 訳 共立出版 1991
分析化学へのデータサイエンスの活用を解説した本です。 統計学の使い方から、実験法、測定法、多変量解析と、 一貫してデータサイエンスを背景にして書かれています。 また、ExcelとMinitabで計算を行っているため、 ExcelやMinitabをデータサイエンスの道具にする際の参考書になります。 実例が分析化学特有で少々わかりにくいことを除けば、 応用範囲の広い本です。


調査と分析のための統計 : 社会・経済のデータサイエンス」  上藤一郎・森本栄一・常包昌宏 著 丸善 2006
学問としてのデータ解析の解説ではなく、使うためのデータ解析の解説の本です。
多変量解析 は、 回帰分析 や、 数量化理論 に紙面を割いています。 決定木 のひとつのCHAID分析も出ています。
サンプリングアンケート の章もあります。
ローレンツ曲線:データのばらつきを見るための曲線。累積比率の曲線。
ジニ係数:ローレンツ曲線を数値化したもの


工学のためのデータサイエンス入門 フリーな統計環境Rを用いたデータ解析」 間瀬茂・神保雅一・鎌倉稔成・金藤・浩司 著 数理工学社 2004
Rを教材にして、解説しています。 内容は、 統計学回帰分析 (非線形も含む)・ シミュレーション です。この本でいうシミュレーションは、 モンテカルロ法 です。 コラムで、様々な分野をコンパクトにまとめていて、 疫学 や、 SPC も出てきます。


データ・スマート Excelではじめるデータサイエンス入門」  ジョン・W・フォアマン 著 インプレス 2017
Excelなどの表計算ソフトを使うと、データを直接見たり、触ったりできる、という事で、ほぼ表計算ソフトだけで データサイエンス を解説しています。 9章までは、 ネットワークのグラフ の作成にGephiを使う以外は、Excelだけで話が進みます。 しかも、VBAと言われるExcelの プログラミング は、使いません。
それでも、 回帰分析クラスター分析ナイーブベイズネットワーク分析外れ値 の検出といった話が登場します。 シート上の計算なので、それなりに手間です。
最後の章で、初めてRの紹介になります。 9章までの作業ができる人がRを使うという事は、厨房の料理長のような感じになるそうです。


Rによるデータサイエンス」  金明哲 著 森北出版 2007
多変量解析データマイニング の様々な手法と、Rで実行する方法がコンパクトにまとまっています。


データサイエンス入門」 鄭躍軍・金明哲・村上征勝 著 勉誠出版 2007
データ解析の初歩を、とても丁寧に解説している本です。 データサイエンスとしては、データを自分で取るところからになっていて、 サンプリング についての章もあります。
具体的なデータ解析は、社会的な調査のものになっています。


学生・技術者のためのビッグデータ解析入門」 高安美佐子 編著 日本評論社 2014
経済物理学の研究者が著者です。
相関分析等の一般的な統計解析の話もありますが、 最後の章がネットワーク分析になっているのが特徴です。 著者も関わっているアカデミックな理論の解説になっています。


ビジネスのデータ解析

Head Firstデータ解析 : 頭とからだで覚えるデータ解析の基本」 Michael Milton 著 大橋真也 監訳 オライリー・ジャパン 2010
データ解析の方法だけでなく、データ解析の業務もイメージしやすいようになっています。
@データ解析入門 → 課題の把握から始まる、データ解析の仕事の一連の流れについて
A実験 : 持論を検証する
B最適化 : 最大にする
Cデータの可視化
D仮説検定 : 否定する
Eベイズ統計 : 基準を活用する
F主観確率 : 数値で表した信念
G経験則 : 「固定観念が経験則である」
Hヒストグラム
I回帰 : 予測 J誤差 : 予測は、誤差を明記すると、「理にかなった期待」、「さらなる知識」、「より優れた判断」につながる
Kリレーショナルデータベース
Lデータクリーニング : Excelでのデータの整理の仕方
未収録事項の上位10位がこの後に続くのですが、10番目は、「あなたの専門知識」でした。 「データ解析の仕事を、実際にやって来た人の本だ!」、と思える内容でした。


偶然と必然の方程式 仕事に役立つデータサイエンス入門」 マイケル・J・モーブッシン 著 田淵健太 訳 日経BP社 2013
結果に対して、実力と運がどれくらいの割合で影響しているのかを、統計学を使って説明しています。
「観察された結果 = 実力 + 運」 になっています。


ロジカルデータ分析 スピーディーに収益につなげる新手法」 高橋威知郎 著 日経BP社 2015
ありもののデータで、ありもののツールで、シンプルに分析する。 データがない時は感覚データで補強する。 何をすべきかは逆算で考える。
定性的な分析は、定量的な分析と同じくらい大事。 定性的な分析というのは、シナリオ分析や新QC7つ道具の事。 定量的な分析は、データを使うが、データを使う限り、どうしても過去に対しての分析しかできない。 未来の話をするには、シナリオ分析が重要。


データサイエンティストの秘密ノート 35の失敗事例と克服法」 高橋威知郎、白石卓也、清水景絵 著 SBクリエイティブ 2016
データ分析の35の失敗事例について、赤裸々に語っています。 納期を考えながら進める。 依頼人の目的を考えながら進める。 などは、データ分析に限った話ではないですが、こういったポイントから逸脱すると、分析者はどういった状況になるのかの話もあります。
データをきちんと整理するだけで、分析になる事もある。 異なる手法を使っても結論はあまり変わらない。 結論に至るまでの効率が変わったりするので、手持ちの道具は、増やしておく。
筆者にも身に覚えのある話ばかりでした。 統計学やソフトの知識は大事ですが、実務でデータ分析をする人にとっては、それと同じくらいか、それ以上に大事な話が満載な感じです。


2013年頃の「データサイエンティスト」

データ・サイエンティストに学ぶ「分析力」 ビッグデータからビジネス・チャンスをつかむ」 ディミトリ・マークス, ポール・ブラウン 著 馬渕邦美 監修 日経BP社 2013
分析のポイントを、独特のまとめ方でわかりやすく説明しています。
・ターゲティング : 誰にアプローチするか
・メッセージ : 何に付いて話すか
・ロケーション : どこで顧客を見つけるか
・予算 : いくらを費やすべきか
・測定 : 有効と無効の把握
・最適化 : 有効なものの活用、無効なものの排除


データサイエンス超入門 ビジネスで役立つ「統計学」の本当の活かし方」 工藤卓哉・保科学世 著 日経BP社 2013
分析対象は、マーケティングの話が中心です。
「構造化データサイエンスモデル」として、統計学の手法を体系的にまとめています。
データサイエンティストの「目利き力」の3要素として、ビジネスの企画力、統計知識、ITスキルを挙げています。 データサイエンティストの素養としては、分析の前提や限界の認識、特徴次元空間の意識、一専多能型のコミュニケーション能力を挙げています。


データサイエンティスト完全ガイド  今、最も注目を浴びるセクシーな職業」 日経情報ストラテジー 編 日経BP社 2013
データサイエンティストのスキルは、着眼力、統計学も含めたIT、説明力です。
多くの企業におけるデータ解析の取り組みをまとめています。 マーケティングの話が多いですが、経営や工場の改善のためのデータ解析の話も紹介しています。


データサイエンティスト養成読本 ビッグデータ時代のビジネスを支えるデータ分析力が身につく!」 データサイエンティスト養成読本編集部 技術評論社 2013
「データサイエンティスト = データ分析の結果をビジネスに展開する人」になっています。 必要なスキルは、データベースや統計学、機械学習の知識の他に、質問力、理解力、伝達力、説得力、推進力等を挙げています。
統計ソフトは、Rを紹介しています。 この本の主な分析対象は、マーケティングです。 データサイエンスのプロセスは、「モデリングを目指してデータの加工や分析を進め、その結果を展開する。」、としています。


とある弁当屋の統計技師(データサイエンティスト) データ分析のはじめかた」 石田基広 著 共立出版 2013
データサイエンティストのスキルとして、分析力、問題を発見して解決する力、コミュニケーション力、事業分野の知識を挙げています。
この本は、データ分析の入門書になっています。 相関回帰分析ロジスティック回帰決定木 等を弁当屋の例で、解説しています。


データサイエンティスト データ分析で会社を動かす知的仕事人」 橋本大也 著 ソフトバンククリエイティブ 2013
必要なスキルは、統計とITの力、提案力、ビジネス問題の解決力です。
ネット上のビジネスの話が多いです。


ビッグデータ入門 分析から価値を引き出すデータサイエンスの時代へ」 小林孝嗣・できるシリーズ編集部 著 インプレスジャパン 2014
「データサイエンテイスト = 専門的なスキル(統計解析やデータベースの扱い)と、ビジネスの実行力を兼ね備えたデータ分析の専門家」としています。
ただし、「Hint」というメモのような欄で、著者自身は「データサイエンティスト」という名称には、違和感を感じていることが書いてありました。


経営システム 特集 ビッグデータ時代のアナリティクス」 日本経営工学会 2014.1
経営工学 の雑誌によるビッグデータの特集ですが、一般的なビッグデータの解説と比べて、特に異なる内容はないようでした。
「データサイエンティスト = ビッグデータを分析し、利活用する専門家」、 という定義や、
「データサイエンティスト = ビジネスの課題に対して、データ活用を通して意思決定を行い、ビジネスの成果や課題解決につなげることができる人材」、 という定義になっていました。


“0”からはじめる 入門データ・サイエンティスト」 BSRビッグデータサイエンス研究会 編著 秀和システム 2014
ビジネスという観点で、KPIやPDCAといった経営学の用語の話が少しあります。
全体的には 平均値と標準偏差検定回帰分析 等の基本的な統計解析が中心です。 最後の章で、Rや クラスター分析 にも少し触れています。


ビジネス活用事例で学ぶデータサイエンス入門」 酒巻隆治・里洋平 著 SBクリエイティブ 2014
テーマは売上や顧客の分析です。「データサイエンティスト = コードが書けるマーケター」になってます。
テーマと手法が章毎にセットになっていて、章の中は、
現状とあるべき姿 → 問題発見 → データの収集と加工 → データ分析 → アクション
の流れで構成されてます。
手法は、クロス集計、ABテスト、 回帰分析ロジスティック回帰主成分分析クラスター分析決定木 、機械学習です。 機械学習は、ロジスティック回帰、k近傍法、単純ベイズ分類器、SVM、ランダムフォレストを予測手法として使って、 一番良いものを採用する話でした。


ビッグデータを活かすデータサイエンス クロス集計から機械学習までのビジネス活用事例」 酒巻隆治・里洋平 著 東京図書 2014
同じ著者による上記の本について、手法の部分だけを噛み砕いて解説しています。


戦略的データサイエンス入門 ビジネスに活かすコンセプトとテクニック」 Foster Provost、Tom Fawcett 著 オライリー・ジャパン 2014
「データに当てはまるモデルを探して、うまく見つかったらそれを利用する」、という仕事を データサイエンス と考えているようです。 そのせいだと思いますが、 過学習 を重視していて、ひとつの章を当てています。


データサイエンティスト最前線 始まった「全員分析」時代 課題が解ける、仕事が進む」 日経情報ストラテジー 編 日経BP社 2015
データサイエンス関連の本としては珍しいのですが、 東芝、パナソニック、森永、等の工場でのデータ解析や、データを使った工場の運営の話があります。 効率的な生産のための設備の組み合わせや、データによる監視の話です。
大阪ガスの社内研修で使われている資料もありました。 欠損値 の扱い方として、まず欠損している理由を調べることや、 平均値 は、元のデータがどのようなものかに注意することがあり、現実的なデータ解析がコンパクトにまとまっていました。


データサイエンティストの基礎知識 挑戦するITエンジニアのために」 中川慶一郎・小林佑輔 編著 リックテレコム 2014
ITエンジニアから、データサイエンティストを目指す人向けです。
データ分析を、集計分析型、発見型、What-if型、プロアクティブ型の4つに分類して説明しています。 前の2つが分析で、後ろの2つが予測のための型としています。
分散処理や逐次高速処理等の、大規模データの分析に必要なIT技術についての章もあります。


大学4年間のデータサイエンスが10時間でざっと学べる」 久野遼平・木脇太一 著 KADOKAWA 2018
ひとつの項目が、見開き2ページでコンパクトにまとまっています。


データサイエンス入門」 竹村彰通 著 岩波書店 2018
「データサイエンスの目的は、データから価値を引き出すこと」として、ビッグデータから価値を引き出す人をデータサイエンティストと考えています。 「大量のデータには、未知の価値が埋もれている」という考え方になっています。
統計学やサイエンスの歴史の話もあります。


機械学習エンジニアになりたい人のための本」 石井大輔 著 翔泳社 2018
主にAIエンジニアとデータサイエンティストへのなり方が解説されています。 本や、Eラーニングやコミュニティが紹介されています。世界の情勢もあります。
AIエンジニアは数理モデルをプログラミングして、役に立つ仕組みを作れる人です。数理モデルの理解と、プログラミングが必須とされます。 データサイエンティストは、データ分析をして、依頼者に改善案などを提案する人ですが、AIエンジニアの能力も時には必要とされます。


データサイエンス講義」 Rachel Schutt、Cathy O’Neil 著 瀬戸山雅人 他 訳 オライリー・ジャパン 2014
コロンビア大学での講義を元にしています。 各回は、実際にデータサイエンティストとして仕事をしている人が担当しています。 「データサイエンティスト」と呼ばれている人のしている事を「データサイエンス」と考える一方で、 データサイエンス の定義は定まっていないという立場にもなっています。
「データサイエンティスト」という言葉は、2008年にDJ Patil氏とJeff Hammerbacher氏が、LinkedInとFacebookで作った言葉だそうです。
この本は、Google等、ITや最新のネットワーク技術を使って事業を展開している企業についての話です。 歴史的にも、このような仕事をしている人々がデータサイエンティストを自称するようになったのが始まりのようです。 明確には示していませんが、データサイエンティストの要件としては、何らかの博士号を持っていることも考えているようです。 講師はそういった方たちです。
データをアートのように見せる分野や、データ解析のコンテストの話にも、ひとつの章が作られています。 ロジスティック回帰ベイズ統計決定木 等も出て来ますが、個々の手法の説明は、それほど重視していません。
この本の主な内容は、予測のためのデータ解析です。 グラフを使ったり統計量を見たりして、探索的にデータを分析した後で、アルゴリズムやモデルを構築します。
この本では、因果関係のデータ解析の話もあります。 予測のためのデータ解析は、データがあるところから話が始まりますが、 因果関係のデータ解析は、ABテストのような実験的なアプローチでデータを取得するところからになっています。 疫学 の話もありました。
大量のデータを扱う技術として、 サンプリング を挙げていて、データサイエンスの本としては珍しいです。 この本では、サンプリングとしては、ランダムサンプリングを想定しています。 また、一方で、母集団と思っているデータには、様々な理由から何らかのバイアスを持っていることが多いことにも、言及しています。 (このサイトでは、 データベースからのサンプリング の所にあるように、意識的にバイアスをかけたサンプリングを武器として紹介していますが、そういう話はありませんでした。)


ビッグデータの罠」 岡嶋裕史 著 新潮社 2014
人が端末を持ち歩いてデータを発信し続けているので、 人が監視することや、監視されることが簡単になってしまったことの危うさについて。




順路 次は 統計学

Tweet