トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

統計学

データから情報を得るための手段として、古くから発達してきたのが統計学です。 データサイエンス の基礎のひとつになっています。

「差があるとはいえない。」等、独特の言葉使いが出て来たりしますので、 学ぶには、柔軟さが必要です。 あれこれ考えるより、いろいろ使ってみて、いろいろな事例を見て、概念に慣れて行くのが良いと思います。

統計学の教科書では、母平均(真の平均値)と標本平均の違いや、 母分散が既知の場合と未知の場合の違い、分布の使い分け、等が解説されています。 しかし、実用上は、これらの話を知らなくても事足りることがほとんどです。 車の製造方法や、動く仕組みを知らなくても、楽しいドライブに行けるような感じです。

真の値と母平均

真の値は、「たぶん、この位だろう」という所までしか、私達は知る事はできません。 「神様だけが知っている値」と言われています。 統計学には、「真の値が存在するが、私達が知る事ができるのは、真の値に近いと思われる値。 それがサンプルから計算した平均値や標準偏差」、という考え方があります。

母平均は、集団全体の平均値ですが、 その集団から、無限にサンプル数を増やすことが可能な場合の平均値は、正確に知ることができません。

検定推定 の理論には、真の値や母平均の考え方がありますが、それらは知ることができません。 統計学の根幹には、こういったものがありますので、統計学はミステリアスな学問だと思っています。

ところで、 工程管理 を実際にやっていて気付いたのですが、データ解析の実際の場面では、 系統誤差 がどのようにデータに影響しているのかは、あまりわかっていないことが多いです。 こういう事が普通だとすると、真の値うんぬんの話は、あまり重要ではありません。

また、真の値を仮定するにしても、 真の値が複数あると思ったり、真の値が時間的に変化していると思った方が良いことがあります。

統計学を使う時には、こういった事を知っていた方が良いと思います。

統計的な数字への批判

参考文献にもありますが、 アンケート調査の結果や、実験結果について、「間違っている!」、「ウソだ!」といった批判は、 よく耳にします。

よくある批判は、平均値を計算する時に使うデータの サンプリング の問題です。 例えば、自分の知り合いの20代の人々にアンケートした結果を使って、 「世の中のすべての20代は、こう考えています。」という報告をした場合です。 結果とデータが合っていないです。

統計的な数字へは、指摘がいろいろ出てきますが、 何らかの問題があっても、少なくとも議論の土台を提供した事は、大きな成果と思います。 完璧な数字でないとしても、ここは評価すべきと思います。 少なくとも、 ヒューリスティクス のためのデータにはなりますので。

数字を出す側としては、「この数字には、落ち度は絶対にない」とか、 「これは真実」と思ってしまわない事が心がけとしてあれば良いのではないでしょうか? 統計的な数字を発表する時は、その数字だけを強調するのではなく、サンプリングの情報もセットにするのが理想です。



ビッグデータの統計学と落とし穴

参考文献

統計学の歴史

大規模計算時代の統計推論 原理と発展」 Bradley Efron、Trevor Hastie 著 共立出版 2020
古典的には、頻度派、ベイズ派、フィッシャー派の考え方があるところから始めて、 ランダムフォレスト や、 ディープラーニング(深層学習) につながり、最後は、経験ベイズ推定戦略の章になっています。
近代的な理論の発展では、古典的な理論にあったパラメトリックの仮定を使わなくなり、それが進んだ理由は、大規模なデータの探索には、 ビジネス上の価値があったからとしています。


統計数字のチェック

データを疑う力 数学力より論理力 文系にこそ読んでほしい24話」 麻生一枝 著 東京図書出版 2022
データには何らかの偏りがあるので、結果がその影響を受けていることや、統計的な検定を絶対的な判断基準のようにして使ってはいけないこと、等、 統計学を使う時の注意点がまとまっています。


デタラメ データ社会の嘘を見抜く」 カール・T・バーグストローム、ジェヴィン・D・ウエスト 著 日本経済新聞出版 2021
SNSやネットニュースなどで拡散してしまう、科学的な発見などの嘘の情報について、特徴や見破り方を説明しています。
極端な内容の結論は、分析に使ったデータが偏った取り方をしていることが多いので、データから結論が導かれるまでの部分がブラックボックスになっていても、 検証はできるそうです。


ダメな統計学 悲惨なほど完全なる手引書」 アレックス・ラインハート 著 勁草書房 2017
統計の知識が浅い科学者による、統計の間違った使い方について、研究しています。
「効果がない事は論文になりにくく、効果がある事は論文になりやすい。 そのため、論文からわかる知識は偏っている。」等、統計学の考え方を広い視点で使っています。
ダメな統計の使い方
・p値だけしか示さない
・データが足らず、検定力(検出力)が足らない。
・都合の良いデータだけを使う。
対策
・信頼区間を示す。(有益な情報がわかる)
・データとプログラムを残し、結果が再現できるようにする。


データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい」 松本健太郎 著 毎日新聞出版 2018
タイトルに「データサイエンス」とありますが、 データサイエンスの本 のページにあるような、 機械学習 の話はなく、統計学も サンプリング の話が少しある程度です。
この本は、データと結論の関係の話の本です。 世の中の通説をたくさん取り上げて、データの背景や、通説が成り立つ理屈や言葉の定義を確認して、通説を検証しています。


本当は嘘つきな統計数字」 門倉貴史 著 幻冬舎 2010
数字を測定する時にバイアスがかかっていたり、大まかにしかわかっていない数字を正確なものだと思ってしまう事( 有効数字 の認識)について、 例を挙げて説明しています。


統計の9割はウソ 世界にはびこる「数字トリック」を見破る技術」 竹内薫 著 徳間書店 2014
世の中で公表された統計数字について、サンプリングの仕方や、解釈の仕方に疑問を投げかけて、「ウソ」としています。
タイトルの「9割」という数字もそういった数字の例とのことです。


統計という名のウソ 数字の正体,データのたくらみ」 ジョエル・ベスト 著 白揚社 2007
統計教育では、計算の仕方が教えられるだけで、数字の背景を知っておくことの大切さや、データの取り方が軽視されている。 数字は、人が数えるものなので、立場の違う人が見る時は、おかしさが見つかる事は珍しい事ではない。


ナンバーセンス ビッグデータの?を見抜く「統計リテラシー」の身につけ方」 カイザー・ファング 著 CCCメディアハウス 2015
データのねつ造、故意の削除、データの集め方、集計の定義の影響、 外れ値や欠損値 の扱い方、 プライミング効果


統計数字にだまされるな いまを生き抜くための数学」 M・ブラストランド、A・ディルノット 著 化学同人 2010
ラジオ番組の内容をまとめた本のようです。
数字のおかしさの話もありますが、統計学との付き合い方の前向きな話も多いです。
大きさ・リスク : 一人当たりで考えるとわかりやすくなる。
平均値 : 何の平均値であるのかを確認する。
データの品質 : データの収集の仕方で、変なデータが集まる事がある。 正確な事はわからなくても、大まかな事がわかるだけでも、必要な情報としては十分なことが多い。


データ仮説構築 データマイニングを通して」 岩下基 著 近代科学社 2017
データ解析の前に、どんなデータを扱うかの検討が大事です。 この本は、 データマイニング の前にやる事に焦点を当て、バイアスなどの注意点をまとめています。


入門書・啓蒙書

その数学が戦略を決める」 イアン・エアーズ 著 山形浩生 訳 文藝春秋 2007
「専門家の経験や直観に基づく判断は、データ解析に基づく判断には劣る」という論調の本です。
この本の手法は、 回帰分析 で導いた方程式による予測と、 無作為抽出 で集めたデータによる効果の判定の二本柱です。 これらの方法を「絶対計算」と呼んでいます。


偶然と必然の方程式 仕事に役立つデータサイエンス入門」 マイケル・J・モーブッシン 著 田淵健太 訳 日経BP社 2013
結果に対して、実力と運がどれくらいの割合で影響しているのかを、統計学を使って説明しています。
「観察された結果 = 実力 + 運」 になっています。


ウソを見破る統計学 退屈させない統計入門」 神永正博 著 講談社 2011
統計学の入門書ですが、会話形式になっています。


ヤバい統計学」 カイザー・ファング 著 阪急コミュニケーションズ 2011
タイトルの「ヤバい」は、「すばらしい」という意味のようです。
統計学者は、平均ではなく、平均からのずれの大きさや、その発生理由を見ようとするそうです。


理工基礎 確率とその応用」 逆瀬川浩孝 著 サイエンス社 2004
基礎からきちんと確率を勉強するための本です。 丁寧に書かれていると思います。


キーポイント 確率・統計」 和達三樹・十河清 著 岩波書店
統計学を学ぶ時の、「なぜ?」に答える本です。


環境関係の統計学

環境統計学入門―環境データの見方・まとめ方」 片谷教孝・松藤敏彦 著 オーム社 2003
環境の分野に使うことを主眼に置いた統計学の本です。 多変量解析回帰分析クラスター分析判別分析主成分分析・因子分析)や、 質的データ の扱い方、社会調査法( アンケート )、官能試験法の概略もあります。


環境と健康データ」 柳川堯 著 共立出版 2002
環境リスク の評価のための統計学の本です。 専門的な内容もありますが、統計学の基本的な考え方も丁寧に解説しています。


実務の参考書向け

すぐわかる 統計処理の選び方」 石村貞夫・石村光資郎 著 東京図書 2010
統計学の本としては珍しく、いろいろなデータの型を示して、それぞれについて、ちょうど良い解析方法を解説している本です。 データの型を明示的に書いている解説は、世の中にあまりないのが、 統計処理の誤解や誤用の原因になっていることがあるので、そういう点で参考になりました。


順路 次は ビッグデータの統計学

Tweet データサイエンス教室