統計学 は、もともとスモールデータがデータ分析の中心だった時代に、開発されて来ています。
当サイトでは、その時その時で、スモールデータならではの話題に触れていますが、散在しているので、それらをこのページに整理しました。
「このデータはこんな分布」ということを言うためには、少なくとも数十個程度は、サンプルが必要です。
しかし、実務のデータ分析では、数個程度のサンプルから、分布の全体像を推測しなければいけないことがあります。
そのような時の考え方は、 単一分布と混合分布の見分け にあります
誤差とn数 のページで標準偏差の信頼区間を説明していますが、スモールデータの標準偏差は不安定です。 例えば、同じサンプルについて、「昨日5回測定した時の標準偏差は0.5だったのに、今日は0.7だった」という感じで、比較的大きく値が変わります。
この性質に振り回されないための対応方法は、 スモールデータにおける、ばらつきの違いの評価 にあります。
信頼区間 は、スモールデータの分析で使います。
予測区間 は、データのサイズに関わらず使えますが、スモールデータの時は、特に特徴が表れます。
比較的古い統計学の解説書や、そのような古い解説書を参考にして作られた最近の解説書では、「2つのグループの違いを調べたい時は、母平均の差の検定をして、t値やp値で評価する」となっています。
そのような解説書では、 平均値の差の検定で、できないこと について触れられていません。
統計学を学ぶことが目的なら、そのような理解の仕方でも良いのですが、実務で活用する時には、その内容では足りないですし、誤用の原因になることもあります。
経緯として、スモールデータしか扱わない時代は、比較的古い統計学の解説書の内容でも、実務で問題になりにくく、また、問題になりにくい理由がありました。 スモールデータの検定の効果量 のページで説明しています。
例えば、株価のチャートでは、細かな時間間隔で測定されているので、細かな動きを見ながら、起こっていることを分析できます。
しかし、 スモールデータで傾向解析 のページにあるように、サンプル数が数個程度でも、重大なことが起きているデータ分析になることがあります。
「ビジネスでデータを活用しよう!」、「データを活用して、会社を変えよう!」といった活動をする時は、ビッグデータがないと始まらないと思われてしまうことがありますが、早く確実に成果が出るのは、スモールデータの場合です。(筆者の経験の範囲ですが)
この話は、 問題解決からのデータの利活用 のページにあります。
「スモールデータ」がタイトルに入っている本として、筆者が見つけたのは下記の3冊です。
「スモールデータ解析と機械学習」 藤原幸一 著 オーム社 2022
ビッグデータを扱う方法として、
ニューラルネットワーク
系の方法が知られていますが、この本は、実務で出会うデータはスモールデータの場合が多いとして、
回帰分析
、
主成分分析
、
決定木
と、これらの発展的な方法を解説しています。その中には、
PLS回帰(部分的最小二乗回帰分析)
もあります。
この本が扱うスモールデータは、多変量解析ができる程度の規模はあり、「数個」といった規模ではないです。
「経営事例の質的比較分析 : スモールデータで因果を探る」 田村正紀 著 白桃書房 2015
この本では、少数の事例から因果関係を分析する方法として、
質的比較分析
を紹介しています。
「Small data The tiny clues that uncover huge trends」 Martin Lindstrom 他 著 John Murray Learning 2017
マーケティング
の手段として、
人の質的研究
を最大の武器としていて、これを「スモールデータ(small data)]と呼んでいます。
著者は、観察している個人で起きていることからヒントを見つけて、多くの人が共感してくれる商品の開発につなげます。
順路
次は
統計分布