トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

スモールデータの統計学

統計学 は、もともとスモールデータがデータ分析の中心だった時代に、開発されて来ています。

当サイトでは、その時その時で、スモールデータならではの話題に触れていますが、散在しているので、それらをこのページに整理しました。

スモールデータの分布

「このデータはこんな分布」ということを言うためには、少なくとも数十個程度は、サンプルが必要です。

しかし、実務のデータ分析では、数個程度のサンプルから、分布の全体像を推測しなければいけないことがあります。

そのような時の考え方は、 単一分布と混合分布の見分け にあります

スモールデータのばらつき

誤差とn数 のページで標準偏差の信頼区間を説明していますが、スモールデータの標準偏差は不安定です。 例えば、同じサンプルについて、「昨日5回測定した時の標準偏差は0.5だったのに、今日は0.7だった」という感じで、比較的大きく値が変わります。

この性質に振り回されないための対応方法は、 スモールデータにおける、ばらつきの違いの評価 にあります。

スモールデータによる推定

信頼区間 は、スモールデータの分析で使います。

予測区間 は、データのサイズに関わらず使えますが、スモールデータの時は、特に特徴が表れます。

スモールデータによる検定

比較的古い統計学の解説書や、そのような古い解説書を参考にして作られた最近の解説書では、「2つのグループの違いを調べたい時は、母平均の差の検定をして、t値やp値で評価する」となっています。

そのような解説書では、 平均値の差の検定で、できないこと について触れられていません。

統計学を学ぶことが目的なら、そのような理解の仕方でも良いのですが、実務で活用する時には、その内容では足りないですし、誤用の原因になることもあります。

経緯として、スモールデータしか扱わない時代は、比較的古い統計学の解説書の内容でも、実務で問題になりにくく、また、問題になりにくい理由がありました。 スモールデータの検定の効果量 のページで説明しています。

スモールデータの時系列分析

例えば、株価のチャートでは、細かな時間間隔で測定されているので、細かな動きを見ながら、起こっていることを分析できます。

しかし、 スモールデータで傾向解析 のページにあるように、サンプル数が数個程度でも、重大なことが起きているデータ分析になることがあります。

スモールデータからのデータ利活用

「ビジネスでデータを活用しよう!」、「データを活用して、会社を変えよう!」といった活動をする時は、ビッグデータがないと始まらないと思われてしまうことがありますが、早く確実に成果が出るのは、スモールデータの場合です。(筆者の経験の範囲ですが)

この話は、 問題解決からのデータの利活用 のページにあります。



参考文献

「スモールデータ」がタイトルに入っている本として、筆者が見つけたのは下記の3冊です。


スモールデータ解析と機械学習」 藤原幸一 著 オーム社 2022
ビッグデータを扱う方法として、 ニューラルネットワーク 系の方法が知られていますが、この本は、実務で出会うデータはスモールデータの場合が多いとして、 回帰分析主成分分析決定木 と、これらの発展的な方法を解説しています。その中には、 PLS回帰(部分的最小二乗回帰分析) もあります。
この本が扱うスモールデータは、多変量解析ができる程度の規模はあり、「数個」といった規模ではないです。


経営事例の質的比較分析 : スモールデータで因果を探る」 田村正紀 著 白桃書房 2015
この本では、少数の事例から因果関係を分析する方法として、 質的比較分析 を紹介しています。


Small data The tiny clues that uncover huge trends」 Martin Lindstrom 他 著 John Murray Learning 2017
マーケティング の手段として、 人の質的研究 を最大の武器としていて、これを「スモールデータ(small data)]と呼んでいます。
著者は、観察している個人で起きていることからヒントを見つけて、多くの人が共感してくれる商品の開発につなげます。


順路 次は 統計分布