トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンス教室

ビッグデータの統計学

統計学 には、「データが多いことは、良いことだ」という話が昔からあります。

ところが、ビッグデータと呼ばれるような大量のデータには、この話がそのまま当てはまらないです。 このページでは、そうした事をまとめてみました。

なお、このページで、「データが多い」と言っているのは、 統計学の文献では、「サンプル数が多い」や、「n(エヌ)が多い」と言われます。 「サンプル」や「n」というと、統計学に慣れていない方には誤解の原因になるので、ここでは言い方を変えました。

データが多いことの威力について、昔から言われていたこと

平均値を知りたい場合、最低限必要なデータ数は、1個です。 ばらつきを知りたい場合、最低2個必要です。

ものすごく正確に測れていれば、これで充分です。 科学の世界では、1個のデータを取るだけでも大変なことがあり、 ものすごく注意して測っています。

しかし、一般的には、1個や2個のデータで出した結論は、不安な事が多いです。 そのため、データ数はできるだけ増やそうとします。 多ければ、精度が高くなります。 統計学の 推定 には、データ数が多いと精度が高くなるようになっている理論もあります。

今よりも、ずっと規模の小さなデータを扱っていた時代に、この理論は作られています。

データが非常に多い時の落とし穴

「データ数が多い、少ない」という議論ですが、数個から数十個程度の範囲の話では、 データが少ない時代の理論で、特に問題はありません。 コンピュータによって、一度に扱えるデータ数が、数千、数万と増えて来て、 その時代には目立たなかった問題が、大きな問題になってきたようです。

ちなみに、数万くらいでは「ビッグデータ」と呼ばれないようです。 いわゆるビッグデータでは、下記の落とし穴が、もっとはっきりしているはずです。

検定の落とし穴

統計学の 検定 の理論では、 「何かの違いを確認したい時は、P値0.05以下を目安にして、検定する。」と、説明されています。

この話を知っていて、例えば、「P値が0.0000000001で有意な差があることがわかった!」と言う話を聞いたら、 「差がある事は、疑う余地がない!ゆるぎない事実が見つかった。」、と思う方が多いと思います。

経験上、データ数が1万個位よりも大きな規模での検定では、限りなくゼロに近いようなP値が見つかるのは、珍しくありません。 そして、このような解析結果は、何の役にも立たない事がほとんどです。 実用上、意味のない程度の小さな差が有意になることがあり、これが役に立たない理由のひとつです。 P値には、データ数が多いと、小さくなりやすい性質があります。

推定の落とし穴

推定 の落とし穴の例は、 誤差 の分類が説明しやすいです。

データが多くて精度が高くなるのは、偶然誤差の部分です。 系統誤差は、依然として残っています。 系統誤差は、統計学ではどうしようもないことが原因なので、扱いの難しい誤差です。

もっと根本的な落とし穴

昔ながらの統計学は、「一定条件で測定」が解析するデータの前提になっています。 このようなデータでは、 正規分布 がよく当てはまって、 検定推定 の理論が威力を発揮します。

しかし、データ数が多い時は、「多様な条件で測定」になっていることが、よくあります。 このようなデータでも、統計ソフトに入れれば、何かしらの結果は出て来ますが、 前提が成り立っていないデータを使っていますので、その結果に素直に従ったら、どんな悪影響があるかわかりません。 これは、検定や推定の、もうひとつの落とし穴です。

大量データを解析する方法

統計学の前提に合わせる方法

「多様な条件で測定」したデータを、「一定条件で測定」したデータの形として使うには、 層別 のサンプリングが役に立つことがあります。 ただ、うまくデータを分類できないと、この方法は使えません。

統計学の前提に合わせない方法

データ数が少ない時は、グラフを見ても、差があるのかどうかが、よくわからないことが多いです。 グラフを見てもよくわからない時は、P値が頼りになります。

データ数が多い時は、P値を使わなくても、グラフを一目見れば、差の有無は一目瞭然の事がよくあります。 そのため、大量で多様なデータの解析では、P値は解析の主役になりにくいです。

大量で多様なデータを解析する時は、 散布図ヒストグラム折れ線グラフ といった初歩的なグラフが威力を発揮します。

また、このサイトでは、何かにつけては、 決定木 の考え方を推奨しています。 決定木は、多様な条件で測定したデータを、数値的に解析する方法のひとつです。


データが多いことの、もうひとつの威力

昔ながらの統計学の延長線上で、データが多いことの威力を説明しようとすると、 弱点も目立ってきます。 大量のデータがあっても、扱いが大変なだけで、あまり良い所がないような気もしてしまいます。

しかし、大量のデータを上手く見ることができると、 平均値や標準偏差といった統計手法では表現できないようなデータの特徴がわかることがあります。 これは、昔ながらの統計学の延長線上にはない威力です。 この辺りにも データサイエンス の面白さがあります。

センサーデータ は、数理モデルに当てはめる程度では、解析ができないデータの代表的なものです。



統計モデルによる原因解析

手法の使い分け

ロバストな解析




参考文献

はじめての統計データ分析 ベイズ的<ポストp値時代>の統計学」 豊田秀樹 著 朝倉書店 2016
「はじめての」となっていますが、中級以上の本、と思います。 ベイズ統計 の本としては珍しく、分布の話から始まります。 この本は、研究結果として「差がある」という事を言う時の、ベイズの使い方の話が中心です。
従来のp値による 検定 の欠点としては、p値はデータの数によって大きく変わってしまうので、 1%や5%といった基準で判定してしまう事に意味がない点を挙げています。
これに代わるのがベイズ的な方法で、データ数が結論の確信度として表現できます。


順路 次は 正規分布と、その他

Tweet