トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

スモールデータで傾向解析

「右肩上がり(どんどん上昇している)」を示す折れ線グラフは、良いことでも悪いことでも、よく使われます。
time-series data

右肩上がりが、「売上」や「業績」だと、とてもうれしいことなので、このグラフだけが独り歩きすることがあります。 また、右肩上がりの折れ線グラフは、見る人に印象が強いので、「だから、こうしよう」という意思決定で有効に使えます。

ただし、「偶然ではないのか?」という確認は必要です。

この確認方法は、知っていると、数個しかないような「スモールデータ」に対して、「偶然ではない」と確信を持って分析する方法にもなります。


なお、このページでは、「上昇しているのか?」という確認の方法ですが、「下降しているのか?」の場合も考え方は同じです。

5点で上昇の場合

5点あると、「偶然ではなく、何か原因があって、上昇している可能性がある」と考えることに意味が出て来ます。
time-series data

その理由ですが、「上昇と下降に傾向がない」という仮説を立てた場合、ある点の次の点について、上昇と下降の確率は、いずれも0.5です。 4回連続で、上昇する確率は、
0.5 * 0.5 * 0.5 * 0.5 = 0.0625
なので、かなり小さな確率になります。

これくらい、小さな確率のことが起きているとすると、「偶然ではなく、何か原因があって、上昇している可能性がある」と考えることに意味があります。

ちなみに、「5点」よりは多いですが、この方法は、 管理図 の理論にもあります。

「5点で上昇」を使うのが有効ではない場合

下の2つのグラフの内、上のグラフは、 ランダムウォークモデル です。 次の点の上昇と下降が0.5の確率になっている現象を、シミュレーションした結果です。 1000個の点の折れ線グラフになっています。

下の2つのグラフの内、下のグラフは、上昇が続いた回数です。 5回以上、上昇が続いた現象は、40回起きています。
time-series data

確率が低いとは言え、サンプル数が多いと、「5点で上昇」というのは、よく起きることなので、「5点で上昇」を議論しても有効ではありません。

「5点で上昇」を使うのが有効な場合

まず、サンプル数がたくさん取れるものについては、たくさん取ってから傾向を議論した方が良いです。

「5点で上昇」が有効なのは、「1年に数回しか起きない現象」、「1個のデータを取るのに、お金がかかる」といったものです。 数少ないサンプルを、時系列で並べた時に、「5点で上昇」ということが起きているのなら、「偶然ではない」と考えることに意味が出て来ます。

3点で上昇の場合

3点でも、「偶然ではなく、何か原因があって、上昇している可能性がある」と考えられることがあります。
time-series data

3点の場合は、5点の時のように確率的な考え方は根拠にしにくいです。 それよりも、「値が極端に上がっている」という点に注目します。 上の図の場合は、0近くから200まで上がって、それがさらに2倍以上に増えているので、「偶然ではなく、何か原因があって、上昇している可能性がある」 と考えられます。

「3点で上昇」を使うのが有効ではない場合

「3点で上昇」だとしても、例えば、下の例で「偶然ではなく、何か原因があって、上昇している可能性がある」とは、考えにくいです。 このくらいの小さな変化なら、やはり5点以上は確認したいです。
time-series data

なお、グラフの縦軸を変えると、小さな変化を大きく見せられますので、見た目は「極端に上昇して来ている」という印象になるグラフになります。 グラフの軸の数字の確認は重要です。 また、グラフを見た人に誤解を与える原因にもなるので、こういった折れ線グラフには注意が必要です。
time-series data



順路 次は 逆時間集計

Tweet データサイエンス教室