トップページ | Q&Aの一覧 | このサイトについて | ENGLISH

Q&A

Q(ご質問)

正規分布ではないのですが、どうすれば良いですか? 中央値を使えば良いのですか? 検定は、ノンパラメトリックを使うのですか?
normal distribution

A(ご回答)

やりたいことにもよりますが、「だいたいこんな感じ」ということの把握としては、 変な形の分布だったりしても、平均値が十分に役にたつことが多いです。 例えば、図の2つの分布について、「このくらい違う」という事を定量的に表すのに、平均値を使うのは悪くないと思います。 検定 についても、平均値の差の検定、等のパラメトリックなものを使うのは、必ずしも悪くないです。

平均値と中央値 にも似たようなことを書いていますが、中央値を使うと、「だいたいこんな感じ」というところから外れてしまうことがありますので、 「正規分布ではないから中央値を使う」という風に、いつも考えない方が良いです。

ばらつきについても、標準偏差でだいたいのことは把握できます。

ちなみに、こういう大まかな考え方は、直線状にデータが並んでいない場合に、 回帰分析 で直線を前提としたモデルを当てはめる時にもします。

一般的なデータは、正規分布をしていないことの方が普通と思います。 それに対して、正規分布を前提とした理論を使うのは「誤用」と考えることはできますが、 役に立つ理論ですので、 ある程度のいい加減さを認めつつ、気を付けて使うのが良いかと思います。

気を付け方ですが、筆者の場合は、計算値とグラフをセットにするようにしています。



Tweet データサイエンス教室