杉原データサイエンス事務所のロゴ トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

イェンセンの不等式

イェンセンの不等式は、期待値の計算についての法則です。 身近なデータ分析でも、平均値 を使った計算の時に関係しています。

イェンセンの不等式とは

イェンセンの不等式は、以下の式です。

f(E[x]) ≧ E[f(x)]

左辺は、期待値を使って、何かの計算をすることを表します。 右辺は、何かの計算をしたものについて、期待値を計算することを表します。

イェンセンの不等式に関係するパラドックス

平均値を使った計算は、注意が必要です。 イェンセンの不等式に関連するパラドックスがあります。

以下の2つの例では、いずれも、平均値の平均値が、丁寧に計算した平均値よりも大きいです。 これはイェンセンの不等式の符号と合っています。

グループの平均値のパラドックス

A組は平均点が90点、B組は平均点が70点だったとします。

ここで、2つのクラスの平均点を、
(90 + 70) /2 = 80
なので、「平均点は80点」と計算すると、一般的には間違いです。 この計算でも合っているのは、2つのクラスの人数が同じ時です。

例えば、A組が40人で、B組が60人で、2つのクラスの人数が違う時は、 (90×40 + 70×60) / (40 + 60) = 7800 / 100 = 78
なので、78点です。

この例では、平均値を計算する時の人数が違っています。 製造業の場合、ロット単位で製造することがありますが、ひとつのロットは、一般的には構成数が異なるので、この例と似ています。 ロットごとの平均値を、散布図にしたり、 管理図 にして分析するのは良いのですが、全体の平均値を計算する場合は、構成数を考慮しないと間違えます。

速度の平均値のパラドックス

200kmを、行きは時速100km、帰りは時速50kmで進んだ場合、合計時間は、
200/100 + 200 /50 = 2 + 4 =6
なので、6時間です。 平均速度は、
(200+200) / 6 = 66.666・・・
なので、だいたい時速67kmです。

(100 + 50) /2 = 75
なので、「平均速度は時速75km」と計算すると、間違いです。

ちなみに、この例は、それぞれの速度で走った距離が同じ場合です。 それぞれの速度で走った時間が同じ場合は、
(100 + 50) /2 = 75
という計算でも合っています。




順路 次は 標準偏差(ばらつきの尺度)


杉原データサイエンス事務所のロゴ
杉原データサイエンス事務所によるコンサルティングとセミナー