データのばらつきも大事な概念です。 品質関係の分野は、ばらつきの扱いが成否を左右します。 品質関係の分野は、ばらつきの小さな生産方法を、 SPC 、 品質工学 や 生産工学 で目指します。
ばらつきを表す 統計量 は、標準偏差(Standard Deviation)や、標準偏差の2乗である分散がよく使われます。
標準誤差は、標準偏差をルートnで割った尺度です。
サンプル数が10000個で平均値を計算して、さらにサンプルをひとつ加えて平均値を再計算した場合、平均値の違いは微々たるものですが、 サンプル数が3個で平均値を計算して、さらにサンプルをひとつ加えて平均値を再計算すると、結構変わります。 このような平均値のばらつき方の違いが、標準誤差で表現できます。
標準偏差は、「データのばらつき方の尺度」になりますが、 標準誤差は、「平均値のばらつき方の尺度」になります。 詳しくは、 信頼区間と標準誤差 のページにあります。
平均値で問題が起きる時と同じ理由で、 標準偏差や分散を使うことが不適切なことがあります。
上記では、平均値の代用として中央値を挙げました。 標準偏差の代用としては、 「上下の四分位値の差」が役に立つことがあります。 四分位値とは、大きい順に並べて、大きい方から四分の一の順位にある値と、 小さい方から四分の一の順位にある値のことです。 ちなみに、四分位値は、 箱ひげ図 (ボックスプロット)の箱の、上底と下底になる値です。
「最大値と最小値の差」も代用案としてあります。 しかし、これは異常値を取り除かないと、 異常値が算出に入って来て、とんでもない値になる事があります。
分散の代用は、標準偏差の代用値を2乗する程度しか、筆者には思い当たりません。 実際の場面で、分散の代用値が必要になることは、おそらくないと思います。
平均値が大きい程、標準偏差が大きくなる性質を持つデータが、 世の中にはいろいろあります。 そのようなデータでは、 ばらつきの尺度として標準偏差を採用するのは、 不適切な場合があります。
この対策として、平均値の影響を除いたばらつきの尺度に、変動係数があります。 変動係数は、標準偏差を平均値で割った量です。 尚、変動係数は無次元量です。 無次元量は、対象物の測定単位の影響がなく、違う単位のものの分布の違いを比べたりする時に便利です。
変動係数の考え方は、品質工学の 望目特性 のSN比と同じです。また、変動係数と似た考え方は、 標準化 でも出て来ます。 ポアソン分布に従うデータのばらつきの指標 でも使っています。
2次元データ(XとYのデータ)の場合、データが直線的になるかどうかが、ばらつきとして重要視されることが多いです。 直線関係のばらつきの尺度は、 相関係数 があります。
上記の望目特性のSN比もそうですが、その他の 品質工学のSN比 も、ばらつきの尺度として考案されたものです。
特性とSN比の関係 にあるように 品質工学 では、ばらつきの尺度をいろいろ用意しています。 データの背景や、データ分析で調べたいことに合わせて、様々なばらつきの尺度が考案されています。 「複数の種類がある」という点は、一般的な統計学と同じですが、種類の増やし方が違っています。
データの背景や、データ分析で調べたいことに合わせて、尺度を考案する姿勢は、 データサイエンス としても参考になります。
このサイトは、
環境と品質
の両方の分野を扱っています。
品質
では、ばらつきを小さくする取り組みが重要です。
一方、
環境
(
生態系
)では、ばらつきが小さいとは、
種が偏っているということになると思いますが、
これはいいことではありません。
環境の分野では、「多様」が良いこととされます。
順路
次は
不偏分散