平均値と中央値 、 標準偏差 、最大値、最小値、歪度、尖度、N数(サンプル数) などの、 統計学 で使う尺度は、統計量と呼びます。
データサイエンス では、データ集団をひとつの値で表現したい(要約したい)場合があります。 こうすると、議論がしやすくなったり、物事が考えやすくなります。
統計ソフトでは、「Summary」などの名前で、いろいろな変数ごと(列ごと)に統計量を計算する機能がついていることが多いです。
ちなみに、データの量が多いときは、 層別サンプリング をして、統計量を 層別のグラフ にすると、効果的な分析になることが多いです。
統計学 では、データから計算される統計量を、 「真の値の近似値」や「真の値の推定値」と考えます。
これは、計算に使ったデータは、「無数にある値からいくつかを抽出したもの」と考えるためです。 統計学では、データから計算される 平均値 や 標準偏差 は、「点推定」と呼びます。
推定 には、「区間推定」というのもあります。 母平均がありそうな区間は信頼区間です。 平均値が「点(ひとつの数値)」ではなく、「区間(2つの数値で求まり範囲)」で求まります。
なお、筆者の経験の範囲になりますが、実務上、信頼区間が役に立つ場面はあまりないです。 区間推定では、予測区間の方が役に立ちます。
順路
次は
既知と未知の使い分け