トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

統計量

平均値と中央値標準偏差 、最大値、最小値、歪度、尖度、N数(サンプル数) などの、 統計学 で使う尺度は、統計量と呼びます。

データの要約として

データサイエンス では、データ集団をひとつの値で表現したい(要約したい)場合があります。 こうすると、議論がしやすくなったり、物事が考えやすくなります。

統計ソフトでは、「Summary」などの名前で、いろいろな変数ごと(列ごと)に統計量を計算する機能がついていることが多いです。

ちなみに、データの量が多いときは、 層別サンプリング をして、統計量を 層別のグラフ にすると、効果的な分析になることが多いです。

真の値の近似値として

統計学 では、データから計算される統計量を、 「真の値の近似値」や「真の値の推定値」と考えます。

これは、計算に使ったデータは、「無数にある値からいくつかを抽出したもの」と考えるためです。 統計学では、データから計算される 平均値標準偏差 は、「推定」と呼びます。

推定 には、「区間推定」というのもあります。 母平均がありそうな区間は信頼区間です。 平均値が「点(ひとつの数値)」ではなく、「区間(2つの数値で求まり範囲)」で求まります。

なお、筆者の経験の範囲になりますが、実務上、信頼区間が役に立つ場面はあまりないです。 区間推定では、予測区間の方が役に立ちます。



順路 次は 既知と未知の使い分け

データサイエンス教室