トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

極値統計

毎年の最高気温のデータや、 個々の製品の一番厚いところの厚さ、といったデータを集めると、最大値だけの分布ができます。 最小値も同じようにあります。

最大値や最小値の統計的な性質を扱うのが、極値統計です。

堤防の高さや、部品の弱さなどを見積もる方法として知られています。

極値統計には、 外れ値 と考えて、母集団とは別のものとして扱って来た現象を、母集団の一部として扱えるようになる可能性があります。

極値の分布の特徴

例えば、母平均値と母標準偏差が同じ複数の正規分布のデータから、最大値や最小値だけを持ってくると、 その分布は、左右対称にはなりません。 ( 正規分布から作られる分布 も参照してください。)

ヒストグラム ヒストグラム

極値統計を使うと、こうした分布を式で表せます。

極値統計学の歴史

鎖の強さは、一番弱いところの強さであることから、最小値の分布が知られていました。 この分布は、 信頼性工学 の分野でワイブル分布と呼ばれています。

次に、どのような分布でも極値は、ガンベル型(グンベル型とも言う)、フレシエ型、ワイブル型の3つに分類のどれかになることが示されました。

その次に、3つの型は、 GEV(generalized extreme value distribution : 一般極値分布)で記述できることが示されました。 これによって、3つの型を別々に扱う必要はなくなり、 GEVの係数をデータから推定すれば、どの型なのかもわかるようになりました。

最近では、最大値のデータを、分布の推定に十分なN数で準備するのが大変なことから、 閾値以上のデータを使ったり、上位r個のデータを使ったりして、その弱点を補う方法も考えられています。 こうしたデータから作られる分布も知られています。

極値統計の文献は、時期によって扱っている分布が違っているので、 「分布は3種類」と説明されていたり、「分布は5種類」と説明されたりしていて、注意が必要です。



ばらつくデータの作り方

参考文献

基礎理論が中心の本

Rによる極値統計学」 西郷達彦・有本彰雄 著 オーム社 2020
4割くらいのページで、統計学とRの基本を解説してから、Rを使った極値統計学の話になっています。
時系列データの極値理論もあります。


極値統計学」 橋倫也・志村隆彰 著 近代科学社 2016
入門的なところからまとめています。
一般パレート分布 : ブロックの最大値だけではなく、閾値以上のデータを使って推定する方法。 最大値だけでは、N数が不十分な時の対策として使う。
観測データすべてに当てはまる分布ではなく、極値データだけに当てはまる分布の方が、精度の高い推定ができる。
極値データのタイプは、5つあるので使い分ける。 最大データの分布が2種(このうちの1種がGEV) 上位r個のデータの分布が1種、 閾値を超えたデータの分布が2種。


極値統計によろしく」 蒼馬竜 著 暗黒通信団 2018
5種類の分布について、最大値の最頻値を求めた結果をまとめています。 また、この値への、データ数の影響も見ています。 大気圏の高さの推定などもしています。


極値統計学 極値の理論とその工学的応用」 E.J.Gumbel 著 広川書店 1963
極値統計を体系的にまとめた本です。
かなり古い本です。 国立国会図書館でも実物の本は読めないのですが、デジタル書籍で読めるようになっています。


統計数理 52(1)」 統計数理研究所 2004
極値統計の特集があります。 かなり専門的な内容です。 工学への応用が多いです。


21世紀の統計科学 2」 国友直人・山本拓 監修 東京大学出版会 2008
多変量の極値分布もあります。


実務での利用

プラントエンジニア 30(10)(354)」 日本プラントメンテナンス協会 1998
小さな範囲での腐食の分布から、大きな範囲の分布を推定する方法として、極値統計を紹介しています。
設備全体を母集団として見るよりも、温度などの特徴で分けて、部位で分けた方が、精度の高い推定ができる。


腐食事例と対策技術」 総合技術センター 1994
因子と腐食量に相関がある場合は、回帰分析を使っています。
最大孔食深さや、最大破断時間の分析には、極値統計を使っています。


最新・腐食事例解析と腐食診断法」 石原只雄 監修 テクノシステム 2008
腐食事例解析と、腐食診断法の2つの解説の中で、孔食深さの推定の話が少し出てきます。


佐世保工業高等専門学校研究報告 (44)」 佐世保工業高等専門学校 2007
極値統計による粗さの最大値の予測方法」という福田孝之氏・小田原悟氏の記事があります。
破壊の起点が一番粗いところになると考えて、一番粗い部分の粗さの推定方法を検討しています。


日本機械学会論文集 vol.83 No.853」 2017
大量生産部品のリコールを防止するための極値統計」という記事があります。 極値統計を使った新しい品質管理の方法を提案しています。
従来は、少ない試験サンプルの結果に安全率をかけたり、 正規分布を仮定して、疲労強度の評価をしていますが、この方法には、根拠がない。 新しい方法として、極値統計を使って、最小値の分布を推定して、まれに起きる不具合を見つける精度を上げることを提案しています。



順路 次は チェビシェフの不等式

データサイエンス教室