トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

MT法とホテリング理論の違い

MT法とホテリング理論の違いですが、シンプルな違いは、 マハラノビスの距離 と T2統計量の違いです。

マハラノビスの距離と、T2統計量の違い

マハラノビスの距離 は、2乗した値(D2)で使われることもあります。

D2とT2の違いですが、 計算に使う共分散が、母共分散なのか、標本共分散なのかの違いです。 母共分散を使うのがD2で、標本共分散を使うのがT2です。

なお、文献によっては、上記の違いで計算した量にさらにn倍したものを、T2の定義式にしているものもあるのですが、 T2の定義式でどちらが正しいのかはわかりません。

ただ、いずれにしても、D2とT2の違いは、 母共分散と標本共分散の違いです。 テクニカルには、共分散を使う式で「n」を使うか「n-1」を使うかの違いです。

マハラノビスの距離とT2には、実務的な違いがない

上記の違いのため、 外れ値のモデル で外れ方の指標として使う時に、にマハラノビスの距離とT2のどちらを選んでも、特別な違いはありません。

多変量管理図 では、ソフトによって、D2を採用しているものと、T2を採用しているものがあります。

指標以外の違い

マハラノビスの距離とT2には、大きな違いはないので、上記のように違いの影響が現れないこともあるのですが、 さらに理論が展開される時には、だいぶ方向が違っています。

マハラノビス距離を使う理論

マハラノビスの距離 のページに書きましたが、マハラノビス距離は、日常的にもよく使われているユークリッド距離の自然な拡張なので、 物理的なイメージがしやすいです。

マハラノビスの距離 を使う MT法 では、単にこの距離を指標にするだけでなく、変数の選択を評価する理論も研究されています。

T2を使う理論

T2は、ホテリング理論の一部です。 ホテリング理論は、t分布の多変量への自然な拡張として研究されて来ています。

そのため、多変量の統計学の基礎理論として使うことができるものになっています。




参考文献

マハラノビス距離とT2の違い

マハラノビス距離とT2の両方を扱っている記事は世の中にあるのですが、 共分散の計算でnで割るのか、n-1で割るのかを明確に区別している資料は見つけていません。
筆者は、以下の4つの資料を元にして、このページを書いています。


Hotelling's T-squared distribution」 Wikipedia英語版
https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution
t2という統計量の数学が詳しく書かれています。 T2は、t2に比例する量であることは、ここに書いてあるのですが、それ以上詳しいことがわかりません。


Hotelling's T squared」 Wikipedia英語版の引用元のひとつ
https://www.itl.nist.gov/div898/handbook/pmc/section5/pmc543.htm
t2とT2の定義式があります。 JMPのT2のn倍が、このページのT2になっています。


個々のデータに対する多変量管理図の統計的詳細」 JMPのオンラインマニュアル
https://www.jmp.com/support/help/ja/14-2/qpm-multivariate-control-17.shtml#295415
T2は、標本共分散行列を使うことが説明されています。


Mahalanobis distance」 Wikipedia英語版
https://en.wikipedia.org/wiki/Mahalanobis_distance
マハラノビスの距離の解説は、日本語でもたくさんありますが、ホテリング理論のセットとして、これを調べました。


マハラノビス距離を標本共分散から求めるように説明している文献

以下の2つの文献は、マハラノビス距離を標本共分散から求めると説明していますので、このページの上記の内容とは違っています。 いずれも、「標本共分散」とあるのですが、数式は「n」で割っています。


https://toukei-lab.com/mt%E6%B3%95


https://tjo.hatenablog.com/entry/2017/02/08/190000


順路 次は MT法の手順

データサイエンス教室