トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

比例分散の回帰分析

proportional regression
比例分散は、上のグラフのような分布です。 Xが大きければ大きいほど、Y方向のばらつきが大きくなっています。

比例分散の回帰分析は、回帰分析としてはポピュラーではないです。 そのあたりの話は、 非等分散の回帰分析 のページにあります。

以下は、必要に迫られて、筆者が自分で整理した内容になっています。 数学的には、等分散の回帰分析よりも簡単です。 簡単なので、わざわざ説明する人がいないのかもしれませんが、ここでは順を追って説明することにしています。

比例分散の回帰分析

proportional regression
比例分散は、上のような式で表されます。 aが傾き、Eというのは、ばらつきです。

データがある時に、この式の具体的な係数を求める方法が下記になります。

比例分散の変形

比例分散は、新しい変数を作ると、取り扱いが簡単になります。

下のグラフは、左側がYとXの散布図です。 右側がY/Xと、Xの散布図です。 右側のグラフの右上にある式は、左側のグラフの式の両辺をXで割ったものです。
proportional regression proportional regression

右側は、「Xに関係なく、縦軸のばらつきは一定」ということを表しています。

比例分散の変形の意味

proportional regression
この式の右辺は、「ある値aがあって、そこにばらつきが加わったもの」というです。 正規分布の場合は、分布の平均値がaで、標準偏差がEだと、ちょうどこれに相当します。 つまり、Y/Xという変数は、普通の正規分布で表せるということになります。 「比例分散は、正規分布から作られる分布の一種」とも言えます。

グラフの見た目だけで、aとEの大きさを見積もろうとした場合、変形前のグラフは、aについては「傾きはこのくらいだから・・・」と考えて計算できなくもないのですが、Eの方は、ちょっと大変です。

変形後のグラフの場合、まず、Y方向のばらつきの中心がだいたい5なので、「aは5」と見積もれます。 Eについては、5を中心としたばらつきとして考えると、だいたい1なので、「Eは1」と見積もれます。

比例分散は、一見すると、扱いにくいものですが、ちょっと変形しただけで、普通の正規分布として扱えるようになります。 このシンプルさは、現象の理解にとても強力です。

計算で係数を求める

まず、Eが正規分布の場合です。

proportional regression
の式により、
a = average(Y/X)
E = stdev(Y/X)
になります。

実際に求める時は、まず、データのYとXを使って、Y/Xという変数を作ります。 この変数の平均値と標準偏差が求めたい係数になります。

Eが一様分布の場合、Eの計算式が違います。
E = max(Y/X) - min(Y/X)
または、
E = sqrt(12)*stdev(Y/X)
です。sqrt(12)というのは、一様分布における、範囲と標準偏差の関係式にある値です。

もうひとつの比例分散の回帰分析

比例分散をしているデータに対して、普通の 単回帰分析 をする方法としては、以下の2通りが考えられます。 世の中では、この2通りのいずれかで進められていることが、一般的ではないかと思います。

YとXはそのままで、普通の回帰分析をそのまま実行する場合

データが少ないと、比例分散であることはわかりにくいので、比例分散に従っているような現象でも、普通の回帰分析で進めて、 特に問題が起きないと思います。

ただ、上記のように、Y/Xを計算して、比例分散として分析すると、残差が正規分布や一様分布になっていることがわかるのに対して、 YとXがそのままの回帰分析では、残差が何かの分布になっていることは、比例の影響でわからなくなっています。

直線の傾きがわかり、そこからのばらつきをグラフで見ているだけなら、このアプローチでも良いですが、ばらつきの評価や分析をしたい場合、 このアプローチは不便です。

YとXを対数に変換してから、普通の回帰分析を実行する場合

下のグラフは、左側が変形前で、右側が両辺とも対数軸(両対数グラフ)にしたものです。対数への変換は、 特徴量エンジニアリング の一種として、よく知られています。

proportional regression proportional regression

対数にすると、プロットがほぼ一直線に並びますし、Y方向のばらつきも一定のように見えます。

等分散と比例分散 のページに詳しく書いていますが、対数に変換されたデータは、傾きが必ず1になりますし、Y切片も、なぜ、その値になるのかがわかりにくいです。

そのため、このアプローチは、あまり良くないです。

比例分散の外れ値の分析

proportional regression
例えば、オレンジ色のようなプロットがあったとします。

Y/Xを計算して、Y/Xのヒストグラムの中で、オレンジのプロットの位置を見ると、外れていることが、シンプルに表現できます。

ソフト

R-EDA1

ウェブアプリR-EDA1 でも、比例分散は分析できるようになっています。
Proportional variance



比例分散の線形混合モデル

比例分散モデルになるデータの構造

等分散と比例分散

比例分散への品質工学のアプローチ

動特性のSN比

ポアソン回帰分析

順路 次は 非等分散の回帰分析

Tweet データサイエンス教室