トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

比例分布の回帰分析

proportional regression
比例分布は、上のグラフのような分布です。 Xが大きければ大きいほど、Y方向のばらつきが大きくなっています。

一般的な回帰分析の場合

比例分布の回帰分析の前に、一般的な 単回帰分析 と比べます。

一般的な 単回帰分析が使う式は、下記のようなものです。
proportional regression

これがぴったり当てはまる分布は、下のグラフのような分布です。 aが傾き、bがY切片、と呼ばれています。 Eというのは、ばらつきです。 このモデルでは、縦方向のばらつき方が一定です。 そのため、一般的な単回帰分析が想定している式は、比例分布と異なります。
proportional regression

比例分布の回帰分析

proportional regression
比例分布は、上のような式で表されます。 aが傾き、Eというのは、ばらつきです。

データがある時に、この式の具体的な係数を求める方法が下記になります。

比例分布の変形

比例分布は、新しい変数を作ると、取り扱いが簡単になります。

下のグラフは、左側がYとXの散布図です。 右側がY/Xと、Xの散布図です。 右側のグラフの右上にある式は、左側のグラフの式の両辺をXで割ったものです。
proportional regression proportional regression

右側は、「Xに関係なく、縦軸のばらつきは一定」ということを表しています。

比例分布の変形の意味

proportional regression
この式の右辺は、「ある値aがあって、そこにばらつきが加わったもの」というです。 正規分布の場合は、分布の平均値がaで、標準偏差がEだと、ちょうどこれに相当します。 つまり、Y/Xという変数は、普通の正規分布で表せるということになります。 「比例分布は、正規分布から作られる分布の一種」とも言えます。

グラフの見た目だけで、aとEの大きさを見積もろうとした場合、変形前のグラフは、aについては「傾きはこのくらいだから・・・」と考えて計算できなくもないのですが、Eの方は、ちょっと大変です。

変形後のグラフの場合、まず、Y方向のばらつきの中心がだいたい5なので、「aは5」と見積もれます。 Eについては、5を中心としたばらつきとして考えると、だいたい1なので、「Eは1」と見積もれます。

比例分布は、一見すると、扱いにくいものですが、ちょっと変形しただけで、普通の正規分布として扱えるようになります。 このシンプルさは、現象の理解にとても強力です。

計算で係数を求める

まず、Eが正規分布の場合です。

proportional regression
の式により、
a = average(Y/X)
E = stdev(Y/X)
になります。

実際に求める時は、まず、データのYとXを使って、Y/Xという変数を作ります。 この変数の平均値と標準偏差が求めたい係数になります。

Eが一様分布の場合、Eの計算式が違います。
E = max(Y/X) - min(Y/X)
または、
E = sqrt(12)*stdev(Y/X)
です。sqrt(12)というのは、一様分布における、範囲と標準偏差の関係式にある値です。

もうひとつの比例分布の回帰分析

「一般的な単回帰分析が想定している式は、比例分布と異なる。」と書きましたが、簡単な変形で扱えるようにすることもできます。

proportional regression proportional regression
上のグラフは、左側が変形前で、右側が両辺とも対数軸(両対数グラフ)にしたものです。

対数にすると、プロットがほぼ一直線に並びますし、Y方向のばらつきも一定のように見えます。 そのため、一般的な単回帰分析でモデル化できます。

対数にした比例分布

proportional regression
両辺を対数にすると、XとYではなく、X'とY'の関係として扱えるようになります。

この関係ですが、傾きが必ず1になります。

2つのアプローチの違い

対数を使うアプローチの場合、Xが増えるほどYが増えることと、その増え方をストレートに表現できている点が良いです。 しかし、このアプローチの場合は、単回帰分析によって、傾き、Y切片、Y方向のばらつきの3のパラメタがわかりますが、 これの物理的な意味の解釈が難しいです。

一方、比例分布を、ただの正規分布になるように変形した場合は、物理的な意味の考察がとてもシンプルになるのがとても良いのですが、 「Xが増えるほどYが増える」という点は、イメージしにくくなっています。

Y/Xの変数を作るのと、log(Y)、log(X)の変数を作ることを比べた場合、手間は、あまり変わりませんが、そこからわかることが、だいぶ違います。

比例分布の外れ値の分析

proportional regression
例えば、オレンジ色のようなプロットがあったとします。

Y/Xを計算して、Y/Xのヒストグラムの中で、オレンジのプロットの位置を見ると、外れていることが、シンプルに表現できます。



比例分布の線形混合モデル

比例分布モデルになるデータの構造

比例分布への品質工学のアプローチ

順路 次は 比例分布の予測区間

Tweet データサイエンス教室