比例分布は、上のグラフのような分布です。
Xが大きければ大きいほど、Y方向のばらつきが大きくなっています。
比例分布の回帰分析の前に、一般的な 単回帰分析 と比べます。
一般的な
単回帰分析が使う式は、下記のようなものです。
これがぴったり当てはまる分布は、下のグラフのような分布です。
aが傾き、bがY切片、と呼ばれています。
Eというのは、ばらつきです。
このモデルでは、縦方向のばらつき方が一定です。
そのため、一般的な単回帰分析が想定している式は、比例分布と異なります。
比例分布は、上のような式で表されます。
aが傾き、Eというのは、ばらつきです。
データがある時に、この式の具体的な係数を求める方法が下記になります。
比例分布は、新しい変数を作ると、取り扱いが簡単になります。
下のグラフは、左側がYとXの散布図です。
右側がY/Xと、Xの散布図です。
右側のグラフの右上にある式は、左側のグラフの式の両辺をXで割ったものです。
右側は、「Xに関係なく、縦軸のばらつきは一定」ということを表しています。
この式の右辺は、「ある値aがあって、そこにばらつきが加わったもの」というです。
正規分布の場合は、分布の平均値がaで、標準偏差がEだと、ちょうどこれに相当します。
つまり、Y/Xという変数は、普通の正規分布で表せるということになります。
「比例分布は、正規分布から作られる分布の一種」とも言えます。
グラフの見た目だけで、aとEの大きさを見積もろうとした場合、変形前のグラフは、aについては「傾きはこのくらいだから・・・」と考えて計算できなくもないのですが、Eの方は、ちょっと大変です。
変形後のグラフの場合、まず、Y方向のばらつきの中心がだいたい5なので、「aは5」と見積もれます。 Eについては、5を中心としたばらつきとして考えると、だいたい1なので、「Eは1」と見積もれます。
比例分布は、一見すると、扱いにくいものですが、ちょっと変形しただけで、普通の正規分布として扱えるようになります。 このシンプルさは、現象の理解にとても強力です。
まず、Eが正規分布の場合です。
の式により、
a = average(Y/X)
E = stdev(Y/X)
になります。
実際に求める時は、まず、データのYとXを使って、Y/Xという変数を作ります。 この変数の平均値と標準偏差が求めたい係数になります。
Eが一様分布の場合、Eの計算式が違います。
E = max(Y/X) - min(Y/X)
または、
E = sqrt(12)*stdev(Y/X)
です。sqrt(12)というのは、一様分布における、範囲と標準偏差の関係式にある値です。
「一般的な単回帰分析が想定している式は、比例分布と異なる。」と書きましたが、簡単な変形で扱えるようにすることもできます。
上のグラフは、左側が変形前で、右側が両辺とも対数軸(両対数グラフ)にしたものです。
対数にすると、プロットがほぼ一直線に並びますし、Y方向のばらつきも一定のように見えます。 そのため、一般的な単回帰分析でモデル化できます。
両辺を対数にすると、XとYではなく、X'とY'の関係として扱えるようになります。
この関係ですが、傾きが必ず1になります。
対数を使うアプローチの場合、Xが増えるほどYが増えることと、その増え方をストレートに表現できている点が良いです。 しかし、このアプローチの場合は、単回帰分析によって、傾き、Y切片、Y方向のばらつきの3のパラメタがわかりますが、 これの物理的な意味の解釈が難しいです。
一方、比例分布を、ただの正規分布になるように変形した場合は、物理的な意味の考察がとてもシンプルになるのがとても良いのですが、 「Xが増えるほどYが増える」という点は、イメージしにくくなっています。
Y/Xの変数を作るのと、log(Y)、log(X)の変数を作ることを比べた場合、手間は、あまり変わりませんが、そこからわかることが、だいぶ違います。
例えば、オレンジ色のようなプロットがあったとします。
Y/Xを計算して、Y/Xのヒストグラムの中で、オレンジのプロットの位置を見ると、外れていることが、シンプルに表現できます。
順路
次は
比例分布の予測区間