トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

単回帰分析

Yが1個、Xが1個の 回帰分析 は、回帰分析と呼ばれます。 Xが複数になると、 重回帰分析 と呼ばれ、計算で気を付けることが増えます。

式の形

回帰分析では、XとYのデータが、
Y = A * X + B
の式で表せると仮定した場合に、どのくらいこの式に当てはまるのかや、AやBの数字(係数)がいくつになるのかを調べる事ができます。

式の作り方

式の係数を求めると、式が完成します。 係数の求め方の代表的なものが、最小二乗法です。 その他に、最尤法もあります。

この方法を使うと、持っているデータに対して、もっともらしいAやBの値が求まります。

式の妥当性や有効性は、相関係数や寄与率で評価します。

相関係数

相関係数によって、YとXの値の増減の仕方が似ているかどうかを調べることができます。

相関係数の考え方は重要ですが、少々ややこしいです。 詳しくは 相関性 のページです。

寄与率・決定係数

求めた式のもっともらしさは、寄与率で判定します。 寄与率は、決定係数とも呼ばれます。

「寄与率」の名前にも出ていますが、 寄与率は、「目的変数の変動を、回帰式で説明できる割合」なので、回帰式の説明能力の指標として使われます。 寄与率が高くないと、 回帰式を予測に使ったり、傾きや切片の数字を現状を表す数値として使ったりできません。

ちなみに、相関係数を二乗しても、寄与率を求める事ができます。

寄与率は、 統計モデルによる原因解析 で重要な尺度になります。

傾きと切片の使い道

傾きと切片の分析

上の式で、Aは傾き、Bは切片と呼ばれます。

上の式で、A・Xの部分は、Xの大きさによって変わる部分(変動分)です。 Bの部分はXがいくつになっても一定(固定分)です。

そこで、Aを変動分、Bを固定分の現状を表す尺度として使う事ができます。 2つに分かれると、変動の理由が考えやすくなり、対策も立てやすくなります。

Xを生産量、Yをコストにすると、 固定費と変動費の コスト分析 ができます。また、 Xを生産量、Yを使用エネルギーにすると、 省エネ のための分析で使う事ができます。

コストの分析や、エネルギーの分析でしたら、固定分を減らす事と、傾きを小さくする事が対策のヒントになります。

傾きと相関係数のちょっと深い話

標準化 」と呼ばれるデータの換算の方法があります。 標準化をされた変数は、平均値が0、標準偏差が1になります。

XとYのそれぞれを標準化してから回帰分析をすると、 傾きと相関係数の値がまったく同じになります。

傾きと相関係数は、別のものとして勉強しますし、 使い道も違うものと思うのが普通ですが、標準化すると不思議な事が起きます。

Yが確率を表すデータの場合

Yが「発生率」や「歩留」のような確率を表すデータの場合、0から1(100%)の間の値になります。 この値を使って、普通に回帰分析をすると、確率の予測値が0よりも小さかったり、1よりも大きかったりするようになります。 困ったことです。 しかも、確率のデータは、図のような分布になることがあるのですが、直線の近似は違う感じがします。

その場合は、
z = log( y / (1-y))
という式で、zを計算して、ZとXで回帰分析してから、逆変換して元のYに戻すと、うまく行くことがあります。 この変換は、 ロジット変換 と言います。
確率データの回帰分析 変換したデータによる回帰分析

Yが0と1だけの場合

Yが0と1だけの場合は、確率のデータと似ているのですが、単純にロジット変換、という訳には行きません。 この場合は、 ロジスティック回帰分析 が役に立ちます。



順路 次は 曲線の回帰分析

Tweet データサイエンス教室