トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

線形性

相関性 の解析のように、データが直線状に並ぶかどうかを評価することは、 データサイエンス では、よくされています。

直線を表す数式は、
Y = A * X + B ・・・@
で表現できます。 X の1乗の項のみなので、「X の一次式」と言います。 B が0の時、直線は原点を通ります。

X が n 個ある時は、
Y = A1 * X1 + A2 * X2 + ・・・ + An * Xn + B ・・・A
と表現できますが、これを「線形和」と言います。 線形和は、X の一次式の和(足し算)です。 @やAの式を「線形式」と言います。 この式で表現できる現象は、 「線形性(Linearity)がある。」という言い方をします。

式@は「直線」を表す式です。
Y = A1 * X1 + A2 * X2 + B
は、「平面」を表す式です。 そして、式Aのように、 X が3個以上ある場合は、「超平面」を表す式です。 「超平面」は、グラフに描けません。

回帰分析との関係

@やAの式は、 回帰分析 でも登場する式です。

@の式を求めるための回帰分析は、「線形単回帰分析」と言います。 Aの式を求める時は、「線形重回帰分析」です。

線形近似は強力

線形式をモデル式として仮定することを、「線形近似」と言います。 下記のような4つの理由があり、 データサイエンス では、線形近似がよく使われます。

線形近似は理論が多彩

線形式は、式が単純なこともあり、 相関係数 等の多彩な理論が作られています。 線形近似が可能となれば、様々な観点から調べられるようになります。

線形近似はわかりやすい

線形式は、わかりやすいです。 一度は、試したくなる魅力を持っています。

線形近似はロバスト

正規分布 を仮定することに無理がありそうな分布にも正規分布を仮定して(近似して)、 それなりに使える成果を出せることがあります。 これは、正規分布の理論がロバスト(頑健)だからです。 この点で、線形近似の理論は、正規分布の理論と似ています。 線形近似の理論もロバストです。

グラフで見ると、直線にはなっていなくても、グラフの増加や減少の傾向がある場合であれば、 線形と考えても、それなりに当てはまります。

例えば、Yの増減と関係しているXの候補として、とりあえず増加や減少のあるXを抽出したい時には、 線形近似の理論が役に立つこともあります。

線形近似の妥当性は、数学的にもわかっている。

数学には、現象を数式で表す時に、簡単な数式から組み立てて、だんだん難しい数式を足し合わせていくアイディアがあります。 「テイラー展開」、等と呼ばれています。

このアイディアを使うと、「極微小な範囲の変化は、線形式で表せる。」と言えます。 つまり、極微小な範囲の解析では、線形近似で十分という意味です。

「大きい」、「小さい」というのは、相対的なものなので、 日常的な状況や、外乱のないような理想的な状況では、「極微小」の範囲に入ってしまうことがあります。 古典的な物理学や化学では、このような現象を「法則」として見つけて来ています。

非線形の解析

線形でないのが、非線形です。 自然現象は、一般的に非線形です。 線形が直線で表せるような現象なので、 非線形は曲線(カーブ)で表せるような現象だと考えることもありますが、 曲線は、非線形の世界の一部でしかありません。 カオス は、非線形のひとつの極みです。

曲線なら、線形の解析の延長で扱えることもありますが、 一般的には、非線形の解析は、技があまりありません。

線形近似がうまくいかない時

数学的なアプローチでデータを解析する方法として、線形近似は強力です。 しかし、現実世界のデータでは、線形近似がうまくいかないことが、よくあります。

筆者の経験の範囲では、 線形近似で解析をしても何も成果がない場合や、 「極微小」の範囲とは考えられない場合等の時には、 非線形の数学で何とかしようとしても、良い結果は出ないです。 モデル式で現象を表現しようとすることに無理があります。

それよりも、 「とにかくグラフを良く見る」、「データの背景を調べる」、「現象の背景を調べる」等の、 数学以外のアプローチが、現実的な突破口になることの方が多いです。



順路 次は 標準偏回帰係数

Tweet データサイエンス教室