トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

自己組織化マップ(SOM)

自己組織化マップ(SOM : Self Organizing Map)は、 多次元データを2次元データに変換する方法です。 2次元にすることによって、データの様子を見ることが簡単になり、データの特徴をつかみ易くなります。

クラスター分析では、 サンプルの仲間分けの分析 の一種です。 使い道は、 主成分分析クラスター分析 と似ています。 教師なし学習や、 ニューラルネットワーク の一種とも言われることがあります。

マップの特徴

たくさんの項目(説明変数)があるデータを 散布図 を使って調べる時には、 一般的には、2つずつの項目の組み合わせを順に散布図にします。

自己組織化マップでも散布図が作られるのですが、この散布図には、2項目ではなく、すべての項目の情報が入っています。

「多次元データを2次元データにする」という説明では、ピンと来ないかもしれませんが、 本来であれば2項目しか表現できないはずの散布図に、たくさんの項目の情報を描いてしまうのが、自己組織化マップのすごさです。

ブレーンストーミングの後に、 出てきた意見を似ているものでグループに分けてみたり、 何かのコレクションを、似ているもので近くに置いてみたりする事がありますが、 自己組織化マップで作られるマップは、この発想に近いです。 つまり、近い場所にあるかどうかは意味があるのですが、マップ上のどこにあるのかには意味がありません。

フリーソフト

Rでもできますが、RapidMinerが一番手軽と思います。

RapidMinerの結果の解析の機能の中に、「Charts」というものがあり、いろいろなグラフを書けるようになっているのですが、 そのグラフのひとつに「SOM」も入っていて、簡単にマップが書けます。

マップの数字データを見たい場合は、
Cleansing(クレンジング) → Dimensionality Reduction(次元の減少) → Self-Organizing Map(自己組織化マップ)
と進むと、自己組織化マップが使えます。

RapidMinerには、SOMの2つの使い方が用意されているのですが、マップを描いた後のステップには利用しにくいのが、今のところ難点です。




手法の使い分け

中間層を使った解析

参考文献

自己組織化マップ 理論・設計・応用」 マーク・M.ヴァン・フッレ 著 海文堂 2001
生物の神経モデルとして自己組織化マップが考えられて来た話が、ずいぶんあります。


自己組織化マップ」 T.コホネン 著 シュプリンガー・フェアラーク東京 2005
数学の基礎的なところから、事例まで、事典のように広くまとめられています。


医療・医学・薬学におけるSOMの応用」 徳高平蔵・大北正昭・大藪又茂 監修 海文堂 2015
特定の分野でのSOMの事例をまとめています。
アンケートの解析や、脈波の解析もあります。
ちなみに、脈波は、データとしては「準周期的な時系列データ」になります。 東洋医学複雑系 でも文献を見たことがあります。
18章が「固形製剤の開発」となっていて、 品質学 の分野の話でした。 既知の処方で実験データを取る → 応答曲面法 で、設計変数と製剤の特性の関係をモデル化 → 未知の処方の時の特性を予測 → 未知の処方の時の設計変数と特性の関係をSOMで解析、 という手順でした。


自己組織化マップとその応用」 徳高平蔵・大北正昭・藤村喜久郎 編 シュプリンガー・ジャパン 2007
CD-ROMが付いています。
球面SOMを中心にした内容です。 「SOM」と言えば、2次元の平面のマップが一般的ですが、これだとマップに端がある事が、現実の問題と合わない事があるそうです。 そこで考え出されたのが、球面のマップになります。
筆者が興味を持ったのは、12、13章の脈波の解析、16章の変圧器の異常診断、17章のダムの土砂生産量、19章のマンガ家の解析です。
19章の解析は、まず、 多次元尺度構成法 では、好きか嫌いかを尋ねた回答のデータには良いけれども、「知らない」が大半を占めるデータを使って、 ニッチな事を調べる解析には、向かなかったそうです。
また、 相関ルール(アソシエーション分析) では、大量のルールがわかったものの、全体像がわからなかったそうです。
449人のマンガ家を2次元マップにしてみるだけでも、驚きの結果だったそうですが、さらに球面SOMもしています。
「弱い紐帯」というものが、ネットワーク分析の理論の中にあるそうです。 これは、クラスター間のショートカットを指していて、伝達コストを大幅に下げる効果があるそうです。
球面SOMは、マクロな距離関係を計算する方法と考え、 相関ルールは、ミクロな共起関係を計算する方法と考えると、 距離が遠くて、共起が強いものは、「弱い紐帯」に相当すると考えます。 これは、「遠距離の仲良し」、「異ジャンルだが、支持者が共通」、「意外だが面白い」、と解釈します。
この研究では、ジャンルが異なるのに、共起が強いマンガ家の共通点として、同じ雑誌に連載されていた点に行き着いています。


自己組織化マップとそのツール」 大北正昭・徳高平蔵・藤村喜久郎・権田英功 編 シュプリンガー・ジャパン 2008
編者が共通の上記の本とは異なり、ツールの解説が中心になっています。 ツールは、CD-ROMが付いています。


データマイニング入門 :Rで学ぶ最新データ解析」 豊田秀樹 編著 東京図書 2008
自己組織化マップが、ひとつの章になっています。
サンプルコードや、サンプルデータもあり、Rを使って自分で試せるようにもなっています。


Rによるデータサイエンス」  金明哲 著 森北出版 2007
多変量解析データマイニング の様々な手法と、Rで実行する方法がコンパクトにまとまっています。




順路 次は クラスター分析

Tweet