トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データフィジクス(データ物理学)

統計学機械学習 の手法には、いろいろありますが、データを「数値」や「記号」として見ているものが多いです。

しかし、こういったデータの見方では、できる事が限られています。

物理学的な意味や性質が、どのようにデータに表れているのかを知っていると、より具体的な目的にデータが使えるようになってきます。 すでに方法論がいくつかあるものの、 異種データの紐付け のひとつです。

どういう性質のものかという事の他に、どういう事の結果として、そのデータの値が決まって来るのかまで踏み込むと、分析できる事が広がります。 また、こうしたアプローチは、自然言語やお金のような、物理学的な量ではないデータを扱う時にも役立ちます。

数理モデリング では、現象の数学的な表現(数理モデル)に注目しています。 データフィジクスは、現象がデータにどのように表れるのかに注目しています。 現象とデータの間に、必ずしも数理モデルが入りません。

2つの使い方

データフィジクスの使い方で比較的簡単なのは、 データの変換 の方法として使って、変換されたデータを統計モデルで扱うアプローチです。

もうひとつは、 モデル自体にデータフィジクスの考え方を取り入れるアプローチです。 特にデータフィジクスとは言われていませんが、例えば、下記の3つの手法は、 データフィジクスの考え方が取り入れられた手法と思います。

上級のデータサイエンティスト?

世の中で「データサイエンティスト」と言えば、機械学習のモデルの中から、良さそうななものを選び、適切にパラメタを調整する人を指していることが多いです。

汎用的なものでも、特定領域のものでも良いので、機械学習のモデルを自分のやりたい事や、自分の持っているデータに合わせて作れる人は、 「上級のデータサイエンティスト」と呼んでも良いかもしれません。

データフィジクスは総論よりも各論

データフィジクスは、すべてに共通するような総論よりも、 それぞれのデータに特有の各論が大事です。

ハードウェアのデータサイエンス

データサイエンス 」では、数理の話や、ソフトウェアの話がされることが多いです。 しかし、この話を実現するには、それができるハードウェアが必要です。

ハードウェアの世界はデジタル

電子機器は、電気のONとOFFの組み合わせを使って、様々なことができるようになっています。 コンピュータも電子機器の一種なので、この点は同じです。 なお、論理的な議論では、「ONとOFF」ではなく「0と1」で表現することもあります。

アナログデータとして取っていても、どこかの段階のハードウェアでデジタルデータに変換されます。 文章、温度、波形など様々なデータがありますが、 こうしたデータはすべて、コンピュータの中で扱う段階では、0と1の組み合わせのデータとして扱われています。

データサイエンス では、このような変換は 特徴量エンジニアリング のひとつの ダミー変換 として知られていて、中級者くらいの技術です。 一方、ハードウェアの世界では、このような変換は当たり前のように行われていますし、 「コード表」のような形で規格化(世界的なルール作り)も盛んです。

データサイエンスの計算を高速にする技術

計算の高速化など、 コンピュータを最大限効率的に使う方法として、様々な数理やアルゴリズムがありますが、 コンピュータの計算のもっと根本的なところを使う方法もあります。

それは、「0と1」の論理演算がコンピュータの中では電気の動きで行われていることに着目することと、 アナログの理論をデジタルの理論に変換することがポイントのようです。 このアプローチは、 ディープラーニング(深層学習) 専用のハードウェアの技術などに使わているようです。

この分野は、「量子化」がキーワードのようです。 ちなみに、物理学の量子力学の「量子化」とは、似ていますが違います。

※ この単元は、筆者のメモに近いので「ようです」を連発しています。 機会があれば、修正するつもりです。



参考文献

「通信」のキホン いつでもどこでも超高速でつながる世界」 井上伸雄 著 ソフトバンククリエイティブ 2010
インターネットや携帯電話を中心に、通信の仕組みを解説しています。


よくわかる最新高周波技術の基本と仕組み」 小暮裕明・小暮芳江 著 秀和システム 2012
著者が新人の頃の思い出として、「積分は、プログラミングではループ処理で積算する」と教わった話がありました。


順路 次は 物理量のデータ

Tweet データサイエンス教室