トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

マテリアルズインフォマティクス・ケモメトリックス

マテリアルズインフォマティクスと、ケモメトリックスは、いずれも化学関係の調査や研究に、 データサイエンス を使います。

化学の分野では、実験が重要ですが、実験には時間もお金もかかります。 お金には、実験で作った物質を人体や環境に影響がないように、適切に廃棄するための費用なども入ります。 危険なため、できるだけ回数や量を減らしたい実験もあります。

マテリアルズインフォマティクスや、ケモメトリックスには、そういったニーズがあります。
MI

化学物質の研究に、多変量解析が役に立つ理由

例えば、化学物質の種類を特定する時は、様々な測定方法を使って測定します。 ひとつの測定方法で、複数の値が出力される場合もあります。 複数の視点のデータを使うことで、特定が可能になります。

また、化学物質を表現しようとすると、原子の数と種類、分子の形、等があるので、複数のパラメタを使うことになります。

いずれの場合でも、ひとつの化学物質を、多くの項目で表現しています。 これをデータサイエンスの見方をすると、「変数がたくさんある(多変量・多次元)問題」ということになります。 そのため、多変量解析が役に立ちます。

マテリアルズインフォマティクス

マテリアルズインフォマティクスでは、たくさんの実験データを使って、未知の物質(マテリアル)の開発に活用します。 実験をしたことのない材料や実験条件について、過去の実験データから実験結果を予測していきます。

この予測に、 多変量解析人工知能(AI) を活用します。

ケモメトリックス

ケモメトリックスは、分析化学の分野に データサイエンス を活用します。 マテリアルズインフォマティクスのように、未知の物質の探索もします。

また、測定器の調整に、 回帰分析 を活用します。

構造活性相関

構造活性相関とは、新しい薬を考え出すための方法です。 化合物の分子構造と、生理活性の強さの 相関性 を調べ、利用します。 分子構造は、多変量で表すので、 重回帰分析 を使ったりします。

「構造活性相関」という名前ですが、活性になる目的変数を物性などに変えれば、 物性の分析にも使うことができます。 構造活性相関は、ケモメトリックスでは出て来ない方法ですが、活性の部分を物性などに変えると、ケモメトリックスとほぼ同じものになって来ます。

マテリアルズインフォマティクスとケモメトリックスの違い

ケモメトリックスは、1990年代から2000年代始めに、多くの本が出版されています。

マテリアルズインフォマティクス(MI)には、実験データを活用するという、ケモメトリックスの一部が、 最新のコンピュータの力を得て大きく進歩したような一面があります。

マテリアルズインフォマティクスは、「すでに情報(データ)がある」、という立場の分野になっています。 また、物質の測定データ以外の、化学関係のデータについても、活用する方向に広がっています。

一方、ケモメトリックスは、すでにあるデータだけでなく、 測定器の管理や、 実験計画法 のように、データを取る場面や、どのようにして測定されたデータなのか、という点を考慮して、データを処理することも含んでいます。



参考文献

マテリアルズインフォマティクス

マテリアルズ・インフォマティクス 材料開発のための機械学習超入門」 岩崎悠真 著 日刊工業新聞社 2019
物性値をYとして、物質の構造を表す多変量をXとした時の、分析方法の本になっています。
機械学習の入門的な説明から始まって、材料開発の分野への応用が理解で理解できるところまで案内しています。
線形回帰、 LASSO回帰決定木ランダムフォレストニューラルネットワーク、 Interpretable ML(FAB/HMEs)、ベイズ最適化、 階層的クラスタリング非負値行列分解(NMF)多次元尺度構成法主成分分析 、パーシステントホモロジー(PH)という手法と、具体的な材料開発の関係で、それぞれ、 節を分けています。
Interpretable ML(FAB/HMEs)というのは、 モデル木 の一種でした。
パーシステントホモロジーは、分子のグループの構造を視覚化する方法で、例えば、液体とガラスの違いが明確に出るそうです。


マテリアルズ・インフォマティクス 2  機械学習を活用したマテリアルDX超入門」 岩崎悠真 著 日刊工業新聞社 2022
マテリアルズインフォマティクス:新材料の構造の予測
プロセスインフォマティクス:新材料の作り方(プロセス)データの蓄積と、プロセスの最適化の技術
計測インフォマティクス:計測の効率化、大量のデータの解析
物理インフォマティクス:材料物性やプロセスの法則の理解。シンボリック回帰が有力。
シンボリック回帰というのは、三角関数、指数関数などのシンプルな計算を組み合わせて、大量の変数を作ってから、 スパースモデリング で変数を絞り込むことで、法則を表す数式を見つけようとする方法。


ケモインフォマティックス 予測と設計のための科学情報学」 J.Gasteiger・T.Engel 編 丸善 2005
物質の記述の仕方の説明が多く、その後に、多変量解析などの分析方法の説明になっています。


ケモメトリックス

データのとり方とまとめ方 分析化学のための統計学とケモメトリックス」 James N.Miller・Jane C.Miller 著 共立出版 2004
検定 、 回帰分析による測定機器の校正、 実験計画法 となり、多変量解析も1つの章で説明しています。
タイトルは分析化学になっていますが、製造現場のデータ分析の教科書としても、とてもよくまとまっています。


ケモメトリックス 新しい分析化学」 相島鉄郎 著 丸善 1992
いろいろな多変量解析の手法が紹介されています。 ファジィエキスパートシステム もあります。


ケモメトリックス 化学パターン認識と多変量解析」 宮下芳勝・佐々木慎一 著 共立出版 1995
数式の解説が詳しいです。 PLSやSIMCAもあります。


化学者のための多変量解析 ケモメトリックス入門」 尾崎幸洋・宇田明史・赤井俊雄 著 講談社 2002
主成分分析、回帰分析、実験計画法が出て来ます。


ケモメトリックスの基礎と応用 分析化学と多変量解析法」 三井利幸 著 アイピーシー 2003
物質の分析に多変量解析を使う本です。 SIMCAが何度も出て来ます。 SIMCAは、グループごとに主成分分析をしてから、未知のサンプルがどのグループになるのかを調べる方法。


初心者のためのケモメトリックス 分析化学と多変量解析法」 三井利幸 著 一粒書房 2016
回帰分析、主成分分析、クラスター分析を物質の分析データのデータ分析で活用します。
測定値の補正方法も解説しています。


順路 次は カオス

データサイエンス教室