トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

２次データ（特徴量）の解析

１次データの解析や 1.5次データの解析では、全体的なデータの内容がわかります。しかし、異常状態の工程解析では、決め手にならないことがよくあります。

扱うデータの種類にもよるのですが、多変量解析やデータマイニングの手法は、どちらかと言えば、静的な（時間軸で変化しない）データの解析に向いています。そのため、これらの手法で、１次データのような動的なデータを解析すると、現象の複雑な変化に数理モデルが当てはまらないために、「このデータからは、何もわからない。。。」となりかねません。

例の場合は、周期的な変化が特徴ですので、この特徴を何らかの尺度で表現できると、解析の見通しがよくなります。このサイトでは、これを「２次データ」と呼んでいます。

また、２次データの解析のデータは、１次データの段階で280行あるのですが、それがたった5行に集約されています。解析の負荷が大幅に軽くなっています。データの複雑さは、列を増やすことによって表現しています。例のデータでは実感が湧きにくいと思いますが、周期の数が数千、数万となってくると、この集約の効果は絶大です。

２次データの作成

１次データの作成は、データベースからのサンプリングでした。２次データの作成では、１次データからのサンプリングと、１次データの加工の２つの作業を同時に進めます。

１次データからのサンプリング

２次データのためのサンプリングは、基本的に 1.5次データの解析の作成方法と同じです。ただし、２次データでは、フラグのある行だけを抽出します。今回の例では、周期の始まりの行だけを抽出します。

１次データの加工

２次データの作成は、単純に周期の始まりの行だけの抽出ではありません。周期の始まりがわかれば、そこを基点にして、その周期の特徴を表す尺度をいろいろと計算することができます。

その周期の間の平均値や、最大値等の統計量の計算も良いですが、平均値や最大値を求める場合でも、その周期の間のさらに特殊な間隔の間だけを求めると、さらに深い解析ができます。

１次データの加工には、固有技術の知識が総動員されます。変化のタイミングや、異常な振幅の有無等、統計量以外の尺度を計算しても、深い解析ができます。良い尺度を作ると、解析後の考察がしやすくなります。

１次データの加工（時間のデータ）

時間の解析用には、タイミングと次のタイミングの差を計算します。例では、装置が加工中と、停止中が繰り返すので、それらの時間を計算します。その他に、装置のモードが途中で変わったりするのでしたら、それらの時間を計算することもあります。

１次データの加工（変化のデータ）

周期の始まりの温度の上昇速度、今回は１周期の中にピークが２つあるので、それぞれの値。また、各モードの、最高、最低の温度、等

２次データの解析

時間のデータを使うと、稼働時間やチョコ停の開始ができます。

また、多変量データの相関分析、主成分分析、アソシエーション分析等で、各変数の関係を解析することができます。

ソフト

EXCEL

２次データ作成のサンプル（Excel編）のページがありますが、これらはExcelのマクロ（VBA）を使った例になっています。

Excelで作っておくと、RやPythonがわからない人でも、普段仕事で使っているExcelを使う感覚で使ってもらえますし、 VBAだといじれる人が多いです。そのため、筆者の場合は、Excelで処理できるものを作ることが多かったです。

RとPython

しかし、RやPythonを使えるのなら、大まかな分析を手っ取り早く始められることがあります。データの切り貼りやメタ知識のデータの作成の技を使って、 GROUPBYを駆使できるようにデータを作りこみます。 Rによる準周期データの分析や Pythonによる準周期データの分析のページは、このようにして作っています。

比較的シンプルな２次データ（特徴量）は、RやPythonを使うとスピーディに分析の段階に進めます。固有技術を盛り込んだ２次データを作成する場合は、VBAでもRやPythonでも手間はそれほど変わらないです。

R-EDA1

R-EDA1 では、簡単に２次データが作れるようになっています。「One_variable（一変数）」の中の「Quasi_periodic(準周期）」は、この機能は、グラフの出力はなく、分析のデータがダウンロードできるようになっています。
必要に応じて、このデータをさらに分析に使うことを想定しています。
準周期性が、１と０の数字で表されている変数があれば、それを使うことができます。こういった変数がない場合、特定の変数について、「１列目が、40より大きければ１、40以下なら０」というようにして、こうした変数を作ることもできます。
R-EDA1 　　

微分データと積分データ

データフィジクス（データ物理学）

順路次は３次データ（ラベル付きデータ）の解析

杉原データサイエンス事務所によるコンサルティングとセミナー