トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

現状把握のためのデータサイエンス

現状把握 では、「どういうデータ?」、「何が起こっている?」、「どういう風に起こっている?」と言ったことを調べます。 この段階で、データサイエンスが役に立ちます。

現状把握で調べること

歩留(良品率)を改善したいなら歩留、生産性を改善したいないなら生産性のデータを詳しく調べます。

基本的な分析

行が100行くらい、列が2列くらいまでの表形式のデータがあったとします。

こういうデータの時は、 パレート図ヒストグラム箱ひげ図折れ線グラフ といったものを作って、データをグラフにしてみると、良い現状把握になります。

これよりもデータが大きくなると、データサイエンスのいろいろな技が役立ちます。

グラフにする方法

行数が非常に多い時は、時間的な変化の仕方を見るために、普通に 折れ線グラフ を作ると、ごちゃごちゃしているだけでよくわからないグラフになったり、 PCの処理が非常に遅くなることがあります。

また、列数が多い時に、ひとつひとつの列を見ていくのは大変です。

「データサイエンス」と言えるかはわかりませんが、データ全体の可視化ができるグラフがあります。 このサイトでは、 Excelによるデータ全体の可視化Rによるデータ全体の可視化Pythonによるデータ全体の可視化 というページで具体的な方法を紹介しています。 また、 R-EDA1 では、様々なグラフがGUIで簡単で作れるようになっています。 層別のグラフ も簡単に作れます。
R-EDA1

スモールデータにする方法

まず、 サンプリング を使ったり、 メタ知識特徴量エンジニアリング の技を駆使して、データの量を減らします。

こうすると、重要な情報があぶり出されて来ることがあります。

このサイトの実施例としては、 Rによる準周期データの分析Pythonによる準周期データの分析 のページがあります。

時間的な変化は、あまり関係のないデータを分析する方法

上記の方法は、広い意味での、 時系列解析 です。 データが時間の順に並んでいたり、日時のデータが入っていたりして、時間的な変化を把握することが重要な場合に役に立ちます。

時間的な変化を把握することは、重要ではない時には、 サンプルの類似度の分析 や、 多対多の分析 が役に立つことがあります。

このサイトの実施例としては、 Rによるサンプルの類似度の分析Rによる行と列の項目の、項目同士の類似度の分析 のページがあります。



順路 次は 要因解析のためのデータサイエンス

Tweet データサイエンス教室