Pythonによるデータ分析

Pythonによるデータ分析について

Pythonによるデータ分析 は、 環境と品質のためのデータサイエンス からのスピンアウトとして作ったものです。 Rによるデータ分析Excelによるデータ分析 の姉妹版です。

作った動機や編集方針は、 Rによるデータ分析について にある内容とほぼ同じです。 下記は、Python版で違うところが中心です。

筆者が 環境と品質のためのデータサイエンス を作り始めたのは2007年ですが、その頃にはまだ、Pythonは知りませんでした。 データサイエンスに使えるプログラミング言語ベースのフリーソフトは、Rが唯一無二と思っていました。

それもあり、 環境と品質のためのデータサイエンス のサンプルコードはRで書かれたものが大半です。

しかし、今はPythonも大きな存在になっています。 そこで、 Pythonによるデータ分析 の中にまとめることにしました。

R版との違い

探索的データ分析は、Python版でも Rによるデータ分析 と、ほぼ同じことができるようにしたかったのですが、ほぼ同じなのは、 Pythonによるデータ全体の可視化Pythonによる隠れ変数の分析 のページだけです。 その他のページは、なかったり、あったとしても内容が少ないです。

Python版の内容が少ない理由ですが、第1には筆者の力量不足です。

第2の理由として、Pythonの方が、Rよりも敷居が高い点があります。 このサイトで扱っている手法は、有名なものばかりなので、Rからの翻訳はできそうな感触は持っています。 しかし、PythonはRに比べてパッケージの追加が難しいですし、環境に依存するエラーが多いので、 Pythonに相当慣れている人でないと、使い物にならないサンプルコードになるように思いました。

2020年の時点では、第2の理由がPythonの問題点として大きいと思いますので、R版からの翻訳は少しに留めることにしました。

Python版の使い道

Python版については、Python環境でデータをいじっている時に、割と簡単に試せる方法として、筆者自身は使っています。

探索的なデータ分析や検証的なデータ分析を本格的にやりたい場合は、 データセットを用意して Rによるデータ分析 にした方が効率的と思います

サンプルコードの編集方針

入力のデータの場所

入力のデータは、Cドライブの「PyTest」というフォルダに入っていることを想定しています。 それができるように、作業用ディレクトリを設定するようになっています。 この名前のフォルダを事前に作っておいて、分析したいファイルを置けば、サンプルコードは変更なしで使えます。

デフォルトだと、Pythonのファイルが保存されているディレクトリになっていますが、 わかりにくいので、このようにしています。

入力のデータのファイル形式

入力のデータは、csvファイルを想定しています。 Excelで用意する場合は、最初の列がA列になるようにして作る必要があります。 また、一番上の行は、変数名(列の名前)になっていることを想定しています。

「csvファイル」は、Excelで保存する時に、保存形式を選ぶと作ることができます。

プログラミングに慣れている方は、 csvになっているとやりにくいかもしれませんし、限界を感じるかもしれません。 筆者の経験の範囲では、Excelのデータに対して、データ分析をしたり、 データをMinitabやStatworksなどの統計ソフトで分析することもする人には、 一番敷居の低い方法と思いますので、この形式にしています。



データサイエンス教室