Pythonによるデータ分析 は、 環境と品質のためのデータサイエンス からのスピンアウトとして作ったものです。 Rによるデータ分析 と Excelによるデータ分析 の姉妹版です。
作った動機や編集方針は、 Rによるデータ分析について にある内容とほぼ同じです。 下記は、Python版で違うところが中心です。
筆者が 環境と品質のためのデータサイエンス を作り始めたのは2007年ですが、その頃にはまだ、Pythonは知りませんでした。 データサイエンスに使えるプログラミング言語ベースのフリーソフトは、Rが唯一無二と思っていました。
それもあり、 環境と品質のためのデータサイエンス のサンプルコードはRで書かれたものが大半です。
しかし、今はPythonも大きな存在になっています。 そこで、 Pythonによるデータ分析 の中にまとめることにしました。
探索的データ分析は、Python版でも Rによるデータ分析 と、ほぼ同じことができるようにしたかったのですが、ほぼ同じなのは、 Pythonによるデータ全体の可視化 と Pythonによる隠れ変数の分析 のページだけです。 その他のページは、なかったり、あったとしても内容が少ないです。
Python版の内容が少ない理由ですが、第1には筆者の力量不足です。
第2の理由として、Pythonの方が、Rよりも敷居が高い点があります。 このサイトで扱っている手法は、有名なものばかりなので、Rからの翻訳はできそうな感触は持っています。 しかし、PythonはRに比べてパッケージの追加が難しいですし、環境に依存するエラーが多いので、 Pythonに相当慣れている人でないと、使い物にならないサンプルコードになるように思いました。
2020年の時点では、第2の理由がPythonの問題点として大きいと思いますので、R版からの翻訳は少しに留めることにしました。
Python版については、Python環境でデータをいじっている時に、割と簡単に試せる方法として、筆者自身は使っています。
探索的なデータ分析や検証的なデータ分析を本格的にやりたい場合は、 データセットを用意して Rによるデータ分析 にした方が効率的と思います
入力のデータは、Cドライブの「PyTest」というフォルダに入っていることを想定しています。 それができるように、作業用ディレクトリを設定するようになっています。 この名前のフォルダを事前に作っておいて、分析したいファイルを置けば、サンプルコードは変更なしで使えます。
デフォルトだと、Pythonのファイルが保存されているディレクトリになっていますが、 わかりにくいので、このようにしています。
入力のデータは、csvファイルを想定しています。 Excelで用意する場合は、最初の列がA列になるようにして作る必要があります。 また、一番上の行は、変数名(列の名前)になっていることを想定しています。
「csvファイル」は、Excelで保存する時に、保存形式を選ぶと作ることができます。
プログラミングに慣れている方は、 csvになっているとやりにくいかもしれませんし、限界を感じるかもしれません。 筆者の経験の範囲では、Excelのデータに対して、データ分析をしたり、 データをMinitabやStatworksなどの統計ソフトで分析することもする人には、 一番敷居の低い方法と思いますので、この形式にしています。