トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データサイエンスのソフト

データサイエンス のソフトには、いろいろなタイプがあります。 やりたい事で使うものが変わって来ます。

統計学、多変量解析、データマイニングのソフト

統計学多変量解析データマイニング については、 大きく分けて、3種類あります。

メニューを選ぶタイプ

WordやExcelでは、やりたい加工や変換を、メニューから選びますが、このような使い方をするタイプです。 「統計ソフト」と言われるものは、このタイプが多いです。

商用ソフトには、Minitab、Statworks、JMPがあります。 商用ソフトは、 統計的なデータ解析と、グラフによるデータ解析の行ったり来たりが、やりやすく作られています。 わかりやすい結論を、すばやく出したい時に向いています。 また、 SPC(統計的工程管理) で必須になるツールが手軽に使えるようになっているため、とても便利です。

フリーソフトでは、Weka Explorer、Rコマンダー、 Nattoがあります。

ブロックを並べるタイプ

ひとつひとつのデータの処理が、ブロックから選ぶようになっていて、 ブロックを並べて、分析のフロー図を作って行くタイプです。

このタイプは、何度も同じ手順をしたり、途中を少し変えて、違いを見たい時に向いています。

「データマイニングのソフト」と言われるものは、このタイプが多いです。

商用ソフトには、SAS、SPSS、RapidMinerがあります。

フリーソフトでは、Orange、Knime、Weka KnowledgeFlow、R AnalyticFlowがあります。

※1 RapidMinerは、筆者が最初見つけた時は、「入力ファイルがcsvのみ」などの制限をつけることで、フリーソフトとして使えていました。 バージョン7.2あたりで、この制限がなくなった代わりに、「サンプル数は10000まで」という制限ができ、 初めての手法をスモールデータで手軽に試すような使い方しかできなくなりました。 バージョン8.1あたりから、フリーソフトとして使える期間が制限されたようで、 商用ソフトと変わらなくなって来ています。 このサイトには、RapidMinerの使用例がいくつかありますが、古いバージョンの頃に作ったものです。

※2 SPSSは、企業買収を重ねて、2020年の時点ではIBM社のソフトになっています。 ちなみに、筆者は「SPSS AnswerTree」という 決定木 だけができてメニューを選ぶタイプのソフトを、社会人なりたての頃に愛用していました。 このソフトはIBM社のソフトの一部になっているようです。

処理を打ち込むタイプ

マウスをあまり使わずに、ひとつひとつのデータの処理を、コマンドで入力するタイプです。 入力する手間があり、コマンドを覚えたり調べたりしないと使えないので、使い勝手が悪いのですが、 このタイプのソフトでしかできない事があります。

R(アール)とPython(パイソン)が有名で、いずれも無償ソフトです。

いずれも、多くの協力者が、様々な手法のパッケージを提供しているため、専門家しか知らないような手法も、手軽に試す事ができます。

RやPythonは、 データサイエンス の分野では、分析ソフトとして知られていますが、C言語やBASICと同じような、プログラミング言語としての一面もあります。 そのため、分析ソフトのエンジンとして使ったり、システムのアルゴリズム(問題の解き方・処理の仕方)のひとつのようにして、 機械学習 の理論を使いたい時には必須になって来ます。

グラフィカル分析のソフト

グラフィカル分析のソフト は、データサイエンスのソフトの一部になっていることが多いです。 このサイトでは、ExcelやRやPythonのものについて書いています。

データサイエンス全般のソフト

筆者の場合、データ分析のベースになっているのはExcelです。 これだけでデータ分析が終わる事も、よくあります。

データの保管、生データのチェック、データの加工、統計解析、グラフによる解析、 シミュレーション などなど、いろいろな場面で重宝しています。 VBAでプログラミングもできるので、高速な処理が必要な時以外は、たいていの事ができてしまいます。

データサイエンスの広大な未開拓地データリテラシー を駆使して何とかする時には、一番使いやすいです。 他のソフトは、補助的な使い方をしています。



よく使うツール(ソフト)は何ですか?

参考文献

Python

データ分析のための機械学習入門」 橋本泰一 著 SBクリエイティブ 2017
LINE社の方の本です。
そのためだと思いますが、機械学習の話だけでなく、HADOOPなどの分散処理や、 リアルタイム分析にどのようなものがあるのか、といった話にもページを割いています。


Pythonデータサイエンス 可視化、集計、統計分析、機械学習」 杜世橋 著 リックテレコム 2016
回帰分析や、検定など、初歩的な統計とそれを見るためのグラフ作りを、Pythonを使って実行するための本です。 シンプルにまとまっています。

Pythonによる機械学習入門」 システム計画研究所 編 オーム社 2016
機械学習 をPythonでするための本ですが、手形状の判別とセンサーデータの回帰分析の、2つの実施例が、詳しく書かれています。
時刻は、一対多で紐付けた方が良い事が書かれています。


KNIME

AI、IoTを成功に導く データ前処理の極意」 日立産業制御ソリューションズ 著 日経BP社 2018
タイトルは「前処理」ですが、データ分析業務の始めから終わりまでをまとめていて、モデリングを解説している章もあります。
一連の内容は、KNIMEを使って説明されていて、KNIMEの入門書にもなっています。


Julia

Juliaデータサイエンス Juliaを使って自分でゼロから作るデータサイエンス世界の探索」 Anshul Joshi 著 エヌ・ティー・エス 2017
Juliaは、Ruby、C、Lisp、Matlab、R、Python、Perlといった言語の、それぞれの良い所を持つように開発された言語。 PythonやCのライブラリを使うこともできる。
この本は、Juliaを使って、データの前処理、統計学、機械学習、グラフ作成といったデータサイエンスの技を実行するためのマニュアル。
Jupyter Notebookから使えるので、Pythonのユーザーには、簡単に使えそうです。 Cのようにコンパイルできることも特徴なので、Python以上の実行速度が欲しい時には良いかもしれません。


順路 次は よく言われる事との違い

Tweet データサイエンス教室