マシン(コンピュータ)はどのくらいのスペックが必要ですか?
データ分析を始めるにあたり、「サーバに使われるような、少し大型のパソコンが必要にちがいない」と考える方が、いらっしゃいます。 確かに、そういうパソコンが必要なこともありますが、 筆者の経験の範囲では、会社の業務で使うようなデータ分析のほとんどは、一般的な業務で使っているパソコンで十分です。
「普通のパソコンだと、大量のデータが処理できない」、という考え方もできますが、 そこは工夫のしどころです。
例えば、1億行のデータがあった時に、筆者の場合、そのデータをそのまま 回帰分析 したり、 ヒストグラム にしたりはしません。
サンプリング をして、1000行や10000行くらいのデータに絞り込んでから、そういった分析を始めます。
こうすると、まず、普通のパソコンではメモリが足らないような莫大なデータでも、扱えるようになります。 また、データ分析の時間は、劇的に短くなります。 実務の現場では、このスピードがとても重要になります。
サンプリングをすると、結果の正しさが心配になりますが、 たいていの場合、1000行のデータから出せる結果と、1億行のデータから出せる結果は、変わらないです。 気になるのなら、1000行をもう1セット用意して、結果の違いを確認する方法もあります。
また、1億行のデータには間違った結論を導くようなデータの偏りがあった時に、上手なサンプリングで、これを防止することもできます。
筆者の場合、データ分析は、いつもとは違う場所や、通信環境のない場所で必要になることがあります。 そういう時には、一般的なノートパソコンでできるようになっていないと、どうにもならないです。