トップページ | Q&Aの一覧 | このサイトについて | ENGLISH

Kaggleはやっていますか?

「Kaggleはやっていますか?」という質問は、時々、いただきます。

なぜ、Kaggleをやっていないのですか?

「Kaggleはやっていますか?」については、「やったことはありません。」とお答えしています。

すると、ほぼ確実に、「なぜ、Kaggleをやっていないのですか?」と聞かれています。

Kaggleをやっていない理由

機械学習のモデルを作るようなデータ分析が必要になることは、滅多にないのが、Kaggleをやっていない理由のひとつです。

また、Kaggleが登場する前から、データサイエンスには慣れ親しんていたので、改めて、Kaggleを始めなくても良いように思っているのが、もうひとつの理由です。

データサイエンスとKaggleの関係

筆者に質問してくださる方は、
「データサイエンティスト = 機械学習のモデルを作る人」
という認識をされています。

そのため、
「優れたデータサイエンティスト = Kaggleで上位に入る人」
という認識になっていますし、人によっては、
「データサイエンティスト = Kaggler」
となっています。

しかし、「データサイエンス」という言葉を、そのまま解釈するのなら、「機械学習のモデルを作る」というのは、データサイエンス関係の仕事の一部でしかないと筆者は考えています。 (データサイエンスの仕事のページがあります。)

筆者自身、学生時代の研究から、社会人になるまで、様々な形でデータに関わっていますが、「機械学習のモデルが必要」ということは、滅多にないです。 「機械学習のモデルは、作ろうと思えば作れる」というようなデータを扱うこともありますが、やるべきことはモデル作りではないことが、ほとんどでした。

Kaggleが登場した時期

データサイエンス のページに、データサイエンスの歴史の話があります。 そこにもあるように、2000年以前に「データサイエンス」という分野はできています。

筆者が社会人になって、データ関係の仕事を始めたのは、2002年以降です。

「データサイエンティスト」という言葉が米国で出て来たのは、2008年頃です。 日本で「データサイエンティスト」という言葉が広まったのは、2011年頃です。

筆者が 環境と品質のためのデータサイエンス という、このサイトをリリースしたのは、2008年です。

Kaggleは、2010年に始まったようですが、筆者がデータサイエンス関係の文献で見かけるようになったのは、2016年頃です。 その後、数年で、「優れたデータサイエンティスト = Kaggleで上位に入る人」という認識が広まっています。

筆者の場合、Kaggleで実績を積んだから「データサイエンティスト」を名乗っているのではなく、 学生時代からデータサイエンスを研究し始めて、 環境と品質のためのデータサイエンス を立ち上げるくらいにはなったので、自分を一言で表現する呼び方として、「データサイエンティスト」を使っています。

ちなみに、「データアナリスト」にした時期もあったのですが、金融関係のアナリストと誤解されることが多かったので、やめました。

モデルの精度は、そんなに頑張らなくても良い

筆者の経験上、学習用データで高い精度を出し、テスト用のデータでも精度を確認していたとしても、実用段階になって、使い物にならないことが判明したり、「 追加学習や再学習 が必須」となってしまうのは、少なくないです。 そのため、「用意されたデータに対して、精度の高さを競う」という能力は、機械学習のモデルを作る能力として、あまり重要ではないです。

未知のデータに対して、ある程度以上の精度のモデルを作れるスキルや、「このデータでは、これ以上は無理」と判断できるスキルは、 実務向きと思います。 ただ、それ以上の精度の優劣を競うことは、そんなに頑張らくても良いように思っています。

また、Kaggleでは、データが用意されているところから話が始まりますが、筆者の場合、「データはない。欲しければ、自分で測定しないといけない。」や、 「どんなデータを見るべきなのか?」という状況がスタートになることが多いです。



データサイエンス教室