「 デジタルトランスフォーメーション(DX) を始める!」、「 データの利活用 を始める!」という時に、「データ基盤を作ろう!」という動きになることを、よく聞きます。
「データ基盤」といっても色々あります。 このページでは、筆者の経験も踏まえ、まとめてみました。
「システムを作らないと、データ分析ができない」、「データベースにデータがそろっていないと、データ分析ができない」として、 これらを作るところから始めると、うまく行かないことが多いようです。
小さくても良いので、実績を積みながら、必要に応じて作りこみを進める方が良いです。
また、「データ分析のためのデータ基盤」ということで作るデータ基盤は、あまりうまく行かないことが多いようです。
一方で、本業を効率的・効果的に動かすためのシステムやデータベースは、作った方が良いです。 そのようなシステムやデータベースを作る時に、後からデータ分析をしやすいように作っておくと良いです。
データ基盤として、「ダッシュボード作りから始める」というのは、続かないことがあります。
作った当初は、役に立っていても、問題としていたことが重要ではなくなると、必要がなくなって来ます。
「システム・データベース」の話と似ていますが、「データ活用」や「データ見える化」ということで作ると、うまく行かないことが多いようです。
作った方が良いのは、それを使って業務を進めるようになっているものです。 自動車の運転席の表示機器は、なければ運転で困りますし、異常をすぐに知らせてくれる大事なものですが、そういう性格を持つものがベストなようです。
データ基盤として、「チーム」、「部門」、「会社」を作るところから始まっていることがありますが、 まず、組織作りから始めた場合、うまく行かないことがよくあります。
個人や兼務の形でスモールスタートをして、必要に応じてスケールアップすると、実状にあったものにしやすいです。
「実践的データ基盤への処方箋」 ゆずたそ・渡部徹太郎・伊藤徹郎 著 技術評論社 2021
ECサイトのビジネスを例にして、データ基盤の作り方を解説しています。
データの形や、システムの構成だけでなく、データ基盤を支える組織の作り方も含まれています。
データ基盤は、データレイク、データウェアハウス、データマートの3つで作る。
データレイクは、多様なデータをそのまま集めるところ。一か所にすることに意味がある。
データウェアハウスは、加工・結合したデータを置く場所。
データマートは、特定用途向けのデータを作っておく場所。
この本で主に解説されるのは、継続的な活用ができるデータ基盤の作り方です。
「はじめに」のところに、データ基盤に関係した話として、データ基盤が作られても継続的に活用されない問題が紹介されていて、
データ基盤側に原因がある場合は、この本の内容が対策になっています。
データ基盤の利用者側の原因については、特に書かれていませんでした。
ECサイトでは、「商品」と「人」を中心にしたデータ分析が重要なので、この本のようなデータ基盤が重要になって来るのは理解しました。
ただ、ビジネスのフローに入っていない要素や、「商品」や「人」のようなキーでまとめられないビジネスの場合は、
この本のようなデータ基盤には入ってこない(入れられない)ので、それはそれで考える必要があることも、改めてわかりました。
「データ分析基盤入門 データ活用を促進する!プラットフォーム&データ品質の考え方」 斎藤友樹 著 技術評論社 2022
データを管理するための具体的な技術が詳しくまとまっています。
「ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書」 渡部徹太郎 著 技術評論社 2019
外部からデータを収集して、分析をする時に必要な分散処理の話が多めな感じです。
機械学習も少しあります。
順路 次は データベース