トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データリテラシー

データリテラシー（Data Literacy）というのは、データの読み書きのことです。データサイエンスでは、基礎的な技術になります。

多くのデータ解析手法は、表形式（行列形式）のデータを前提にしています。そのため、統計学等のソフトを使う以前に表計算のソフトを使うことが多々あります。表計算ソフトでデータをまとめたり、グラフを描いた段階で、重要なことがわかってしまい、解析が済むことも多々あります。

表形式のデータとは、リレーショナルデータベースでいうと、テーブルが一枚だけの状態です。扱うデータがリレーショナルデータベースの中に納まっていれば、リレーションさせることによって、表形式のデータを作ることができます。表形式のデータ解析とリレーショナルデータベースは、相性がいいです。

リレーショナルデータベース以外のいろいろな形態でもデータをつなぐことができると、解析できることがもっと増えます。

データをつなぐ、とは

リレーションのような作業を手作業で行う時は、「このデータと、このデータは、こういう風に結びついている」という解析者の意図が入ります。これは、つなぐ時に情報（経験・予測・メタ知識）をデータにしているとも言えます。

多変量解析やデータマイニングはもちろん素晴らしいのですが、つないだデータをグラフ化するだけで、新しい発見がある場合があります。

「１対多」の関係があるデータ

「つなぐ」の典型例です。
「１対多」の関係になっているデータの場合は２通りの方法があります。１つめは「多」の情報を失わせないために、「多　対　多」とみなす方法です。２つめは、「１対１」にする方法です。多数データを１つのデータに加工するには、平均値・トリム平均値・中央値・最大値・最小値、等を使います。これらの選択に、「解析者の意図」が入ります。解析者のセンスや力量が影響する部分です。