データリテラシー(Data Literacy)というのは、データの読み書きのことです。 データサイエンス では、基礎的な技術になります。
多くのデータ解析手法は、表形式(行列形式)のデータを前提にしています。 そのため、 統計学 等のソフトを使う以前に表計算のソフトを使うことが多々あります。 表計算ソフトでデータをまとめたり、グラフを描いた段階で、重要なことがわかってしまい、解析が済むことも多々あります。
表形式のデータとは、 リレーショナルデータベース でいうと、テーブルが一枚だけの状態です。 扱うデータがリレーショナルデータベースの中に納まっていれば、 リレーションさせることによって、表形式のデータを作ることができます。 表形式のデータ解析とリレーショナルデータベースは、相性がいいです。
リレーショナルデータベース以外のいろいろな形態でもデータをつなぐことができると、 解析できることがもっと増えます。
リレーションのような作業を手作業で行う時は、 「このデータと、このデータは、こういう風に結びついている」 という解析者の意図が入ります。 これは、つなぐ時に情報(経験・予測・ メタ知識 )をデータにしているとも言えます。
多変量解析 や データマイニング はもちろん素晴らしいのですが、 つないだデータをグラフ化するだけで、新しい発見がある場合があります。
「つなぐ」の典型例です。
「1 対 多」の関係になっているデータの場合は2通りの方法があります。
1つめは「多」の情報を失わせないために、「多 対 多」とみなす方法です。
2つめは、「1 対 1」にする方法です。
多数データを1つのデータに加工するには、
平均値・トリム平均値・中央値
・最大値・最小値、等を使います。
これらの選択に、「解析者の意図」が入ります。
解析者のセンスや力量が影響する部分です。
「前処理大全 データ分析のためのSQL/R/Python実践テクニック」 本橋智光 著 技術評論社 2018
データの変換、カテゴリ化、統計的な部分集計の方法がまとまっています。
SQL、R、Pythonの3つの言語を組み合わせて実施します。
機械的にできる処理の話です。
データの意味に踏み込んだ前処理については、特に見当たりませんでした。
順路 次は 異種データの紐付け