トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データの見分け・使い分け

一口に「データ」と言っても、いろいろあります。

まず、パッと見てわかる違いがあります。 量的と質的や、連続と離散などです。 さらには、データの性質の違いもあります。
data_science

量的データと質的データ

量的データは、「1,2,3」等の数値で表されるデータです。

質的データは、「A,B,C」等の文字で表されるデータです。 数値で表されていても、1番地、2番地などのように、数値の大きさに意味がない時は、質的データとして扱います。

量的データの、さらに深い見方

データサイエンス の使い方として、質的データと量的データの区別はしても、量的データは全部同じようにモデルにいれる場合があります。 例えば、データの意味を詳しく知らないデータセットに対して、重回帰分析を適用する場合です。 ただ、そのアプローチだと、うまく行かない時に、非線形の複雑なモデルを使うような方向性しかないです。

量的データの区別をすると、 数理モデリング によるアプローチを進める時の参考になります。

連続データと離散データ

連続データと離散データは、どちらも量的データです。

連続データは、温度などのように、原理的には、ほぼ無限に細かい値があるデータです。

離散データは、飛び飛びの数値しかないデータです。 整数値しかないようなデータが代表的です。

なお、 有効数字 が少ないと、連続データだとしても、見た目は離散的になります。 例えば、1刻みのデータを連続データと考えるか、離散データと考えるかは、場合によって使い分けます。

計量データと計数データ

計量データと計数データは、どちらも量的データです。

計量データは、連続データとほぼ同じ意味です。

計数データは、人数や頻度のように、0以上の整数しか存在しないデータです。 この場合は、離散データの一種です。

このような、計数データを計数データで割ると「比率」が計算できますが、比率は計数データです。 比率の数理は、計数データの数理を使います。 離散的か連続的かというデータの見た目だけだと、計数データかどうかの判断は難しいです。

大きさデータと位置データ

量的データの中でも、長さ、重さ、エネルギー、比率、などは大きさを表しています。

位置データというのは、座標のように日常的な意味での位置だけでなく、温度なども表します。

ちなみに、例えば、エネルギーと温度には関係式があるように、大きさデータと位置データは完全に別のものではないです。

スカラーとベクトル

スカラーとベクトルは、物理学でよく出て来るデータの見方です。

スカラーは、上記の大きさデータと同じものです。 ベクトルは、大きさと向きを持つもので、例えば、速度や力があります。

可加算データと非加算データ

「可加算データ」、「非加算データ」では筆者の造語です。 可加算データは、足し合わせる(加算)ができる(可)データなことで、非加算データは、加算できないデータのことです。

大きさデータの中で、長さや重さは、可加算です。 比率データは、可加算と非加算の両方があり、分子と分母の内容で変わります。

位置データは、非加算です。

可加算データは、 測度論 の中で、数学的な研究が進んでいます。

質的データの、さらに深い見方

質的データは、「出現回数を数える」といった集計が初歩的な扱い方です。 量的データ(離散データ)のようにして扱うことで応用が広がります。

順序データ

例えば、マラソンをすると、 1、2、3、4といった、順番のデータができますが、順番の間のタイムは、ばらばらです。 順序データには、このような特徴があります。

順序データは教科書では質的データとして分類されますが、 順番の間隔には意味のないことを考慮すれば、量的なデータとして扱うこともできます。

2値データ

2値データは、質的データの一種です。

「あり・なし」、「真・偽」、「OK、NG」、「良品、不良品」、「表、裏」などのように、2つの値しかないデータです。

2値データは、論理的に扱いやすいので、プログラミングでいろいろな処理をしやすいです。 また、それぞれを「0」と「1」に変換すると、数値として処理できるようになります。 数量化理論0-1データの時系列解析 など、様々な手法があります。

パターン認識 では、「−1」と「1」に変換して、「0より大きいかどうかで、どちらかを判定」という使い方をすることもあります。




お金のデータ

物理量のデータ

時空間のデータ

順路 次は 誤差

Tweet データサイエンス教室