トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

データの独り歩き

「データの独り歩き」は、定量化を重視し過ぎることの弊害です。 データの信憑性のチェックをしないために起きます。

データ解析の結果が議論される時には、もとになっているデータが正しいことが前提になっていることが、よくあります。 「何を、どうやって測ったのか?」、「 測定誤差 はどのくらいあるのか?」、「外乱が含まれていたりしないのか?」等を知らないまま、データ解析をすると、 最後の結果発表の場で、足元をすくわれたりします。

バイアス(かたより)

「たくさんのデータには、真実が隠されている」、と思いたくなりますが、 ほぼ例外なく、データにはバイアスがかかっています。

日本語のデータだけを調べて、「世界の人の好みがわかった」、と思う人はいないと思いますが、 「日本人の好みがわかった」と思う事についても、「待った」がかかります。 例えば、それがインターネット上で行ったアンケートのデータなら、 「そのアンケートに答えようと思った人」、「インターネットに日常的にアクセスする人」、といった人に限定された意見になっている事に注意が必要です。

すでにあるデータを分析するところから、そのデータに関わる場合、どのように サンプリング されたデータなのかは、気にするタイミングがあまりありません。

「データから明らかになった。」と言う時には、注意が必要です。

切り取り

政治家の発言について、前後の文脈を取って、一文だけを取り上げ、「問題発言だ!」と批判するようなことはよくあります。

データサイエンスでも、似たようなことが起きます。 例えば、 効果確認のデータ分析 にあるように、1点同士のデータの比較があります。



順路 次は 方法の独り歩き

Tweet データサイエンス教室